Selecteer pagina

Uitgeprobeerd: AMD GCN - Introductie van de Radeon HD 7970 en HD 7950

Het is tijd voor ons om eindelijk de AMD GCN (Graphics Core Next) architectuur en zijn twee krachtigste vertegenwoordigers, de Radeon HD 7970 en de Radeon HD 7950, te introduceren.

Logo's van GCN-artikelen

Van de HD 7950 hebben we er meteen twee eer aangedaan, dus ook CrossFireX mogen testen en met beide kaarten hebben we afgestemde metingen gedaan. Natuurlijk stuurden we ook een aantal racers tegen de twee nieuwe kanonnen om te zien hoeveel de kaarten waren versneld in vergelijking met de vorige generatie GeForces en Radeons. 


Voordat we ingaan op de deelnemers en de tests, zullen we de GCN-architectuur nader bekijken en de functies van de HD 7970 en HD 7950 overnemen.

 

 Grafische kern Volgende

In mei 2007 introduceerde AMD de Radeon HD 2900 XT grafische kaart, die al was gebouwd op een uniforme shader-architectuur. Het bleek dat het ontwerp een aantal gebreken had, maar de problemen waren bijna volledig geëlimineerd tegen de tijd van de Radeon HD 4000-serie, waardoor het bedrijf voet aan de grond kreeg op de markt voor desktop grafische kaarten. Op dit punt kon worden gezien dat er nu radicale veranderingen nodig waren. De HD 6900 "Cayman"-serie wordt als de eerste stap beschouwd. Hier zijn de vorige 5-weg superscalaire processors (VLIW5) vervangen door 4-weg processors (VLIW4), en Cayman was de eerste chip die meerdere onafhankelijke instructiestromen afhandelde. De andere grote innovatie was de introductie van de twee "grafische motoren", die de opstellingscapaciteit van de driehoek verdubbelden - het vergroten van de mozaïekkracht - en het aantal elementen (Rasterizer, Hierarchical Z, Tessellator). Hij werd vandaag het onderwerp van onze next level test. Dankzij een architectuur genaamd Graphics Core Next (GCN) zijn de tot nu toe gebruikte shader-arrays die werken met VLIW-instructies verouderd en vervangen door zogenaamde Compute Units (CU's). GCN maakte zijn debuut in de Radeon HD 7900 "Tahiti"-familie.

Interessant, maar niet verrassend, hebben Tahiti GPU's uitstekende transistordichtheden bereikt dankzij TSMC's 28nm bandbreedteproductietechnologie - ze bevatten 365 miljard transistors per 4,3 vierkante millimeter. Eén rekeneenheid bevat vier SIMD's en één scalaire eenheid. AMD's vlaggenschip Radeon HD 7970 "Tahiti XT" werkt met 32 ​​actieve CU's, uitgaande van een totaal van 2048 shader-processors (vier 16-weg SIMD's, 64 ALU's). Gezien de vooruitgang van generaties tot nu toe lijkt dit op het eerste gezicht geen uitzonderlijke waarde, maar omwille van een betere efficiëntie en benutting willen we erop wijzen dat het niet de moeite waard is om hier per ongeluk verregaande conclusies uit te trekken. één technische indicator. Theoretisch kan een CU evenveel presteren als een enkele Cayman SIMD-eenheid. Een groot probleem bij eerdere generaties is dataafhankelijkheid (opeenvolgende instructies zijn van elkaar afhankelijk van data), waardoor het gebruik sterk fluctueert. De GCN-architectuur is ook een stap voorwaarts op dit gebied omdat het eerder ervaren afhankelijkheden elimineert door middel van streamverwerking. De voordelen zitten alleen in trefwoorden: planning, foutopsporing, schatting van verwachte prestaties en ontwikkeling van stuurprogramma's zijn ook radicaal eenvoudiger en transparanter geworden. 

Een CU bevat niet alleen vier SIMD-eenheden, maar heeft ook een eigen planner, 340 KB bufferopslag en een textureringscluster. Dit is de som van het vectorregister van 4 × 64 KB, het Local Data Share van 64 KB, het scalaire register van 4 KB en de cache van het eerste niveau met een capaciteit van 16 KB. Bovenstaande afbeelding toont nog een ander onderdeel dat zeker het vermelden waard is, en dat is de zogenaamde “Branch & Message Unit”, die een rol speelt bij een efficiëntere programmabesturing.
Laten we, met de informatie tot nu toe, de belangrijkste parameters van de grafische processor "Tahiti XT" opnieuw bekijken: 32 CU (2048 shader-processors, 128 SIMD's), 128 texture-eenheden, 512 Load-Store-eenheden en in totaal 8,2 MB cache. Dus de houding van het meisje was meteen anders, ook al begonnen we ons net te "uitkleden".

Front-end

Qua frontend zien we significante verschillen met de architectuur van NVIDIA GF110. Management gebeurt in principe niet op het niveau van CU's. Deze taak wordt uitgevoerd door de Command Processor en de Asynchronous Compute Engine (ACE). De chip heeft twee geometrische motoren gekregen die naast de Geometry-Assembler, de Vertex-Assembler, ook plaats bieden aan negende generatie tessellator units. De communicatie met CU's wordt mogelijk gemaakt door Global Data Share (GDS), waardoor deze units ook gegevens met elkaar kunnen delen. De frontend-sectie bevat twee rasterizers - u kunt de lay-out hieronder zien.

ROP's en geheugeninterface
AMD Tahiti bevat 8 ROP-clusters - op dit punt hebben we een match gevonden met de Cayman-chip. Elke dergelijke "array" bevat vier ROP-eenheden en 16 Z-samplers. Het is belangrijk om te vermelden dat elk cluster zijn eigen cache heeft gekregen. Er heeft weer een grote verandering plaatsgevonden: er is geen directe verbinding meer met de geheugencontroller. De verhuizing is bedoeld om de flexibiliteit en bruikbaarheid te verbeteren, wat we kunnen zien in de context van Pitcairn... ROP's kunnen schrijven naar de 768 KB L2-cache, die op zijn beurt door meerdere eenheden kan worden gelezen. De geheugeninterface krijgt een vrolijk beeld. De zes 64-bits geheugencontrollers hebben een totale capaciteit van 384 bits. We zouden hier gewoon een woord aan toevoegen. Tenslotte! De standaardgrootte van videogeheugen is 3072 MB, maar in theorie zijn 1536 MB en 6 GB ook mogelijk.

We hopen dat onze lezers het niet in een slechte naam opvatten, maar op dit punt willen we onze persoonlijke mening geven over het backend-gebied. De relatie tussen Barts, die erg goed heeft gepresteerd, en de Cayman-chip, die relatief bescheiden resultaten laat zien, suggereert dat het "algemene probleem" met AMD-chips de krappe ROP-capaciteit is. Ook hier is op Tahiti geen vooruitgang geboekt, terwijl pagina's met enige overdrijving zouden kunnen worden geschreven over andere nieuwigheden in de chip. De rol van de ROP's is vooral prominent tijdens de games, tijdens de GPGPU-taken en toepassingen worden ze tweede violist. Het is ook zeker dat dit gedeelte een groot aantal transistoren verbruikt, wat natuurlijk ook tot uiting komt in de grootte van de chip.

 

De verbeteringen van AMD hebben tot nu toe grotendeels aan de behoeften van gamers voldaan. Nu is er een draai van minstens 90 graden geweest en het is zeer gericht geworden om aan professionele behoeften te voldoen, om de GPU op grotere schaal te gebruiken. Dit is natuurlijk geen probleem, omdat we het in feite hebben over een zeer ruw prestatieniveau, dat zeker enkele jaren de beproevingen van moderne games zal doorstaan. Volgens geruchten behandelt niet alleen AMD, maar ook NVIDIA ROP's eng met Kepler.

Het uitbreiden van de geheugenbus was een lovenswaardige stap. Eigenlijk hadden de ontwerpers weinig keus. Klokken kunnen niet meer significant worden verhoogd, maar de chip snakt naar data. Naar onze mening had deze zet alleen al de prestaties tijdens games tot 15 procent kunnen verbeteren.

DirectX 11.1 en PCI Express 3.0
De PCI-Express 3.0-standaard verhoogt de snelheid van 16 GB / seconde naar 32 GB / seconde, een verdubbeling van de gegevensoverdrachtsnelheid van PCIe 2.0. Moederbordfabrikanten zijn meteen "gebeten op het onderwerp", maar hoe graag ze ook willen, de overstap biedt op dit moment geen noemenswaardig voordeel. PCIe 3.0 is een belangrijk wapen vanuit marketingperspectief, een verplichte standaard voor AMD en NVIDIA en een andere "geldval" voor gebruikers.
DirectX 11.1 kan zijn verovering beginnen met het volgende Windows-besturingssysteem, dat kleine reparaties en optimalisaties bevat. Volgens officieel materiaal kunnen we native stereo 3D-ondersteuning en efficiëntere rastering van de nieuwe API verwachten. Helaas is misschien het meest interessante punt, dat bespreekt hoe de flexibiliteit en de wijdverbreide bruikbaarheid van grafische hardware kan worden verbeterd, niet gedetailleerd.

De Graphics-Core-Next-architectuur ziet er in grote lijnen als volgt uit. Natuurlijk dient de chip niet alleen de behoeften van spelers, maar biedt hij ook ruimte voor professionele taken. De theoretische piekprestaties van Tahiti (voor berekeningen met dubbele precisie) zijn 947 GFLOP, vier keer hoger voor drijvende-kommabewerkingen met enkele precisie. Daarnaast hebben de geheugens ECC-ondersteuning en is de GPU goed bekend met de DirectCompute 11.1, OpenCL 1.2 C++ AMP API's. Nieuwe functies: Zero-Core
Over het algemeen zijn de beste roofdieren van Radeon HD 7900-niveau gewend om te consumeren als een taboe-onderwerp, maar AMD-ingenieurs missen de vindingrijkheid. Het idee is eenvoudig maar geweldig, maar niet nieuw. Als u uw computer voor een lange tijd verlaat, maar om de een of andere reden deze niet wilt uitschakelen, kunt u de monitor alleen in de stand-bymodus laten staan. Dankzij de ZeroCore Power-technologie kan, met het display uitgeschakeld, de gehele grafische controller spanningsloos worden gemaakt en is in deze vorm geen actieve koeling vereist. De voordelen zijn overtuigend: geen geluid, 3 watt stroomverbruik. Het zal voor velen een onbeduidende factor zijn, maar de procedure voor vierweg Crossfire-systemen sluit niet-primaire videokaarten af, waardoor uw elektriciteitsrekening aanzienlijk wordt verlaagd - hoewel iedereen die aan zo'n assemblage denkt, weinig doet aan energie-efficiëntie.

Eyefinity 2.0
Een van de interessante kenmerken van de nieuwe versie is dat u conferentiegesprekken op meerdere monitoren kunt voeren met multiband-audio. De officiële naam van de procedure is Discrete Digital Multi-Point (DDM) Audio. De Radeon HD 7970 kan worden aangesloten op drie schermen tegelijk, die een achtkanaals audiostream kunnen ontvangen. Dit is misschien niet specifiek interessant voor thuisgebruikers, maar het is een goed voorbeeld van in hoeveel gebieden het nieuwe kanon kan worden gebruikt. De Catalyst-schijf evolueert ook, waardoor het bijvoorbeeld gemakkelijker wordt om de lade te positioneren en om aangepaste resoluties te compileren. Vermeldenswaard is dat Full HD stereo 3D-content ook in Eyefinity-modus kan worden bekeken. 

UVD en VCE
UVD 3.0 biedt al hardwareversnelling voor DivX / Xvid, MPEG-4 Part 2 MVC-inhoud, en de Video Code Engine (VCE) is vrijwel het AMD-equivalent van Intel Quick Sync Video. VCE is stand-alone hardware en is alleen ontworpen om de transcodering van H.264-video's te versnellen. De engine is langzamer dan de shader-processors in de grafische processor, maar veel energiezuiniger. Er zijn twee modi beschikbaar voor gebruikers. In eerste instantie werkt alleen de VCE, die op zichzelf sneller is dan de meeste CPU's. In dit geval zullen we geen vertraging ervaren, we kunnen zonder problemen de videokaart of de centrale eenheid laden. De tweede optie is de hybride modus. De rekenkundig-logische eenheden van de VCE en de GPU springen samen naar de taak. Dit "huwelijk" heeft uiteraard een goed effect op de coderingssnelheid, maar wees in dat geval niet verbaasd als je favoriete game overschakelt naar de modus "slideshow".

Nu we de theorie en de cijfers kennen, laten we kennismaken met de drie GCN-modellen in de test!

Over de auteur

Verlaat de mobiele versie