Ausprobiert: AMD GCN - Vorstellung der Radeon HD 7970 und HD 7950
Es ist an der Zeit, endlich die AMD GCN (Graphics Core Next) Architektur und ihre beiden leistungsstärksten Vertreter, die Radeon HD 7970 und die Radeon HD 7950 vorzustellen.
Von der HD 7950 haben wir gleich zwei davon gewürdigt, hatten also die Möglichkeit CrossFireX zu testen und haben mit beiden Karten auch abgestimmte Messungen durchgeführt. Natürlich haben wir auch eine Reihe von Racern gegen die beiden neuen Kanonen geschickt, um zu sehen, wie stark sich die Karten im Vergleich zur vorherigen Generation von GeForces und Radeons beschleunigt haben.
Bevor wir auf die Teilnehmer und Tests eingehen, werfen wir einen genaueren Blick auf die GCN-Architektur und übernehmen die Features der HD 7970 und HD 7950.
Grafikkern Weiter
Im Mai 2007 stellte AMD die Grafikkarte Radeon HD 2900 XT vor, die bereits auf einer Unified-Shader-Architektur aufbaute. Wie sich herausstellte, wies das Design eine Reihe von Mängeln auf, aber die Probleme waren zur Zeit der Radeon HD 4000-Serie fast vollständig beseitigt, wodurch das Unternehmen auf dem Desktop-Grafikkartenmarkt Fuß fassen konnte. An dieser Stelle zeigte sich, dass jetzt radikale Veränderungen nötig waren. Als erster Schritt gilt die HD 6900 „Cayman“-Serie. Hier wurden die bisherigen 5-Wege-Superskalar-Prozessoren (VLIW5) durch 4-Wege-Prozessoren (VLIW4) ersetzt, und Cayman war der erste Chip, der mehrere unabhängige Befehlsströme verarbeiten konnte. Die andere große Innovation war die Einführung von zwei „Grafik-Engines“, die die Kapazität des Dreiecksaufbaus verdoppelten – die Tessellationsleistung erhöhen – und die Anzahl einiger Elemente (Rasterizer, Hierarchical Z, Tessellator). Er wurde heute zum Thema unseres nächsten Leveltests. Dank einer Architektur namens Graphics Core Next (GCN) sind bisher verwendete Shader-Arrays, die mit VLIW-Statements arbeiten, obsolet und durch sogenannte Compute Units (CUs) ersetzt. GCN war das erste Unternehmen der Radeon HD 7900 „Tahiti“-Familie.
Interessanterweise, aber nicht überraschend, haben Tahiti-GPUs dank der 28-nm-Bandbreiten-Fertigungstechnologie von TSMC – mit 365 Milliarden Transistoren pro 4,3 Quadratmillimeter – herausragende Transistordichten erreicht. Eine Recheneinheit enthält vier SIMDs und eine Skalareinheit. AMDs Flaggschiff Radeon HD 7970 „Tahiti XT“ arbeitet mit 32 aktiven CUs, bei insgesamt 2048 Shader-Prozessoren (vier 16-Way SIMDs, 64 ALUs). Angesichts des bisherigen Generationenverlaufs scheint dies auf den ersten Blick kein herausragender Wert zu sein, doch im Sinne einer besseren Effizienz und Nutzung möchten wir jetzt darauf hinweisen, dass es sich nicht lohnt, aus Versehen weitreichende Schlüsse zu ziehen dieser eine technische Indikator. Theoretisch kann eine CU so viel leisten wie eine einzelne Cayman SIMD-Einheit. Ein Hauptproblem bei früheren Generationen ist die Datenabhängigkeit (aufeinanderfolgende Befehle hängen von Daten ab), was zu starken Schwankungen der Auslastung geführt hat. Die GCN-Architektur ist auch in diesem Bereich ein Fortschritt, da sie zuvor erfahrene Abhängigkeiten durch Stream-Processing eliminiert. Die Vorteile sind nur in Schlagzeilen zu sehen: Auch die Planung, das Debugging, die Schätzung der erwarteten Leistung und die Treiberentwicklung sind radikal einfacher und transparenter geworden.
Eine CU enthält nicht nur vier SIMD-Einheiten, sondern auch einen eigenen Scheduler, 340 KB Cache und einen Texturierungs-Cluster. Dies ist die Summe aus dem 4 × 64-KB-Vektorregister, dem 64-KB-Lokaldaten-Share, dem 4-KB-Skalarregister und dem 16-KB-Kapazitäts-Cache der ersten Ebene. Das obige Bild zeigt eine weitere unbedingt erwähnenswerte Komponente, und zwar die sogenannte „Branch & Message Unit“, die für eine effizientere Programmsteuerung eine Rolle spielt.
Lassen Sie uns nach den bisherigen Informationen noch einmal die wichtigsten Parameter des Grafikprozessors „Tahiti XT“ überprüfen: 32 CU (2048 Shader-Prozessor, 128 SIMD), 128 Texturierungseinheiten, 512 Load-Store-Einheiten und insgesamt 8,2 MB Cache. Die Position des Mädchens war also gleich eine andere, obwohl wir gerade erst anfingen, uns "auszuziehen".
Front-End
Beim Frontend können wir deutliche Unterschiede zur Architektur von NVIDIA GF110 feststellen. Die Verwaltung erfolgt grundsätzlich nicht auf CU-Ebene. Diese Aufgabe wird vom Command Processor und der Asynchronous Compute Engine (ACE) ausgeführt. Der Chip erhielt zwei geometrische Motoren, die neben dem Geometry-Assembler, dem Vertex-Assembler, auch Tessellator-Einheiten der neunten Generation aufnehmen. Die Kommunikation mit den CUs wird durch Global Data Share (GDS) erleichtert, über das diese Einheiten auch untereinander Daten austauschen können. Der Frontend-Bereich enthält zwei Rasterizer - das Layout sehen Sie unten.
ROPs und Speicherschnittstelle
AMD Tahiti enthält 8 ROP-Cluster - an dieser Stelle haben wir eine Übereinstimmung mit dem Cayman-Chip gefunden. Jedes dieser „Arrays“ enthält vier ROP-Einheiten und 16 Z-Sampler. Es ist wichtig zu erwähnen, dass jedem Cluster ein eigener Cache zugewiesen wurde. Eine weitere große Änderung hat stattgefunden: Es gibt keine direkte Verbindung mehr zum Speichercontroller. Der Umzug soll die Flexibilität und Benutzerfreundlichkeit verbessern, was wir im Kontext von Pitcairn sehen können… ROPs können in den 768 KB L2-Cache schreiben, der wiederum von mehreren Einheiten gelesen werden kann. Mit der Speicherschnittstelle erhalten Sie ein fröhliches Bild. Die sechs 64-Bit-Speichercontroller haben eine Gesamtkapazität von 384 Bit. Dem möchten wir nur ein Wort hinzufügen. Schließlich! Die Standardgröße des Videospeichers beträgt 3072 MB, theoretisch sind aber auch 1536 MB und 6 GB möglich.
Wir hoffen, dass unsere Leser es nicht übel nehmen, möchten aber an dieser Stelle unsere persönliche Meinung zum Backend-Bereich äußern. Die Beziehung zwischen Barts, der wirklich gut abgeschnitten hat, und dem Cayman-Chip, der bescheidene Ergebnisse gezeigt hat, deutet darauf hin, dass das „allgemeine Problem“ bei AMD-Chips die knappe ROP-Kapazität ist. Auch auf Tahiti hat man hier keine Fortschritte gemacht, während man mit etwas Übertreibung noch Seiten über andere Neuheiten des Chips schreiben könnte. Die Rolle der ROPs ist während der Spiele besonders ausgeprägt, während der GPGPU-Aufgaben und -Anwendungen werden sie zu zweiten Geigern. Sicher ist auch, dass dieser Abschnitt sehr viele Transistoren verbraucht, was sich natürlich auch in der Größe des Chips widerspiegelt.
Die bisherigen Verbesserungen von AMD haben weitgehend den Bedürfnissen der Spieler entsprochen. Jetzt hat es eine Drehung von mindestens 90 Grad gegeben und es ist zu einem starken Scheideweg geworden, um professionelle Anforderungen zu erfüllen und die GPU breiter einzusetzen. Das ist natürlich kein Problem, da wir hier im Grunde von einem sehr groben Leistungsniveau sprechen, das den Erprobungen moderner Spiele sicherlich noch einige Jahre standhalten wird. Gerüchten zufolge behandelt nicht nur AMD, sondern auch NVIDIA ROPs eng mit Kepler.
Die Erweiterung des Speicherbusses war ein lobenswerter Schritt. Tatsächlich hatten die Designer kaum eine Wahl. Takte lassen sich nicht mehr signifikant erhöhen, aber der Chip hungert nach Daten. Nur dieser Schritt hätte unserer Meinung nach die Performance im Spiel um bis zu 15 Prozent steigern können.
DirectX 11.1 und PCI-Express 3.0
Der PCI-Express 3.0-Standard erhöht die Geschwindigkeit von 16 GB / Sekunde auf 32 GB / Sekunde und verdoppelt damit die Datenübertragungsrate von PCIe 2.0. Mainboard-Hersteller haben sich sofort „auf das Thema gebissen“, aber egal wie sehr sie es wollen, der Switch bietet derzeit keinen nennenswerten Vorteil. PCIe 3.0 ist aus Marketingsicht eine wichtige Waffe, ein verbindlicher Standard für AMD und NVIDIA und eine weitere „Geldfalle“ für Nutzer.
DirectX 11.1 kann seine Eroberung mit dem folgenden Windows-Betriebssystem beginnen, das kleinere Korrekturen und Optimierungen enthält. Laut offiziellem Material können wir von der neuen API native Stereo-3D-Unterstützung und eine effizientere Rasterung erwarten. Leider wurde der vielleicht interessanteste Punkt, der diskutiert, wie die Flexibilität und die weit verbreitete Nutzbarkeit von Grafikhardware verbessert werden können, nicht detailliert beschrieben.
Die Graphics-Core-Next-Architektur sieht im Großen und Ganzen so aus. Natürlich bedient der Chip nicht nur die Bedürfnisse der Spieler, sondern bietet auch Platz für professionelle Aufgaben. Die theoretische rechnerische Spitzenleistung von Tahiti (für Berechnungen mit doppelter Genauigkeit) beträgt 947 GFLOP, viermal höher für Gleitkommaoperationen mit einfacher Genauigkeit. Zudem verfügen die Speicher über ECC-Unterstützung und die GPU ist mit den DirectCompute 11.1, OpenCL 1.2 C++ AMP APIs bestens vertraut. Neue Funktionen: Zero-Core
Generell sind die Top-Raubtiere auf Radeon HD 7900-Niveau es gewohnt, Konsum als Tabuthema zu konsumieren, aber AMD-Ingenieuren fehlt der Einfallsreichtum. Die Idee ist einfach, aber großartig, aber nicht neu. Wenn Sie Ihren Computer für längere Zeit verlassen, ihn aber aus irgendeinem Grund nicht ausschalten möchten, möchten Sie den Monitor möglicherweise nur im Standby-Modus belassen. Dank ZeroCore Power Technologie kann bei ausgeschaltetem Display der gesamte Grafikcontroller stromlos geschaltet werden und es ist in dieser Form keine aktive Kühlung erforderlich. Die Vorteile überzeugen: null Lärm, 3 Watt Stromverbrauch. Es wird für viele ein unbedeutender Faktor sein, aber das Verfahren für Vier-Wege-Crossfire-Systeme schaltet nicht primäre Grafikkarten aus, was Ihre Stromrechnung erheblich reduziert - obwohl jeder, der an eine solche Baugruppe denkt, mit Energieeffizienz wenig zu tun hat.
Augenfinity 2.0
Eine der interessanten Funktionen der neuen Version ist, dass Sie Konferenzgespräche mit mehreren Monitoren mit Multiband-Audio führen können. Der offizielle Name des Verfahrens lautet Discrete Digital Multi-Point (DDM) Audio. Die Radeon HD 7970 kann an drei Displays gleichzeitig angeschlossen werden, die einen achtkanaligen Audiostream empfangen können. Dies mag nicht speziell für Heimanwender von Interesse sein, aber es ist ein gutes Beispiel dafür, in wie vielen Bereichen die neue Kanone eingesetzt werden kann. Auch das Catalyst-Laufwerk entwickelt sich weiter, was es beispielsweise einfacher macht, das Fach zu positionieren und benutzerdefinierte Auflösungen zusammenzustellen. Erwähnenswert ist, dass Full-HD-Stereo-3D-Inhalte auch im Eyefinity-Modus betrachtet werden können.
UVD und VCE
UVD 3.0 bietet bereits Hardwarebeschleunigung für DivX / Xvid, MPEG-4 Part 2 MVC-Inhalte und die Video Code Engine (VCE) ist praktisch das AMD-Äquivalent zu Intel Quick Sync Video. VCE ist eine eigenständige Hardware und wurde nur entwickelt, um die Transcodierung von H.264-Videos zu beschleunigen. Die Engine ist zwar langsamer als die Shader-Prozessoren im Grafikprozessor, aber deutlich energieeffizienter. Den Benutzern stehen zwei Modi zur Verfügung. Zunächst funktioniert nur die VCE, die an sich schneller ist als die meisten CPUs. In diesem Fall werden wir keine Verlangsamung erleben, wir können die Grafikkarte oder die Zentraleinheit problemlos laden. Die zweite Option ist der Hybridmodus. Die Recheneinheiten von VCE und GPU springen gemeinsam an die Aufgabe. Diese „Ehe“ hat natürlich einen guten Einfluss auf die Encoding-Geschwindigkeit, aber wundern Sie sich in diesem Fall nicht, wenn Ihr Lieblingsspiel in den „Diashow“-Modus wechselt.
Nachdem wir nun die Theorie und die Zahlen kennen, lernen wir die drei GCN-Modelle im Test kennen!