Seite auswählen

Wir haben den Bulldozer getestet: FX-8150 und drei 990FX Mainboards auf dem Prüfstand

Wir haben den Bulldozer getestet: FX-8150 und drei 990FX Mainboards auf dem Prüfstand

Technológia

Die Chips werden auf dem 32nm SHP-Knoten von GlobalFoundries hergestellt. Bei Bulldozern wurde die zuvor eingeführte SOI mit Intels HKMG (High-K Metal Gate) kombiniert, die bei der Bekämpfung von Leckströmen helfen kann. Die Architektur ist gut auf hohe Taktraten ausgelegt („Speedracer“), wodurch die Modellpalette wohl komplett auf Produkte unterhalb von 3 GHz verzichten wird. Alle Zentraleinheiten in der alten Sprache sind Black Edition, daher ist sie jetzt nicht speziell gekennzeichnet.

Machen wir an dieser Stelle einen kleinen Umweg und schauen uns auch die andere Seite der Medaille an. Der schnellste Quad-Core Phenom II Prozessor tickt mit 3,7 GHz und der 1100-Core Thuban Chip-basierte 3,3T tickt mit 32 GHz. Im Vergleich dazu ist der Baseshot des 8150nm AMD FX-4,2 fast enttäuschend niedrig und nur das 10 GHz „Level“ des Turbo Cores ist akzeptabel, was sofort 15-3,5% Leistungsüberschuss verspricht (nein). XbitLabs lüftete vor einem Jahr, dass der Bulldozer den XNUMX-GHz-Takt überschritt, der zusammenkam, jedoch trotz einer Reihe von Ausrutschern. Es scheint richtig anzunehmen, dass es bei der Produktion und Ausgabe der neuen Kanone noch gravierende Probleme gibt, die sich erheblich auf die Leistung auswirken.

amd_bulldozer_sechsgang
Die zweite ganze Zahl erhöht die Größe des Moduls nur um 12 Prozent. [+]

Basierend auf langjähriger Erfahrung wurde sogar ein Grundkonzept geboren, das auf folgendem beruhte: Zentrale Einheiten führen Festpunktoperationen mit durchschnittlich über 80 Prozent aus. Daraus ist ersichtlich, dass Gleitkommaberechnungen im Leben von „Tausendfüßern“ viel weniger präsent sind. Im Design sind folglich zwei Integer-Kerne verbunden, die über einen eigenen First-Level-Cache verfügen, sich aber bereits den Second-Level-Cache und die Gleitkommaeinheit teilen müssen. AMD hat das Gerät als Modul bezeichnet.

amd_bulldozer_one_module
Ein Modul [+]

Laut internen Messungen vergrößert die zweite ganze Zahl das Modul grundsätzlich nur unwesentlich, kann dagegen idealerweise eine Leistungssteigerung von bis zu 80 % bewirken. Der für Daten zuständige Teil des primären Caches ist direkt mit den Prozessoren verbunden (Größe 16 Kbyte, seine Verzögerung beträgt 4 Takte), aber der 64 Kbyte Cache, der zum Speichern von Befehlen ausgelegt ist, wird bereits von den Integralen geteilt.

1_module_was_welche
Tiefer graben [+]

Den Testergebnissen zufolge ist der L1-Datencache nicht nur zu klein, sondern sogar langsam und somit keine sehr gute Kombination. Die Größe des innerhalb des Moduls geteilten Second-Level-Speichers ist zufriedenstellend, aber seine Latenzzeit ist hoch, 25-27 Zyklen. Es ist leicht vorstellbar, dass ein größerer L1-Cache und ein schnellerer L2 (12-15 Zyklen) die Prozessorleistung um 10-20% verbessern würden.

Es überrascht nicht, dass das Erreichen der 8 MB L3 auch nicht mit Lichtgeschwindigkeit (65 Zyklen) erreicht wird. Zusammenfassend lässt sich sagen, dass das Bulldozer-Cache-System nicht das achte Weltwunder sein wird.

Anleitung
Im Lehrsatzlabyrinth [+]

Bulldozer bietet derzeit die umfangreichste Befehlsunterstützung: MMX, SSE, SSE2, SSE3, SSE4A, SSSE3, SSE4.1, SSE4.2, AVX, AES, FMA4, XOP, PCLMULQDQ und natürlich die 64-Bit-Erweiterung. Von den beiden Innovationen (FMA4, XOP) hat FMA4 eine große Bedeutung im HPC-Markt und XOP bietet einen leichten Vorteil gegenüber Multimedia-Anwendungen. Soweit uns bekannt ist, unterstützt die neueste Version von x264 bereits die neuen Befehlssätze. Veraltete 3DNow! Der Support wurde eingestellt, ich denke, es bereitet vielen Lesern keine schlaflosen Nächte.

Es ist bekannt, dass Sie Ihren Intel VT verwenden, um auf virtuellen x86-Speicher zuzugreifen. IOMMU steigert die Leistung der Systemvirtualisierung deutlich, allerdings unterstützen Intels High-End-Lösungen (Core i5-2600K, i7-2600K) diese Technologie überraschenderweise nicht und dieser „schwarze Kreis“ umfasst aktuelle Sandy Bridge E-Lösungen. Auch hier ein zusätzlicher Service im Vergleich zur direkten Konkurrenz, dessen Nutzen für den Durchschnittsnutzer jedoch fraglich ist.

40
Turbo-Core in der Theorie [+]

Auch der Turbo Core wurde weiterentwickelt, arbeitet mit mehreren Clock-Gates und ist noch besser an unterschiedliche Auslastungsgrade angepasst. Wenn alle Kerne aktiv sind, aber Gleitkommaeinheiten derzeit nicht verwendet werden, wird der Turbo Core 2.0-Takt wirksam. Das Verfahren ändert dynamisch die Taktsignale der Kerne in Abhängigkeit von der Last, inaktive Ressourcen, Module und Komponenten innerhalb des Moduls können abgeschaltet werden, so dass man in diesem Bereich eine Reklamation vor dem Haus nicht verstehen würde. Leider wirft einen die Software-Seite der Sache gründlich in die Suppe.

in der Praxis
Praktische Umsetzung [+]

Der Windows 7 Scheduler ist, gelinde gesagt, nicht der effizienteste Weg, um Aufgaben zuzuweisen, da er häufig die Aufgabenverteilung zwischen den Kernen abwechselt. Die nächste Version des Betriebssystems wird das Problem beheben und für dieses System wird demnächst ein Fix erstellt, sodass wir - im Extremfall können es 15-25 Prozent sein - wir bald 2-10% mehr Leistung bekommen. Ein weiterer sehr schöner Vorteil ist, dass der Idle-Verbrauch um 4-5 Watt reduziert werden kann, da die Module länger „on the fly“ bleiben können.

Bulldozerwin8_and_bf3
„Schau nicht auf deine Zähne, um Leistung zu schenken“ [+]

Bulldozerbf3betafx

Die „Transformation“ während Battlefield 3 [+]

Battlefield 3 zeigt auch gut, wie sehr eine Optimierung einem Prozessor hilft. In diesem Spiel kann der derzeit leistungsstärkste Prozessor der FX-Serie die Leistung des Core i7-2600k erreichen.

Die Prozessoren der FX-Serie werden mit einem Sockel AM3 + -Gehäuse geliefert und sind in AMDs Chipsatz-Mainboards der 9er-Serie untergebracht. Die Orientierung wird auch durch die meist schwarze Farbe des Sockels erleichtert. Um die unendlich klingende Scorpius-Plattform zu implementieren, benötigen wir einen Prozessor der FX-Serie, ein Motherboard mit einem Chipsatz der 9-Serie und eine Grafikkarte der Radeon HD 6000-Serie. Der Bulldozer verfügt über einen Dual-Channel-DDR1866-Speichercontroller, der 3-MHz-Module unterstützt.

phenomu_folulk

AMD FX-8150 mit Phenom II X4 970 BE - von oben [+]

Abschließend möchten wir noch eine interessante Ergänzung hinzufügen. Zu ernsthaften Kontroversen hat die Tatsache geführt, dass die pro Stunde (Anweisungen pro Zyklus) von Bulldozer-basierten Prozessoren geleistete Arbeit im Vergleich zum Vorgänger im Durchschnitt etwas abgenommen hat. Manche stellen sich sofort den Untergang der Architektur vor, andere listen ähnliche Beispiele aus der Vergangenheit auf. Beschränken wir uns in dieser Hinsicht wie immer auf die Tatsachen. Programmierer erkennen heute zunehmend die Vorteile der Multi-Core-Optimierung. Bei einem 8-Zylinder-Motor, der grundsätzlich gute Leistung liefert, denken wir selten darüber nach, was er mit 1-Zylinder anstellen kann.

phänomenulk

AMD FX-8150 mit Phenom II X4 970 BE - unten [+]

Das Beispiel ist nicht das beste, aber es kann Licht ins Dunkel bringen. Wir sagen nicht, dass wir acht Integer-Kerne optimal auslasten werden, aber Turbo Core 2.0 strebt in diesem Fall den höchstmöglichen Takt (4,2 GHz) an. Was es beim K10.5 nur zum Preis von „blutigem Schweiß“ gibt, gilt hier als „Basistakt“. Es besteht auch kein Zweifel, dass die Implementierung von AVX, FMA und XOP eine beträchtliche Menge an Transistoren gekostet hat. Die Grundlagen der Architektur werden in mehreren Segmenten (Server, Desktop-PC) verwendet, daher schien dies ein obligatorischer Schritt zu sein, aber heute sehen wir noch weniger von seinen Vorteilen (insbesondere in einer Desktop-Umgebung).

Steckdose_2k

Im Bett liegen [+]

Im Idealfall (FMA4 + AVX) fühlt sich der Bulldozer wirklich sehr elementar an, liefert überraschende Leistung und rückt die Dinge gleich in ein anderes Licht. Laut Messungen des deutschen HT4U schafft der AMD FX-1.1 während der Rendering-Anwendung C-Ray 8150 die gleichen 15 Sekunden wie der Intel Core i7 990X. Das ist genau die Hälfte der Zeit, die ein AMD Phenom II X6 1100T Prozessor für diese Aufgabe benötigte. Wir möchten in Klammern anmerken, dass wir auch das andere Extrem, Super PI, gewichtet haben.

Über den Autor