www.Au-Ja.de - http://www.au-ja.de/review-core2qx9650-print.phtml
Intel Core 2 Extreme QX9650: Der 45 nm Yorkfield im Praxistest - 1/19
29.10.2007 by doelf
Zur HTML-Ansicht
Am 12. November wird Intel die ersten Prozessoren vorstellen, welche auf der 45 nm Hi-k Metal Gate Silizium Technologie basieren. Zu diesen Prozessoren, welche Intel unter dem Namen "Penryn" zusammenfasst, gehört das Modell Core 2 Extreme QX9650, welches zeitgleich mit der Vorstellung in den Handel kommen soll. Wir werden diesen Prozessor heute vorstellen und uns detailliert mit seiner Architektur beschäftigen.
Ein kurzer Hinweis zu den aktuellen Codenamen: Die neue Prozessorenfamilie bezeichnet Intel als "Penryn", dies bezieht sich sowohl auf die Server- und Workstation-Prozessoren als auch auf die Desktop- und Mobil-CPUs. Die Quad-Core Prozessoren im Desktop-Segment, also beispielsweise unser Core 2 Extreme QX9650, tragen zudem den Codenamen "Yorkfield", ihr Quad-Core Pendant für Server und Workstations wird als "Harpertown" bezeichnet. Dual-Core Prozessoren auf Basis der 45 nm Fertigungstechnik werden erst später folgen, im Desktop-Sektor werden diese den Codenamen "Wolfdale" tragen.
Rückblick: 15 Monate Core-Mikroarchitektur
Die letzten 15 Monate hat Intel den Markt für Mikroprozessoren klar dominiert - und nicht nur in Hinblick auf die Absatzzahlen. Wie ist es dazu gekommen? Seit der Einführung der ersten Athlon Prozessoren waren AMD und Intel stets auf Augenhöhe. Zuweilen erkämpften sich die Prozessoren der einen Firma einen Leistungsvorteil, dann hatten wieder die Produkte des Mitbewerbers die Nase vorn. Insbesondere in Bezug auf die Leistung pro Watt dominierten allerdings die Texaner lange Zeit im Desktop- und Serverbereich. Dies alles änderte sich am 27. Juli 2006, dem Tag, als Intel seine Core-Mikroarchitektur auf den Markt brachte. Intel deklassierte nicht nur seine eigenen Netburst Prozessoren der Pentium 4 und Pentium D Baureihen, sondern zugleich auch AMDs Athlon 64 und Athlon 64 X2. Die Core-Mikroarchitektur ermöglichte eine erstaunliche Performance bei zugleich moderatem Stromverbrauch und ließ die Preise der übrigen CPUs ins Bodenlose stürzen.

Core2 Extreme X6800 (links), Pentium Extreme Edition 965 (rechts)
Insbesondere der geringe Stromverbrauch ermöglichte es Intel, bereits am 2. November 2006 seinen ersten Vier-Kern-Prozessor, den Core 2 Extreme QX6700, auf den Markt zu bringen. Dessen Kentsfield-Kern besteht nämlich aus zwei Dual-Core Conroe-Kernen, Intel hat quasi zwei Prozessoren in ein Gehäuse gepackt. Diese Methode ist recht einfach umzusetzen und zudem kostengüstig, denn es werden die gleichen Fertigungsstrecken genutzt, wie für die Zwei-Kern-Modelle. Der Nachteil, welchen AMD nicht müde wurde zu betonen, liegt darin, dass sich jeweils nur zwei Kerne ihren Level 2 Cache teilen und somit nicht alle im Cache befindlichen Daten auch allen vier Kernen zur Verfügung stehen. Streng genommen ist Intels Kentsfield daher eine sehr platzsparende Dual-CPU-Architektur. AMD möchte das mit seinem K10 zwar alles besser machen, doch für das Desktop-Segement sind leider noch keine Prozessoren auf Basis dieser neuen Architektur verfügbar.

2+2: Der Kentsfield Kern
Während Intel seinen Mitbewerber AMD in Bezug auf die absolute Leistung sowie die Leistung pro Watt überholen konnte, steckt in der Core-Mikroarchitektur auch weiterhin eine gravierende Schwachstelle. AMD hatte bei seinem Wechsel vom K7 zum K8 erkannt, dass der traditionelle Frontsidebus eine Sackgasse ist. Hierbei befindet sich der Speichercontroller im Chipsatz und der Prozessor greift über den Chipsatz auf den Arbeitsspeicher zu. Steigt die Bandweite des Arbeitsspeichers, muss zugleich auch die des Frontsidebus wachsen. Um dieses Problem zu vermeiden, hat AMD den Speichercontroller in die CPU verlagert, Intel verwendet indes auch weiterhin den Umweg über den Chipsatz. Bildlich gesprochen wechseln die Daten von einer Autobahn auf die Landstraße, welche dann auf eine zweite Autobahn führt. Zwar baut Intel diese Landstraße seit Jahren immer besser aus - zuletzt im Juli 2007 auf FSB1333 -, doch um den Bau eines Autobahnkreuzes wird auch Intel nicht mehr lange herumkommen.

45 nm SRAM-Chip
Mission Moore's Law
Wer nun erwartet hatte, dass sich Intel nach der Einführung der Core-Mikroarchitektur erst einmal zurücklehnen und abwarten würde, sah sich getäuscht. Bereits im Januar 2007 demonstrierte Intel erstmals lauffähige Prozessoren mit einer Strukturgröße von 45 nm. Etwa ein Jahr zuvor, am 25. Januar 2006, hatte Intel erstmals voll funktionsfähige SRAM-Chips im 45 nm Herstellungsprozess gezeigt. Ende März 2007 gab Intel dann den Fahrplan für die nächsten Jahre bekannt: Quasi im Tick-Tack Rhythmus eines Uhrenpendels soll in einem Jahr (Tick) eine neue Architektur eingeführt werden, im folgendenden Jahr erscheint dann ein Refresh (Tack), also eine Überarbeitung dieser Architektur, welche eine kleinere Strukturgröße verwendet. Es folgt wieder eine neue Architektur (Tick), dann deren Refresh (Tack) usw... Nachdem 2006 die Core-Mikroarchitektur (Tick) eingeführt wurde, ist 2007 deren Refresh (Tack) namens Penryn an der Reihe und zugleich auch das Thema unseres heutigen Artikels.
Der stramme Zeitplan soll dazu beitragen, dass Intels Mitbegründer Gordon Moore seine Aussage von 1965 nicht noch ein zweites Mal überarbeiten muss. Moore hatte in einer Ausgabe des Electronics Magazine vom 19. April 1965 vorrausgesagt, dass sich die Zahl der Schlatkreise auf einem Computerchip jährlich verdoppeln wird:
"The complexity for minimum component costs has increased at a rate of roughly a factor of two per year ... Certainly over the short term this rate can be expected to continue, if not to increase. Over the longer term, the rate of increase is a bit more uncertain, although there is no reason to believe it will not remain nearly constant for at least 10 years. That means by 1975, the number of components per integrated circuit for minimum cost will be 65,000. I believe that such a large circuit can be built on a single wafer."
Zehn Jahre später korrigierte er diese Aussage und verlängerte den Zeitraum auf zwei Jahre. Diese Korrektur kündigte sich allerdings bereits im ursprünglichen Mooreschen Gesetz an, da er seine Aussage von 1965 nur für die nächsten zehn Jahre traf. Dass seine Vorraussage allerdings bis 2007 Bestand haben sollte, dürfte Gordon Moore in seinen kühnsten Träumen nicht erwartet haben. Für Intel scheint indes die Einhaltung des Mooreschen Gesetzes oberste Priorität erhalten zu haben. Es wurde zu einer Art ewigen Zeitplan, an dem die Entwickler der Firma ihre Ziele festmachen.
Intel Core 2 Extreme QX9650: Der 45 nm Yorkfield im Praxistest - 2/19
29.10.2007 by doelf
Zur HTML-Ansicht
45 nm: High-k und Metal Gates
Bleiben wir noch einen Moment bei Gordon Moore. Als Intel Anfang 2007 die ersten lauffähigen Prozessoren mit 45 nm Strukturgröße zeigte, sprach Moore von der wichtigsten Veränderung im Transistorendesign seit 40 Jahren. Bisher konnte man kleinere Strukturen erreichen, ohne grundsätzliche Veränderungen am Aufbau der Transistoren vornehmen zu müssen. Beim Schritt von Intels 65 nm Fertigung zur 45 nm Technologie war das jedoch anders, erstmals seit dem Ende der 60er Jahre des letzten Jahrhunderts wurde der Aufbau der Transistoren grundlegend verändert.

300 mm Wafer für 45 nm Penryns
Je kleiner die Strukturen werden, desto schwieriger ist es, Leckstöme mit ihrem negativen Einfluss auf die Abwärme und die Signalqualität zu unterbinden. Vor gut vierzig Jahren wurden Gates aus Polysilizium bei den Transistoren eingeführt, was Gordon Moore als den letzten großen Technologieschritt betrachtet. Als Isolator verwenden die Prozessoren eine dünne Schicht aus Siliziumdioxid, welche bei Intels Modellen mit 65 nm Strukturgröße nur noch 1,2 nm bzw. fünf Atomlagen dick ist. Das Ziel muss also darin bestehen, eine dickere Isolationsschicht einzubringen, um die Leckströme und damit letztendlich auch die Verlustleistung zu senken. Durch die Minimierung dieser negativen Faktoren arbeitet die CPU kühler und erlaubt zudem höhere Taktraten.
Durch die Kombination neuer Materialien konnte Intel genau dieses Ziel erreichen. Bei Intels Lösung wird statt des üblichen Siliziumdioxid ein "high-k" Dielektrikum, welches auf Hafnium basiert, schichtweise (Atomic Layer Deposition, ALD) aufgetragen. Allerdings sind die üblichen Elektroden der Transistor-Gates, welche auf Silizium basieren, nicht mit diesem "high-k" Dielektrikum kompatibel, so dass Intel hier zu zwei namentlich nicht genannten Metallen - eines für NMOS, das zweite für PMOS Transistoren - greift. Welche Metalle genau zum Einsatz kommen, dürfte das derzeit größte Betriebsgeheimnis bei Intel sein.
In der Praxis konnten die Schaltverluste durch die neuen Transistoren um 30 Prozent gesenkt werden, während sich ihre die Schaltzeit um mehr als 20 Prozent verkürzt hat. Alternativ zur schnelleren Schaltzeit können die Source-Drain Leckströme um den Faktor fünf reduziert werden, der Leckstrom der Gates sogar um den Faktor zehn. Für seine neuen Prozessoren hat Intel einen Mittelweg zwischen besseren Schaltzeiten und niedrigeren Leckstömen gewählt. Nicht ganz unwesentlich dürfte zudem die Ersparnis bei den Herstellungskosten sein, denn Intel kann nun mehr als doppelt so viele Transistoren pro mm2 unterbringen als bisher.
Intel konnte für die Masken der 45 nm Prozessoren auch weiterhin auf die bewährte und kostengünstige 193 nm Fotolithografie zurückgreifen. Bei diesem Verfahren befindet sich Luft zwischen dem Objektiv und dem Wafer. Zwar wurde von Intel bereits 2004 die extreme-ultravilolet (EUV) Lithogragphy, welche mit reflektierenden Optiken und Masken arbeitet und die eine Produktion im Vakuum vorraussetzt, als Belichtungstechnologie der Zukunft angekündigt, doch diesen Schritt wird Intel wahrscheinlich erst 2009 beim Umstieg auf 32 nm Strukturgrößen vollziehen.
AMD und IBM werden für ihre 45 nm Fertigung die Immersionslithographie verwenden, bei der die Luft zwischen dem Objektiv und dem Wafer durch eine klare Flüssigkeit ersetzt wird.
Die ersten 45 nm Prozessoren werden derzeit in Hillsboro, Oregon auf 300 mm Wafern gefertigt. Zwei neue Produktionsstätten, die Fab 32 in Ocotillo, Arizona und die Fab 28 in Israel, sollen die Produktion Ende 2007 bzw. in der ersten Jahreshälfte 2008 aufnehmen. In der zweiten Jahreshälfte 2008 soll dann noch die Fab 11X in New Mexico hinzukommen. Falls alles nach Plan läuft, sollen bereits im dritten Quartal 2008 mehr 45 nm Mikroprozessoren als 65 nm Modelle gefertigt werden. Intels Mitbewerber AMD wird seine neuen K10-Prozessoren zunächst im 65 nm Prozess herstellen, wann AMD auf eine 45 nm Technologie umsteigen wird, ist derzeit noch unklar. Es erscheint allerdings eher unwahrscheinlich, dass AMD vor Ende 2008 einen solchen Schritt umsetzen wird.
Intel Core 2 Extreme QX9650: Der 45 nm Yorkfield im Praxistest - 3/19
29.10.2007 by doelf
Zur HTML-Ansicht
Die Core-Mikroarchitektur (Reloaded)
Betrachtet man die Funktionsliste des Penryn bzw. in unserem speziellen Fall des Yorkfield, dies ist der Codename des 45 nm Quad-Core Prozessors, so entspricht diese weitgehend der des 65 nm Kentsfield. Der Prozessor unterstützt die Multimedia-Erweiterungen MMX, SSE, SSE2, SSE3 und Advanced Digital Media Boost, den 64-Bit Befehlssatz EM64T (Intel Extended Memory 64 Technology), das XD-Bit (Execute Disable Bit), welches vor Angriffen durch einen Pufferüberlauf schützt, die Stromsparfunktion EIST (Erweiterte Intel SpeedStep Technologie) und Intels Virtualisierungs Technologie (VT).

45 nm Penryn - Links: Die; Rechts: Schema
Veränderungen gab es in erster Linie beim Cache, der um fünfzig Prozent gewachsen ist. Die Quad-Core CPUs mit Yorkfield-Kern besitzen nun 12 MByte (2x 6 MByte) Level 2 Cache, die kommenden Doppelkern-Modelle mit Wolfdale-Kern werden folglich über 6 MByte Level 2 Cache verfügen. Während der Kentsfield 293 Millionen Transistoren beinhaltet, sind es beim Yorkfield aufgrund des zusätzlichen Level 2 Caches rund 410 Millionen Transistoren. Obwohl Intels 45 nm Fertigungsprozess doppelt so viele Transistoren pro mm2 unterbringt, schrumpft die Die-Größe somit nur von 143 mm2 auf 107 mm2. Die weiteren Neuerungen verbergen sich im Detail, wir werden sie bei der Betrachtung der Architekturmerkmale genauer erläutern:
Wide Dynamic Execution
Unter dem Namen "Dynamic Execution" fasste Intel beim Pentium III verschiedene Techniken zusammen, die zum Teil schon mit dem Pentium Pro eingeführt worden waren. Diese Techniken wurden für die Netburst Architektur in Form der "Advanced Dynamic Execution" auf eine lange Pipeline optimiert. Wir wollen an dieser Stelle vier Begriffe erklären, welche eine moderne Prozessorarchitektur prägen:
Während alle Intel Prozessoren vom Pentium Pro über den Pentium 4 und D bis zum Pentium M (und auch AMDs Athlon und Athlon 64) ein dreifach superskalares Design verwenden, arbeiten die CPUs der Core Mikroarchitektur mit einem vierfach superskalarem Design. Doch Intel begnügt sich nicht mit einer vierfach superskalaren Architektur, sondern kann sogar bis zu fünf Befehle pro Taktzyklus bearbeiten. Denn während bisherige Architekturen jeden Befehl einzeln decoden und danach ausführen, beherrschen die Prozessoren der Core Mikroarchitektur eine Funktion namens "Macrofusion". Typische x86-Befehlsfolgen (Macro-Ops) können mit Macrofusion zu einer einzelnen internen Instruktion (Micro-Op) zusammengefaßt werden.
Während der x86-Programmcode aus komplexen Instruktionen (CISC = Complex Instruction Set Computing) - also den Macro-Ops - besteht, werden diese zur internen Verarbeitung in einfache Strukturen aufgebrochen. Dabei handelt es sich um die RISC-ähnlichen (Reduced Instruction Set Computing) Micro-Ops. Diese Micro-Ops gehen dann zur weiteren Verarbeitung in die Pipeline des Prozessors. An dieser Stelle greift nun die "Mikro-Op Fusion", die Micro-Ops, welche aus der selben Macro-Op stammen, zusammenfassen kann und somit zu einer weiteren Effizienzsteigerung beiträgt. Da der Yorkfield vier Prozessorkerne besitzt, vervierfachen sich auch alle zuvor getroffenen Angaben. Jeder Kern kann vier Befehle pro Taktzylkus ausführen, das ergibt zusammen sechzehn.
Neu: Radix-16 Divider
Für Divisionen verwenden bisherige Core-Mikroprozessoren einen Radix-4 Teiler, welcher 2 Bits pro Iteration berechnet. Der neue Radix-16 Teiler der Penryn-Prozessoren halbiert die Anzahl der zur Berechnung benötigen Schleifendurchläufe, da er 4 Bits pro Iteration bewätigt.
Divisionen sollten von einem Penryn daher in der halben Zeit berechnet werden können, Wurzelberechnungen sogar noch schneller, da hierbei die Rechendauer exponentiell von der Anzahl der pro Iteration berechneten Bits abhängig ist. Diese Vorteile stehen auch in älteren Programmen zur Verfügung.
Intel Core 2 Extreme QX9650: Der 45 nm Yorkfield im Praxistest - 4/19
29.10.2007 by doelf
Zur HTML-Ansicht
Advanced Digital Media Boost
Unter "Advanced Digital Media Boost" versteht Intel einen Ausbau der Befehlssatzerweiterung SSE (Streaming Single Instruction Multiple Data Extensions) um 16 neue Instruktionen. Diese wurden mit der ersten Core 2 Generation, dem Conroe, eingeführt und oft fälschlicherweise als SSE4 bezeichnet. Doch nicht die 16 neuen Befehle beflügelten die Fließkommaleistung des Conroe derart massiv, sondern die Verbreiterung der SSE-Einheiten auf 128 Bit machten den Unterschied.
Sowohl die Netburst-Prozessoren Pentium 4 und Pentium D als auch die Athlon und Athlon 64 CPUs von AMD müssen eine 128 Bit Berechnung in zwei Schritten ausführen: Zunächst werden die unteren 64 Bit, im Anschluß dann die oberen 64 Bit berechnet, das Ergebnis liegt daher erst nach zwei Taktzyklen vor. Die Core-Mikroarchitektur kann solche Operationen dank ihres 128 Bit breiten Datenpfades in einem Schritt bearbeiten - oder anders gesagt in der halben Zeit.
Neu: SSE4
Alle Prozessoren der Penryn-Generation besitzen nun tatsächlich die Befehlssatzerweiterung SSE4. SSE4 umfasst weitere 47 neue Instruktionen, welche insbesondere die Videoverarbeitung, Grafikzugriffe und das Zusammenspiel mit Koprozessoren beschleunigen sollen. Zu den ersten Anwendungen, welche SSE4 verwenden, zählen die Video-Encoder DivX und TMPGEnc sowie Adobes Videobearbeitung Premiere. Dies verwundert kaum, denn solche Programme können aus SSE4 den größten Nutzen ziehen.
Ein gutes Beispiel hierfür ist die Motion Estimation, also die Bewergungsvorraussage bei Videodaten. Um herauszufinden, wie eine Bewegung ablaufen wird, bestimmt man einen Pixel als Ausgangspunkt und prüft die Farbwerte der Pixel, die ihn umgeben. Hierzu werden unterschiedliche Muster verwendet und alle Pixel im Prüfbereich einzeln abgefragt. Wie obige Grafik zeigt, funktioniert dies mit SSE4 wesentlich einfacher: Man gibt den Ausgangspunkt an und alle Prozessorenkerne des Systems prüfen die umgebenden Pixel. Aus einer komplexen Befehlfolge wurde ein einzelner Aufruf.
Dank Write-Combining können Prozessoren sehr schnell in den Frame Buffer der Grafikkarte schreiben, Lesezugriffe sind jedoch beim Conroe und Kentsfield auf lediglich 800 MB/s beschränkt. Mit Hilfe der neuen "Streaming Load Instruction" erreicht Intel bei seiner Penryn-Generation Leseraten von bis zu 6,4 GB/s, hierbei werden Cache-Line große Datenmengen ausgelesen. Eine Cache-Line entspricht 64 Bytes, ohne SSE4 werden lediglich 8 Byte gelesen. Hieraus ergibt sich die Leistungssteigerung um den Faktor acht. Weitere Befehle sollen insbesondere wissenschaftliche Anwendungen beschleunigen, hierzu gehören auch die Erweiterungen, welche die Nutzung von Koprozessoren möglich machen.
Neu: Super Shuffle Engine
Nachdem Intel bereits bei der ersten Generation der Core-Mikroarchitektur die SSE-Einheiten auf 128 Bit verbreitert hatte, wurden nun auch die Berechnungspfade für Shuffle-Operationen auf 128 Bit gebracht. Shuffle-Operationen werden für das Formatieren von Daten bei SSE-Instruktionen benötigt, z.B. beim Verschieben von Bits (Shift), Packing oder Unpacking. Da nun 128 Bit Operationen in einem Taktzyklus bearbeitet werden können, hat sich deren Ausführungszeit halbiert.
Diese Leistungssteigerungen stehen allen Programmen zur Verfügung, welche SSE-Befehle verwenden. Eine Anpassung des Codes ist nicht notwendig.
Intel Core 2 Extreme QX9650: Der 45 nm Yorkfield im Praxistest - 5/19
29.10.2007 by doelf
Zur HTML-Ansicht
Intelligent Power Capability
Die Core-Mikroarchitektur hat ihre Wurzeln im Mobilprozessor Pentium M und dies wird insbesondere in Hinblick auf die Stromsparfunktionen deutlich. Die Prozessoren verfügen über Intels SpeedStep Technologie, welche die Kerne abhängig vom Lastzustand taktet oder gar in verschiedene Ruhezustände versetzt. Mit der Taktrate wird natürlich auch die CPU-Spannung abgesenkt. Doch damit nicht genug: Diese Prozessoren sind zudem in der Lage, nicht benötigte Logik-Baugruppen abzuschalten, um dadurch weitere Energie zu sparen. Hierzu gehören beispielsweise Teile des Caches. Auch die Busse und Arrays wurden unterteilt ("split"), um diese teilweise deaktivieren zu können, wenn sie nicht vollständig benötigt werden. Ein Problem bei solchen Stromsparfunktionen sind die Einschlaf- und Aufwachphasen, die sich nicht negativ auf die Reaktionsgeschwindigkeit der CPU auswirken dürfen. Intel bewerkstelligt das Ein- und Ausschalten innerhalb eines Taktzyklus, weshalb es kaum zu Auswirkungen auf die CPU-Leistung kommen sollte.
Neu: Deep Power Down Technology
Zu den bekannten C-States gesellt sich beim Penryn ein neuer Zustand namens "Deep Power Down". Wird Deep Power Down aktiviert, schalten der Taktgeber des Prozessors und der PLL wie beim C3 und C4 ab, zusätzlich wird jedoch auch der komplette Cache - sowohl Level 1 als auch Level 2 - nicht nur geleert, sondern vollständig deaktiviert. Dies emöglicht es der CPU, die Spannung noch weiter abzusenken. Allerdings wacht der Prozessor aus diesem Zustand auch etwas langsamer wieder auf, es sollen laut Intel maximal 150 Mikrosekunden vergehen.
Obwohl Intel für seine Mobil- und Desktopprozessoren die selben Wafer verwendet, werden nur Mobil-CPUs über die Deep Power Down Technologie verfügen. Die Kontrolle über die Aktivierung von Deep Power Down hat zwar das Betriebssystem, doch der Chipsatz ist letztendlich dafür verantwortlich, dass sich die CPU in diesen Zustand begibt. Intels Desktop-Chipsätze beherrschen dies nicht und in absehbarer Zeit wird Intel daran auch nichts ändern. Jeder der Prozessorkerne besitzt 8 KByte SRAM (VccP), in denen er seinen Status beim Eintreten eines MWAIT-Ereignisses abspeichert. Sobald ein I/O-Ereignis dem Chipsatz signalisiert den Kern wieder aufzuwecken, führt dieser einen internen Reset durch und liest seinen vorherigen Status wieder aus.
Der Wechsel in den Deep Power Down Status und wieder zurück ist vergleichsweise energieintensiv. Daher muss sichergestellt werden, dass solche Wechsel nicht zu häufig stattfinden, da die Energiebilanz ansonsten ins Negative abrutscht. Nur wenn der Kern für 3 bis 4 ms im Deep Power Down verbleibt, lässt sich tatsächlich Strom sparen. Daher hat Intel eine Logik integriert, welche die Länge der vorherigen Deep Power Down Phasen prüft und - falls diese zu kurz waren - stattdessen einen niedrigeren Ruhezustand wie beispielsweise C4 ausführt.
Durch Deep Power Down lassen sich laut Intel im normalen Büroalltag zwischen 27 und 44 Prozent Strom sparen. Es sollte somit möglich sein, die Akkulaufzeit von mobilen Computern mit Hilfe von Deep Power Down signifikant zu verlängern. Hierzu müssen die Hersteller der Notebook den neuen C-State allerdings in ihr BIOS integrieren.
Neu: Enhanced Dynamic Acceleration Technology (EDAT)
Nicht auf eine längere Akkulaufzeit, sondern auf mehr Leistung zielt die "Enhanced Dynamic Acceleration Technology". Auch diese Neuerung wird Intel vorerst nur für Mobilprozessoren anbieten. Es geht hierbei darum, die beste Rechenleistung aus den vorhandenen Temperatur- und Verbrauchsgrenzen herauszukitzeln. Wenn beispielsweise nur ein Kern aktiv ist und sich der zweite in einem Ruhezustand befindet, hat der Prozessor noch reichlich Spielraum bis zu seiner maximal erlaubten Temperatur- und Verbrauchsschwelle. Diesen Spielraum nutzt EDAT dazu, den aktiven Kern mit einer höheren Spannung und Taktrate zu betreiben, so dass Anwendungen, welche nur einen Kern verwenden, mehr Rechenleistung zur Verfügung steht.
Natürlich macht es keinen Sinn, die Taktrate sofort zurückzuschrauben, wenn der zweite Kern aktiv wird. Schließlich besteht die Möglichkeit, dass dieser nur für einen kurzen Zeitraum genutzt wird. Intel hat hierzu einen Hysteresis Mechanismus integriert, welcher eine Überlappung ermöglicht, in der beide Kerne und EDAT zeitgleich aktiv sind. Die Spannungswandler der Hauptplatine müssen für diese kurzfristige Spitzenbelastung ausgelegt sein.
In der Praxis soll EDAT - abhängig von den verwendeten Anwendungen und der Auslastung des Prozessors - zwischen 5 und 7 Prozent Mehrleistung ermöglichen.
Neu: CC3 State
Die dritte Neuerung betrifft abermals nicht unsere Dektop-CPU, diesmal geht es um die Workstation- und Server-Plattform. Da auf solchen Plattformen zumeist Last anliegt, sind die Stromspartechniken nicht so sehr ausgeprägt. Die Kerne Intels aktueller 65 nm Xeon Prozessoren gehen lediglich in den C1-Zustand, wenn keine Last anliegt. Im C1 bleiben jedoch die Inhalte der Level 1 und 2 Caches erhalten und es finden ständig Snoops statt. Das bedeutet, dass auch die im Ruhezustand befindlichen Kerne die Adressierungen der aktiven Kerne auf dem Bus mitlesen und diese Adressen mit dem Inhalt ihres eigenen Caches abgleichen, um Cache-Inkohärenzen durch die Speicherzugriffe der aktiven Kerne zu vermeiden. Solche Snoops zeichnen sich für ca. 30 Prozent des Stromverbrauchs eines Prozessorkernes verantwortlich.
Die Lösung ist recht einfach: Der Kern wird in den C3 State versetzt, bei dem der Inhalt des Level 1 Caches in den Level 2 Cache kopiert wird, der Level 1 Cache wird danach komplett geleert. Im C3 finden keine Snoops statt und der Stromverbrauch kann um bis zu 16 Prozent gesenkt werden, ohne dass es zu nennenswerten Leistungseinbrüchen kommt.
Intel Core 2 Extreme QX9650: Der 45 nm Yorkfield im Praxistest - 6/19
29.10.2007 by doelf
Zur HTML-Ansicht
Smart Memory Access
Ein Punkt, bei dem AMD bisher glänzen konnte, ist der Speicherzugriff. Dank des in die CPU integrierten Speichercontrollers sparten sich die Texaner den Umweg über den Chipsatz und konnten die maximal möglichen Speicherbandweiten gut ausnutzen. Intel möchte diesen Vorteil des Mibewerbers durch optimierte Lese- und Schreibzugriffe (Load/Store) ausgleichen.
Eine Limitierung der Out Of Order Execution ist, dass die Befehle zwar in einer optimierten Reihenfolge ausgeführt werden, die CPU aber nur bedingt erkennen kann, welche Befehle zusammenhängen und welche nicht. Wenn die Zieladresse eines Lese- oder Schreibzugriffes noch nicht bekannt ist, kann keine Optimierung der Befehle vorgenommen werden, da die Gefahr besteht, dass Daten gelesen werden bevor sie überhaupt geschrieben wurden. Um unnötige Wartezyklen zu vermeiden, wäre es allerdings erstrebenswert, die Lesezugriffe vorzuziehen. Doch wie soll der Prozessor erkennen, welche Zugriffe voneinander abhängig sind und welche nicht?
Intel nennt die Lösung "Memory Disambiguation". Diese Technologie wägt anhand intelligenter Algorithmen ab, ob die Lesezugriffe von den Schreibzugriffen abhängig sind oder nicht. Danach werden die Zugriffe mit der höchst möglichen Parallelisierung ausgeführt. Sollte sich zeigen, dass der Prozessor falsch spekuliert hat, werden die fehlerhaften Daten neu geladen und die Datenkohärenz bleibt erhalten. Das folgende Beispiel zeigt, wie der Lesevorgang 4 vorgezogen und zuerst ausgeführt wird:
Zudem besitzen die Prozessoren der Core Mikroarchitektur "Advanced Prefetcher", welche Daten in den Cache laden, bevor diese benötigt werden. Dadurch läd die CPU die Daten vermehrt aus dem Cache, statt sie aus dem Speicher holen zu müssen. Da der Yorkfield über 12 MByte L2-Cache verfügt, kann diese Technik die wahren Latenzen der Speicherzugriffe verwischen oder - wie Intel es formuliert - verstecken. Intel verwendet zwei Daten-Prefetcher pro L1-Cache sowie zwei weitere pro L2-Cache, hinzu kommen insgesamt vier Befehls-Prefetcher, also einer je Kern.
Advanced Smart Cache
Im Gegensatz zu den Pentium D Prozessoren mit Smithfield oder Presler Kern teilen sich die beiden Kerne des Conroe einen gemeinsamen L2-Cache. Dies hat entscheidende Vorteile: Zum einen kann sich jeder Kern soviel L2-Cache sichern, wie er gerade benötigt, zum anderen hat jeder Prozessorkern Zugriff auf alle im L2-Cache befindlichen Daten. Hierzu zwei Beispiele:
Da sich der Yorkfield wie sein 65 nm Vorgänger Kentsfield aus zwei Doppelkernen zusammensetzt, profitieren nur die Kerne, welche einen gemeinsamen L2-Cache besitzen, von dieser Strategie. Wird die Last ungünstig verteilt, machen sich hingegen die genannten Nachteile bemerkbar und der Prozessor wird ausgebremst. Im Gegensatz zum L2-Cache verfügen die vier CPU-Kerne auch weiterhin über einen eigenen L1-Cache. Dieser setzt sich jeweils aus einem 32 KByte großen Ausführungs-Cache und einen ebenfalls 32 Bit großen Daten-Cache zusammen.
Neu: Verbesserte Virtualisierung
Die verbesserte Virtualisierung des Penryn soll Wechsel zwischen den virtuellen Maschinen um 25 bis 75 Prozent beschleunigen. Auch hierbei ist keine Anpassung vorhandener Software von Nöten.
Neu: FSB1600
Wie bereits mehrfach gesagt, stellt die Frontsidebus-Architektur Intel vor ein großes Problem. Nachdem der Quad-Pumped Frontsidebus von 400 über 533, 800 und 1067 MHz zuletzt im Sommer 2007 auf 1333 MHz beschleunigt wurde, steht nun der nächste Schritt an - vorerst allerdings nur im Workstation- und Server-Bereich. Intels Stoakley Plattform, bestehend aus den Xeon 5400 (Harpertown) Prozessoren und dem Seaburg Chipsatz, wird erstmals eine FSB1600-Anbindung bieten, welche die Bandweite von Dual-Channel FB-DIMM 800 zumindest theoretisch ausnutzen kann.
Als weitere Entschärfung des FSB-Engpasses dient zudem ein 24 MByte großer Snoop-Filter im Seaburg Chipsatz. Allerdings stellt sich die Frage, ob ein weiterer Zwischenspeicher nicht dem Konzept der Fully-Buffered DIMMs widerspricht.
Die Integration von 24 MByte Speicher in den Chipsatz dürfte sich zudem recht deutlich auf dessen Stromverbrauch und Abwärme auswirken, Intel konnte uns leider keine TDP für den Seaburg-Chipsatz nennen. Auch die Frage, wann der Frontsidebus der Desktop-Plattform auf 1600 MHz beschleunigt wird, blieb unbeantwortet. Es ist allerdings bekannt, dass Anfang 2008 ein Chipsatz namens X48 erscheinen wird und dieser soll als einzige Neuerung zum X38 über eine Validierung für FSB1600 verfügen. Wenn dem tatsächlich so sein sollte, wird Intel sicherlich auch rechtzeitig für die passenden CPUs sorgen.
Intel Core 2 Extreme QX9650: Der 45 nm Yorkfield im Praxistest - 7/19
29.10.2007 by doelf
Zur HTML-Ansicht
Der Intel Core 2 Extreme QX9650
Bevor wir mit den Leistungsmessungen beginnen, betrachten wir zunächst einmal unser Testmuster, den Core 2 Extreme QX9650 Prozessor. Äußerlich gleicht er den übrigen Prozessoren für Intels Sockel LGA775 wie ein Ei dem anderen:
Erst CPU-Z offenbart, dass wir Intels neues Top-Modell vor uns haben. Die Taktrate wurde nicht gesteigert, wie der Core 2 Extreme QX6850 taktet auch der Core 2 Extreme QX9650 mit 3,0 GHz. Auch der Frontsidebus verharrt auf 1333 MHz, lediglich seinen 45 nm Xeon Prozessoren gönnt Intel derzeit 1600 MHz. Möglicherweise möchte Intel erst einmal abwarten, welche Leistung von AMDs Phenom (K10) zu erwarten ist, bevor man höhere Taktraten auf den Markt bringt. Für zusätzliche Leistung sorgen somit ausschließlich die Architekturverbesserungen sowie der größere L2-Cache.
Der Stückpreis des Core 2 Extreme QX9650 liegt bei 999 US-Dollar bei einer Abnahme von 1.000 Einheiten. Die folgende Tabelle enthält alle bisher erschienenen Core 2 Desktop-Prozessoren:
| CPU | Takt | FSB | L2-Cache |
| Quad-Core 45 nm | |||
| Core 2 Extreme QX9650 | 3,00 GHz | FSB1333 | 2x 6MB |
| Quad-Core 65 nm | |||
| Core 2 Extreme QX6850 | 3,00 GHz | FSB1333 | 2x 4MB |
| Core 2 Extreme QX6800 | 2,93 GHz | FSB1066 | 2x 4MB |
| Core 2 Extreme QX6700 | 2,66 GHz | FSB1066 | 2x 4MB |
| Core 2 Quad Q6700 | 2,66 GHz | FSB1066 | 2x 4MB |
| Core 2 Quad Q6600 | 2,40 GHz | FSB1066 | 2x 4MB | Dual-Core 65 nm |
| Core 2 Duo E6850 | 3,00 GHz | FSB1333 | 4MB |
| Core 2 Extreme X6800 | 2,93 GHz | FSB1066 | 4MB |
| Core 2 Duo E6750 | 2,67 GHz | FSB1333 | 4MB |
| Core 2 Duo E6700 | 2,67 GHz | FSB1066 | 4MB |
| Core 2 Duo E6600 | 2,40 GHz | FSB1066 | 4MB |
| Core 2 Duo E6550 | 2,33 GHz | FSB1333 | 4MB |
| Core 2 Duo E6540 | 2,33 GHz | FSB1333 | 4MB |
| Core 2 Duo E6420 | 2,13 GHz | FSB1066 | 4MB |
| Core 2 Duo E6400 | 2,13 GHz | FSB1066 | 2MB |
| Core 2 Duo E6320 | 1,86 GHz | FSB1066 | 4MB |
| Core 2 Duo E6300 | 1,86 GHz | FSB1066 | 2MB |
| Core 2 Duo E4500 | 2,20 GHz | FSB800 | 2MB |
| Core 2 Duo E4400 | 2,00 GHz | FSB800 | 2MB |
| Core 2 Duo E4300 | 1,80 GHz | FSB800 | 2MB |
Zunächst bleibt der Core 2 Extreme QX9650 in Desktop-Systemen der einzige seiner Art. Weitere 45 nm Prozessoren wird Intel für diese Plattform heute nämlich nicht vorstellen.
Das Testsystem
Für unseren Test verwenden wir das ASUS P5K Premium auf Basis von Intels P35 Chipsatz mit dem BIOS Beta 0402. Eigentlich hatten wir geplant, das ASUS Blitz Extreme sowie DDR3-Speicher zu verwenden, doch zum Zeitpunkt der Benchmarks fehlte diesem Mainboard leider ein passendes Beta-BIOS mit Unterstützung für den Intel Core 2 Extreme QX9650.
Vergleichswerte liefern uns die Quad-Core Prozessoren Core 2 Extreme QX6850, Core 2 Extreme QX6800, Core 2 Quad Q6700 und Core 2 Quad Q6600 sowie die Dual-Core Modelle Core 2 Extreme X6800, Core 2 Duo E6600, Core 2 Duo E6550 und Core 2 Duo E6320. Zudem verwenden wir für unseren Test die folgende Hardware:
Im Rahmen der Benchmarks wurden die fett hervorgehobenen Komponenten eingesetzt.
Intel Core 2 Extreme QX9650: Der 45 nm Yorkfield im Praxistest - 8/19
29.10.2007 by doelf
Zur HTML-Ansicht
CPU-Leistung (synthetisch)
Traditionell prüfen wir zunächst die mathematische Leistung der Prozessoren mit Hilfe synthetischer Benchmarks. Hierzu verwenden wir SiSoft Sandra 2007 Pro Business (Build 1098):
SiSoft Sandra 2007.1098: Dhrystone ALU in MIPS; Whetstone iSSE3 in MFLOPS | |||
| Core 2 QX9650 3,00GHz/DDR2-1066CL5 |
| ||
| Core 2 QX6850 3,00GHz/DDR2-1066CL5 |
| ||
| Core 2 QX6800 2,93GHz/DDR2-800CL4 |
| ||
| Core 2 Q6700* 2,66GHz/DDR2-800CL4 |
| ||
| Core 2 Q6600 2,40GHz/DDR2-800CL4 |
| ||
| Core 2 X6800 2,93GHz/DDR2-800CL4 |
| ||
| Core 2 E6600 2,40GHz/DDR2-800CL4 |
| ||
| Core 2 E6550 2,33GHz/DDR2-800CL4 |
| ||
| Core 2 E6320 1,86GHz/DDR2-800CL4 |
| ||
* Die Leistung des Core 2 Quad Q6700 wurde mit Hilfe des Core 2 Extreme QX6800 emuliert.
Geringen Vorteilen im ALU-Durchlauf stehen deutliche Zugewinne im Gleitkommatest entgegen. Die Wertung der Whetstone steigt um deutliche 14,44 Prozent, hierfür dürften der Radix-16 Teiler und die SSE-Verbesserungen verantwortlich sein.
Ein zweiter Testlauf mit SiSoft Sandra 2007 Pro Business (Build 1098) soll die Multimedia-Performance offenbaren:
SiSoft Sandra 2007.1098: Integer X8 iSSE4 in it/s; FloatingPoint X4 iSSE2 in it/s | |||
| Core 2 QX6850 3,00GHz/DDR2-1066CL5 |
| ||
| Core 2 QX9650 3,00GHz/DDR2-1066CL5 |
| ||
| Core 2 QX6800 2,93GHz/DDR2-800CL4 |
| ||
| Core 2 Q6700* 2,66GHz/DDR2-800CL4 |
| ||
| Core 2 Q6600 2,40GHz/DDR2-800CL4 |
| ||
| Core 2 X6800 2,93GHz/DDR2-800CL4 |
| ||
| Core 2 E6600 2,40GHz/DDR2-800CL4 |
| ||
| Core 2 E6550 2,33GHz/DDR2-800CL4 |
| ||
| Core 2 E6320 1,86GHz/DDR2-800CL4 |
| ||
* Die Leistung des Core 2 Quad Q6700 wurde mit Hilfe des Core 2 Extreme QX6800 emuliert.
Diesmal messen wir keine nennenswerten Unterschiede, auch bei der Gleitkommaberechnung bleibt der Zugewinn unter 0,35 Prozent und liegt somit im Bereich der Messtoleranz.
Ein zweites Gutachten über die CPU-Leistung holen wir von PC Wizard 2007.1.73 ein, wir Beschräken uns allerdings auf den Mandelbrot-Test:
PC Wizard 2007.1.73: Mandelbrot (SSE3) in s | ||
| Core 2 QX6850 3,00GHz/DDR2-1067CL5 |
| |
| Core 2 QX9650 3,00GHz/DDR2-1067CL5 |
| |
| Core 2 QX6800 2,93GHz/DDR2-800CL4 |
| |
| Core 2 Q6700* 2,66GHz/DDR2-800CL4 |
| |
| Core 2 Q6600 2,40GHz/DDR2-800CL4 |
| |
| Core 2 X6800 2,93GHz/DDR2-800CL4 |
| |
| Core 2 E6600 2,40GHz/DDR2-800CL4 |
| |
| Core 2 E6550 2,33GHz/DDR2-800CL4 |
| |
| Core 2 E6320 1,86GHz/DDR2-800CL4 |
| |
* Die Leistung des Core 2 Quad Q6700 wurde mit Hilfe des Core 2 Extreme QX6800 emuliert.
Wie bereits im Multimedia-Durchlauf von SiSoft Sandra liegen der Core 2 QX6850 und der Core 2 QX9650 wieder Kopf an Kopf.
Intel Core 2 Extreme QX9650: Der 45 nm Yorkfield im Praxistest - 9/19
29.10.2007 by doelf
Zur HTML-Ansicht
Multithreaded (synthetisch)
PC Wizard 2007.1.73 kann die Performance im Multi-Threaded-Betrieb analysieren. Dabei wird zunächst nur ein Thread ausgeführt, danach zwei Threads parallel und schließlich vier Threads. Ausgegeben wird die Bearbeitungszeit pro Thread, niedrige Ergebnisse sind also besser:
PC Wizard 2007.1.73: 4 Threads in s; 2 Threads in s; 1 Thread in s | ||||
| Core 2 QX6850 3,00GHz/DDR2-1067CL5 |
| |||
| Core 2 QX9650 3,00GHz/DDR2-1067CL5 |
| |||
| Core 2 QX6800 2,93GHz/DDR2-800CL4 |
| |||
| Core 2 Q6700* 2,66GHz/DDR2-800CL4 |
| |||
| Core 2 Q6600 2,40GHz/DDR2-800CL4 |
| |||
| Core 2 X6800 2,93GHz/DDR2-800CL4 |
| |||
| Core 2 E6600 2,40GHz/DDR2-800CL4 |
| |||
| Core 2 E6550 2,33GHz/DDR2-800CL4 |
| |||
| Core 2 E6320 1,86GHz/DDR2-800CL4 |
| |||
* Die Leistung des Core 2 Quad Q6700 wurde mit Hilfe des Core 2 Extreme QX6800 emuliert.
Abermals sehen wir den Core 2 QX6850 knapp vor dem Core 2 QX9650, die überarbeitete Architektur hat noch gewisse Probleme, sich richtig in Szene zu setzen.
Auch CPU RightMark Lite 2005 v1.3 bietet die Möglichkeit, eine Anwendung auf mehrere Threads zu verteilen und somit mehrere CPU-Kerne auszulasten. Hierzu berechnet das Programm ein komplexes 3D-Gefüge mit 400 Objekten und 4 Lichtern, wir wählten das Modell 1. Die Ergebnisse werden in Frames pro Sekunde angegeben, größere Werte sind also besser. Wir sortieren nach der maximal erreichten Framerate:
CPU RightMark Lite 2005 v1.3: 4 Threads in fps; 2 Thread in fps; 1 Thread in fps | ||||
| Core 2 QX9650 3,00GHz/DDR2-1067CL5 |
| |||
| Core 2 QX6850 3,00GHz/DDR2-1067CL5 |
| |||
| Core 2 QX6800 2,93GHz/DDR2-800CL4 |
| |||
| Core 2 Q6700* 2,66GHz/DDR2-800CL4 |
| |||
| Core 2 Q6600 2,40GHz/DDR2-800CL4 |
| |||
| Core 2 X6800 2,93GHz/DDR2-800CL4 |
| |||
| Core 2 E6600 2,40GHz/DDR2-800CL4 |
| |||
| Core 2 E6550 2,33GHz/DDR2-800CL4 |
| |||
| Core 2 E6320 1,86GHz/DDR2-800CL4 |
| |||
* Die Leistung des Core 2 Quad Q6700 wurde mit Hilfe des Core 2 Extreme QX6800 emuliert.
Bei CPU RightMark Lite 2005 v1.3 startet der Core 2 QX9650 so richtig durch: Werden alle vier Kerne genutzt, beträgt der Vorsprung auf den Core 2 QX6850 erstaunliche 29,3 Prozent, bei der Verwendung von einem Kern beträgt er immer noch 21,3 Prozent und selbst wenn nur ein einzelner Kern rechnet, ist der Core 2 QX9650 noch immer um 15,9 Prozent schneller.
Bevor wir uns dem Speicherdurchsatz zuwenden, betrachten wir noch einen letzten CPU-Test, welcher mehrere CPU-Kerne auslastet. Die Molecular Dynamics Simulation von ScienceMark 2.0 untersucht das thermodynamische Verhalten von Materialien anhand fester physikalischer Gesetze. Je schneller die Berechnung beendet ist, desto performanter ist die CPU. Die Resultate werden in Sekunden angegeben, niederigere Werte sind folglich besser:
ScienceMark 2.0 32-Bit Build 21032005: Molecular Dynamics in s | ||
| Core 2 QX9650 3,00GHz/DDR2-1066CL5 |
| |
| Core 2 QX6850 3,00GHz/DDR2-1066CL5 |
| |
| Core 2 QX6800 2,93GHz/DDR2-800CL4 |
| |
| Core 2 X6800 2,93GHz/DDR2-800CL4 |
| |
| Core 2 Q6700* 2,66GHz/DDR2-800CL4 |
| |
| Core 2 Q6600 2,40GHz/DDR2-800CL4 |
| |
| Core 2 E6600 2,40GHz/DDR2-800CL4 |
| |
| Core 2 E6550 2,33GHz/DDR2-800CL4 |
| |
| Core 2 E6320 1,86GHz/DDR2-800CL4 |
| |
* Die Leistung des Core 2 Quad Q6700 wurde mit Hilfe des Core 2 Extreme QX6800 emuliert.
Auch bei der Molecular Dynamics Simulation von ScienceMark 2.0 erarbeitet sich der Core 2 QX9650 einen deutlichen Vorsprung von 11,22 Prozent auf den gleich schnell getakteten Core 2 QX6850.
Intel Core 2 Extreme QX9650: Der 45 nm Yorkfield im Praxistest - 10/19
29.10.2007 by doelf
Zur HTML-Ansicht
Datendurchsatz von Speicher und Cache
Unser Testsystem ist mit 2x 1 GByte DDR2-1067 vom Typ Mushkin XP2-8500 bestückt. Wir verwenden diesen Arbeitsspeicher mit Latenzen von CL5-5-4-12:
Zum Ausloten der Speicherbandbreite ziehen wir zunächst wieder SiSoft Sandra 2007 Pro Business (Build 1098) heran:
SiSoft Sandra 2007.1098: Int Buff'd iSSE2 in MB/s; Float Buff'd iSSE2 in MB/s | |||
| Core 2 QX9650 3,00GHz/DDR2-1066CL5 |
| ||
| Core 2 QX6850 3,00GHz/DDR2-1066CL5 |
| ||
| Core 2 E6550 2,33GHz/DDR2-800CL4 |
| ||
| Core 2 QX6800 2,93GHz/DDR2-800CL4 |
| ||
| Core 2 Q6700* 2,66GHz/DDR2-800CL4 |
| ||
| Core 2 X6800 2,93GHz/DDR2-800CL4 |
| ||
| Core 2 E6600 2,40GHz/DDR2-800CL4 |
| ||
| Core 2 Q6600 2,40GHz/DDR2-800CL4 |
| ||
| Core 2 E6320 1,86GHz/DDR2-800CL4 |
| ||
* Die Leistung des Core 2 Quad Q6700 wurde mit Hilfe des Core 2 Extreme QX6800 emuliert.
Der Speicherdurchsatz steigt recht deutlich um 6,34 Prozent, einen so klaren Anstieg hatten wir nicht erwartet. SiSoft Sandra reagiert bei Core 2 Prozessoren kaum auf die Cache-Größe, der Grund für den höheren Speicherdurchsatz ist uns daher unklar.
Mit ScienceMark 2.0 versuchen wir festzustellen, wie schnell die Zugriffe auf den L1- und L2-Cache erfolgen, zudem messen wir auch den Speicherdurchsatz ein zweites Mal:
ScienceMark 2.0 32-Bit Build 21032005: Memory in MB/s; L2 Cache in MB/s; L1 Cache in MB/s | |||||
| Core 2 QX9650 3,00GHz/DDR2-1066CL5 |
| ||||
| Core 2 QX6850 3,00GHz/DDR2-1066CL5 |
| ||||
| Core 2 E6550 2,33GHz/DDR2-800CL4 |
| ||||
| Core 2 QX6800 2,93GHz/DDR2-800CL4 |
| ||||
| Core 2 X6800 2,93GHz/DDR2-800CL4 |
| ||||
| Core 2 Q6700* 2,66GHz/DDR2-800CL4 |
| ||||
| Core 2 E6600 2,40GHz/DDR2-800CL4 |
| ||||
| Core 2 Q6600 2,40GHz/DDR2-800CL4 |
| ||||
| Core 2 E6320 1,86GHz/DDR2-800CL4 |
| ||||
* Die Leistung des Core 2 Quad Q6700 wurde mit Hilfe des Core 2 Extreme QX6800 emuliert.
ScienceMark 2.0 sieht sogar einen Zuwachs um 7,3 Prozent beim Speicherdurchsatz. Die Zugriffe auf den Cache sind hingegen kaum schneller geworden.
Intel Core 2 Extreme QX9650: Der 45 nm Yorkfield im Praxistest - 11/19
29.10.2007 by doelf
Zur HTML-Ansicht
Primzahlen und Pi
Die schnelle Fourier-Transformation (FFT) ist ein Algorithmus, welcher zur Berechnung von Primzahlen genutzt wird. Wir verwenden Prime95 v24.14 im Benchmark-Modus, um die Rechenleistung der CPU zu untersuchen. Die Resultate werden in Millisekunden angegeben, kleinere Werte sind also besser:
Prime95 v24.14 - 10 Iterationen mit 4096K FFT Länge: in ms | ||
| Core 2 QX9650 3,00GHz/DDR2-1067CL5 |
| |
| Core 2 QX6850 3,00GHz/DDR2-1067CL5 |
| |
| Core 2 X6800 2,93GHz/DDR2-800CL4 |
| |
| Core 2 Q6700* 2,66GHz/DDR2-800CL4 |
| |
| Core 2 E6600 2,40GHz/DDR2-800CL4 |
| |
| Core 2 Q6600 2,40GHz/DDR2-800CL4 |
| |
| Core 2 E6550 2,33GHz/DDR2-800CL4 |
| |
| Core 2 E6320 1,86GHz/DDR2-800CL4 |
| |
* Die Leistung des Core 2 Quad Q6700 wurde mit Hilfe des Core 2 Extreme QX6800 emuliert.
Wir sehen diesmal nur minimale Vorteile für den Core 2 QX9650, welche sich im Bereich der Messtoleranz bewegen.
Und was passiert, wenn wir die Nachkommstellen von Pi berechnen?
Super PI 1.1e, 1M Stellen: Dauer in s | ||
| Core 2 QX9650 3,00GHz/DDR2-1066CL5 |
| |
| Core 2 QX6850 3,00GHz/DDR2-1066CL5 |
| |
| Core 2 QX6800 2,93GHz/DDR2-800CL4 |
| |
| Core 2 X6800 2,93GHz/DDR2-800CL4 |
| |
| Core 2 Q6700* 2,66GHz/DDR2-800CL4 |
| |
| Core 2 E6600 2,40GHz/DDR2-800CL4 |
| |
| Core 2 E6550 2,33GHz/DDR2-800CL4 |
| |
| Core 2 Q6600 2,40GHz/DDR2-800CL4 |
| |
| Core 2 E6320 1,86GHz/DDR2-800CL4 |
| |
* Die Leistung des Core 2 Quad Q6700 wurde mit Hilfe des Core 2 Extreme QX6800 emuliert.
Bei Super PI, einem Test welcher primär auf die Taktrate reagiert, kann sich der Core 2 QX9650 eine Sekunde Vorsprung vor dem Core 2 QX6850 herausarbeiten.
Intel Core 2 Extreme QX9650: Der 45 nm Yorkfield im Praxistest - 12/19
29.10.2007 by doelf
Zur HTML-Ansicht