Architettura Fermi “GF100”:
Il PCB della GeForce GTX 465 misura 24cm, risultando pertanto sensibilmente più corta di una GTX 480.
La Geforce GTX 465 ha una potenza di calcolo di circa 1,6 TeraFLOPS. Il TDP della scheda è di 200 Watt, quindi inferiore di 15W rispetto a quello della GTX470 e di ben 50 Watt rispetto alla proposta top di gamma GTX480. Questo valore rientra nel limite dei 300 watt dettato dal PCI-SIG (il consorzio che stabilisce i parametri da seguire per lo sviluppo). La scheda richiede il collegamento di due connettori PCI-E ausiliari a 6pin.
A questo proposito, si raccomanda l'uso di un alimentatore da almeno 550 watt per non incappare in spiacevoli sorprese. In caso di SLI di due GTX 465 raccomandiamo almeno un alimentatore di buona fattura da 700 watt.
I CUDA Core hanno preso il posto degli Streaming Processor (SPs), ma le funzionalità di base rimangono le stesse. Praticamente è solo cambiata la terminologia da parte di Nvidia.
Osserviamo come le unità Streaming Multiprocessor (SMs) prendono il posto delle unità Texture Processing Cluster (TPCs); anche questa è una nuova denominazione a livello di marketing.
Un aspetto importante dell’architettura GF100 è la modularità. Con la GTX 465 infatti, NVIDIA si è limitata ad “adattare” la sua GPU rimuovendo porzioni al costoso GF100.
Notiamo che rispetto alla soluzione top di gamma è stato disabilitato 1 GPC (Graphics Processing Clusters). Il totale dei GPC attivi scende quindi a 3. Ricordiamo che ogni GPC include 4 SM. Abbiamo quindi 12 SM, ma anche in questo caso NVIDIA ha optato per una riduzione, disabilitandone uno.
Ognuno di questi Streaming Multiprocessor conta 32SP, da qui ricaviamo i 32SP della GTX465.
Inoltre ogni SM conta quattro texture unit, 16 unità di Load/Store, quattro unità speciali (SFU), 64 KB di memoria e un PolyMorph Engine. Le unità SFU possono eseguire istruzioni come seno, coseno e radice quadrata, inoltre sono adibite anche all’interpolazione grafica.
Ogni unità Streaming Multiprocessor (SM) ha al suo interno 32 CUDA Core, quattro unità di texturing, un PolyMorph engine e della cache dedicata.
Il PolyMorph Engine è responsabile delle operazioni di Vertex Fetch, Tessellation, Viewport Transform, Attribute Setup, e Stream Output; in questo blocco logico possiamo trovare il Tessellator, probabilmente il più grande cambiamento richiesto a livello hardware e introdotto dalle DirectX 11 per le GPU di nuova generazione. Il PolyMorph Engine è distribuito in numero di quattro per ogni GPC per un totale di 16 unità.
Ogni singolo CUDA Core integra al proprio interno un Dispatch Port, una unità per la raccolta degli operanti, una unità in floating point e una per i calcoli interni oltre ad una result queue. Le elaborazioni interne ad ognuno di questi core sono eseguite con precisione IEEE-754 2008 per le operazioni in virgola mobile e a 32bit per quelle con interi: la risultante sono unità di elaborazione indipendenti per le due tipologie che sono pienamente compatibili con gli standard di mercato, caratteristica particolarmente utile non tanto in ambito gaming quanto in quello delle applicazioni GPU Computing.
In Fermi la capacità di elaborazione in double precision in virgola mobile è stata incrementata. Il valore di picco nell'esecuzione di codice a doppia precisione in virgola mobile è ora pari alla metà di quanto ottenibile in singola precisione.
Il sottosistema della memoria è costituito da quattro memory controller a 64 bit (4 x 64 = 256 bit in totale), da una cache L2 e da 32 ROP; le ROP sono organizzate in quattro gruppi da otto e sono rappresentate nello schema a blocchi dai rettangoli blu scuri adiacenti alla cache L2. Ogni gruppo di ROP è accompagnato da un Memory controller per un totale di quattro.
Per ogni streaming microprocessor troviamo una cache dedicata da 64 Kbytes di capacità, partizionabile come memoria condivisa e come cache L1: i rapporti sono 1:3 oppure 3:1. Il rapporto è funzione del tipo di applicazione che viene eseguita.
Riassumiamo nella tabella sottostante le caratteristiche principali del chip GF100:
Le frequenze operative standard della GTX 465 sono pari a 607 MHz per il core e 802 MHz (3.2GHz reali) per i 1024 MB di ram. Il programma Gpu-z rileva correttamente tutte le caratteristiche della scheda.