Google TPU 8t e 8i, Axion e Virgo: il nuovo stack AI contro Nvidia

Per anni il potere dell’intelligenza artificiale è sembrato passare da un solo luogo: i rack Nvidia. I laboratori di frontiera li volevano per addestrare modelli sempre più costosi. I cloud provider li volevano per servire inferenza a scala planetaria. Gli investitori li guardavano come il punto in cui si concentrava una quota crescente del valore del settore. Google prova adesso a spostare quel baricentro. A Cloud Next non ha presentato soltanto una nuova generazione di TPU. Ha mostrato un disegno più ampio: separare training e inferenza, legare i nuovi acceleratori ai processori Arm Axion, ricablare rete e storage e trasformare il calcolo AI in un sistema sempre meno dipendente da un singolo fornitore.

I nomi tecnici sono molti — TPU 8t, TPU 8i, Virgo Network, Managed Lustre, AI Hypercomputer — ma raccontano una sola direzione. Google vuole controllare con maggiore precisione il percorso che porta dai dati all’addestramento, dall’addestramento all’inferenza, dall’inferenza agli agenti e dagli agenti al margine del cloud. In un’industria in cui il costo del silicio, dell’energia e della rete pesa sempre di più, il vantaggio competitivo non nasce soltanto dal modello migliore. Nasce dalla capacità di decidere dove quel modello viene addestrato, con quale latenza viene servito, quanta memoria consuma, quanta banda richiede e quanto costa davvero ogni risposta.

Questa è la posta della mossa Google. Finché il calcolo AI resta appoggiato quasi interamente su un’architettura esterna, il cloud provider mantiene scala e distribuzione, ma cede una parte del proprio potere industriale. I prezzi del silicio, la disponibilità delle macchine, i tempi di consegna, i margini e perfino una parte della differenziazione di prodotto vengono decisi altrove. Google non sta cercando una fuga totale da Nvidia. Sta cercando qualcosa di più utile e più realistico: ridurre la subordinazione a un centro unico del calcolo e riportare una quota crescente del valore dentro una pila progettata in casa.

Questa sfumatura conta. Nella stessa settimana in cui ha mostrato i nuovi TPU, Google ha annunciato anche nuova infrastruttura Nvidia, incluse istanze basate su Vera Rubin NVL72. Non c’è nessun divorzio ideologico in corso. C’è una trattativa industriale da una posizione più forte. Se un hyperscaler dispone di chip interni, CPU proprie, una rete ottimizzata, storage pensato per il training e ambienti software che tengono insieme tutto il sistema, non smette di comprare da Nvidia. Smette però di dipendere da Nvidia come se non esistesse alternativa.

Google separa training e inferenza

La decisione più importante del pacchetto annunciato a Next è la separazione esplicita tra training e inferenza. Per molto tempo il mercato ha trattato il calcolo AI come una grande massa uniforme di acceleratori. Più potenza, più memoria, più interconnessioni, più chip nel cluster. Era una semplificazione utile in una fase in cui il problema principale sembrava addestrare modelli sempre più grandi. Oggi quella lettura è diventata insufficiente.

Addestrare un modello di frontiera e servirlo davanti a miliardi di richieste non sono più variazioni dello stesso mestiere. Il training richiede throughput estremo, sincronizzazione di grandi cluster, capacità di alimentare il sistema con dataset enormi e di comprimere settimane di lavoro in finestre operative gestibili. L’inferenza richiede invece latenza bassa, uso più disciplinato della memoria, migliore gestione del contesto, efficienza nel serving continuo e un rapporto costi-prestazioni che non trasformi ogni risposta in una tassa sui margini. L’età degli agenti ha reso questa differenza ancora più netta. Un agente non produce soltanto testo: chiama strumenti, conserva stato, coordina passaggi multipli, apre nuovi cicli di richiesta e costringe l’infrastruttura a sostenere carichi più vicini a un sistema operativo che a una semplice query.

Google ha scelto di tradurre questa frattura in hardware distinto. TPU 8t è la piattaforma pensata per il pre-training e per i carichi ad alta intensità di throughput. TPU 8i è la piattaforma pensata per inferenza, ragionamento e reinforcement learning, dove latenza, memoria e continuità del servizio pesano di più. Questo non è un dettaglio da architetti di data center. È il segnale che il calcolo AI è entrato in una fase più matura, in cui i sistemi vengono specializzati per il punto preciso della filiera in cui devono lavorare.

Quando una filiera si consolida, smette di essere governata solo dalla dimensione della macchina. Comincia a essere governata dalla qualità della sua organizzazione. Lo si vede da decenni in altri settori industriali. Non basta possedere grandi impianti. Bisogna saperli far lavorare in modo coerente, con meno colli di bottiglia, meno tempi morti, meno sprechi di capitale fisso. Nel calcolo AI sta accadendo la stessa cosa. Un acceleratore non vale più solo per la potenza nominale che promette. Vale per il punto del ciclo in cui si inserisce e per quanto riesce a ridurre attriti, attese e sottoutilizzo dell’infrastruttura.

Google sta cercando di costruire proprio questo. Non una singola macchina simbolica, ma una filiera del calcolo in cui training e inferenza smettano di farsi concorrenza dentro la stessa pila e diventino funzioni ottimizzate in modo diverso. Per un cloud provider, questa è una mossa che tocca insieme tecnica, margini e potere contrattuale.

Il tempo del modello diventa prodotto

La parte più interessante di TPU 8t non sta tanto nella sfilata dei numeri, pur notevoli, quanto nel tipo di tempo che Google vuole comprimere. Nel mercato dei modelli di frontiera, accorciare i cicli di training non significa solo pubblicare una release prima dei rivali. Significa poter tentare più architetture, scartare prima le strade sbagliate, iterare meglio sul post-training, correggere degradi senza immobilizzare troppo capitale e distribuire i costi enormi di ricerca su più clienti e più prodotti.

Ogni settimana risparmiata su un addestramento di grande scala vale denaro, certo, ma vale anche apprendimento organizzativo. Vale la possibilità di fare più tentativi nello stesso anno. Vale la possibilità di alimentare in modo più aggressivo la ricerca interna. Vale la capacità di non restare paralizzati quando il mercato cambia più in fretta del previsto. Nel settore AI, il tempo non è solo efficienza: è vantaggio epistemico.

Per questo Google insiste non solo sulla potenza del nuovo TPU, ma sulle interconnessioni, sulla memoria condivisa e sul software che orchestra il cluster. Il messaggio è semplice: non basta avere molti acceleratori, bisogna farli lavorare come un corpo unico. Virgo Network si colloca precisamente qui. Non è una rifinitura accessoria. È la parte della macchina che deve permettere a grandi masse di TPU 8t di scalare senza trasformare la crescita del cluster in congestione, latenza o inefficienza nascosta.

Una parte importante del vantaggio dei grandi cloud provider si giocherà ormai su questo terreno. Se il training di frontiera resta vincolato a una pila standard acquistata da terzi, l’offerta tende a somigliarsi: componenti comparabili, costi comparabili, margini compressi, differenze ridotte a prezzo, disponibilità e marketing. Se invece un hyperscaler possiede chip, rete, orchestrazione e framework ottimizzati per lavorare insieme, può offrire non solo capacità bruta, ma tempi più affidabili, maggiore prevedibilità operativa e una relazione costi-prestazioni più difendibile.

In un’industria che consuma capitale a ritmi quasi energetici, la prevedibilità è già un prodotto. Lo è per i laboratori che vogliono sapere in quanto tempo potranno chiudere un ciclo di training. Lo è per le aziende che costruiscono agenti e devono stimare i propri costi futuri. Lo è per il cloud provider stesso, che deve difendere margini in un mercato in cui la domanda di calcolo cresce più rapidamente della capacità di fornirlo senza frizioni.

L’inferenza decide se il business regge

Se TPU 8t riguarda il tempo dell’addestramento, TPU 8i riguarda il costo reale dell’AI quando esce dal laboratorio e diventa servizio. Per molto tempo l’inferenza è stata considerata la fase meno prestigiosa della pipeline: il luogo in cui si monetizza ciò che è già stato costruito. Oggi non è più così. Con modelli più grandi, contesti più lunghi, sistemi di ragionamento e agenti che iterano su più passaggi, l’inferenza è diventata una disciplina autonoma e spesso la più dura da sostenere economicamente.

Servire miliardi di query non richiede solo più chip. Richiede chip progettati per non sprecare memoria, per tenere vicino il KV cache, per gestire meglio richieste concorrenti, per ridurre il costo di ogni passaggio e per contenere la latenza sotto soglie compatibili con prodotti reali. Google presenta TPU 8i proprio come una risposta a questo problema: più memoria on-chip, più banda, migliore efficienza e una struttura esplicitamente pensata per carichi di inferenza e ragionamento.

Il significato industriale è immediato. Un modello può essere brillante in laboratorio, ma se ogni risposta costa troppo o richiede troppa infrastruttura, il business si deforma. O diventa un prodotto premium per pochi clienti. O scarica i costi sul prezzo finale. O erode i margini del fornitore. Oppure impone limiti così severi sull’uso da rendere l’esperienza inferiore alla promessa.

L’espansione degli agenti rende il problema ancora più severo. Un agente che usa strumenti, consulta dati esterni, coordina più task e torna più volte sul contesto non assomiglia più a una singola risposta generativa. Assomiglia a un flusso di lavoro computazionale continuo. Ogni punto di inefficienza nella memoria, nella banda o nell’orchestrazione si moltiplica. Per questo l’inferenza non è più il lato tranquillo della storia. È il luogo in cui si decide se l’AI resta una demo impressionante o diventa una macchina economica sostenibile.

Google sta dicendo che questa macchina economica non può essere costruita solo aggiungendo GPU sempre più costose. Deve essere ridisegnata per funzione. TPU 8i va letto così: non come la versione meno eroica del grande acceleratore, ma come il pezzo che deve rendere l’AI servibile a scala senza lasciare tutto il valore sulla tavola dei costi.

La vera sfida passa da rete, storage e CPU

Per ridurre il peso di Nvidia come collo di bottiglia non basta avere un acceleratore alternativo. Bisogna impedire che il resto della pipeline continui a dipendere da colli di bottiglia diversi ma altrettanto penalizzanti. Un cluster di TPU può essere molto competitivo, ma se i dati arrivano lentamente, se le CPU host non reggono la preparazione dei job, se lo storage rallenta i checkpoint o se la rete introduce congestione, il vantaggio del chip evapora. Google sembra aver deciso di intervenire proprio in questi punti.

Virgo Network è il tassello più visibile sul lato della rete. Managed Lustre e le funzioni di accesso diretto allo storage servono invece a spostare grandi quantità di dati verso il silicio con meno passaggi intermedi e meno overhead. Axion svolge una funzione altrettanto importante sul lato CPU: preparazione dei dati, orchestration, supporto ai job e gestione del lavoro circostante che non vive interamente dentro l’acceleratore. Nessuno di questi componenti, preso da solo, ha la forza simbolica di un chip. Insieme, però, cambiano la forma del sistema.

Questo è il passaggio che distingue una vera integrazione verticale da una semplice diversificazione dell’approvvigionamento. Un cloud provider può comprare GPU da più fornitori e restare comunque dipendente da un disegno generale costruito altrove. Quando invece controlla acceleratori, CPU, rete, storage e ambiente software, il vantaggio non si misura più per componente ma per composizione. E la composizione, a differenza del singolo pezzo, è molto più difficile da replicare.

C’è anche una lezione più ampia sul cloud. Per anni è stato raccontato come un grande business di scala e software. Oggi torna a mostrare una faccia più pesantemente industriale. Conta la qualità del raffreddamento, della rete, della memoria, dello storage parallelo, dei processori host, dei framework e della capacità di far dialogare tutto senza dispersioni. In questa prospettiva Google assomiglia sempre meno a un semplice venditore di capacità astratta e sempre più a un costruttore di sistemi completi del calcolo.

Questo cambia anche il rapporto con il cliente. Se l’infrastruttura è davvero progettata come una pila coerente, il cloud provider non vende più soltanto istanze o acceleratori. Vende una certa idea di come l’AI debba essere addestrata, servita e resa economicamente sopportabile. Chi entra in quella macchina non compra solo potenza. Compra efficienza operativa, prevedibilità e una forma specifica di dipendenza tecnica.

Google vuole riportare il valore dentro il proprio stack

Raccontare questa strategia come l’inizio di un mondo post-Nvidia sarebbe superficiale. I fatti mostrano altro. Google continua a lavorare anche con Nvidia e a offrire infrastruttura basata sui suoi sistemi più recenti. La partita è diversa. Google vuole che il valore del cloud AI non resti concentrato soprattutto nel fornitore dominante di acceleratori. Vuole riportarne una parte crescente dentro il proprio stack.

Per un hyperscaler, questo significa almeno tre cose. Prima di tutto controllo dei margini: se una quota crescente dei carichi gira su infrastruttura progettata in casa, il costo del silicio esterno pesa meno sull’economia complessiva. Poi capacità di segmentare meglio l’offerta: training da una parte, inferenza dall’altra, clienti diversi serviti con architetture diverse, maggiore precisione nella costruzione del prezzo. Infine differenziazione reale: smettere di apparire come un rivenditore ordinato di hardware altrui e diventare un ambiente di esecuzione con caratteristiche proprie.

È una scommessa molto più solida di qualunque benchmark isolato. Se funziona, Google potrà usare la stessa pila che sostiene Gemini, DeepMind e una parte crescente dei propri servizi consumer come leva per attrarre clienti cloud. Non offrirà soltanto modelli, strumenti e API. Offrirà una macchina industriale completa: chip, CPU, rete, storage, orchestration e ambienti di esecuzione progettati per stare insieme. In un settore dove ogni progresso richiede più capitale, più energia e più coordinamento, questa integrazione vale più di molte vittorie simboliche.

Da ora il vantaggio di Google non dipende solo dal fatto che TPU 8t o TPU 8i siano competitivi. Dipende dal fatto che l’azienda può decidere con più autonomia dove collocare training, inferenza e agenti, con quale costo, quale latenza e quale margine. Se questa scelta resta interna alla propria architettura, il cloud smette di essere soltanto il luogo in cui si noleggia calcolo e torna a essere il luogo in cui si decide chi controlla davvero il ritmo dell’AI.

Google riscrive il calcolo AI e riduce la dipendenza da Nvidia

Google separa training e inferenza

Il tempo del modello diventa prodotto

L’inferenza decide se il business regge

La vera sfida passa da rete, storage e CPU

Google vuole riportare il valore dentro il proprio stack

Go to article

Register for free and join ilFuturo.it members

Try it for free