Google dévoile les TPU 8t et 8i : deux puces spécialisées pour l'ère des agents IA

blog.google — 2026-04-22T00:00:00+00:00

Résumé

Google lance ses huitièmes générations de processeurs TPU : le TPU 8t optimisé pour l'entraînement de modèles massifs et le TPU 8i conçu pour l'inférence à faible latence. Ces puces visent à accélérer le développement des agents IA autonomes avec une meilleure efficacité énergétique.

Les faits

Google a présenté lors de Cloud Next 2026 deux architectures de puces spécialisées marquant un tournant stratégique dans son approche de l'infrastructure IA. Le TPU 8t, optimisé pour l'entraînement, peut monter jusqu'à 9 600 TPU dans un superpod unique avec 2 pétaoctets de mémoire partagée à haut débit. Cette configuration offre trois fois la puissance de traitement de la génération précédente (Ironwood) et délivre jusqu'à deux fois plus de performance par watt. Le TPU 8i, dédié à l'inférence, connecte 1 152 TPU dans un pod unique en réduisant drastiquement la latence. Doté de trois fois plus de mémoire SRAM embarquée, il double la bande passante ICI à 19,2 Tb/s et réduit le diamètre du réseau ICI de plus de 50 %. L'introduction d'un moteur d'accélération des collectifs dédiés (CAE) abaisse la latence sur puce jusqu'à cinq fois, minimisant les délais lors de requêtes haute concurrence. Google revendique 80 % de meilleure performance par dollar pour l'inférence comparé à la génération antérieure. Cette approche bipolaire répond à une évolution fondamentale : les besoins en infrastructure pour l'entraînement, l'affinage et le déploiement en temps réel ont divergé. Les deux puces intègrent des processeurs Axion basés sur Arm pour éliminer le goulot d'étranglement du serveur causé par la latence de préparation des données. Ces systèmes constituent les composants clés de l'AI Hypercomputer de Google Cloud, une architecture de supercalcul intégrée combinant matériel, logiciels et réseaux pour l'ensemble du cycle de vie de l'IA.

Pourquoi c’est important

Cette annonce marque un tournant stratégique majeur : Google se positionne directement face à Nvidia en proposant une alternative d'infrastructure IA complète et spécialisée. Alors que Nvidia domine le marché avec ses GPU généralistes, Google adopte une stratégie de différenciation par la spécialisation. En séparant explicitement les besoins de l'entraînement et de l'inférence, Google reconnaît que l'ère des agents IA autonomes exige une infrastructure radicalement différente des modèles précédents. Cette segmentation permet une optimisation fine de chaque étape du cycle de vie de l'IA, réduisant les coûts et améliorant les performances de manière significative. L'enjeu commercial est considérable pour Google Cloud. Les clients d'entreprise cherchent à réduire leurs dépenses en infrastructure IA tout en accélérant le déploiement d'agents autonomes complexes. Les gains affichés — trois fois plus de puissance pour l'entraînement, 80 % de meilleure efficacité pour l'inférence — pourraient convaincre les organisations à migrer vers l'écosystème Google. Cependant, le succès dépendra de la disponibilité réelle, du prix compétitif et de la capacité de Google à démontrer que ces puces offrent un avantage tangible sur les solutions Nvidia établies et largement déployées.

Questions fréquentes

Quelle est la différence principale entre TPU 8t et TPU 8i ?

Le TPU 8t est optimisé pour l'entraînement de modèles massifs avec jusqu'à 9 600 TPU par superpod, tandis que le TPU 8i est conçu pour l'inférence à faible latence avec 1 152 TPU par pod, idéal pour exécuter des millions d'agents IA simultanément.

Quand seront disponibles les TPU 8t et 8i ?

Google a annoncé que les deux puces seront disponibles plus tard en 2026 pour les clients de Google Cloud. Les clients intéressés peuvent dès maintenant demander des informations pour se préparer.

Quel est l'avantage en termes d'efficacité énergétique ?

Le TPU 8t offre jusqu'à deux fois plus de performance par watt comparé à la génération précédente. Le TPU 8i revendique 80 % de meilleure performance par dollar pour l'inférence.

Comment ces puces s'intègrent-elles dans l'écosystème Google ?

Les TPU 8t et 8i sont des composants clés de l'AI Hypercomputer de Google Cloud, une architecture intégrée combinant matériel, logiciels et réseaux pour l'ensemble du cycle de vie de l'IA.

Pourquoi Google a-t-il créé deux puces distinctes ?

Les besoins en infrastructure pour l'entraînement, l'affinage et le déploiement en temps réel ont divergé. Deux architectures spécialisées permettent une optimisation fine de chaque étape et une meilleure efficacité globale.

Source

blog.google

Auteur

Rédaction IA-Medias

Rédaction spécialisée dans la veille et l'analyse de l'actualité de l'intelligence artificielle, des puces IA, des robots, des agents IA et de la recherche.