Gemma 4 12B de Google DeepMind met l’IA multimodale sur un laptop de 16 Go

D'après The Decoder (3 juin 2026 à 21h54)

Résumé

Google DeepMind a lancé Gemma 4 12B, un modèle ouvert qui traite nativement le texte, les images et l’audio, tout en tournant sur des ordinateurs portables dotés de 16 Go de RAM. Il est publié sous licence Apache 2.0 pour un usage commercial et se rapproche du modèle 26B dans les benchmarks.

Les faits

Google DeepMind a publié Gemma 4 12B, présenté comme un modèle ouvert qui traite nativement le texte, les images et l’audio, sans encodeurs séparés. Le modèle est conçu pour réduire le temps de traitement, l’usage mémoire et la latence, selon Google. Le modèle peut fonctionner localement sur des ordinateurs portables équipés de 16 Go de RAM. Il est aussi décrit comme le premier modèle Gemma de taille intermédiaire à intégrer nativement l’audio. Selon Google, Gemma 4 12B se rapproche du modèle 26B, deux fois plus grand, dans les benchmarks. L’extrait précise aussi qu’il couvre la reconnaissance vocale, la génération de code et l’analyse vidéo. La publication indique enfin que Gemma 4 12B est distribué sous licence Apache 2.0 pour un usage commercial. Le modèle est disponible sur Hugging Face, Ollama, LM Studio et d’autres plateformes.

Pourquoi c’est important

Cette sortie compte parce qu’elle rapproche des usages multimodaux avancés du matériel grand public. Le fait qu’un modèle ouvert traite texte, image et audio nativement sur un laptop de 16 Go de RAM élargit nettement le terrain des déploiements locaux. L’autre enjeu est stratégique : si Gemma 4 12B se rapproche du 26B malgré une taille deux fois moindre, Google DeepMind montre qu’il est possible de comprimer les performances sans renoncer à l’accès commercial. Cela renforce l’intérêt des modèles ouverts pour les développeurs et les entreprises.

Questions fréquentes

Que sait faire Gemma 4 12B ?

Il traite nativement le texte, les images et l’audio, et l’extrait mentionne aussi la reconnaissance vocale, la génération de code et l’analyse vidéo.

Sur quel matériel peut-il tourner ?

Google indique qu’il fonctionne localement sur des laptops avec 16 Go de RAM.

Sous quelle licence est-il diffusé ?

Gemma 4 12B est publié sous licence Apache 2.0, y compris pour un usage commercial.

Comment se situe-t-il face au modèle 26B ?

Selon Google, il se rapproche du modèle 26B dans les benchmarks, alors qu’il est deux fois plus petit.

Source

The Decoder

Auteur

Rédaction IA-Medias

Rédaction spécialisée dans la veille et l'analyse de l'actualité de l'intelligence artificielle, des puces IA, des robots, des agents IA et de la recherche.