Sommaire
Meta dévoile deux nouveaux modèles Llama 4 : Scout et Maverick
Introduction aux nouveaux modèles
Ce week-end, Meta a annoncé la sortie de deux nouveaux modèles Llama 4 : Scout, un modèle plus compact, et Maverick, un modèle de taille moyenne que l’entreprise affirme surpasserait GPT-4o et Gemini 2.0 Flash sur un large éventail de critères de référence bien connus (source Meta).
Palmarès impressionnant mais controversé
Maverick a rapidement atteint la deuxième place sur LMArena, le site de référence où les humains comparent les sorties de différents systèmes et votent pour la meilleure. Selon le communiqué de presse de Meta, Maverick a obtenu un score ELO de 1417, le plaçant au-dessus de celui de OpenAI’s 4o et juste en dessous de Gemini 2.5 Pro. Un score ELO élevé indique que le modèle gagne plus souvent lors de confrontations directes avec ses compétiteurs.
Cependant, cette performance impressionnante semble positionner Llama 4 de Meta comme un sérieux concurrent aux modèles fermés d’OpenAI, Anthropic et Google. Pourtant, des chercheurs en IA ont découvert un détail intrigant dans la documentation de Meta.
Un modèle optimisé pour la discussion
En petits caractères, Meta reconnaît que la version de Maverick testée sur LMArena n’est pas celle mise à disposition du public. Selon Meta, une “version expérimentale de chat”, spécifiquement “optimisée pour la conversation” a été déployée pour les tests sur LMArena (source TechCrunch).
La vision de Meta ne correspondait pas à nos attentes pour les fournisseurs de modèles, a publié LMArena sur X deux jours après le lancement du modèle. Meta aurait dû préciser que ‘Llama-4-Maverick-03-26-Experimental’ était un modèle personnalisé optimisé pour les préférences humaines. Nous allons désormais renforcer nos politiques pour garantir des évaluations justes et reproductibles pour éviter de telles confusions à l’avenir.
Réaction et vision de Meta
Un porte-parole de Meta, Ashley Gabriel, a expliqué dans un communiqué par email que “nous expérimentons toutes sortes de variantes personnalisées.”
“‘Llama-4-Maverick-03-26-Experimental’ est une version optimisée pour le chat que nous avons testée et qui performe bien sur LMArena,” a déclaré Gabriel. “Nous avons maintenant publié notre version open source et nous attendons de voir comment les développeurs vont personnaliser Llama 4 pour leurs propres cas d’utilisation. Nous sommes impatients de découvrir ce qu’ils vont construire et attendons leurs retours continus.”
Considérations sur les benchmarks
Bien que ce que Meta a fait avec Maverick ne soit pas explicitement contraire aux règles de LMArena, le site a exprimé ses préoccupations quant à la manipulation du système et a pris des mesures pour “prévenir la sur-adaptation et la fuite de référence.”
“C’est le benchmark général le plus respecté car tous les autres sont médiocres,” souligne Simon Willison, chercheur indépendant en IA, dans une interview avec The Verge. “Quand Llama 4 est sorti, le fait qu’il soit arrivé deuxième juste après Gemini 2.5 Pro — cela m’avait vraiment impressionné, et je me blâme de ne pas avoir lu les petits caractères.”
Rumeurs et accusations
Peu après la sortie de Maverick et Scout par Meta, des rumeurs ont circulé concernant une éventuelle amélioration ciblée des modèles Llama 4 pour mieux performer sur les benchmarks, tout en masquant leurs vraies limitations. Ahmad Al-Dahle, vice-président de l’IA générative chez Meta, a répondu à ces accusations, affirmant que ces affirmations étaient fausses.
“Nous avons également entendu des affirmations selon lesquelles nous nous serions entraînés sur des ensembles de tests — ce n’est tout simplement pas vrai et nous ne le ferions jamais. Notre meilleure compréhension est que la qualité variable observée est due à la nécessité de stabiliser les implémentations.”
Le chemin vers la sortie de Llama 4 par Meta n’a pas été un long fleuve tranquille.
En fin de compte, l’utilisation d’un modèle optimisé dans LMArena place les développeurs dans une position délicate, car les benchmarks, comme dans le cas de Maverick, peuvent refléter des capacités qui ne sont en réalité pas accessibles au public.
Cet épisode souligne comment les benchmarks deviennent des champs de bataille dans le développement rapide de l’IA et témoigne de la volonté de Meta de se distinguer en tant que leader de l’IA, même si cela implique de contourner le système.
