blog

Meta pris en flagrant délit de manipulation des critères de performance de l’IA

Meta pris en flagrant délit de manipulation des critères de performance de l'IA
écrit par Christophe

Meta dévoile deux nouveaux modèles Llama 4 : Scout et Maverick

Introduction aux nouveaux modèles

Ce week-end, Meta a annoncé la sortie de deux nouveaux modèles Llama 4 : Scout, un modèle plus compact, et Maverick, un modèle de taille moyenne que l’entreprise affirme surpasserait GPT-4o et Gemini 2.0 Flash sur un large éventail de critères de référence bien connus (source Meta).

Palmarès impressionnant mais controversé

Maverick a rapidement atteint la deuxième place sur LMArena, le site de référence où les humains comparent les sorties de différents systèmes et votent pour la meilleure. Selon le communiqué de presse de Meta, Maverick a obtenu un score ELO de 1417, le plaçant au-dessus de celui de OpenAI’s 4o et juste en dessous de Gemini 2.5 Pro. Un score ELO élevé indique que le modèle gagne plus souvent lors de confrontations directes avec ses compétiteurs.

Cependant, cette performance impressionnante semble positionner Llama 4 de Meta comme un sérieux concurrent aux modèles fermés d’OpenAI, Anthropic et Google. Pourtant, des chercheurs en IA ont découvert un détail intrigant dans la documentation de Meta.

Un modèle optimisé pour la discussion

En petits caractères, Meta reconnaît que la version de Maverick testée sur LMArena n’est pas celle mise à disposition du public. Selon Meta, une “version expérimentale de chat”, spécifiquement “optimisée pour la conversation” a été déployée pour les tests sur LMArena (source TechCrunch).

La vision de Meta ne correspondait pas à nos attentes pour les fournisseurs de modèles, a publié LMArena sur X deux jours après le lancement du modèle. Meta aurait dû préciser que ‘Llama-4-Maverick-03-26-Experimental’ était un modèle personnalisé optimisé pour les préférences humaines. Nous allons désormais renforcer nos politiques pour garantir des évaluations justes et reproductibles pour éviter de telles confusions à l’avenir.

Réaction et vision de Meta

Un porte-parole de Meta, Ashley Gabriel, a expliqué dans un communiqué par email que “nous expérimentons toutes sortes de variantes personnalisées.”

“‘Llama-4-Maverick-03-26-Experimental’ est une version optimisée pour le chat que nous avons testée et qui performe bien sur LMArena,” a déclaré Gabriel. “Nous avons maintenant publié notre version open source et nous attendons de voir comment les développeurs vont personnaliser Llama 4 pour leurs propres cas d’utilisation. Nous sommes impatients de découvrir ce qu’ils vont construire et attendons leurs retours continus.”

Considérations sur les benchmarks

Bien que ce que Meta a fait avec Maverick ne soit pas explicitement contraire aux règles de LMArena, le site a exprimé ses préoccupations quant à la manipulation du système et a pris des mesures pour “prévenir la sur-adaptation et la fuite de référence.”

“C’est le benchmark général le plus respecté car tous les autres sont médiocres,” souligne Simon Willison, chercheur indépendant en IA, dans une interview avec The Verge. “Quand Llama 4 est sorti, le fait qu’il soit arrivé deuxième juste après Gemini 2.5 Pro — cela m’avait vraiment impressionné, et je me blâme de ne pas avoir lu les petits caractères.”

Rumeurs et accusations

Peu après la sortie de Maverick et Scout par Meta, des rumeurs ont circulé concernant une éventuelle amélioration ciblée des modèles Llama 4 pour mieux performer sur les benchmarks, tout en masquant leurs vraies limitations. Ahmad Al-Dahle, vice-président de l’IA générative chez Meta, a répondu à ces accusations, affirmant que ces affirmations étaient fausses.

“Nous avons également entendu des affirmations selon lesquelles nous nous serions entraînés sur des ensembles de tests — ce n’est tout simplement pas vrai et nous ne le ferions jamais. Notre meilleure compréhension est que la qualité variable observée est due à la nécessité de stabiliser les implémentations.”

 

Le chemin vers la sortie de Llama 4 par Meta n’a pas été un long fleuve tranquille.

En fin de compte, l’utilisation d’un modèle optimisé dans LMArena place les développeurs dans une position délicate, car les benchmarks, comme dans le cas de Maverick, peuvent refléter des capacités qui ne sont en réalité pas accessibles au public.

Cet épisode souligne comment les benchmarks deviennent des champs de bataille dans le développement rapide de l’IA et témoigne de la volonté de Meta de se distinguer en tant que leader de l’IA, même si cela implique de contourner le système.

5/5 - (3 votes)
No. 1
Meta Quest 3 512 Go Le Plus performant...
  • Découvrez une façon unique de faire tout ce que vous adorez faire. Vous pouvez désormais obtenir des...
  • Meta Quest 3 est le casque de réalité virtuelle ultime, doté d’un affichage Infinite Display qui offre le...
  • Vivez une expérience de jeu ultime et redécouvrez vos titres Xbox préférés sur un écran géant de...
No. 2
Meta Quest 3 512 Go – Le plus...
  • Meta Quest 3 est le casque de réalité virtuelle ultime, doté d’un affichage Infinite Display qui offre le...
  • Vivez une expérience de jeu ultime et redécouvrez vos titres Xbox préférés sur un écran géant de...
  • Découvrez des environnements ultra-détaillés plus vrais que nature qui vous donneront envie de les toucher...
No. 3
Lunettes Ray-Ban Meta Wayfarer...
  • Noir mat/Gris foncé
  • Taille 53/22/155
  • Garantie internationale de 2 ans
No. 4
Ray-Ban Meta Wayfarer Lunettes IA pour...
  • Profitez du style emblématique et de la technologie avancée avec Ray-Ban Meta. Prenez des photos et des...
  • Discutez avec Meta AI pour recevoir des suggestions, des réponses et des rappels. De plus, la traduction en...
  • Prenez des photos et des vidéos mains libres avec un appareil photo ultra large de 12 MP. Avec une qualit...
No. 5
Meta Quest 3S 256 Go – Plongez dans la...
  • Découvrez des milliers d’expériences immersives. Grâce à la réalité virtuelle, vous pouvez augmenter...
  • Vivez une expérience de jeu ultime et redécouvrez vos titres Xbox préférés sur un écran géant de...
  • Amusez-vous encore plus entre amis avec Quest. Plongez dans un jeu immersif avec des personnes du monde...
No. 6
Meta Carte Cadeau - €100 - Meta Quest...
  • Pour l'activer, vous n'avez besoin que de l'adresse e-mail du destinataire. Choisissez le montant que vous...
  • Le solde n'a pas de date d'expiration et peut être utilisé dans le Meta Horizon Store, qui propose des...
  • Les cartes cadeaux sont le cadeau de dernière minute idéal. Avec des expériences de réalité mixte pour...
No. 7
Ray-Ban Meta Wayfarer Large Lunettes IA...
  • Lunettes IA n°1 : profitez d'un style emblématique pour homme et femme, et d'une technologie avancée avec...
  • Jusqu'à 8 heures d'autonomie : sur une charge complète, ces lunettes intelligentes IA peuvent durer 2 fois...
  • Ultra HD 3K : enregistrez des vidéos nettes avec des détails riches – Capturez des photos et des vidéos...
No. 8
DuHeSin Lot de 2 bloqueurs de lumière...
  • Bloqueur de lumière LED pour accessoires de lunettes RayBan Meta : Notre couvre-lumière LED conçu de...
  • Compatibilité : compatible avec les lunettes intelligentes Rayban Meta (Gen 1 et Gen...
  • Principe de fonctionnement des lunettes anti-lumière LED : Les lunettes intelligentes sont équipées de...
No. 9
Meta Quest 3S 128 Go (Reconditionn...
  • Explorez des milliers d’expériences immersives grâce à la réalité mixte, qui vous permet d’intégrer...
  • Transformez n’importe quelle pièce en salle de cinéma. Tamisez l’espace autour de vous et regardez vos...
  • Amusez-vous entre amis avec Quest. Explorez un jeu immersif avec des amis du monde entier, assistez ensemble...
No. 10
Câble Link pour Meta Quest...
  • Élargissez votre bibliothèque. Accédez à plus de 1 000 titres VR sur PC dans la bibliothèque Meta Quest...
  • Profitez d’une grande liberté de mouvement en VR grâce au câble extra long de 5 m, même en étant...
  • Bénéficiez d’une expérience fluide. Le câble Link vous offre un débit élevé (jusqu’à 5 Go/s) pour...

A propos de l'auteur

Christophe

Laisser un commentaire