Un agent IA peut déjà reproduire de manière autonome des articles universitaires complexes : Mollick affirme que les erreurs proviennent davantage des textes originaux humains que de l’IA

Le professeur de l’Institute Wharton de l’université de Pennsylvanie, Ethan Mollick, a publié sur la plateforme X le 4/25 une observation qui a un impact fort sur le monde académique : aujourd’hui, les agents IA peuvent déjà reproduire indépendamment des résultats de recherche universitaires complexes sans avoir le texte original des articles ni le code original, uniquement à partir de descriptions des méthodes publiques et des données. Mollick a en outre indiqué que lorsque ces versions reproduites par l’IA diffèrent de l’article original, « les erreurs viennent souvent du texte de l’humain lui-même, et non de l’IA ». Il s’agit d’un tournant concret dans la crise de la reproductibilité de la recherche à l’ère de l’IA générative : l’évaluation par les pairs, autrefois nécessitant des ressources humaines coûteuses, est désormais accomplie à grande échelle et à faible coût par l’IA.

Claude reproduit plusieurs articles, puis vérifie une seconde fois avec GPT-5 Pro

Dans son blog OneUsefulThing et dans ce fil de publication, Mollick décrit ses expériences concrètes avec Claude : il donne à Claude un article académique, lui demande d’ouvrir l’archive, de trier les fichiers, de convertir automatiquement le code STATA utilisé pour les statistiques en Python, puis d’exécuter successivement toutes les découvertes présentées dans l’article. Une fois Claude terminé, il utilise ensuite GPT-5 Pro pour effectuer un deuxième contrôle sur les mêmes résultats de reproduction. Plusieurs articles sont testés de la même manière ; les résultats sont globalement concluants, et ne sont bloqués que lorsque les fichiers de données sont trop volumineux ou lorsque les données de replication data elles-mêmes présentent des problèmes.

Pour le monde académique, ce processus demandait auparavant généralement des semaines, voire des mois, au personnel d’assistance à la recherche. L’ampleur temporelle décrite par Mollick correspond à un après-midi ou à une journée, et le coût de fonctionnement se limite aux frais de tokens de l’API LLM commerciale.

Les erreurs viennent plus souvent du texte humain d’origine, pas de l’IA

Plus controversé encore est le jugement de Mollick sur « qui se trompe ». Dans son message, il affirme clairement que lorsque les résultats reproduits par l’IA ne correspondent pas à l’article original, dans la majorité des cas, ce n’est pas l’IA qui se trompe, mais l’article original qui comporte des erreurs de traitement des données, un usage erroné du modèle, ou des conclusions dépassant le cadre de ce que les données soutiennent. Dans les sciences sociales comme la psychologie, l’économie comportementale, la gestion, on a déjà observé à plusieurs reprises au cours des dix dernières années des événements majeurs de crise de reproductibilité. Le plus connu est la grande étude de reproduction de 2015 de Open Science Collaboration : seulement environ 36 % des résultats des articles de psychologie ont pu être reproduits indépendamment. La capacité des agents IA à faire passer ce test de la logique « nécessitant un assemblage de main-d’œuvre » à celle « exécutable universellement », constitue la limite.

Apprendre à toujours interdire l’IA dans les comités de soumission, tandis que les institutions sont en retard sur la technique

Dans un autre message du 4/25, Mollick désigne explicitement la plus grande association de son domaine, l’Academy of Management, qui interdit encore clairement à l’IA d’entrer dans le processus de soumission et d’évaluation des articles. Il cite des recherches existantes montrant que l’examen par IA est déjà meilleur, en termes de précision, de cohérence et de contrôle des biais, que certains évaluateurs humains traditionnels ; ainsi, la position de « interdiction » pourrait à l’envers aggraver l’échec des systèmes d’évaluation existants. L’écart entre cette institution et la technologie est une question de politique que le monde de l’édition académique, les associations et les organismes financeurs devront affronter dans les 1–2 prochaines années.

Pour les lecteurs, ce débat ne se limite pas à l’académie. Lorsque les agents IA peuvent valider instantanément les résultats de recherche, les citations de la recherche dans l’industrie, les rapports de politique publique et les fondements académiques utilisés dans la prise de décision financière feront entrer une nouvelle exigence de vérification : « la conclusion résiste-t-elle à une reproduction indépendante par une IA ». En réponse à l’ajout de Mollick dans un autre message, il estime que le gouvernement est la seule entité capable de servir d’ancrage pour définir les règles de ce test lorsque la puissance des outils continue d’augmenter. Et la complexité de la conception des politiques deviendra, en parallèle, un axe relativement négligé dans les discussions sur la gouvernance de l’IA.

Cet article sur les agents IA peut déjà reproduire indépendamment des articles académiques complexes : Mollick affirme que les erreurs viennent davantage du texte humain original que de l’IA, et cet article apparaît pour la première fois sur Chaîne Nouvelles ABMedia.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.
Commentaire
0/400
Aucun commentaire