Contexte

Les grands modèles de langue (LLM) génératifs sont omniprésents, intégrés dans des chaînes de traitement de plus en plus complexes, notamment de RAG (Retrieval Augmented Generation), offrant une grande variété de cas d’usage.
Leur évaluation pose cependant des problèmes sérieux : les benchmarks existants sont largement anglo-centrés (langue, culture), et ne couvrent pas forcément l’ensemble des usages et des domaines.
La question de leur évaluation se pose donc en particulier pour le français et plus généralement pour des langues autres que l’anglais.

Appel à communications

Dans cet atelier, nous proposons de réunir les chercheuses et chercheurs, industriels et académiques, s’intéressant aux multiples facettes de l’évaluation des LLM sur des domaines de spécialité ou sur des langues autres que l’anglais.
Nous souhaitons, cette année, mettre en avant le thème du RAG et des liens entre LLM et Recherche d'Information.

L’atelier sera construit autour d’une présentation invitée et de présentations de travaux sélectionnés suite à un appel à communications portant sur tous les travaux relevant de ce périmètre.
Cela inclut notamment les recherches concernant :

l’évaluation de systèmes complets, notamment de RAG
l’évaluation de modèles de fondation ou fine-tunés
la création ou adaptation de benchmarks, pour du français ou autres langues d’intérêt, bien ou peu dotées, en domaine général ou spécialisé, ou pour des langues bruitées ou non standard (eg. réseaux sociaux, commandes vocales…)
l’évaluation sur des tâches de TAL (traduction, résumé, extraction d’information…)
l’adaptation des méthodologies d’évaluation existantes aux systèmes génératifs
les dimensions éthiques, biais, privacy, alignement culturel ou législatif
les dimensions de performance en temps de calcul, mémoire, frugalité énergétique
l’évaluation avec des utilisateurs, ergonomie, aspects cognitifs
l’évaluation de modèles multimodaux (eg. texte-image, texte-parole…)
…

Voir la page "soumissions" pour les modalités de soumission d'un article.

Challenges

Dans le cadre de l’atelier EvalLLM2026, nous proposons deux challenges centrés sur les LLM.

Le premier challenge vise à une évaluation de LLM (ou d'autres approches) par la tâche. Il s'agit de liage d'entités dans le domaine médical dans un contexte few-shot. Pour une description complète, voir la page dédié.

Le deuxième challenge porte sur le RAG et l'attribution. Pour une description complète, voir la page dédiée.

Comités

L’atelier est co-porté par l’AMIAD (1) et le GT RAG du GdR CNRS TAL (2) :

Vincent Claveau, AMIAD, Rennes, vincent.claveau@def.gouv.fr
Nicolas Diniz, AMIAD, Rennes (1)
Juliane Flament, AMIAD, Rennes (1)
Nihel Kooli, AMIAD, Rennes (1)
José G Moreno, Univ. de Toulouse (2)
Albert Murienne, AMIAD, Rennes (1)
Christophe Servan, AMIAD, Palaiseau (1,2)

Comité scientifique :

Rachel Bawden, Inria
Guillaume Bernard, LNE
Pauline Soutrenon, Inria mission Défense et Sécurité
Olivier Ferret, CEA-List
Damien Nouvel, INALCO
Didier Schwab, LIG
Gilles Sérasset, LIG
Fabian Suchanek, Télécom Paris, Institut polytechnique de Paris
François Yvon, ISIR - CNRS
Jose G Moreno, IRIT
Christophe Servan, AMIAD
Lynda Tamine, IRIT
Adrian Chifu, LIS
Sahar Ghannay, LISN
Josiane Mothe, IRIT
Sébastien Fournier, LIS
Benjamin Piwowarki, ISIR - CNRS
Mathieu Valette, INALCO