Contexte
Les grands modèles de langue (LLM) génératifs sont omniprésents, intégrés dans des chaînes de traitement de plus en plus complexes, notamment de RAG (Retrieval Augmented Generation), offrant une grande variété de cas d’usage.
Leur évaluation pose cependant des problèmes sérieux : les benchmarks existants sont largement anglo-centrés (langue, culture), et ne couvrent pas forcément l’ensemble des usages et des domaines.
La question de leur évaluation se pose donc en particulier pour le français et plus généralement pour des langues autres que l’anglais.
Appel à communications
Dans cet atelier, nous proposons de réunir les chercheuses et chercheurs, industriels et académiques, s’intéressant aux multiples facettes de l’évaluation des LLM sur des domaines de spécialité ou sur des langues autres que l’anglais.
Nous souhaitons, cette année, mettre en avant le thème du RAG et des liens entre LLM et Recherche d'Information.
L’atelier sera construit autour d’une présentation invitée et de présentations de travaux sélectionnés suite à un appel à communications portant sur tous les travaux relevant de ce périmètre.
Cela inclut notamment les recherches concernant :
- l’évaluation de systèmes complets, notamment de RAG
- l’évaluation de modèles de fondation ou fine-tunés
- la création ou adaptation de benchmarks, pour du français ou autres langues d’intérêt, bien ou peu dotées, en domaine général ou spécialisé, ou pour des langues bruitées ou non standard (eg. réseaux sociaux, commandes vocales…)
- l’évaluation sur des tâches de TAL (traduction, résumé, extraction d’information…)
- l’adaptation des méthodologies d’évaluation existantes aux systèmes génératifs
- les dimensions éthiques, biais, privacy, alignement culturel ou législatif
- les dimensions de performance en temps de calcul, mémoire, frugalité énergétique
- l’évaluation avec des utilisateurs, ergonomie, aspects cognitifs
- l’évaluation de modèles multimodaux (eg. texte-image, texte-parole…)
- …
Voir la page "soumissions" pour les modalités de soumission d'un article.
Challenges
Dans le cadre de l’atelier EvalLLM2026, nous proposons deux challenges centrés sur les LLM.
Le premier challenge vise à une évaluation de LLM (ou d'autres approches) par la tâche. Il s'agit de liage d'entités dans le domaine médical dans un contexte few-shot. Pour une description complète, voir la page dédié.
Le deuxième challenge porte sur le RAG et l'attribution. Pour une description complète, voir la page dédiée.
Comités
L’atelier est co-porté par l’AMIAD (1) et le GT RAG du GdR CNRS TAL (2) :
- Vincent Claveau, AMIAD, Rennes, vincent.claveau@def.gouv.fr
- Nicolas Diniz, AMIAD, Rennes (1)
- Juliane Flament, AMIAD, Rennes (1)
- Nihel Kooli, AMIAD, Rennes (1)
- José G Moreno, Univ. de Toulouse (2)
- Albert Murienne, AMIAD, Rennes (1)
- Christophe Servan, AMIAD, Palaiseau (1,2)
Comité scientifique :
- Rachel Bawden, Inria
- Pauline Soutrenon, Inria mission Défense et Sécurité
- Olivier Ferret, CEA-List
- Damien Nouvel, INALCO
- Didier Schwab, LIG
- Gilles Sérasset, LIG
- Fabian Suchanek, Télécom Paris, Institut polytechnique de Paris
- François Yvon, ISIR - CNRS
- Jose G Moreno, IRIT
- Christophe Servan, AMIAD
- Lynda Tamine, IRIT
- Adrian Chifu, LIS, Marseille
- Sahar Ghannay, LISN
- Josiane Mothe, IRIT
- Sébastien Fournier, LIS
- Benjamin Piwowarki ISIR/CNRS, Paris
- Mohand Boughanem IRIT