Cette année, nous présentons un challenge autour des problématiques de Retrieval augmented Generation (RAG) et de l'attribution des sources pour le RAG. Ce challenge se décompose en deux tâches. La première est une tâche classique de RAG, mais avec des requêtes de difficultés variables. Elle sera évaluée sur le partie recherche documentaire (retrieval) via des mesures classiques de RI, et sur la partie génération de la réponse finale.
Les participants seront invités à évaluer leurs mises-en-œuvre sur un ensemble de documents en français, fournis à l'inscription, et de requêtes utilisateurs, fournis uniquement à la phase de test pour la sous-tâche 1 et de réponses à annoter en source pour la sous-tâche 2.
Cette phase de test dure 3 jours (à choisir par les participants dans un intervalle de 3 semaines) ; les résultats leur seront ensuite communiqués.
Les participants devront présenter leurs travaux dans un bref article et sous forme de communication orale ou poster le jour de l'atelier (inscription nécessaire sur le site de la conférence).
Tâche 1 : évaluation du RAG
Pour cette tâche classique, l'objectif est de produire des réponses pertinentes en s'appuyant sur les bons morceaux (chunks) de documents sources.
Les requêtes fournies à la phase de test pourront nécessiter de retrouver 1 à plusieurs morceaux de documents (chunks) pour fournir une réponse pertinente et complète. Les requêtes auront des niveaux de difficultés variables, reflétant des usages divers les plus réels possibles.
Un ensemble de documents bruts est mis à disposition des participants à línscription. Pour permettre des comparaisons pertinentes, il n'est pas autorisé d'ajouter des documents à la collection ou d'utiliser des capacités de recherche web.
Format
Les réponses des candidats devront être soumises en respectant le formalisme JSON illustré ci-dessous (voir détails dans les sections dépliables).
Les chunks de référence seront dénotés par des paires (identifiants_du_fichier, numéro_de_page) ; quelle que soit la méthode chunking adoptée par les participants, il est attendu que les résultats produits (dans le champ "retrieved") soit également exprimé de cette façon. Le numéro de page attendu est le numéro physique (ainsi, la couverture d'un document est la page 1, suivi de la page 2, etc.).
Deux ou trois exemples de requêtes seront fournis à l'inscription.
"mon_parametre2": 10
"question": "Question 1",
"retrieved": [
"doc_name": "document1.pdf",
"page": 17,
"metadata": {
"key2": "value2"
"answer": "Answer 1",
"metadata": {
"question": "Question 2",
"retrieved": [
"doc_name": "document11.pdf",
"page": 42,
"metadata": {
"key2": "value2"
"answer": "Answer 2",
"metadata": {
Les questions du challenge seront transmises dans ce même formalisme, avec les données de RI et les réponses finales laissées vides.
Métriques
La tâche est évaluée sur deux critères :
- la capacité des participants à trouver les bons morceaux de documents. Pour s'affranchir des problèmes de chunking, la granularité choisie est la page ; quel que soit le découpage opéré par le participants, la réponse attendue pour une requête sera un ensemble de (nom_de_document, numéro de page), comme illustré dans le json ci-dessus. Le numéro de page à indiquer est le numéro physique (eg. la couverture d’un magazine est la page 1). Les métriques seront celles usuelles en Recherche d'Informations : Précision, Rappel, NDCG...
- la capacité à formuler une réponse pertinente et complète. Des métriques lexicales ou neuronales (variante de BertScore, ParaPluie) et LLM-as-a-Judge seront employées.
Un bonus sera donné aux approches open source et reproductibles et un autre bonus aux approches les plus frugales.
Tâche 2 : attribution des sources
La seconde sous-tâche consiste à attribuer les passages de la réponse à des chunks de documents sources.
À partir d'une question, des morceaux de documents récupérés et d'une réponse donnée, les participants doivent produire pour cheque segment de la réponse sa référence documentaire. L'objectif est d'évaluer la capacité des systèmes à ancrer leurs affirmations dans les documents sources tout en identifiant les passages non étayés par ces sources (hallucinations, connaissances générales, éléments de mise en forme).
Les requêtes fournies à la phase de test seront similaires que pour la Tâche 1. La granularité d'annotation attendue est au niveau des phrases qui seront segmentées. Les documents et les chunks récupérés sont identiques à ceux utilisés pour la Tâche 1 ; comme pour la Tâche 1 il n'est pas autorisé d'ajouter des sources externes ni des capacités de recherche web.
Exemple illustrative
# Méthodologie de reconnaissance passive via SSL[0]
---[0]
L'exploitation des journaux de transparence (CT Logs) permet de découvrir des sous-domaines et des environnements de pré-production à travers l'examen des champs CN et SAN des certificats.[guide_osint_infrastructure_v2.pdf]
Cette approche garantit la discrétion de l'analyste car elle constitue une technique passive, évitant ainsi le déclenchement d'alertes au niveau des pare-feu applicatifs (WAF) qui ciblent habituellement les scans actifs.[guide_osint_infrastructure_v2.pdf]
En complément, il est intéressant de noter que cette phase est souvent la première étape d'une chaîne d'attaque plus complexe appelée "Recon-ng".[0]
Enfin, la validation de ces informations doit impérativement passer par une corrélation avec l'historique des enregistrements DNS.[guide_osint_infrastructure_v2.pdf]
Format
Les réponses des candidats devront être soumises en respectant le formalisme JSON illustré ci-dessous. Le champ `attributions` contient la réponse segmenté, son identifiant, ainsi que les documents (avec le numéro de page) utilisés comme source.
Deux ou trois exemples de requêtes seront fournis à l'inscription.
"run_id": "Données illustratives - challenge RAG EvalLLM 2026",
"parameters": {
"mon_parametre1": 1,
"mon_parametre2": 10
},
"results": [
{
"qid": "Q1",
"attributions": [
{
"sid": "Q1_s0",
"text": "Answer sentence 1 of question 1.",
"attributed_to": [
{ "doc_name": "document1.pdf", "page": 17 }
]
},
{
"sid": "Q1_s1",
"text": "Answer sentence 2 of question 1.",
"attributed_to": [
{ "doc_name": "document1.pdf", "page": 17 },
{ "doc_name": "document2.pdf", "page": 5 }
]
},
{
"sid": "Q1_s2",
"text": "Answer sentence 3 of question 1.",
"attributed_to": []
}
]
},
{
"qid": "Q2",
"attributions": [
{
"sid": "Q2_s0",
"text": "Answer sentence 1 of question 2.",
"attributed_to": [
{ "doc_name": "document11.pdf", "page": 42 }
]
},
{
"sid": "Q2_s1",
"text": "Answer sentence 2 of question 2.",
"attributed_to": []
}
]
}
]
}
Métriques
La tâche est évaluée sur deux critères :
- la capacité à attribuer correctement chaque segment de la réponse à sa source documentaire. L'évaluation se fait au niveau du document-page. Les métriques seront celles usuelles en classification : Précision, Rappel, F1, calculées sur les segments attribués par rapport aux annotations de référence.
- la capacité à identifier les passages non sourcés. Les segments annotés `[]` seront évalués en précision et en rappel par rapport aux annotations de référence, afin de mesurer la fiabilité de la détection des hallucinations et des contenus sans appui documentaire.
L'évaluation portera uniquement sur un sous-ensemble des fichiers d'entrée, mais celui-ci ne sera dévoilé aux participants qu'au moment de la présentation des résultats.
Un bonus sera donné aux approches *open source* et reproductibles et un autre bonus aux approches les plus frugales.
Calendrier
- inscription et récupération des données : jusqu'à phase de test
- phase de test : 3 jours consécutifs à choisir au moment de l’inscription entre le 04 et le 29 mai
- soumission des articles de participation : 12 juin
- présentation des résultats : 29 juin
Comment participer
Pour participer et accéder aux données, transmettez par mail à vincent.claveau@def.gouv.fr :
- nom de l'équipe
- mail de contact
- pour tous les participants : nom, prénom, affiliation, adresse mail
- jours de test si déjà connus (3j entre le 04 et le 29 mai)
Pour leur rapport de participation, il est demandé aux équipes participantes de :
- tracer l'empreinte carbone de leurs approches (entrainement et inférence) : http://calculator.green-algorithms.org/
- favoriser la reproductibilité de leurs expériences, en décrivant notamment dans leur rapport de participation les données, modèles, prompts, paramètres, etc. utilisés, et, quand c'est possible, en publiant leur code, modèles appris, etc.
- globalement suivre les standards de publications du domaine : https://aclrollingreview.org/responsibleNLPresearch/