Cette année, nous présentons un challenge autour des problématiques de Retrieval augmented Generation (RAG) et de l'attribution des sources pour le RAG. Ce challenge se décompose en deux tâches. La première est une tâche classique de RAG, mais avec des requêtes de difficultés variables. Elle sera évaluée sur le partie recherche documentaire (retrieval) via des mesures classiques de RI, et sur la partie génération de la réponse finale.
Les participants seront invités à évaluer leurs mises-en-œuvre sur un ensemble de documents en français, fournis à l'inscription, et de requêtes utilisateurs, fournis uniquement à la phase de test pour la sous-tâche 1 et de réponses à annoter en source pour la sous-tâche 2.
Cette phase de test dure 3 jours (à choisir par les participants dans un intervalle de 3 semaines) ; les résultats leur seront ensuite communiqués.
Les participants devront présenter leurs travaux dans un bref article et sous forme de communication orale ou poster le jour de l'atelier (inscription nécessaire sur le site de la conférence).
Tâche 1 : évaluation du RAG
Pour cette tâche classique, l'objectif est de produire des réponses pertinentes en s'appuyant sur les bons morceaux (chunks) de documents sources.
Les requêtes fournies à la phase de test pourront nécessiter de retrouver 1 à plusieurs morceaux de documents (chunks) pour fournir une réponse pertinente et complète. Les requêtes auront des niveaux de difficultés variables, reflétant des usages divers les plus réels possibles.
Un ensemble de documents bruts est mis à disposition des participants à línscription. Pour permettre des comparaisons pertinentes, il n'est pas autorisé d'ajouter des documents à la collection ou d'utiliser des capacités de recherche web.
Format
Les réponses des candidats devront être soumises en respectant le formalisme JSON illustré ci-dessous (voir détails dans les sections dépliables).
Les chunks de référence seront dénotés par des paires (identifiants_du_fichier, numéro_de_page) ; quelle que soit la méthode chunking adoptée par les participants, il est attendu que les résultats produits (dans le champ "retrieved") soit également exprimé de cette façon. Le numéro de page attendu est le numéro physique (ainsi, la couverture d'un document est la page 1, suivi de la page 2, etc.).
Deux ou trois exemples de requêtes seront fournis à l'inscription.
"mon_parametre2": 10
"question": "Question 1",
"retrieved": [
"doc_name": "document1.pdf",
"page": 17,
"metadata": {
"key2": "value2"
"answer": "Answer 1",
"metadata": {
"question": "Question 2",
"retrieved": [
"doc_name": "document11.pdf",
"page": 42,
"metadata": {
"key2": "value2"
"answer": "Answer 2",
"metadata": {
Les questions du challenge seront transmises dans ce même formalisme, avec les données de RI et les réponses finales laissées vides.
Métriques
La tâche est évaluée sur deux critères :
- la capacité des participants à trouver les bons morceaux de documents. Pour s'affranchir des problèmes de chunking, la granularité choisie est la page ; quel que soit le découpage opéré par le participants, la réponse attendue pour une requête sera un ensemble de (nom_de_document, numéro de page), comme illustré dans le json ci-dessus. Le numéro de page à indiquer est le numéro physique (eg. la couverture d’un magazine est la page 1). Les métriques seront celles usuelles en Recherche d'Informations : Précision, Rappel, NDCG...
- la capacité à formuler une réponse pertinente et complète. Des métriques lexicales ou neuronales (variante de BertScore, ParaPluie) et LLM-as-a-Judge seront employées.
Un bonus sera donné aux approches open source et reproductibles et un autre bonus aux approches les plus frugales.
Tâche 2 : attribution des sources
La seconde sous-tâche consiste à attribuer les passages de la réponse à des chunks de documents.
DESCRIPTION DETAILLÉE À VENIR
# Méthodologie de reconnaissance passive via SSL[0]
---[0]
L'exploitation des journaux de transparence (CT Logs) permet de découvrir des sous-domaines et des environnements de pré-production à travers l'examen des champs CN et SAN des certificats.[guide_osint_infrastructure_v2.pdf]
Cette approche garantit la discrétion de l'analyste car elle constitue une technique passive, évitant ainsi le déclenchement d'alertes au niveau des pare-feu applicatifs (WAF) qui ciblent habituellement les scans actifs.[guide_osint_infrastructure_v2.pdf]
En complément, il est intéressant de noter que cette phase est souvent la première étape d'une chaîne d'attaque plus complexe appelée "Recon-ng".[0]
Enfin, la validation de ces informations doit impérativement passer par une corrélation avec l'historique des enregistrements DNS.[guide_osint_infrastructure_v2.pdf]
Pour cette sous-tâche également, un bonus sera donné aux approches open source et reproductibles et un autre bonus aux approches les plus frugales.
Calendrier
- inscription et récupération des données : jusqu'à phase de test
- phase de test : 3 jours consécutifs à choisir au moment de l’inscription entre le 04 et le 29 mai
- soumission des articles de participation : 12 juin
- présentation des résultats : 29 juin
Comment participer
Pour participer et accéder aux données, transmettez par mail à vincent.claveau@def.gouv.fr :
- nom de l'équipe
- mail de contact
- pour tous les participants : nom, prénom, affiliation, adresse mail
- jours de test si déjà connus (3j entre le 04 et le 29 mai)
Pour leur rapport de participation, il est demandé aux équipes participantes de :
- tracer l'empreinte carbone de leurs approches (entrainement et inférence) : http://calculator.green-algorithms.org/
- favoriser la reproductibilité de leurs expériences, en décrivant notamment dans leur rapport de participation les données, modèles, prompts, paramètres, etc. utilisés, et, quand c'est possible, en publiant leur code, modèles appris, etc.
- globalement suivre les standards de publications du domaine : https://aclrollingreview.org/responsibleNLPresearch/