Logo Sciencesconf

Suite aux dernières éditions (voir Atelier sur l'évaluation des modèles génératifs (LLM) et challenge d'extraction d'information few-shot - Sciencesconf.org et EvalLLM2025 : Atelier sur l'évaluation des modèles génératifs (LLM) et challenge - Sciencesconf.org), nous présentons un nouveau challenge en extraction d'information few-shot pour le domaine de santé en français.

Les participants sont invités à évaluer les mises-en-œuvre par des modèles génératifs mais la participation avec d’autres approches est pertinente et permettra de mettre en perspective les résultats des systèmes fondés sur les LLM.

À l’issue de la phase d’entraînement, les données de test seront mises à disposition des participants pendant 3 jours (à choisir dans un intervalle de 3 semaines) et les résultats leur seront ensuite communiqués.

Les participants seront invités à présenter leurs travaux dans un bref article et sous forme de communication orale ou poster le jour de l'atelier.

Tâche, données et métriques

Il s’agit d’une tâche de liage d'entités, pouvant être discontinues, pour la veille sanitaire en français dans un contexte few-shot où seuls seront donnés le guide d’annotation et quelques documents annotés. L'objectif est d'aligner des entités d'intérêt médical (maladie, agent pathogène, agent toxine...) avec le MeSH (HeTOP - MeSH) ainsi que des entités de localisation avec GeoNames (GeoNames).

 Les données représentent des documents journalistiques (le même corpus fourni pour le challenge proposé en 2025) pour la veille sanitaire annotés, par le Service de Santé des Armées (SSA) en collaboration avec l'Agence Ministérielles pour l'IA de Défense (AMIAD); voir illustration en exemple.

Le guide d'annotation est celui fourni à des annotateurs humains du métier et donne les règles générales d'annotation avec quelques exemples.

 Les métriques qui seront utilisées pour l'évaluation des runs sont les suivantes :

Le script d'évaluation sera également mis à disposition des participants.

Exemple

Dans le document ci-dessous, les entités et les relations d'intérêt sanitaire ont été annotées, puis les entités d'intérêt médical ont été alignées sur la base MeSH et les entités de localisation ont été alignées sur la base Geonames.

Ainsi, les mentions "maladie de Chagas" ont été associées à l'id MeSH D014355 qui correspond à l'entrée "Cardiomyopathie associée à la maladie de Chagas", et la mention "Guyana française" a été associée à l'id 3381670 qui correspond à l'entrée "Guyane française" dans leurs bases de connaissance respectives.

Doc

Alignement Mesh

Exemple mesh

Alignement geonames

Exemple geonames

Calendrier

Organisation

Comment participer

Pour participer et accéder aux données, transmettez par mail à nihel.kooli@def.gouv.fr et julianne.flament@def.gouv.fr :

 

Pour leur rapport de participation, il est demandé aux équipes participantes de :

Chargement... Chargement...