Know ATS Score
CV/Résumé Score
  • Expertini Resume Scoring: Our Semantic Matching Algorithm evaluates your CV/Résumé before you apply for this job role: Stage: Annotation automatique de relations sémantiques par Grands Modèles de Langage (LLM).
France Jobs Expertini

Urgent! Stage: Annotation automatique de relations sémantiques par Grands Modèles de Langage (LLM) Job Opening In Grenoble – Now Hiring INRIA

Stage: Annotation automatique de relations sémantiques par Grands Modèles de Langage (LLM)



Job description

Contexte et atouts du poste

Le ou la stagiaire travaillera au sein d’Inria Défense & Sécurité, créé en 2020 pour fédérer les actions d’Inria répondant aux besoins numériques des forces armées et du ministère de l’Intérieur.

Le stage se déroulera au sein du pôle Données, sous la direction de Pauline Soutrenon et de Lucie Bader (ingénieures TAL/NLP).


Le stage s’inscrit dans le cadre du projet CORALIA (CORpus, Annotation et LLM : Impacts et Ajustements), qui vise à comparer l’annotation humaine à celle d’une IA générative, et qui prolonge les travaux amorcés dans l'un des projets Inria Défense et Sécurité.

Ce dernier a abouti à la constitution d’un corpus de données textuelles annotées manuellement d’après un guide d’annotation spécifiquement conçu pour ce projet.

Ces données, issues de documents textuels produits par le journal Le Monde, concernent la guerre en Ukraine entre février et mars 2022.

L’accumulation de documents textuels journalistiques en lien avec ce conflit offre l’opportunité de constituer de nouveaux corpus où le vocabulaire spécialisé de la défense est omniprésent.


Les données comprennent à la fois des entités nommées et des relations sémantiques d’intérêt, et constituent une ressource rare et précieuse pour l’entraînement et l’évaluation de modèles d’apprentissage automatique.

En effet, le développement de systèmes performants repose fortement sur des jeux de données annotées de haute qualité.

Ces annotations, qui peuvent inclure des étiquettes de catégories, des entités nommées ou des relations syntaxiques, sont essentielles pour permettre aux modèles de capturer les subtilités du langage humain.


L’annotation manuelle est toutefois une tâche complexe, chronophage et coûteuse, et qui nécessite une expertise linguistique, une standardisation rigoureuse et des efforts considérables pour garantir la cohérence des annotations.

Le manque de données annotées de qualité, surtout dans les domaines spécialisés comme la défense ou pour les langues peu dotées, constitue une problématique majeure dans le domaine du TAL.

L’émergence des Grands Modèles de Langage (LLM), tels que GPT, LLaMA ou Mistral, offre aujourd’hui l’opportunité de compléter le travail des annotateurs humains grâce à des méthodes de prompt engineering adaptées.


Le projet CORALIA s’inscrit dans une démarche de continuité qui s’appuie à la fois :

  • sur notre participation au défi TextMine 2025 pour lequel nous avons mené des travaux d’augmentation de données avec un LLM afin d’optimiser les performances d’un modèle d’extraction de relations ;

  • et sur les travaux d’un stage réalisé en 2025 qui visait à explorer les capacités des LLM pour la génération de données synthétiques annotées (en particulier les entités nommées)
  • L’objectif du projet CORALIA est ainsi d’explorer l’utilité des LLM dans des scénarios d’annotation d’entités nommées et de relations sémantiques sur des textes spécialisés comportant un vocabulaire d’intérêt défense.

    L’idée est de comparer et d’évaluer l’apport des modèles plus récents sur différents corpus, afin d’évaluer la faisabilité et la robustesse des méthodes sur des styles et contenus variés.

    Mission confiée

    Le ou la stagiaire travaillera sur l’annotation automatique des relations sémantiques.

    La mission s’articulera en plusieurs étapes successives.


    Dans un premier temps, il s’agira de se familiariser avec les données disponibles, le guide d’annotation des relations ainsi que les travaux déjà réalisés.

    Cette phase inclura également une exploration comparative des différents LLM afin d’identifier le(s) plus adapté(s) à la tâche.


    Le cœur de la mission consistera ensuite à concevoir une stratégie d’annotation automatique : définition du ou des prompts, élaboration d’un processus garantissant la qualité et la cohérence des annotations, et mise en place d’une chaîne de traitement prenant en compte le traitement et le formatage des réponses générées par le modèle.


    À partir des prompts conçus par le ou la stagiaire, une première campagne d’annotation automatique sera réalisée sur un sous-ensemble du corpus.

    Les résultats feront l’objet d’une évaluation comparative approfondie, en confrontant les annotations automatiques aux annotations manuelles existantes, afin de mettre en lumière les atouts et les limites du modèle retenu et de la stratégie utilisée.


    Dans un second temps, le pipeline ainsi conçu sera appliqué à un corpus différent.

    L’objectif sera de mesurer la capacité de généralisation de l’approche et d’évaluer sa robustesse face à des données de nature et de style variés.

    Principales activités

  • Analyser les besoins et se familiariser avec les données

  • Tester et sélectionner le LLM le plus pertinent ainsi que la méthode de prompt engineering la plus adaptée

  • Concevoir une stratégie d’annotation automatique

  • Mettre en place un pipeline dédié à l’annotation automatique des relations

  • Lancer une campagne d’annotation automatique sur un sous-ensemble du corpus 

  • Évaluer les résultats obtenus en les confrontant aux annotations manuelles existantes

  • Identifier les atouts et limites du LLM et de la stratégie

  • Appliquer le pipeline à un corpus différent et évaluer la capacité de généralisation de la méthode

  • Documenter etprésenter les résultats
  • Compétences

    Compétences requises

  • Maîtrise du français écrit et parlé

  • Connaissances solides en TAL et en linguistique

  • Bonnes compétences en Python

  • Connaissance des grands modèles de langage (LLM) et de leur mise en œuvre (idéalement via des plateformes comme Ollama)

  • Capacité à concevoir et évaluer des prompts, et à mettre en place une chaîne de traitement automatisée
  • Compétences facultatives

  • Expérience avec des outils d’annotation (Label Studio, Doccano)

  • Expérience avec le logiciel de gestion de version Git

  • Connaissance de la plateforme Ollama

  • Connaissance du langage de programmation Bash et du système d’exploitation Linux
  • Avantages

  • 15 jours de congés pour 6 mois de stage

  • Télétravail possible après 2 mois d’ancienneté (jusqu’à deux jours par semaine) 

  • Restauration subventionnée 

  • Transports publics remboursés partiellement 

  • Équipements professionnels à disposition (visioconférence, prêts de matériels informatiques, etc.)

  • Prestations sociales, culturelles et sportives (Association de gestion des œuvres sociales d’Inria)
  • Rémunération

    4.35€ /h


    Required Skill Profession

    Computer Occupations



    Your Complete Job Search Toolkit

    ✨ Smart • Intelligent • Private • Secure

    Start Using Our Tools

    Join thousands of professionals who've advanced their careers with our platform

    Rate or Report This Job
    If you feel this job is inaccurate or spam kindly report to us using below form.
    Please Note: This is NOT a job application form.


      Unlock Your Stage Annotation Potential: Insight & Career Growth Guide