AUTOMAting high-level TExtual annotation in massive historical Data
Accélérer l’AUTOMAtisation de l’annotation TExtuelle de haut niveau pour la génération et l’exploitation des mégaDonnées enrichies
Dates : décembre 2023 – novembre 2025
Porteur : Professeur Pierre Larrivée, CRISCO
L’objectif du projet est de développer le processus d’adaptation des outils d’analyse syntaxique automatique pour le parsing des textes non-littéraires en français en diachronie longue.
Dans le cadre du projet, nous visons à proposer un guide pour l’analyse syntaxique semi-automatique dans le formalisme Universal Dependencies (UD) pour le français en diachronie à l’usage des chercheurs et préparer un corpus de textes juridiques en français en diachronie annoté en UD.
Projets antérieurs portés par Professeur Larrivée au CRISCO :
Les corpus produits dans le cadre de ces trois projets sont déposés sur le portail TXM du CRISCO
Les corpus MICLE-French et Chroniques (High-TECH) sont aussi consultables via le site des Corpus Diachroniques du CRISCO
Pierre LARRIVÉE
Porteur du projet (12/2023-11/2025)
Doctorat (Université Laval, 1998), Habilitation (Strasbourg, 2001).
Avant de venir à Caen en 2011, Professeur Pierre Larrivée a travaillé à Birmingham (Aston University, 1998-2011). Ses recherches actuelles sont centrées sur l’établissement des déterminants contextuels du changement grammatique.
Natasha Romanova
Ingénieure de recherche (06/2024-11/2025)
Doctorat (University College London, 2007)
Au CRISCO, Natasha Romanova a été coordinatrice du projet ANR franco-allemand
MICLE en 2021-2024. Avant elle a travaillé au King’s Digital Lab à Londres, à l’université de Liverpool et à l’université d’Aberystwyth.
Rayan Ziane
Ingénieur d’études (12/2023-10/2024)
Après un M2 en Sciences du Langage et TAL à Orléans, Rayan Ziane a rejoint le CRISCO en 2021 en tant qu’ingénieur d’études sur le projet RIN High-TECH où il a développé la chaîne de traitement pour la lemmatisation et l’annotation en PoS des corpus en français en diachronie HT-CRISCO et le site de consultation des corpus diachroniques du CRISCO
En novembre 2024, Rayan Ziane commence une thèse en Linguistique à l’université d’Orléans.
Stagiaires
2023-2024 Elisa Gouzonnat, Maxence Multin
Manifestations futures
15 novembre 2024, Orléans – R. Ziane, N. Romanova. « Pistes pour l’optimisation de modèles de parsing syntaxique » (poster). Journées LIFT2024.
7-8 novembre 2024, Lyon – N. Romanova, R. Ziane « Quelques pistes pour surmonter les contraintes pour l’annotation syntaxique de corpus en diachronie longue ». ConCorDiaL : Constitution de Corpus en Diachronie Longue.
Manifestations passées
26 septembre 2024, Caen – E. Gouzonnat, M. Multin, N. Romanova et R. Ziane « L’intelligence artificielle pour l’analyse syntaxique: évaluation et adaptation de modèles ». Séminaire du CRISCO.
11 septembre 2024, Paris – N. Romanova, R. Ziane « (Vers) l’adaptation des modèles à des données hors du domaine d’entrainement pour l’analyse syntaxique du français en diachronie: Exemple du français des îles Anglo-Normandes du 16ème siècle ». WS12 : Traitement automatique du langage et analyse de la variation. Colloque LLcD : Langue et Langage à la Croisée des Disciplines.
Résumé : Livret du colloque, pp. 235-237.
4 avril 2024, Paris – R. Ziane, N. Romanova « Le français en diachronie comme langue peu dotée ». Seminaire du projet Autogram.