AUTOMATED

AUTOMAting high-level TExtual annotation in massive historical Data

Accélérer l’AUTOMAtisation de l’annotation TExtuelle de haut niveau pour la génération et l’exploitation des mégaDonnées enrichies

Logo Région Normandie

Dates : décembre 2023 – novembre 2025

Porteur : Professeur Pierre Larrivée, CRISCO

L’objectif du projet est de développer le processus d’adaptation des outils d’analyse syntaxique automatique pour le parsing des textes non-littéraires en français en diachronie longue.

Dans le cadre du projet, nous visons à proposer un guide pour l’analyse syntaxique semi-automatique dans le formalisme Universal Dependencies (UD) pour le français en diachronie à l’usage des chercheurs et préparer un corpus de textes juridiques en français en diachronie annoté en UD.

Projets antérieurs portés par Professeur Larrivée au CRISCO :

Les corpus produits dans le cadre de ces trois projets sont déposés sur le portail TXM du CRISCO

Les corpus MICLE-French et Chroniques (High-TECH) sont aussi consultables via le site des Corpus Diachroniques du CRISCO

Pierre Larrivée

Pierre LARRIVÉE

Porteur du projet (12/2023-11/2025)

Doctorat (Université Laval, 1998), Habilitation (Strasbourg, 2001).

Avant de venir à Caen en 2011, Professeur Pierre Larrivée a travaillé à Birmingham (Aston University, 1998-2011). Ses recherches actuelles sont centrées sur l’établissement des déterminants contextuels du changement grammatique.

Plus d’information et liste de publications

Natalia Romanova
Natalia Romanova

Natasha Romanova

Ingénieure de recherche (06/2024-11/2025)

Doctorat (University College London, 2007)

Au CRISCO, Natasha Romanova a été coordinatrice du projet ANR franco-allemand

MICLE en 2021-2024. Avant elle a travaillé au King’s Digital Lab à Londres, à l’université de Liverpool et à l’université d’Aberystwyth.

Plus d’information

Rayan Ziane

Ingénieur d’études (12/2023-10/2024)

Après un M2 en Sciences du Langage et TAL à Orléans, Rayan Ziane a rejoint le CRISCO en 2021 en tant qu’ingénieur d’études sur le projet RIN High-TECH où il a développé la chaîne de traitement pour la lemmatisation et l’annotation en PoS des corpus en français en diachronie HT-CRISCO et le site de consultation des corpus diachroniques du CRISCO

En novembre 2024, Rayan Ziane commence une thèse en Linguistique à l’université d’Orléans.

Plus d’information

Stagiaires

2023-2024 Elisa Gouzonnat, Maxence Multin

Manifestations futures

15 novembre 2024, Orléans – R. Ziane, N. Romanova. « Pistes pour l’optimisation de modèles de parsing syntaxique » (poster). Journées LIFT2024.

7-8 novembre 2024, Lyon  – N. Romanova, R. Ziane « Quelques pistes pour surmonter les contraintes pour l’annotation syntaxique de corpus en diachronie longue ». ConCorDiaL : Constitution de Corpus en Diachronie Longue.

Manifestations passées

26 septembre 2024, Caen – E. Gouzonnat, M. Multin, N. Romanova et R. Ziane « L’intelligence artificielle pour l’analyse syntaxique: évaluation et adaptation de modèles ». Séminaire du CRISCO.

11 septembre 2024, Paris – N. Romanova, R. Ziane « (Vers) l’adaptation des modèles à des données hors du domaine d’entrainement pour l’analyse syntaxique du français en diachronie: Exemple du français des îles Anglo-Normandes du 16ème siècle ». WS12 : Traitement automatique du langage et analyse de la variation. Colloque LLcD : Langue et Langage à la Croisée des Disciplines.
Résumé : Livret du colloque, pp. 235-237.

4 avril 2024, Paris – R. Ziane, N. Romanova « Le français en diachronie comme langue peu dotée ». Seminaire du projet Autogram.