Expériences sur l’analyse morphosyntaxique des corpus oraux avec l’annotateur multi-niveaux DisMo

Corela. Cognition, Représentation, Langage 21 (HS) (2017)
  Copy   BIBTEX

Abstract

L’annotation des corpus oraux présente des défis particuliers, liés aux caractéristiques de la langue parlée et sa transcription. Si la méthodologie d’analyse et les outils d’annotation automatique doivent être adaptés à ces défis, il est toutefois souhaitable de garder la possibilité de comparer un corpus oral avec un corpus écrit, sur base d’un « dénominateur commun », et d’enrichir l’annotation avec des couches supplémentaires pour décrire les phénomènes propres à l’oral. Dans cet article nous présentons l’approche implémentée dans l’outil DisMo, un annotateur automatique conçu spécifiquement pour les corpus oraux, qui propose une analyse à plusieurs niveaux : étiquetage morphosyntaxique, lemmatisation, détection des unités poly-lexicales, détection et annotation des phénomènes de disfluence et des marqueurs de discours, et découpage en unités syntaxiques minimales. Nous présenterons nos travaux sur le corpus Phonologie du Français Contemporain qui ont permis de réviser l’outil et d’améliorer sa performance. Nous préciserons les choix théoriques et pratiques quant aux niveaux d’annotation, les phénomènes détectés, les jeux d’étiquettes, ainsi qu’une évaluation de la performance de l’annotation automatique.

Links

PhilArchive



    Upload a copy of this work     Papers currently archived: 91,349

External links

Setup an account with your affiliations in order to access resources via your University's proxy server

Through your library

Similar books and articles

Pièges méthodologiques des corpus parallèles et comment les éviter.Olga Nádvorníková - 2017 - Corela. Cognition, Représentation, Langage 21 (HS).

Analytics

Added to PP
2018-11-17

Downloads
5 (#1,510,250)

6 months
2 (#1,232,442)

Historical graph of downloads
How can I increase my downloads?

Author's Profile

George Christodoulides
King's College London

Citations of this work

No citations found.

Add more citations