Results for ' métadonnées'

12 found
Order:
  1.  9
    De l’entorse à la norme à l’atypicité typique : Retour sur un corpus de SMS de sourds et ses métadonnées.Michel Otell - 2019 - Corela. Cognition, Représentation, Langage 27 (HS).
    Cet article revient sur un corpus de conversations par SMS entre des personnes sourdes qui présentent un bilinguisme entre le français et la Langue des Signes Française. Ce regard rétrospectif sur ce corpus, notamment sur les motifs de son cadrage, l’enquête de terrain préalable à sa collecte, le protocole de collecte en tant que telle, ou le défi que constitue son annotation, permet de discuter des avantages et des limites des positionnements qualitatifs et quantitatifs en amont de la constitution du (...)
    No categories
    Direct download (2 more)  
     
    Export citation  
     
    Bookmark  
  2.  9
    Un « corpus de littéracie avancée : résultat et point de départ.Marie-Paule Jacques & Fanny Rinck - 2017 - Corpus 16.
    Le corpus de littéracie avancée réunit des écrits universitaires et professionnels produits par des étudiants du niveau Licence 1 au Master 2. Il contient actuellement 338 textes (+ d’1 million de mots) et est mis à disposition au format xml, assorti de métadonnées (niveau, discipline, genre, consigne d’écriture etc.). Il est à la fois un aboutissement et un point de départ dans le champ de la littéracie avancée : parce que l’enjeu n’est pas tant de constituer des corpus que (...)
    No categories
    Direct download (2 more)  
     
    Export citation  
     
    Bookmark   1 citation  
  3.  8
    Enjeux des corpus bilingues en diachronie longue : l’exemple du projet MICLE.Mathieu Goux - 2024 - Corpus 25.
    La multiplication des très grands corpus en linguistique historique a entraîné des discussions nombreuses sur les procédures d’annotation et les métadonnées associées, notamment concernant les questions relevant de l’étiquetage morphosyntaxique et de la tokenisation. D’autres sujets cruciaux, en revanche, semblent moins abordés, comme la question de la découpe en propositions ou en « phrases » des données linguistiques, la préservation des informations philologiques ou, encore, la question de l’encodage et des formats de données. Notre contribution explore ces thématiques en (...)
    No categories
    Direct download (2 more)  
     
    Export citation  
     
    Bookmark  
  4.  8
    Corpus, classes and collection in Conversation Analysis.Michel de Fornel & Maud Verdier - 2018 - Corpus 18.
    Les vingt dernières années ont vu l’apparition d’une convergence forte entre une démarche appliquée se consacrant à la création de corpus de grande taille, à leur codage et à leur étiquetage, et diverses théories linguistiques dont les analyses reposent sur de tels corpus. Pour l’analyse de conversation (ou linguistique interactionnelle) une telle convergence ne semble pas possible, car son approche est qualitative et s’appuie sur de « petits » corpus. De plus, un examen approfondi du contexte social des interactions recueillies (...)
    No categories
    Direct download (2 more)  
     
    Export citation  
     
    Bookmark   1 citation  
  5.  7
    La BFM 2022 : un corpus pour les recherches diachroniques en français médiéval et au-delà.Alexei Guillot-Barbance Lavrentiev - 2024 - Corpus 25.
    La Base de français médiéval (BFM) fait partie des corpus de français médiéval (9e-15e s.) les plus anciens et les plus utilisés par les linguistes diachroniciens et plus largement par tous ceux qui s’intéressent à l’histoire du français. Elle est le fruit d’une collaboration entre linguistes-philologues et spécialistes de la méthode textométrique implémentée dans la plateforme TXM. L’article présente un état des lieux du corpus BFM2022 focalisé sur la représentativité et l’interopérabilité des données. Il illustre l’apport des outils numériques pour (...)
    No categories
    Direct download (2 more)  
     
    Export citation  
     
    Bookmark  
  6.  7
    CLAPI, a multimodal database for talk in interaction: contributions and dilemmas.H. Baldauf-Quilliatre, I. Colón de Carvajal, C. Etienne, E. Jouin-Chardon, S. Teston-Bonnard & V. Traverso - 2016 - Corpus 15.
    Dans cette contribution, nous présentons la base CLAPI développée au laboratoire ICAR dans le contexte de l’évolution des bases de données de langues parlées en France au cours des trente dernières années. Nous détaillons les deux composantes de CLAPI, l’archive de corpus de langue parlée en interaction audio et vidéo enregistrés dans des situations sociales naturelles variées, et la plateforme d’outils.L’usage et l’apport de CLAPI sont illustrés par deux études. L’une décrit comment la base peut être utilisée pour des travaux (...)
    No categories
    Direct download (2 more)  
     
    Export citation  
     
    Bookmark   1 citation  
  7.  7
    The ORFEO project: a study corpus for contemporary French.Christophe Benzitoun, Jeanne-Marie Debaisieux & Henri-José Deulofeu - 2016 - Corpus 15.
    L’article présente le projet ORFEO (outils pour l’étude du Français écrit et oral). Ce projet a consisté à rassembler 4M de mots de Français oral et 6M de mots d’écrit à partir de ressources existantes. Les ressources orales ont été unifiées dans un format trs et alignées avec les fichiers sons au phonème. Les corpus sont présentés avec des métadonnées qui permettent de constituer des sous-corpus d’étude. Les données orales ont été segmentées et annotées en POS et relations de (...)
    No categories
    Direct download (2 more)  
     
    Export citation  
     
    Bookmark   1 citation  
  8.  10
    Sémiotique des textscapes_: quelle contribution du _textscape linguistique à la mise en scène des langues dans un corpus de sites web?Marie-Hélène Hermand - 2023 - Semiotica 2023 (252):1-26.
    Résumé Cet article propose une réflexion théorique et méthodologique permettant de décrire et d’interpréter les textscapes à des fins d’analyse communicationnelle. L’objectif consiste à tester le concept sémiotique de textscape linguistique pour analyser la mise en scène des langues dans la communication des organisations sur le web. Le cadre théorique fait appel aux études du paysage linguistique (Linguistic Landscape Studies) et à la théorie des paysages textuels (textscapes). Le corpus est composé de 100 sites web d’organisations économiques (chambres de commerce, (...)
    Direct download (2 more)  
     
    Export citation  
     
    Bookmark  
  9.  24
    Constitution et exploitation d'un corpus de français parlé parisien.Sonia Branca-Rosoff, Serge Fleury, Florence Lefeuvre & Matthew Pires - 2011 - Corpus 10:81-98.
    Le but de cet article est double. Il s’agit d’abord d’introduire un nouveau corpus de français oral numérisé, accessible sans restriction sur le web. CFPP2000 (Corpus du français parlé parisien des années 2000), qui comporte actuellement 500 000 mots alignés à l’oral au tour de parole, est constitué par un ensemble d’interviews conversationnelles sur les quartiers de Paris d’une à deux heures qui ont été réalisées en dyades ou le plus souvent en triades. L’article envisage l’influence pour la constitution du (...)
    No categories
    Direct download (3 more)  
     
    Export citation  
     
    Bookmark  
  10.  11
    Constitution et exploitation d’un corpus de français parlé parisien.Sonia Branca-Rosoff, Serge Fleury, Florence Lefeuvre & Matthew Pires - 2011 - Corpus 10:81-98.
    Le but de cet article est double. Il s’agit d’abord d’introduire un nouveau corpus de français oral numérisé, accessible sans restriction sur le web. CFPP2000 (Corpus du français parlé parisien des années 2000), qui comporte actuellement 500 000 mots alignés à l’oral au tour de parole, est constitué par un ensemble d’interviews conversationnelles sur les quartiers de Paris d’une à deux heures qui ont été réalisées en dyades ou le plus souvent en triades. L’article envisage l’influence pour la constitution du (...)
    No categories
    Direct download (2 more)  
     
    Export citation  
     
    Bookmark   1 citation  
  11.  18
    Nommer les nouvelles du monde.Michael Palmer - 2006 - Hermes 46:47.
    Depuis une dizaine d'années, l'organisation professionnelle International Press Telecommunications Council élaborent des taxinomies destinées à permettre la classification des nouvelles, avec des dispositifs appropriés de métadonnées, que peuvent reconnaître aussi bien les ordinateurs que «les agents humains», à savoir les journalistes. Une étude de cas, la couverture de la mort d'Abu Musab al-Zarqawi, en Irak, en 2006, exemplifie certaines des questions ainsi explorées.For ten years, the professional organization International Press Telecommunications Council develop taxonomies to enable the classification of new (...)
    No categories
    Direct download  
     
    Export citation  
     
    Bookmark  
  12.  5
    Problèmes posés par la transcription et l’annotation d’écrits d’élèves.Claire Doquet, Vanda Enoiu, Serge Fleury & Sara Maziotti - 2017 - Corpus 16.
    Les écrits scolaires posent des problèmes d’analyse automatique à cause des nombreux écarts à la norme langagière qu’ils comportent. Dans le but de constituer et de rendre exploitable un corpus significatif d’écrits d’élèves, le groupe de recherche ECRISCOL (Écrits Scolaires) de l’université de la Sorbonne Nouvelle a élaboré des solutions techniques pour préserver l’accès aux manuscrits des élèves tout en rendant possible une analyse automatique par des logiciels d’analyse textuelle. Le corpus en construction comporte une dimension développementale – il est (...)
    No categories
    Direct download (2 more)  
     
    Export citation  
     
    Bookmark