Abstract
Le corpus PhraséoRoChe se centre sur le roman de chevalerie de langue française écrit en prose. Il rassemble des textes issus d’œuvres produites entre le XIIIe siècle et le XVIIe siècle, période bornée par la naissance et la disparition de ce genre textuel. Pour permettre des interrogations par le lecteur d’aujourd’hui d’un corpus outillé embrassant une diachronie aussi longue, il faut faire des choix concernant l’évolution de la langue, non seulement en traitant le décalage entre le français contemporain et la langue des textes retenus mais aussi en faisant face aux difficultés liées à l’hétérogénéité de l’ancien français, du moyen français et du français préclassique. Quels choix méthodologiques peuvent être pertinents en vue de l’objectif défini, à savoir une exploitation de type linguistique, stylistique ou littéraire? Les collaborateurs du projet se sont heurtés à la triple difficulté de rester fidèles aux textes, d’intégrer la diversité des pratiques éditoriales des chercheurs selon les étapes de l’histoire du français et d’unifier le plus possible les principes de traitement pour faciliter la réception actuelle. Le présent article rend compte des deux volets de l’opération : la sélection et la transcription d’un ensemble de 40 textes, d’abord, et l’annotation au moyen de balises structurelles, d’étiquettes lexicales et d’étiquettes morphosyntaxiques, ensuite.