Abstract
Cet article propose une réflexion à la fois théorique et méthodologique sur les objets de la phraséologie étendue, qui s’intéresse à des unités préfabriquées du discours au-delà des critères de figement. Plus précisément, nous tentons de clarifier le concept général de motif, ainsi que celui, plus spécifique, de routine discursive. Nous proposons ensuite de comparer deux approches méthodologiques différentes pour l’identification des routines en corpus : une méthode hiérarchique, basée sur le repérage d’arbres lexico-syntaxiques récurrents (ALR), et la méthode séquentielle classique des segments répétés (SR) ou n-grams. Nous montrons, au travers d’une étude sur corpus, que la méthode des ALR présente un réel intérêt pour le repérage des routines et des collocations, mais que les SR semblent plus adaptés et plus simples à mettre en œuvre pour des locutions figées ou des constructions syntaxiques impliquant des lexèmes grammaticaux – le modèle syntaxique des ALR nécessitant une adaptation pour pouvoir identifier ces cas.