Structure du Corpus MCVF

Structure du Corpus MCVF

Le Corpus MCVF (Modéliser le changement : les voies du français, dir. France Martineau, Université d’Ottawa) est structuré de façon dialectale, sociale et historique. Il est constitué en grande partie de textes intégraux. Le corpus couvre quatre périodes historiques :

  1. Ancien français
  2. Moyen français
  3. Français du XVIe siècle
  4. Français classique (France et Nouvelle-France) (XVIIe et XVIIIe siècles)

Pour accéder à la liste des textes du Corpus MCVF

Encodage des textes

Les textes sont saisis en format XML ; la norme qui a été suivie est celle du TEI (Text Encoding Initiative). Notre protocole de transcription et d’encodage TEI peut être consulté librement, de façon à uniformiser les formats. À ce balisage, nous ajoutons des descripteurs historiques permettant de préciser le profil social du scripteur et le parcours du texte. Nous procédons ensuite à une annotation morphologique et  syntaxique.

Manuel XML-TEI du Corpus MCVF

Manuel d’annotation morphologique du Corpus MCVF

Manuel d’annotation syntaxique du Corpus MCVF

Corpus interrogeables MCVF

Le corpus peut être interrogé par tout utilisateur qui remplit le formulaire d’accès. Les textes peuvent être interrogés selon différents critères et on obtient des résultats sous forme de concordance ou de structures arborescentes (selon le moteur de recherche) pour différents types de requêtes. Nous remercions notre partenaire, l’ARTFL, pour son aide dans l’élaboration de l’interface pour le moteur de recherche Philologic.

Corpus MCVF, format XML-TEI

Formulaire d’accès Utilisateur déjà inscrit

Téléchargement du Corpus MCVF format XML-TEI et Étiqueté morphologiquement et syntaxiquement

Corpus MCVF téléchargeable