Mon sujet de thèse porte sur des modèles de traitement statistique et d'apprentissage des langues naturelles. Je travaille particulièrement sur un modèle innovant développé avec Olivier Catoni, les ensembles de substitution markovienne.
L'idée de base de ce modèle est de construire des équivalences entre phrases en substituant des chaînes de caractères de «même catégorie». Les transitions d'une phrase ou d'un texte en une autre forme une chaîne de Markov, dont les propriétés permettent de définir par exemple un processus de communication, et la notion de language commun à un groupe de texte (stable par le processus de communication). Les principaux résultats et la description du modèle peuvent être trouvés dans notre article «Toric Grammars: a new statistical approach to natural language modeling».
Ces grammaires demandent ainsi de pouvoir identifier les syntagmes de même catégorie. Deux syntagmes seront dans la même catégorie s'ils apparaissent dans les même contextes. La question de l'estimation de ces ensembles constitue la problématique principale de mon travail actuel.
Mon manuscrit de thèse est disponible ici.