Mon activité de conseil en statistiques s'articule autour de deux types de prestations complémentaires,
- l'analyse de données, pour répondre à une question précise posée autour d'un jeu de données
- l'enseignement, pour apprendre à maîtriser en interne des outils de traitement statistique.
Les domaines visés sont variés: résultat d'expériences en agronomie ou écologie, données d'épidémiologie pour des acteurs de la santé publique, design et analyse d'un essai clinique en médecine, ou encore analyse de jeux de données génétiques pour la recherche biomédicale ou fondamentale. Je suis curieux de découvrir des acteurs du public ou du privé intéressés par des questions à même de faire progresser la société. Vous trouverez ci-dessous des exemples illustrant ce que je peux faire et enseigner, à l'aide du langage R ou Python.
Analyse exploratoire et méthodes non-supervisées
Réflexion pour le traitement de données manquantes et la normalisation des données. Méthodes de réduction de dimension (ACP, AFM), clustering non-supervisé. Représentation graphique des données.
Modélisation statistique, ajustement et tests d'hypothèses
Design d'une expérience, modèle statistique, choix d'un test d'hypothèse, ajustement à une loi donnée. Significativité, risque de première espèce, puissance, taille d'échantillon nécessaire. Modèle linéaire, régression linéaire, sélection de variables.
Méthodes de clustering supervisées modernes
Jeu de données d'entrainement/test et sélection de modèle. Modèle linéaire généralisé et régression logistique/softmax. Algorithmes de clustering KNN (K-Nearest-Neighbours), arbres de décision, random forest, Support Vector Machine, Réseaux de neurones. Méthodes de régularisation (ridge, lasso) et de sélection de variables. Extension de base.
Analyse de données génétiques
Alignement multiples, recherche d'ORF. Comparaison de séquences à une base de données, annotation. Modèles d'évolution moléculaire et reconstruction d'un arbre phylogénétique (parsimonie, maximum de vraisemblance, méthodes bayésiennes).