% BIF7105 — Méthodes statistiques en bioinformatique % UQAM — Département d'informatique % Plan de cours — Automne 2019 * Horaires, locaux et enseignants: Responsable(s) du cours ======================= Coordination ------------ Makarenkov, Vladimir PK-4815 poste 3870 Enseignant(s) ------------- Tahiri, Nadia PK-4660 poste 4803 Willems, Matthieu PK-4660 poste 4803 Description du cours ==================== Fournir les bases statistiques pour énoncer les hypothèses statistiques et exécuter les tests qui s'appliquent à des problèmes de bioinformatiques. Préalables académiques : Rappel des principes de base en probabilité et en statistique. Inférence statistique classique et bayésienne. Processus stochastiques : promenades aléatoires, processus de Poisson, chaines de Markov. Algorithme BLAST ("Basic Local Alignment Search Tool"). Modèles d'évolution. Objectif du cours ================= 1) Appliquer et comprendre les bases statistiques en bioinformatique pour énoncer des hypothèses. 2) Apprendre le langage R et développer des fonctions d'analyse. Modalités d'évaluation ====================== ---------------------- ----------------- ------------- ÉVALUATIONS DATES DE REMISE PONDÉRATION Examen de mi-session 30 octobre 30% T.P. (devoir) 27 novembre 30% Projet de session 18 décembre 30% Présentation 11 décembre 10% ---------------------- ----------------- ------------- TRAVAUX PRATIQUES (T.P.) Le T.P. sera une suite de petits exercices qui touchent directement la matière enseignée les semaines précédentes. Les énoncés seront donnés trois semaines avant la date de remise, soit le 6 NOVEMBRE 2019. Les travaux pratiques doivent être faits individuellement et remis sous format papier. PROJET DE SESSION Les projets de session sont à faire en ÉQUIPE DE DEUX OU TROIS ÉTUDIANTS. Les équipes devront définir et envoyer un énoncé de projet au plus tard le 6 novembre 2019. Chaque équipe devra rencontrer le professeur responsable de son projet au moins une fois durant la session pour discuter l'avancement de leur projet. Le projet réalisé sera livré de deux façons : un exposé en classe de 10-15 MINUTES (5 minutes par personne) le 11 décembre 2019, puis un rapport écrit sous forme d'article à remettre le 18 décembre 2019. Vous devez remettre toutes les annexes que vous avez générées dans un dossier compressé (.zip ou .tar.gz). N'oubliez pas de bien les identifier et les commenter. Le rapport principal sera de 10 pages maximum et comprendra les sections suivantes : 1) Un résumé de votre étude (1/2 page) 2) Une introduction avec les références pertinentes (2 pages) 3) Méthodologie (2 à 3 pages) 4) Résultats et discussions (2 à 3 pages) 5) Conclusion (1 page) 6) Références en écartant les références de *Wikipedia* (1 page maximum) EXEMPLE DE TRAVAUX ADMISSIBLES 1) Révision critique d'un outil bioinformatique (ou package R): description de l'application et des jeux de données, de la problématique, des tests d'hypothèses et de la méthode statistique. Inclusion d'un exemple pratique. 2) Révision des techniques statistiques utilisées dans un sujet d'intérêt en bioinformatique p.ex. la phylogénie, la variation génétique, l'épidémiologie, l'écologie, etc. Calendrier ========== ----------------------- ----------------------- ----------------------- Semaine Date Activité 1 4 septembre Présentation du cours, introduction aux statistiques, concept de probabilité, méthode scientifique, mesures de tendance centrale, mesures de dispersion et de position (MW) 2 11 septembre Distributions de probabilité (loi de Poisson, loi normale, loi de Student), tests d'hypothèses, notion de degrés de liberté (MW) 3 18 septembre Analyse de variance (ANOVA), test de normalité, analyse factorielle (ANOVA à plusieurs facteurs) (MW) 4 25 septembre Introduction au langage R avec RStudio, en R : Introduction aux structures de données : vecteurs, « data.frame » et matrices, lecture de fichiers, calculs simples et sorties graphiques (NT) 5 2 octobre Langage R avec RStudio : Opérations sur les listes, structures de contrôle et fonctions, tests statistiques en R (NT) 6 9 octobre \| Régressions simples et multiples (MW) 7 16 octobre Langage R avec RStudio : ANOVA et régression dans R (NT) 8 23 octobre Chaînes de Markov et théorie de l'échantillonage, théorème de Bayes et p-value (MW) 9 30 octobre Examen de mi-session (MW) 10 6 novembre Langage R avec RStudio : Analyse Bayésienne et analyse par composantes principales (PCoA) (NT) 11 13 novembre Simulations Monte Carlo, tests de permutation, bootstrap, concept de Likelihood (MW) 12 20 novembre Langage R avec RStudio : Introduction aux réseaux (Igraph), analyse et statistiques sur les réseaux, analyse des arbres phylogénétiques, distribution du T.P. (NT) 13 27 novembre Langage R avec RStudio : Simulations de Monte Carlo, échantillonnage aléatoire, bootstrap, réalisation de rapports et présentations avec Knitr (NT) 14 4 décembre Langage R avec RStudio : Classification hiérarchique (hclust) et par partitionnement (k-means), remise du T.P. (NT) 15 11 décembre Présentations orales (NT) ----------------------- ----------------------- ----------------------- Médiagraphie ============ LOGICIEL RStudio: LO LIVRES ET AIDE MÉMOIRE Kauffman, M. (2009) AIDE MÉMOIRE R Référence des fonctions de R les plus courantes. () VO Krijnen, W. P. (2009). Applied statistics for bioinformatics using R. Institute for Life Science and Technology, Hanze University. () VO Laude, H. (2016). Data Scientist et langage R - Guide d'autoformation à l'exploitation des Big Data. ENI. VR Paradis, E. (2005) R pour les débutants () VO