% BIF7105 — Méthodes statistiques en bioinformatique % UQAM — Département d'informatique % Plan de cours — Automne 2021 * Horaires, locaux et enseignants: Responsable(s) du cours ======================= Coordination ------------ Makarenkov, Vladimir PK-4815 Enseignement ------------- Mazoure, Bogdan PK-4660 Groupes: 040 Description du cours ==================== Fournir les bases statistiques pour énoncer les hypothèses statistiques et exécuter les tests qui s'appliquent à des problèmes de bioinformatiques. Préalables académiques : Rappel des principes de base en probabilité et en statistique. Inférence statistique classique et bayésienne. Processus stochastiques : promenades aléatoires, processus de Poisson, chaines de Markov. Algorithme BLAST ("Basic Local Alignment Search Tool"). Modèles d'évolution. Objectif du cours ================= 1) Appliquer et comprendre les bases statistiques en bioinformatique pour énoncer des hypothèses. 2) Apprendre le langage R et développer des fonctions d'analyse. Modalités d'évaluation ====================== ÉVALUATIONS DATES DE REMISE PONDÉRATION ---------------------- ----------------- ------------- Examen de mi-session 03 novembre 30% T.P. (devoir) 01 décembre 30% Projet de session 17 décembre 30% Présentation 15 décembre 10% TRAVAUX PRATIQUES (T.P.) Le T.P. sera une suite de petits exercices qui touchent directement la matière enseignée les semaines précédentes. Les énoncés seront donnés trois semaines avant la date de remise, soit le 10 NOVEMBRE 2021. Les travaux pratiques doivent être faits individuellement et remis sous format éléctronique. PROJET DE SESSION Les projets de session sont à faire en ÉQUIPE DE DEUX OU TROIS ÉTUDIANTS. Les équipes devront définir et envoyer un énoncé de projet au plus tard le 10 novembre 2021. Chaque équipe devra rencontrer le professeur au moins une fois durant la session pour discuter l'avancement de leur projet. Le projet réalisé sera livré de deux façons : un exposé en classe de 10-15 MINUTES (5 minutes par personne) le 15 décembre 2021, puis un rapport écrit sous forme d'article à remettre le 17 décembre 2021. Vous devez remettre toutes les annexes que vous avez générées dans un dossier compressé (.zip ou .tar.gz). N'oubliez pas de bien les identifier et les commenter. Le rapport principal sera de 9 pages maximum et comprendra les sections suivantes : 1) Un résumé de votre étude (1/2 page) 2) Une introduction avec les références pertinentes (1 page) 3) Méthodologie (2 à 3 pages) 4) Résultats et discussions (2 à 3 pages) 5) Conclusion (1/2 page) 6) Références en écartant les références de *Wikipedia* (1 page maximum) EXEMPLE DE TRAVAUX ADMISSIBLES 1) Révision critique d'un outil bioinformatique (ou package R): description de l'application et des jeux de données, de la problématique, des tests d'hypothèses et de la méthode statistique. Inclusion d'un exemple pratique. 2) Révision des techniques statistiques utilisées dans un sujet d'intérêt en bioinformatique p.ex. la phylogénie, la variation génétique, l'épidémiologie, l'écologie, etc. Calendrier ========== -------------------------------------------------------------------------------- Semaine Date Activité ------------------------- --------------------------------- -------------------- 1 8 septembre Présentation du cours, introduction aux statistiques, concept de probabilité, méthode scientifique, mesures de tendance centrale, mesures de dispersion et de position . Présentation de l'environnement de programmation et introduction aux concepts algorithmiques 2 15 septembre Introduction au langage R avec RStudio, en R : Introduction aux structures de données : vecteurs, `data.frame` et matrices, lecture de fichiers, calculs simples et sorties graphiques 3 22 septembre Distributions de probabilité (loi de Poisson, loi normale, loi de Student), tests d'hypothèses, notion de degrés de liberté 4 29 septembre Analyse de variance (ANOVA), test de normalité, analyse factorielle (ANOVA à plusieurs facteurs) 5 6 octobre Langage R avec RStudio : Opérations sur les listes, structures de contrôle et fonctions, tests statistiques en R 6 13 octobre Régressions simples et multiples 7 20 octobre Langage R avec RStudio : ANOVA et régression dans R 8 27 octobre Chaînes de Markov et théorie de l'échantillonage, théorème de Bayes et p-value 9 3 novembre Examen de mi-session 10 10 novembre Langage R avec RStudio : Analyse Bayésienne et analyse par composantes principales (PCoA) et distribution du T.P. 11 17 novembre Simulations Monte Carlo, tests de permutation, bootstrap, concept de Likelihood 12 24 novembre Langage R avec RStudio : Quantitative structure-activity relationship - QSAR 13 1 décembre Langage R avec RStudio : Simulations de Monte Carlo, échantillonnage aléatoire, bootstrap, réalisation de rapports, présentations avec Knitr et remise du T.P. 14 8 décembre Langage R avec RStudio : Classification hiérarchique (hclust) et par partitionnement et k-means 15 15 décembre Présentations orales -------------------------------------------------------------------------------- Médiagraphie ============ LOGICIEL RStudio: https://www.rstudio.com/products/rstudio/download/ LO LIVRES ET AIDE MÉMOIRE Kauffman, M. (2009) AIDE MÉMOIRE R Référence des fonctions de R les plus courantes. (https://cran.r-project.org/doc/contrib/Kauffmann_aide_memoire_R.pdf) VO Krijnen, W. P. (2009). Applied statistics for bioinformatics using R. Institute for Life Science and Technology, Hanze University. (https://cran.r-project.org/doc/contrib/Krijnen-IntroBioInfStatistics.pdf) VO Laude, H. (2016). Data Scientist et langage R - Guide d'autoformation à l'exploitation des Big Data. ENI. VR Paradis, E. (2005) R pour les débutants (https://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf) VO