% INF8100 — Concepts et techniques de la fouille et de l'exploitation de données % UQAM — Département d'informatique % Plan de cours — Automne 2021 * Horaires, locaux et enseignants: Responsable(s) du cours ======================= Coordination ------------ Salah, Aziz PK-4530 Enseignement ------------- Nyamen Tato, Ange Adrienne , Groupes: 030 Description =========== Extraction de connaissances à partir de données: sélection des données cibles, mesures de dispersion et de similarité; techniques informatiques de modélisation, de transformation, de normalisation et de visualisation de données; algorithmes de prétraitement. Algorithmes de fouille: sélection d'attributs et méthodes de projection de données; modèles de régression; classification automatique: techniques de segmentation itérative, hiérarchique et probabiliste. Applications: outils informatiques pour la fouille de données; implémentation et validation d'algorithmes de fouille de données. Objectifs --------- Présenter les concepts et techniques fondamentaux indispensables à la fouille et à l'exploitation de données. Contenu ------- **Partie 1: Concepts de base**. Vue d'ensemble sur les sciences de données. Qu'est-ce que la data science. Types de données. Exemples d'applications. **Algèbre Linéaire**. Vecteurs et matrices. Valeurs propres et vecteurs propres. **Statistiques et probabilités**. Tendances centrales et dispersion. Corrélation et causalité. Probabilité conditionnelle. Théorème de la limite centrale. Test statistique d'une hypothèse. **Partie 2 : Un projet en science de données de bout en bout**. Travailler avec les données réelles. Récupérer les données (ratissage du Web et utilisation des API). Préparer les données (nettoyage, transformation, changement d'échelle). Découvrir et visualiser les données pour mieux les comprendre. **Partie 3 : Algorithmes de régression** Régression linéaire. Régression polynomiale. Régression logistique. **Partie 4 : Réduction de la dimension** Introduction à la réduction de la dimension. Analyse en composantes principales. Discriminant de Fisher. Théorie de l'information et sélection d'attributs. **Partie 5 : Classification automatique et distributions statistiques** Partitionnement. Mélanges gaussiens. Modalités d'évaluation ====================== Description Pondération -------------- ------------- Examen Final 40% 3 TPs 60% Médiagraphie ============ **\[1\] Joel Grus. *Data Science from Scratch, 2nd Edition*, O'Reilly Media, Incorporated (Mai 2019), ISBN: 9781492041139, https://books.google.ca/books?id=Y7pAzQEACAAJ. (livre de référence recommandé)**