% INF7710 — Théorie et applications de la fouille d'associations % UQAM — Département d'informatique % Plan de cours — Hiver 2023 * Horaires, locaux et enseignants: Enseignement ============ Valtchev, Petko PK-4415 Groupes: 040 Description du cours ==================== La découverte d'associations est un aspect fondamental de la fouille de données. Ce cours met l'accent sur les bases théoriques de l'approche et sur les liens avec des problématiques de la théorie de la normalisation en bases de données, l'analyse formelle de concepts et les fonctions Booléennes. - Problème générique de découverte d'associations et de la fouille de motifs fréquents. - Variantes : motifs fermés, motifs maximaux, motifs clés ou générateurs. - Structures algébriques mises en jeux : treillis Booléen, classes d'équivalence, correspondances de Galois, treillis de concepts, contextes. - Approches de fouille de motifs : algorithmes par niveaux, algorithmnes verticaux, algorithmes hybrides. - Représentations compactes pour les associations : base canonique, bases génériques et informatives. - Famille réduites de motifs : motifs indérivables, motifs delta-libres, motifs sans disjonction, motifs k-libres. - Applications de la fouille d'associations. Objectif du cours ================= Ce cours vise à approfondir les connaissances de l'étudiant sur un domaine en pleine expansion qu'est la fouille de données. Le cours se focalise sur la découverte d'associations et de motifs fréquents qui est une discipline fondamentale de la fouille de données. L'accent est mis sur la présentation des diverses instanciations du problème général de la fouille ainsi que sur les fondements théoriques de l'approche et leurs liens avec des problématiques de la théorie de la normalisation en bases de données et l'analyse formelle de concepts. Le but du cours est de permettre à l'étudiant de se familiariser avec la fouille de données en général à travers l'étude plus approfondie d'une des disciplines pertinentes, soit la fouille d'associations. Les objectifs concrets du cours peuvent être énoncés comme suit : - d'approfondir la maîtrise de certains concepts fondamentaux en bases de données; - de familiariser l'étudiant avec la démarche générale en fouille d'associations; - de lui fournir des connaissances exploitables en conception de méthodes de fouille; - de faire connaître à l'étudiant les plus récents développements dans le domaine; - de permettre l'approfondissement d'un des thèmes de recherche dans le domaine; - d'initier l'étudiant à la recherche à travers la rédaction d'un rapport sur un sujet d'actualité. Contenu du cours ================ Ce cours est destiné aux étudiants ayant suivi au préalable un ou des cours de bases de données au niveau baccalauréat et, de préférence, un cours d'introduction à l'intelligence artificielle. Les sujets abordés sont : - Introduction à la problématique de la fouille de données - Principales tâches de la fouille et solutions de principe - Problème générique de la fouille d'associations et ses défis techniques - Approche de référence pour l'extraction d'associations - Approches alternatives et familles réduites de motifs et d'associations - Ordres partiels et treillis et leur rôle en fouille de motifs - Analyse de concepts comme cadre fondamental pour fouille de motifs - Associations, implications, dépendances fonctionnelles - Motifs et associations structurés : séquences, arbres, graphes - Fouille en présence de connaissances du domaine : les motifs généralisés - Principales applications des motifs et associations : médecine, recherche d'information, recommandation, modélisation de l'utilisateur. Formulé pédagogique et autres modalités d'enseignement ====================================================== - Séances de **cours magistraux** qui se déroulent, selon la situation sanitaire : a) en ligne (sur Zoom) et en synchrone ou b) en présentiel à l'UQAM. - Le **lien Zoom** se trouve sur **le site Moodle** du cours - Les **présentations électroniques** du professeur seront disponibles sur le site Moodle du cours (voir plus bas) *avant* les séances - **Questions** sur le cours : par courriel ou sur les **forums du site Moodle** (un par semaines) Modalités d'évaluation ====================== ------------------------------------------------------------------------ Description sommaire Date Pondération -------------------------------------------- ------------- ------------- Résumé d'article de recherche 1 Semaine 4 15% Résumé d'article de recherche 2 Semaine 8 15% Travail de session : 1re partie - Semaine 11 10% Proposition de sujet Travail de session : 2e partie - Semaine 15 25% Présentation orale Travail de session : 3e partie - Mémoire sur Semaine 16 35% le sujet choisi ------------------------------------------------------------------------ Le travail de session est réalisé individuellement ou par groupe de deux étudiants. Une liste de sujets potentiels et des recommandations seront fournis pendant la session. La qualité du français constitue un critère d'évaluation (pour un maximum de 10%). En cas de retard dans la remise des travaux, une pénalité de 5% par jour ouvrable sera appliquée. Un retard de plus d'une semaine ne sera pas accepté. Les règlements concernant le plagiat seront strictement appliqués. Pour plus de renseignements, consultez le site suivant : Matériel requis =============== - Ordinateur avec une bonne connexion internet - Casque avec micro - Webcam Médiagraphie ============ VC TAN, P.-N., STEINBACH, M., KARPATNE, A. et KUMAR, V. -- *Introduction to Data Mining, 2e* -- PEARSON (2018) VC GODIN, R. -- *Systèmes de gestion de bases de données par l'exemple* -- LOZE-DION (2006) VC HAN J., KAMBER, M. et PEI, J. -- *Data Mining : Concepts and Techniques, 3e* -- MORGAN KAUFMANN (2011). VC BERRY, M. et LINOFF, G. -- *Mastering Data Mining* -- JOHN WILEY & SONS (2000). VC HAND, D., MANNILA, H. et SMYTH, P. -- *Principles of Data Mining* -- MIT PRESS (2000). VC CARPINETO, C. et ROMANO, G. -- -- *Concept Data Analysis : Theory and Applications* -- WILEY (2004). VC GANTER, B. et WILLE R. -- -- *Formal Concept Analysis, Mathematical Foundations.* -- SPRINGER-VERLAG (1999). AC FAYYAD, U., PIATETSKY-SHAPIRO, G. et SMYTH, P. -- -- *From Data Mining to Knowledge Discovery in Databases* -- AI MAGAZINE 17(3): 37-54, 1996. AC AGRAWAL, R., IMIELINSKI, T. et SWAMI, A. -- *Mining association rules between sets of items in large databases* -- PROCEEDINGS OF THE ACM SIGMOD INTERNATIONAL CONFERENCE ON THE MANAGEMENT OF DATA, WASHINGTON (DC), USA, PAGES 207--216, 1993. AC AGRAWAL, R., MANNILA, H., SRIKANT, R., TOIVONEN, H. et VERKAMO, A. -- *Fast Discovery of Association Rules* -- U. FAYYAD, G. PIATETSKY-SHAPIRO, AND P. SMYTH, ÉDS, ADVANCES IN KNOWLEDGE DISCOVERY AND DATA MINING, PAGES 307--328. AAAI PRESS, MENLO PARK (CA), USA, 1996. AC D'autres références (selon les sujets abordés) seront remises durant la session.