% INF8810 — Traitement et analyse des données massives % UQAM — Département d'informatique % Plan de cours — Automne 2022 * Horaires, locaux et enseignants: Responsable(s) du cours ======================= Coordination ------------ Salah, Aziz PK-4530 Enseignement ------------- Zaier, Zied PK-4115 Groupes: 020 Description =========== Objectifs --------- Le cours présente les enjeux et les défis liés à la collecte, au stockage et à l'analyse de données massives. À l'issue du cours, les étudiants devraient être capables de proposer des solutions pour l'analyse de données massives, de connaitre les difficultés et les enjeux particuliers à leur traitement, de comprendre les différentes approches algorithmiques permettant de les traiter et de connaitre les principaux outils logiciels du domaine. Sommaire du contenu ------------------- Définition du contexte. Perspectives éthiques et sécurité des données. Problèmes de passage à l'échelle. Manipulation des données massives. Indexation. Bases de données non relationnelles. Données massives connectées. Principaux algorithmes de fouille et d'apprentissage automatique adaptés au traitement des données massives. Données textuelles et traitement automatique du langage naturel. Étude et utilisation d'outils logiciels. Modalité d'enseignement ----------------------- Séances magistrales; Exercices pratiques; Études de cas; Projet de session. Modalités d'évaluation ====================== ------------------------------------------------------------------------ Outil d'évaluation Pondération Échéance ---------------------------------- --------------------- --------------- Projet 1 - Manipulation des 30% 19 octobre 2022 données avec HDFS, MapReduce et SparkSQL Projet 2 - Fouille de Graphes avec 30% 7 décembre 2022 Neo4J et système de recommandation Examen final 40% 15 décembre 2022 ------------------------------------------------------------------------ INFORMATIONS IMPORTANTES ------------------------ La qualité du français constitue un critère d'évaluation (pour un maximum de 10%). En cas de retard dans la remise des travaux, une pénalité de 5% par jour ouvrable sera appliquée. Un retard de plus de cinq jours ouvrables ne sera pas accepté. Les règlements concernant le plagiat seront strictement appliqués. Pour plus de renseignements, consultez le site suivant : Contenu du cours ================ - Problèmes de passage à l'échelle. - Manipulation des données massives. - MapReduce, Spark, etc. - Pipelines (SQL, SparkSQL, etc.) - Workflow (Apache Airflow) - Indexation - Elasticsearch ou Solr - Comparaison avec le NOSQL (MongoDB, etc.) - Introduction aux systèmes de recommandation - Données massives connectées : BD graph (Neo4J) - Fouille de Graphes (système de recommandation) - Données textuelles et traitement automatique du langage naturel. - Analyse de sentiments, opinion mining, etc. - Réseaux de neurones, Word embeddings, Deep Learning, etc. Médiagraphie ============ Obligatoire ----------- - Notes de cours disponibles sur le site Moodle du cours Ressources complémentaires -------------------------- - Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman. Mining of Massive Datasets. 3rd Edition. 2020. ISBN: 978-1108476348. - Drew Conway, John Myles White. Machine Learning for Hackers: Case Studies and Algorithms to Get You Started. 2012. ISBN: 978-1449303716.