% INF8810 — Traitement et analyse des données massives % UQAM — Département d'informatique % Plan de cours — Été 2023 * Horaires, locaux et enseignants: Responsable(s) du cours ======================= Coordination ------------ Salah, Aziz PK-4530 Enseignement ------------- Zaier, Zied PK-4115 Groupes: 040 Description =========== Objectifs --------- Le cours présente les enjeux et les défis liés à la collecte, au stockage et à l'analyse de données massives. À l'issue du cours, les étudiants devraient être capables de proposer des solutions pour l'analyse de données massives, de connaitre les difficultés et les enjeux particuliers à leur traitement, de comprendre les différentes approches algorithmiques permettant de les traiter et de connaitre les principaux outils logiciels du domaine. Sommaire du contenu ------------------- Définition du contexte. Perspectives éthiques et sécurité des données. Problèmes de passage à l'échelle. Manipulation des données massives. Indexation. Bases de données non relationnelles. Données massives connectées. Principaux algorithmes de fouille et d'apprentissage automatique adaptés au traitement des données massives. Données textuelles et traitement automatique du langage naturel. Étude et utilisation d'outils logiciels. Modalité d'enseignement ----------------------- Séances magistrales; Exercices pratiques; Études de cas; Projet de session. Modalités d'évaluation ====================== ------------------------------------------------------------------------ Outil d'évaluation Pondération Échéance ---------------------------------- --------------------- --------------- Projet 1 - Manipulation des 30% 31 mai 2023 données avec HDFS et MapReduce Projet 2 - Fouille de Graphes avec 30% 5 juillet 2023 Neo4J et système de recommandation Examen final 40% 13 juillet 2023 ------------------------------------------------------------------------ INFORMATIONS IMPORTANTES ------------------------ La qualité du français constitue un critère d'évaluation (pour un maximum de 10%). En cas de retard dans la remise des travaux, une pénalité de 5% par jour ouvrable sera appliquée. Un retard de plus de cinq jours ouvrables ne sera pas accepté. Les règlements concernant le plagiat seront strictement appliqués. Pour plus de renseignements, consultez le site suivant : Les applications pratiques s'appuient sur un tutoriel et nécessitent un ordinateur portable avec au moins 8GO de RAM. Contenu du cours ================ - Problèmes de passage à l'échelle. - Manipulation des données massives. - MapReduce, Spark, etc. - Pipelines (SQL, SparkSQL, etc.) - Workflow (Apache Airflow) - Indexation - Elasticsearch ou Solr - Comparaison avec le NOSQL (MongoDB, etc.) - Introduction aux systèmes de recommandation - Données massives connectées : BD graph (Neo4J) - Fouille de Graphes (système de recommandation) - Données textuelles et traitement automatique du langage naturel. - Analyse de sentiments, opinion mining, etc. - Réseaux de neurones, Word embeddings, Deep Learning, etc. Médiagraphie ============ Obligatoire ----------- - Notes de cours disponibles sur le site Moodle du cours Ressources complémentaires -------------------------- - Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman. Mining of Massive Datasets. 3rd Edition. 2020. ISBN: 978-1108476348. - Drew Conway, John Myles White. Machine Learning for Hackers: Case Studies and Algorithms to Get You Started. 2012. ISBN: 978-1449303716.