% INF8810 — Traitement et analyse des données massives % UQAM — Département d'informatique % Plan de cours — Automne 2021 * Horaires, locaux et enseignants: Responsable(s) du cours ======================= Coordination ------------ Salah, Aziz PK-4530 Enseignement ------------- Zaier, Zied PK-4115 Groupes: 010 Description =========== Objectifs --------- Le cours présente les enjeux et les défis liés à la collecte, au stockage et à l'analyse de données massives. À l'issue du cours, les étudiants devraient être capables de proposer des solutions pour l'analyse de données massives, de connaitre les difficultés et les enjeux particuliers à leur traitement, de comprendre les différentes approches algorithmiques permettant de les traiter et de connaitre les principaux outils logiciels du domaine. Sommaire du contenu ------------------- Définition du contexte. Perspectives éthiques et sécurité des données. Problèmes de passage à l'échelle. Manipulation des données massives. Indexation. Bases de données non relationnelles. Données massives connectées. Principaux algorithmes de fouille et d'apprentissage automatique adaptés au traitement des données massives. Données textuelles et traitement automatique du langage naturel. Étude et utilisation d'outils logiciels. Modalité d'enseignement ----------------------- Séances magistrales; Exercices pratiques; Études de cas; Projet de session. Modalités d'évaluation ====================== Outil d'évaluation Pondération Échéance ------------------------------------- ------------- ------------------ Projet 1 - Manipulation des données 30% a déterminer Projet 2 - Fouille des données 30% a déterminer Examen final 40% dernière Semaine INFORMATIONS IMPORTANTES ------------------------ La qualité du français constitue un critère d'évaluation (pour un maximum de 10%). En cas de retard dans la remise des travaux, une pénalité de 5% par jour ouvrable sera appliquée. Un retard de plus de cinq jours ouvrables ne sera pas accepté. Les règlements concernant le plagiat seront strictement appliqués. Pour plus de renseignements, consultez le site suivant : Contenu du cours ================ - Problèmes de passage à l'échelle. - Manipulation des données massives. - MapReduce, Spark, etc. - Pipelines (SQL, SparkSQL, etc.) - Workflow (Apache Airflow) - Indexation - Elasticsearch ou Solr - Comparaison avec le NOSQL (MongoDB, etc.) - Données massives connectées : BD graph (Neo4J) - Fouille de Graphes (système de recommandation) - Données textuelles et traitement automatique du langage naturel. - Analyse de sentiments, opinion mining, etc. - Réseaux de neurones, Word embeddings, Deep Learning, etc. Médiagraphie ============ Obligatoire ----------- - Notes de cours disponibles sur le site Moodle du cours Ressources complémentaires -------------------------- - Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman. Mining of Massive Datasets. 3rd Edition. 2020. ISBN: 978-1108476348. - Drew Conway, John Myles White. Machine Learning for Hackers: Case Studies and Algorithms to Get You Started. 2012. ISBN: 978-1449303716.