% INF8810 — Traitement et analyse des données massives
% UQAM — Département d'informatique
% Plan de cours — Automne 2022

* Horaires, locaux et enseignants: <https://etudier.uqam.ca/cours?sigle=INF8810>


Responsable(s) du cours
=======================

Coordination
------------

Salah, Aziz
PK-4530
<Salah.aziz@uqam.ca>
<https://www.labunix.uqam.ca/~salah_a>

Enseignement
-------------
Zaier, Zied
PK-4115
<zaier.zied@uqam.ca>
Groupes: 020

Description
===========

Objectifs
---------

Le cours présente les enjeux et les défis liés à la collecte, au
stockage et à l'analyse de données massives. À l'issue du cours, les
étudiants devraient être capables de proposer des solutions pour
l'analyse de données massives, de connaitre les difficultés et les
enjeux particuliers à leur traitement, de comprendre les différentes
approches algorithmiques permettant de les traiter et de connaitre les
principaux outils logiciels du domaine.

Sommaire du contenu
-------------------

Définition du contexte. Perspectives éthiques et sécurité des données.
Problèmes de passage à l'échelle. Manipulation des données massives.
Indexation. Bases de données non relationnelles. Données massives
connectées. Principaux algorithmes de fouille et d'apprentissage
automatique adaptés au traitement des données massives. Données
textuelles et traitement automatique du langage naturel. Étude et
utilisation d'outils logiciels.

Modalité d'enseignement
-----------------------

Séances magistrales; Exercices pratiques; Études de cas; Projet de
session.

Modalités d'évaluation
======================

  ------------------------------------------------------------------------
  Outil d'évaluation                           Pondération Échéance
  ---------------------------------- --------------------- ---------------
  Projet 1 - Manipulation des                          30% 19 octobre 2022
  données avec HDFS, MapReduce et                          
  SparkSQL                                                 

  Projet 2 - Fouille de Graphes avec                   30% 7 décembre 2022
  Neo4J et système de recommandation                       

  Examen final                                         40% 15 décembre
                                                           2022
  ------------------------------------------------------------------------

INFORMATIONS IMPORTANTES
------------------------

La qualité du français constitue un critère d'évaluation (pour un
maximum de 10%). En cas de retard dans la remise des travaux, une
pénalité de 5% par jour ouvrable sera appliquée. Un retard de plus de
cinq jours ouvrables ne sera pas accepté. Les règlements concernant le
plagiat seront strictement appliqués. Pour plus de renseignements,
consultez le site suivant :
<http://www.sciences.uqam.ca/etudiants/integrite-academique.html>

Contenu du cours
================

-   Problèmes de passage à l'échelle.

-   Manipulation des données massives.

    -   MapReduce, Spark, etc.

    -   Pipelines (SQL, SparkSQL, etc.)

-   Workflow (Apache Airflow)

-   Indexation

    -   Elasticsearch ou Solr

    -   Comparaison avec le NOSQL (MongoDB, etc.)

-   Introduction aux systèmes de recommandation

-   Données massives connectées : BD graph (Neo4J)

    -   Fouille de Graphes (système de recommandation)

-   Données textuelles et traitement automatique du langage naturel.

    -   Analyse de sentiments, opinion mining, etc.

    -   Réseaux de neurones, Word embeddings, Deep Learning, etc.

Médiagraphie
============

Obligatoire
-----------

-   Notes de cours disponibles sur le site Moodle du cours

Ressources complémentaires
--------------------------

-   Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman. Mining of
    Massive Datasets. 3rd Edition. 2020. ISBN: 978-1108476348.
-   Drew Conway, John Myles White. Machine Learning for Hackers: Case
    Studies and Algorithms to Get You Started. 2012. ISBN:
    978-1449303716.