% INF8810 — Traitement et analyse des données massives
% UQAM — Département d'informatique
% Plan de cours — Été 2023

* Horaires, locaux et enseignants: <https://etudier.uqam.ca/cours?sigle=INF8810>


Responsable(s) du cours
=======================

Coordination
------------

Salah, Aziz
PK-4530
<Salah.aziz@uqam.ca>
<https://www.labunix.uqam.ca/~salah_a>

Enseignement
-------------
Zaier, Zied
PK-4115
<zaier.zied@uqam.ca>
Groupes: 040

Description
===========

Objectifs
---------

Le cours présente les enjeux et les défis liés à la collecte, au
stockage et à l'analyse de données massives. À l'issue du cours, les
étudiants devraient être capables de proposer des solutions pour
l'analyse de données massives, de connaitre les difficultés et les
enjeux particuliers à leur traitement, de comprendre les différentes
approches algorithmiques permettant de les traiter et de connaitre les
principaux outils logiciels du domaine.

Sommaire du contenu
-------------------

Définition du contexte. Perspectives éthiques et sécurité des données.
Problèmes de passage à l'échelle. Manipulation des données massives.
Indexation. Bases de données non relationnelles. Données massives
connectées. Principaux algorithmes de fouille et d'apprentissage
automatique adaptés au traitement des données massives. Données
textuelles et traitement automatique du langage naturel. Étude et
utilisation d'outils logiciels.

Modalité d'enseignement
-----------------------

Séances magistrales; Exercices pratiques; Études de cas; Projet de
session.

Modalités d'évaluation
======================

  ------------------------------------------------------------------------
  Outil d'évaluation                           Pondération Échéance
  ---------------------------------- --------------------- ---------------
  Projet 1 - Manipulation des                          30% 31 mai 2023
  données avec HDFS et MapReduce                           

  Projet 2 - Fouille de Graphes avec                   30% 5 juillet 2023
  Neo4J et système de recommandation                       

  Examen final                                         40% 13 juillet 2023
  ------------------------------------------------------------------------

INFORMATIONS IMPORTANTES
------------------------

La qualité du français constitue un critère d'évaluation (pour un
maximum de 10%). En cas de retard dans la remise des travaux, une
pénalité de 5% par jour ouvrable sera appliquée. Un retard de plus de
cinq jours ouvrables ne sera pas accepté. Les règlements concernant le
plagiat seront strictement appliqués. Pour plus de renseignements,
consultez le site suivant :
<http://www.sciences.uqam.ca/etudiants/integrite-academique.html>

Les applications pratiques s'appuient sur un tutoriel et nécessitent un
ordinateur portable avec au moins 8GO de RAM.

Contenu du cours
================

-   Problèmes de passage à l'échelle.

-   Manipulation des données massives.

    -   MapReduce, Spark, etc.

    -   Pipelines (SQL, SparkSQL, etc.)

-   Workflow (Apache Airflow)

-   Indexation

    -   Elasticsearch ou Solr

    -   Comparaison avec le NOSQL (MongoDB, etc.)

-   Introduction aux systèmes de recommandation

-   Données massives connectées : BD graph (Neo4J)

    -   Fouille de Graphes (système de recommandation)

-   Données textuelles et traitement automatique du langage naturel.

    -   Analyse de sentiments, opinion mining, etc.

    -   Réseaux de neurones, Word embeddings, Deep Learning, etc.

Médiagraphie
============

Obligatoire
-----------

-   Notes de cours disponibles sur le site Moodle du cours

Ressources complémentaires
--------------------------

-   Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman. Mining of
    Massive Datasets. 3rd Edition. 2020. ISBN: 978-1108476348.
-   Drew Conway, John Myles White. Machine Learning for Hackers: Case
    Studies and Algorithms to Get You Started. 2012. ISBN:
    978-1449303716.