Professeur responsable

Belkacem Chikhaoui

Préalable

INF 1220

Objectifs

Contenu

Le cours est organisé en cinq modules, qui traitent de :

1. Définition des données massives : volume, variété, vélocité. Les différentes méthodes de traitement des données massives, traitement par lots (batch processing), traitement en continu (stream processing).

2. Architecture de l'écosystème HADOOP. Représentation de données dans HADOOP : le système HDFS, exemples d'applications. Principe de Map Reduce.

3. Ensembles de données distribués résilients (RDD : resilient distributed datasets) : créer et utiliser des RDD, transformations sur des RDD. SPARK SQL, SPARK Graph X, SPARK MLLIB : exemples d'applications en Jupyter Notebook..

4. Introduction aux données non structurées. Stockage des données non structurées : MongoDB. Requêtes sur des données non structurées.

5. Stockage et traitement des données en infonuagique (exemple de Google Cloud). Requêtes sur des données stockées en infonuagique : introduction à Big Query. Exemples d'application sur Google Cloud.

Matériel didactique

Site Web du cours

Matériel expédié

Renseignements technologiques

Consultez l'information sur le matériel informatique recommandé.

Encadrement

L'encadrement est individualisé et assuré par le professeur responsable du cours ou par une personne tutrice. Les communications se font par téléphone ou par courriel.

Évaluation

L'évaluation repose sur cinq travaux en ligne (10 %, 20 %, 20 %, 10 % et 10 %) et un projet final (30 %).

Échelle de conversion

NotationValeur numériqueValeur en pourcentage
A+4,396 à 100 %
A492 à 95 %
A-3,788 à 91 %
B+3,384 à 87 %
B380 à 83 %
B-2,776 à 79 %
C+2,372 à 75 %
C268 à 71 %
C-1,764 à 67 %
D+1,360 à 63 %
D150 à 59 %
E00 à 49 %

* Échelle de conversion actuellement en vigueur pour ce cours.

Particularités d'inscription

Ce cours présuppose la connaissance des mathématiques de niveau collégial et des bases en programmation.