Différences

Ci-dessous, les différences entre deux révisions de la page.

--- enseignement:tp:bda:spark:2016 [2016/11/07 20:58]
ecoquery
+++ enseignement:tp:bda:spark:2016 [2016/11/08 08:40] (Version actuelle)
ecoquery [Jointure avec Object]
@@ Ligne 2: / Ligne 2: @@
 L'objectif de ce TP est de prendre en main [[http://spark.apache.org/|Spark]], un autre moteur de calcul distribué sur HDFS (entre autres).
+Ce TP est à faire en binôme (les mêmes que pour le TP Hadoop).
+Il est demandé de rendre un rapport décrivant le déroulement du TP et contenant en particulier le code commenté pour le **lundi 14/11/2016** au soir sous forme d'un fichier pdf à déposer dans la case tomuss ''rendu_spark''.
 Chaque binôme dispose d'une machine cloud (ip dans tomuus) pour exécuter des job Spark.
@@ Ligne 19: / Ligne 22: @@
 </code>
-Récupérer l'archive [[data.zip]] qui contient les fichiers de données.
+Récupérer l'archive [[https://box.univ-lyon1.fr/p/3f8282|data.zip]] qui contient les fichiers de données.
 Importer les données dans HDFS (dans le répertoire HDFS ''/home/root'') en conservant la structure de répertoires de l'archive.
@@ Ligne 56: / Ligne 59: @@
     * il est également possible de calculer un unique aggrégat comme résultat via ''reduce''.
     * d'autre actions sont possibles pour exploiter des RDDs comme ''count'', ''take'', ''takeSample'', ''collect''((Attention à ''collect'' sur des données volumineuses, car toutes les lignes du RDD sont renvoyées))
+    * schémas: {{:enseignement:tp:bda:spark:source.sql|}}
 ===== Jointure avec Object =====
@@ Ligne 69: / Ligne 73: @@
 </code>
-Coder cette requête dans Spark. On pourra utiliser la transformation ''join'' pour effectuer la jointure entre Source et Object.
+Coder cette requête dans Spark. On pourra utiliser la transformation ''join'' pour effectuer la jointure entre Source et Object (schéma: {{:enseignement:tp:bda:spark:object.sql|}}).

Emmanuel COQUERY

Outils de la page

Différences