Différences

Ci-dessous, les différences entre deux révisions de la page.

--- enseignement:tp:bda:spark:2016 [2016/11/07 21:02]
ecoquery [TP Spark]
+++ enseignement:tp:bda:spark:2016 [2016/11/08 08:40] (Version actuelle)
ecoquery [Jointure avec Object]
@@ Ligne 22: / Ligne 22: @@
 </code>
-Récupérer l'archive [[data.zip]] qui contient les fichiers de données.
+Récupérer l'archive [[https://box.univ-lyon1.fr/p/3f8282|data.zip]] qui contient les fichiers de données.
 Importer les données dans HDFS (dans le répertoire HDFS ''/home/root'') en conservant la structure de répertoires de l'archive.
@@ Ligne 59: / Ligne 59: @@
     * il est également possible de calculer un unique aggrégat comme résultat via ''reduce''.
     * d'autre actions sont possibles pour exploiter des RDDs comme ''count'', ''take'', ''takeSample'', ''collect''((Attention à ''collect'' sur des données volumineuses, car toutes les lignes du RDD sont renvoyées))
+    * schémas: {{:enseignement:tp:bda:spark:source.sql|}}
 ===== Jointure avec Object =====
@@ Ligne 72: / Ligne 73: @@
 </code>
-Coder cette requête dans Spark. On pourra utiliser la transformation ''join'' pour effectuer la jointure entre Source et Object.
+Coder cette requête dans Spark. On pourra utiliser la transformation ''join'' pour effectuer la jointure entre Source et Object (schéma: {{:enseignement:tp:bda:spark:object.sql|}}).

Emmanuel COQUERY