Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
enseignement:tp:bda:spark:2016 [2016/11/07 21:02]
ecoquery [TP Spark]
enseignement:tp:bda:spark:2016 [2016/11/08 08:40] (Version actuelle)
ecoquery [Jointure avec Object]
Ligne 22: Ligne 22:
 </code> </code>
  
-Récupérer l'archive [[data.zip]] qui contient les fichiers de données.+Récupérer l'archive [[https://box.univ-lyon1.fr/p/3f8282|data.zip]] qui contient les fichiers de données.
  
 Importer les données dans HDFS (dans le répertoire HDFS ''/home/root'') en conservant la structure de répertoires de l'archive. Importer les données dans HDFS (dans le répertoire HDFS ''/home/root'') en conservant la structure de répertoires de l'archive.
Ligne 59: Ligne 59:
     * il est également possible de calculer un unique aggrégat comme résultat via ''reduce''.     * il est également possible de calculer un unique aggrégat comme résultat via ''reduce''.
     * d'autre actions sont possibles pour exploiter des RDDs comme ''count'', ''take'', ''takeSample'', ''collect''((Attention à ''collect'' sur des données volumineuses, car toutes les lignes du RDD sont renvoyées))     * d'autre actions sont possibles pour exploiter des RDDs comme ''count'', ''take'', ''takeSample'', ''collect''((Attention à ''collect'' sur des données volumineuses, car toutes les lignes du RDD sont renvoyées))
 +    * schémas: {{:enseignement:tp:bda:spark:source.sql|}}
          
 ===== Jointure avec Object ===== ===== Jointure avec Object =====
Ligne 72: Ligne 73:
 </code> </code>
  
-Coder cette requête dans Spark. On pourra utiliser la transformation ''join'' pour effectuer la jointure entre Source et Object.+Coder cette requête dans Spark. On pourra utiliser la transformation ''join'' pour effectuer la jointure entre Source et Object (schéma: {{:enseignement:tp:bda:spark:object.sql|}}).