Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
enseignement:tp:bda:spark:2016 [2016/11/07 20:58]
ecoquery
enseignement:tp:bda:spark:2016 [2016/11/08 08:40] (Version actuelle)
ecoquery [Jointure avec Object]
Ligne 2: Ligne 2:
  
 L'objectif de ce TP est de prendre en main [[http://spark.apache.org/|Spark]], un autre moteur de calcul distribué sur HDFS (entre autres). L'objectif de ce TP est de prendre en main [[http://spark.apache.org/|Spark]], un autre moteur de calcul distribué sur HDFS (entre autres).
 +
 +Ce TP est à faire en binôme (les mêmes que pour le TP Hadoop). 
 +Il est demandé de rendre un rapport décrivant le déroulement du TP et contenant en particulier le code commenté pour le **lundi 14/11/2016** au soir sous forme d'un fichier pdf à déposer dans la case tomuss ''rendu_spark''.
  
 Chaque binôme dispose d'une machine cloud (ip dans tomuus) pour exécuter des job Spark. Chaque binôme dispose d'une machine cloud (ip dans tomuus) pour exécuter des job Spark.
Ligne 19: Ligne 22:
 </code> </code>
  
-Récupérer l'archive [[data.zip]] qui contient les fichiers de données.+Récupérer l'archive [[https://box.univ-lyon1.fr/p/3f8282|data.zip]] qui contient les fichiers de données.
  
 Importer les données dans HDFS (dans le répertoire HDFS ''/home/root'') en conservant la structure de répertoires de l'archive. Importer les données dans HDFS (dans le répertoire HDFS ''/home/root'') en conservant la structure de répertoires de l'archive.
Ligne 56: Ligne 59:
     * il est également possible de calculer un unique aggrégat comme résultat via ''reduce''.     * il est également possible de calculer un unique aggrégat comme résultat via ''reduce''.
     * d'autre actions sont possibles pour exploiter des RDDs comme ''count'', ''take'', ''takeSample'', ''collect''((Attention à ''collect'' sur des données volumineuses, car toutes les lignes du RDD sont renvoyées))     * d'autre actions sont possibles pour exploiter des RDDs comme ''count'', ''take'', ''takeSample'', ''collect''((Attention à ''collect'' sur des données volumineuses, car toutes les lignes du RDD sont renvoyées))
 +    * schémas: {{:enseignement:tp:bda:spark:source.sql|}}
          
 ===== Jointure avec Object ===== ===== Jointure avec Object =====
Ligne 69: Ligne 73:
 </code> </code>
  
-Coder cette requête dans Spark. On pourra utiliser la transformation ''join'' pour effectuer la jointure entre Source et Object.+Coder cette requête dans Spark. On pourra utiliser la transformation ''join'' pour effectuer la jointure entre Source et Object (schéma: {{:enseignement:tp:bda:spark:object.sql|}}).