Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Prochaine révision
Révision précédente
enseignement:tp:bda:hadoop:tp1:2016 [2016/10/11 09:10]
ecoquery créée
enseignement:tp:bda:hadoop:tp1:2016 [2016/10/11 11:21] (Version actuelle)
ecoquery [Lecture d'un fichier CSV et compte d'occurrences]
Ligne 1: Ligne 1:
 ====== TP Introduction à Hadoop ====== ====== TP Introduction à Hadoop ======
 +
 +Cours Map/Reduce 2015 M1:
 +  * {{:enseignement:bdav:mif18-cm-mapreduce-thion.pdf|}}
 +  * {{:enseignement:bdav:mif18-cm-mapreduce-feugas.pdf|}}
  
 ===== Mise en place ===== ===== Mise en place =====
  
 Le TP se déroulera en binôme. Choisir votre partenaire pour ce TP et informer Emmanuel Coquery qui attribuera les machines (IP de la machine master Hadoop). Le TP se déroulera en binôme. Choisir votre partenaire pour ce TP et informer Emmanuel Coquery qui attribuera les machines (IP de la machine master Hadoop).
 +Ce TP consistuera le point de départ du TP de la semaine suivante qui sera à rendre.
 +
  
 On réalisera de préférence ce TP sous Unix (Mac OS X ou Linux). On réalisera de préférence ce TP sous Unix (Mac OS X ou Linux).
Ligne 21: Ligne 27:
  
 </code> </code>
 +
 +Les opérations à exécuter sur hadoop (''hdfs'', ''hadoop'') sont à faire en tant qu'utilisateur ''hdfs'':
 +
 +<code>
 +sudo su hdfs # devenir l'utilisateur hdfs
 +hdfs dfs mkdir /user/hdfs # a faire une seule fois
 +</code>
 +
 ===== Exécution d'un job Hadoop ===== ===== Exécution d'un job Hadoop =====
  
Ligne 96: Ligne 110:
 La machine ''%%192.168.238.6%%'' contient des données issue d'observation astronomiques. Vous pouvez vous connecter en utilisant le login ''%%data%%'' à cette machine, en utilisant la clé SSH envoyée par mail. La machine ''%%192.168.238.6%%'' contient des données issue d'observation astronomiques. Vous pouvez vous connecter en utilisant le login ''%%data%%'' à cette machine, en utilisant la clé SSH envoyée par mail.
  
-On s'intéressera au contenu du répertoire ''%%data%%''. Dans ce premier TP, on manipulera une quantité modeste de données. Le fichier ''%%Source/Source-001.gz%%'' est un fichier CSV compressé contenant des données d'observation. Le nom des colonnes (absent du fichier CSV) peut être trouvé dans le fichier ''%%Source.sql%%''. Décompresser et ajouter le fichier ''%%Source-001%%'' dans le HDFS. Créer une nouvelle classe de job Hadoop dans le projet Java qui lira le contenu de ce fichier et extraira le nombre d'occurrence de chaque ''%%object_id%%'' présent dans ce fichier, ce qui revient à la requête SQL suivante:+On s'intéressera au contenu du répertoire ''%%/data%%''. Dans ce premier TP, on manipulera une quantité modeste de données. Le fichier ''%%Source/Source-001.gz%%'' est un fichier CSV compressé contenant des données d'observation. Le nom des colonnes (absent du fichier CSV) peut être trouvé dans le fichier ''%%Source.sql%%''. Décompresser et ajouter le fichier ''%%Source-001%%'' dans le HDFS. Créer une nouvelle classe de job Hadoop dans le projet Java qui lira le contenu de ce fichier et extraira le nombre d'occurrence de chaque ''%%object_id%%'' présent dans ce fichier, ce qui revient à la requête SQL suivante:
  
 <code> <code>