Différences

Ci-dessous, les différences entre deux révisions de la page.

--- enseignement:tp:bda:hadoop:tp1:2016 [2016/10/11 09:10]
ecoquery créée
+++ enseignement:tp:bda:hadoop:tp1:2016 [2016/10/11 11:21] (Version actuelle)
ecoquery [Lecture d'un fichier CSV et compte d'occurrences]
@@ Ligne 1: / Ligne 1: @@
 ====== TP Introduction à Hadoop ======
+Cours Map/Reduce 2015 M1:
+  * {{:enseignement:bdav:mif18-cm-mapreduce-thion.pdf|}}
+  * {{:enseignement:bdav:mif18-cm-mapreduce-feugas.pdf|}}
 ===== Mise en place =====
 Le TP se déroulera en binôme. Choisir votre partenaire pour ce TP et informer Emmanuel Coquery qui attribuera les machines (IP de la machine master Hadoop).
+Ce TP consistuera le point de départ du TP de la semaine suivante qui sera à rendre.
 On réalisera de préférence ce TP sous Unix (Mac OS X ou Linux).
@@ Ligne 21: / Ligne 27: @@
 </code>
+Les opérations à exécuter sur hadoop (''hdfs'', ''hadoop'') sont à faire en tant qu'utilisateur ''hdfs'':
+<code>
+sudo su hdfs # devenir l'utilisateur hdfs
+hdfs dfs mkdir /user/hdfs # a faire une seule fois
+</code>
 ===== Exécution d'un job Hadoop =====
@@ Ligne 96: / Ligne 110: @@
 La machine ''%%192.168.238.6%%'' contient des données issue d'observation astronomiques. Vous pouvez vous connecter en utilisant le login ''%%data%%'' à cette machine, en utilisant la clé SSH envoyée par mail.
-On s'intéressera au contenu du répertoire ''%%data%%''. Dans ce premier TP, on manipulera une quantité modeste de données. Le fichier ''%%Source/Source-001.gz%%'' est un fichier CSV compressé contenant des données d'observation. Le nom des colonnes (absent du fichier CSV) peut être trouvé dans le fichier ''%%Source.sql%%''. Décompresser et ajouter le fichier ''%%Source-001%%'' dans le HDFS. Créer une nouvelle classe de job Hadoop dans le projet Java qui lira le contenu de ce fichier et extraira le nombre d'occurrence de chaque ''%%object_id%%'' présent dans ce fichier, ce qui revient à la requête SQL suivante:
+On s'intéressera au contenu du répertoire ''%%/data%%''. Dans ce premier TP, on manipulera une quantité modeste de données. Le fichier ''%%Source/Source-001.gz%%'' est un fichier CSV compressé contenant des données d'observation. Le nom des colonnes (absent du fichier CSV) peut être trouvé dans le fichier ''%%Source.sql%%''. Décompresser et ajouter le fichier ''%%Source-001%%'' dans le HDFS. Créer une nouvelle classe de job Hadoop dans le projet Java qui lira le contenu de ce fichier et extraira le nombre d'occurrence de chaque ''%%object_id%%'' présent dans ce fichier, ce qui revient à la requête SQL suivante:
 <code>

Emmanuel COQUERY

Outils de la page

Différences