Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
enseignement:tp:bda:hadoop:tp1:2016 [2016/10/11 09:15]
ecoquery
enseignement:tp:bda:hadoop:tp1:2016 [2016/10/11 11:21] (Version actuelle)
ecoquery [Lecture d'un fichier CSV et compte d'occurrences]
Ligne 1: Ligne 1:
 ====== TP Introduction à Hadoop ====== ====== TP Introduction à Hadoop ======
 +
 +Cours Map/Reduce 2015 M1:
 +  * {{:enseignement:bdav:mif18-cm-mapreduce-thion.pdf|}}
 +  * {{:enseignement:bdav:mif18-cm-mapreduce-feugas.pdf|}}
  
 ===== Mise en place ===== ===== Mise en place =====
Ligne 23: Ligne 27:
  
 </code> </code>
 +
 +Les opérations à exécuter sur hadoop (''hdfs'', ''hadoop'') sont à faire en tant qu'utilisateur ''hdfs'':
 +
 +<code>
 +sudo su hdfs # devenir l'utilisateur hdfs
 +hdfs dfs mkdir /user/hdfs # a faire une seule fois
 +</code>
 +
 ===== Exécution d'un job Hadoop ===== ===== Exécution d'un job Hadoop =====
  
Ligne 98: Ligne 110:
 La machine ''%%192.168.238.6%%'' contient des données issue d'observation astronomiques. Vous pouvez vous connecter en utilisant le login ''%%data%%'' à cette machine, en utilisant la clé SSH envoyée par mail. La machine ''%%192.168.238.6%%'' contient des données issue d'observation astronomiques. Vous pouvez vous connecter en utilisant le login ''%%data%%'' à cette machine, en utilisant la clé SSH envoyée par mail.
  
-On s'intéressera au contenu du répertoire ''%%data%%''. Dans ce premier TP, on manipulera une quantité modeste de données. Le fichier ''%%Source/Source-001.gz%%'' est un fichier CSV compressé contenant des données d'observation. Le nom des colonnes (absent du fichier CSV) peut être trouvé dans le fichier ''%%Source.sql%%''. Décompresser et ajouter le fichier ''%%Source-001%%'' dans le HDFS. Créer une nouvelle classe de job Hadoop dans le projet Java qui lira le contenu de ce fichier et extraira le nombre d'occurrence de chaque ''%%object_id%%'' présent dans ce fichier, ce qui revient à la requête SQL suivante:+On s'intéressera au contenu du répertoire ''%%/data%%''. Dans ce premier TP, on manipulera une quantité modeste de données. Le fichier ''%%Source/Source-001.gz%%'' est un fichier CSV compressé contenant des données d'observation. Le nom des colonnes (absent du fichier CSV) peut être trouvé dans le fichier ''%%Source.sql%%''. Décompresser et ajouter le fichier ''%%Source-001%%'' dans le HDFS. Créer une nouvelle classe de job Hadoop dans le projet Java qui lira le contenu de ce fichier et extraira le nombre d'occurrence de chaque ''%%object_id%%'' présent dans ce fichier, ce qui revient à la requête SQL suivante:
  
 <code> <code>