Différences
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes
Révision précédente
Prochaine révision
|
Révision précédente
|
enseignement:tp:bda:hadoop:tp1:2016 [2016/10/11 09:15] ecoquery |
enseignement:tp:bda:hadoop:tp1:2016 [2016/10/11 11:21] (Version actuelle) ecoquery [Lecture d'un fichier CSV et compte d'occurrences] |
====== TP Introduction à Hadoop ====== | ====== TP Introduction à Hadoop ====== |
| |
| Cours Map/Reduce 2015 M1: |
| * {{:enseignement:bdav:mif18-cm-mapreduce-thion.pdf|}} |
| * {{:enseignement:bdav:mif18-cm-mapreduce-feugas.pdf|}} |
| |
===== Mise en place ===== | ===== Mise en place ===== |
| |
</code> | </code> |
| |
| Les opérations à exécuter sur hadoop (''hdfs'', ''hadoop'') sont à faire en tant qu'utilisateur ''hdfs'': |
| |
| <code> |
| sudo su hdfs # devenir l'utilisateur hdfs |
| hdfs dfs mkdir /user/hdfs # a faire une seule fois |
| </code> |
| |
===== Exécution d'un job Hadoop ===== | ===== Exécution d'un job Hadoop ===== |
| |
La machine ''%%192.168.238.6%%'' contient des données issue d'observation astronomiques. Vous pouvez vous connecter en utilisant le login ''%%data%%'' à cette machine, en utilisant la clé SSH envoyée par mail. | La machine ''%%192.168.238.6%%'' contient des données issue d'observation astronomiques. Vous pouvez vous connecter en utilisant le login ''%%data%%'' à cette machine, en utilisant la clé SSH envoyée par mail. |
| |
On s'intéressera au contenu du répertoire ''%%data%%''. Dans ce premier TP, on manipulera une quantité modeste de données. Le fichier ''%%Source/Source-001.gz%%'' est un fichier CSV compressé contenant des données d'observation. Le nom des colonnes (absent du fichier CSV) peut être trouvé dans le fichier ''%%Source.sql%%''. Décompresser et ajouter le fichier ''%%Source-001%%'' dans le HDFS. Créer une nouvelle classe de job Hadoop dans le projet Java qui lira le contenu de ce fichier et extraira le nombre d'occurrence de chaque ''%%object_id%%'' présent dans ce fichier, ce qui revient à la requête SQL suivante: | On s'intéressera au contenu du répertoire ''%%/data%%''. Dans ce premier TP, on manipulera une quantité modeste de données. Le fichier ''%%Source/Source-001.gz%%'' est un fichier CSV compressé contenant des données d'observation. Le nom des colonnes (absent du fichier CSV) peut être trouvé dans le fichier ''%%Source.sql%%''. Décompresser et ajouter le fichier ''%%Source-001%%'' dans le HDFS. Créer une nouvelle classe de job Hadoop dans le projet Java qui lira le contenu de ce fichier et extraira le nombre d'occurrence de chaque ''%%object_id%%'' présent dans ce fichier, ce qui revient à la requête SQL suivante: |
| |
<code> | <code> |