Différences

Ci-dessous, les différences entre deux révisions de la page.

--- enseignement:tp:bda:hadoop:tp1:2016 [2016/10/11 10:39]
ecoquery
+++ enseignement:tp:bda:hadoop:tp1:2016 [2016/10/11 11:21] (Version actuelle)
ecoquery [Lecture d'un fichier CSV et compte d'occurrences]
@@ Ligne 110: / Ligne 110: @@
 La machine ''%%192.168.238.6%%'' contient des données issue d'observation astronomiques. Vous pouvez vous connecter en utilisant le login ''%%data%%'' à cette machine, en utilisant la clé SSH envoyée par mail.
-On s'intéressera au contenu du répertoire ''%%data%%''. Dans ce premier TP, on manipulera une quantité modeste de données. Le fichier ''%%Source/Source-001.gz%%'' est un fichier CSV compressé contenant des données d'observation. Le nom des colonnes (absent du fichier CSV) peut être trouvé dans le fichier ''%%Source.sql%%''. Décompresser et ajouter le fichier ''%%Source-001%%'' dans le HDFS. Créer une nouvelle classe de job Hadoop dans le projet Java qui lira le contenu de ce fichier et extraira le nombre d'occurrence de chaque ''%%object_id%%'' présent dans ce fichier, ce qui revient à la requête SQL suivante:
+On s'intéressera au contenu du répertoire ''%%/data%%''. Dans ce premier TP, on manipulera une quantité modeste de données. Le fichier ''%%Source/Source-001.gz%%'' est un fichier CSV compressé contenant des données d'observation. Le nom des colonnes (absent du fichier CSV) peut être trouvé dans le fichier ''%%Source.sql%%''. Décompresser et ajouter le fichier ''%%Source-001%%'' dans le HDFS. Créer une nouvelle classe de job Hadoop dans le projet Java qui lira le contenu de ce fichier et extraira le nombre d'occurrence de chaque ''%%object_id%%'' présent dans ce fichier, ce qui revient à la requête SQL suivante:
 <code>

Emmanuel COQUERY

Outils de la page

Différences