Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Prochaine révision
Révision précédente
enseignement:tp:bda:projet:2016 [2017/01/09 08:55]
ecoquery créée
enseignement:tp:bda:projet:2016 [2017/01/09 12:47] (Version actuelle)
ecoquery [Kafka]
Ligne 22: Ligne 22:
     * Renvoyer un message d'alerte, via Kafka     * Renvoyer un message d'alerte, via Kafka
   * Archiver les messages d'alerte dans HDFS/Hive    * Archiver les messages d'alerte dans HDFS/Hive 
-  * Afficher un graphique de taux d'occupation pour une station donnée via Zeppelin+  * Afficher un graphique de taux d'occupation pour une station donnée via Zeppelin (notebook Web permettant de produire des graphiques) 
 + 
 +Il est demandé de produire un rapport par binôme explicitant la mise en place des différents éléments de gestion des données demandés. 
  
 ===== Sandbox HortonWorks ===== ===== Sandbox HortonWorks =====
  
 Pour travailler confortablement, il est conseillé de rediriger un certain nombre de ports lors la connexion ssh sur la machine openstack. [[https://liris.cnrs.fr/~ecoquery/files/ssh-forward.sh|Ce script shell]] permet cette redirection. Pour travailler confortablement, il est conseillé de rediriger un certain nombre de ports lors la connexion ssh sur la machine openstack. [[https://liris.cnrs.fr/~ecoquery/files/ssh-forward.sh|Ce script shell]] permet cette redirection.
 +
 +<code sh>
 +ssh-add pedabdcloud
 +bash ssh-forward 192.168.73.xxx # remplacer xxx par la bonne fin d'IP
 +</code>
  
 Une fois sur la machine openstack, le script ''start_sandbox.sh'' permet de démarrer le conteneur docker sandbox HortonWorks.  Une fois sur la machine openstack, le script ''start_sandbox.sh'' permet de démarrer le conteneur docker sandbox HortonWorks. 
Ligne 41: Ligne 48:
   * Storm (non démarré par défaut)   * Storm (non démarré par défaut)
   * Spark peut également être utilisé   * Spark peut également être utilisé
 +
 +Les tutoriaux permettent de prendre assez rapidement en main chacun de ces outils.
 +<note tip>Il est souvent utile de se connecter directement dans le conteneur en ssh pour lancer des commandes. Il faut se connecter sur localhost au port 2222:<code sh>ssh -p 2222 root@localhost</code>
 +Le mot de passe par défaut est ''hadoop''. A la première connexion, il est demandé de le changer.</note>
 +
 +===== Kafka =====
 +
 +Un [[https://kafka.apache.org/quickstart|tutoriel Kafka]] permet de démarrer rapiement en pratique. Quelques point sont à noter vis-à-vis de son utilisation dans la sandbox:
 +  * Le répertoire bin de kafka est ''/usr/hdp/2.5.0.0-1245/kafka/bin''
 +  * Kafka est à démarrer via Ambari (il faut sauter les 2 premières étapes du tutoriel)
 +  * L'url du broker kafka est  <del>''localhost:6662''</del> ''sandbox.hortonworks.com:6667''
 +
 +Pour écrire dans le HDFS depuis Kafka, il est conseillé d'utiliser le [[http://docs.confluent.io/2.0.0/connect/connect-hdfs/docs/index.html|connecteur HDFS]]. A défaut, on pourra utiliser [[https://flume.apache.org/|Apache Flume]], mais ce dernier peut poser des problèmes de performances.