User Tools

Site Tools


prim1516gazouille_nosql

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

prim1516gazouille_nosql [2015/10/20 12:12] (current)
mplantev created
Line 1: Line 1:
 +====== Intégration d'un moteur NoSQL dans une plateforme d'analyse de medias sociaux  ======
  
 +
 +  * // Thèmes : // BD, réseaux sociaux, big data, data science.
 +  * // Encadrant : // Marc Plantevit, Pierre Houdyer 
 +  * // Laboratoire : // [[https://liris.cnrs.fr/|LIRIS]]
 +  * // Equipe : // [[http://liris.cnrs.fr/dm2l| DM2L (Data Mining and Machine Learning) ]]
 +
 +===== Contexte =====
 +Les réseaux sociaux (e.g., Twitter, Instagram, ...)  sont des riches sources d'informations qui sont utilisées dans un nombre très important d'applications dédiées ou des services pour des utilisateurs (b2c), pour des compagnies par l'intermédiaire de plateformes analytiques (b2b), mais aussi pour aider  des gouvernements  et des organisations non gouvernementales. A travers plusieurs APIs publiques, on peut accéder à des flux de messages qui sont souvent composés de texte (incluant hashtags, user mentions et URIs), de médias (images, vidéos) et sont géolocalisés, donnant la position de l'auteur du message (appelé post dans la suite).  Une façon de tirer partie de ces données très volumineuses est de découvrir les tendances globales et de détecter des événements dans le flux des posts. 
 +Les motivations sont multiples :  détection de désastre météorologique, identification de news qui pourraient apparaître plus //lentement// dans les médias traditionnels, identification de tendances, étude de la perception d'une marque, etc. 
 +
 +===== Existant =====
 +Dans ce contexte,  l'équipe DM2L du LIRIS a développé //Gazouille//,  une plateforme d'analyse de médias sociaux géolocalisés afin de détecter en temps réel des événements (e.g., concerts, matchs, manifestations, bouchons, accidents, etc.).  Devant la masse de données traitées, le SGBD relationnel mis en place a atteint ses limites. 
 +
 +===== Travail demandé =====
 +L'objectif de ce projet de recherche est d'étudier et intégrer un moteur NoSQL à Gazouille. Il s'agira de réduire de au moins un facteur 10 les temps de lecture/écriture dans l'application Gazouille. 
 +
 +Dans ce contexte, le travail demandé est le suivant : 
 +
 +  * Etude de l'état de l'art sur les moteurs NoSQL (Cassandra, HBase, MongoDB, CouchDB, BigTable, Neo4j, Redis, RIAK, ...),
 +  * Choix et intégration du moteur NoSQL,
 +  * Etude quantitative des gains obtenus.
 +
 +
 +===== Quelques Chiffres pour Gazouille =====
 +  * environ 350 tweets/seconde (objectif 4000 tweets/seconde pour traiter les USA),
 +  * 1 million de tweets par jour,
 +  * Requêtes sur plus de 6 million de tuples,
 +  * Select : 10 secondes,
 +  * Count : 15 secondes,
 +  * Tweet sauvegardé entre 0.002sec et 0.269sec
 +
 +===== Bibliographie =====
 +  * Pierre Houdyer, Albrecht Zimmermann, Mehdi Kaytoue, Marc Plantevit, Joseph Mitchell, Céline Robardet: Gazouille: Detecting and Illustrating Local Events from Geolocalized Social Media Streams. ECML/PKDD 2015: 276-280
 +
 +===== Informations complémentaires =====
 +Ce projet est pertinent pour les étudiants désirant s'orienter vers des thématiques BD, Big Data, Data Mining, Data Science.  
 +
 +
 +
 +
 +<HTML>
 +<script type="text/javascript">
 +var gaJsHost = (("https:" == document.location.protocol) ? "https://ssl." : "http://www.");
 +document.write(unescape("%3Cscript src='" + gaJsHost + "google-analytics.com/ga.js' type='text/javascript'%3E%3C/script%3E"));
 +</script>
 +<script type="text/javascript">
 +try {
 +var pageTracker = _gat._getTracker("UA-5863625-2");
 +pageTracker._trackPageview();
 +} catch(err) {}</script>
 +
 +</HTML>
prim1516gazouille_nosql.txt · Last modified: 2015/10/20 12:12 by mplantev

CNRS INSA de Lyon Université Lyon 1 Université Lyon 2 École centrale de Lyon