Differences

This shows you the differences between two versions of the page.

Link to this comparison view

prim1516gazouille_nosql [2015/10/20 12:12] (current)
mplantev created
Line 1: Line 1:
 +====== Intégration d'un moteur NoSQL dans une plateforme d'​analyse de medias sociaux ​ ======
  
 +
 +  * // Thèmes : // BD, réseaux sociaux, big data, data science.
 +  * // Encadrant : // Marc Plantevit, Pierre Houdyer ​
 +  * // Laboratoire : // [[https://​liris.cnrs.fr/​|LIRIS]]
 +  * // Equipe : // [[http://​liris.cnrs.fr/​dm2l| DM2L (Data Mining and Machine Learning) ]]
 +
 +===== Contexte =====
 +Les réseaux sociaux (e.g., Twitter, Instagram, ...)  sont des riches sources d'​informations qui sont utilisées dans un nombre très important d'​applications dédiées ou des services pour des utilisateurs (b2c), pour des compagnies par l'​intermédiaire de plateformes analytiques (b2b), mais aussi pour aider  des gouvernements ​ et des organisations non gouvernementales. A travers plusieurs APIs publiques, on peut accéder à des flux de messages qui sont souvent composés de texte (incluant hashtags, user mentions et URIs), de médias (images, vidéos) et sont géolocalisés,​ donnant la position de l'​auteur du message (appelé post dans la suite). ​ Une façon de tirer partie de ces données très volumineuses est de découvrir les tendances globales et de détecter des événements dans le flux des posts. ​
 +Les motivations sont multiples :  détection de désastre météorologique,​ identification de news qui pourraient apparaître plus //​lentement//​ dans les médias traditionnels,​ identification de tendances, étude de la perception d'une marque, etc. 
 +
 +===== Existant =====
 +Dans ce contexte, ​ l'​équipe DM2L du LIRIS a développé //​Gazouille//, ​ une plateforme d'​analyse de médias sociaux géolocalisés afin de détecter en temps réel des événements (e.g., concerts, matchs, manifestations,​ bouchons, accidents, etc.). ​ Devant la masse de données traitées, le SGBD relationnel mis en place a atteint ses limites. ​
 +
 +===== Travail demandé =====
 +L'​objectif de ce projet de recherche est d'​étudier et intégrer un moteur NoSQL à Gazouille. Il s'​agira de réduire de au moins un facteur 10 les temps de lecture/​écriture dans l'​application Gazouille. ​
 +
 +Dans ce contexte, le travail demandé est le suivant : 
 +
 +  * Etude de l'​état de l'art sur les moteurs NoSQL (Cassandra, HBase, MongoDB, CouchDB, BigTable, Neo4j, Redis, RIAK, ...),
 +  * Choix et intégration du moteur NoSQL,
 +  * Etude quantitative des gains obtenus.
 +
 +
 +===== Quelques Chiffres pour Gazouille =====
 +  * environ 350 tweets/​seconde (objectif 4000 tweets/​seconde pour traiter les USA),
 +  * 1 million de tweets par jour,
 +  * Requêtes sur plus de 6 million de tuples,
 +  * Select : 10 secondes,
 +  * Count : 15 secondes,
 +  * Tweet sauvegardé entre 0.002sec et 0.269sec
 +
 +===== Bibliographie =====
 +  * Pierre Houdyer, Albrecht Zimmermann, Mehdi Kaytoue, Marc Plantevit, Joseph Mitchell, Céline Robardet: Gazouille: Detecting and Illustrating Local Events from Geolocalized Social Media Streams. ECML/PKDD 2015: 276-280
 +
 +===== Informations complémentaires =====
 +Ce projet est pertinent pour les étudiants désirant s'​orienter vers des thématiques BD, Big Data, Data Mining, Data Science.  ​
 +
 +
 +
 +
 +<​HTML>​
 +<script type="​text/​javascript">​
 +var gaJsHost = (("​https:"​ == document.location.protocol) ? "​https://​ssl."​ : "​http://​www."​);​
 +document.write(unescape("​%3Cscript src='"​ + gaJsHost + "​google-analytics.com/​ga.js'​ type='​text/​javascript'​%3E%3C/​script%3E"​));​
 +</​script>​
 +<script type="​text/​javascript">​
 +try {
 +var pageTracker = _gat._getTracker("​UA-5863625-2"​);​
 +pageTracker._trackPageview();​
 +} catch(err) {}</​script>​
 +
 +</​HTML>​
prim1516gazouille_nosql.txt · Last modified: 2015/10/20 12:12 by mplantev
CC Attribution-Noncommercial-Share Alike 3.0 Unported
www.chimeric.de Valid CSS Driven by DokuWiki do yourself a favour and use a real browser - get firefox!! Recent changes RSS feed Valid XHTML 1.0