Un des problèmes fondamentaux
dans le domaine des bases de données multimédias, réside dans la
recherche de similarité, c.à.d, le besoin de chercher un petit ensemble
d’objets qui soient similaires où très peu rapproché d’un objet requête
donné.
La plupart des méthodes de recherche d’images par le contenu sont
constituée des phases suivantes:
1. Une étape
d’indexation d’image : consiste à extraire des signatures
compactes de leurs contenu visuel. Ces signatures se présentent sous la
forme de vecteurs multidimensionnels appelés descripteurs.
2. Une étape
de structuration de l’espace de description : il s’agit dans
cette étape de mettre en place une structure d’index multidimensionnels
permettent une recherche efficace des dizaines voir des centaines de
milliers d’images.
3. Une
recherche de similarité : dans la plupart des méthodes, une
distance est associée à chaque descripteur et une recherche des k plus
proches voisins est effectuée.
Nous nous
sommes focalisés dans le cadre de ce projet principalement sur les
points 2 et 3 pour pouvoir répondre efficacement aux problématiques
liées à la recherche des grandes bases d’images. Les travaux ont
consisté, d’une part à améliorer la performance des méthodes
d’indexations basées sur l’approximation en tenant compte des
différentes descriptions des images afin d’apporter des réponses au
problème du passage à l’échelle, et d’autre part, d’intégrer dans
IMALBUM, moteur de recherche développé au sein de l’équipe, les
améliorations obtenues concernant l’accès aux grandes bases d’images.
Problématique des systèmes de
recherche
Tout d'abord, une
nouvelle méthode (RA+-Block) a
été proposée, et qui repose sur un
nouvel algorithme de partitionnement qui permet d’améliorer notablement
les
performances de la structure d’index du RA-Blocks en terme de capacité
de
stockage et de temps de recherche en générant des régions compactes et
disjointes.
Ensuite nous avons proposé une mesure de
similarité adaptée aux données réelles lors de l’indexation et de la
recherche
par le contenu. Nous avons opté pour une représentation de la
similarité par
fonction noyau. Ainsi, toutes les mesures de similarité et calculs de
distance
auxquels nous nous sommes intéressés sont entièrement basés sur ce
formalisme.
Nous avons étudié les différents paramètres de la fonction noyau et
nous avons
proposé une stratégie de sélection des paramètres qui permettent une
meilleure
estimation de la similarité entre descripteurs hétérogènes ainsi qu’une
représentation
discriminante des données dans l’espace de caractéristiques.
enfin nous avons conçu une méthode efficace d’indexation et de
recherche par le contenu (KRA+-Blocks)
particulièrement adaptée aux données de nature hétérogènes .
Cette méthode permet d’accélérer considérablement le temps de la
recherche et
d’améliorer significativement la qualité des résultats retournés,
particulièrement pour les grandes bases de descripteurs d’attributs
hétérogènes. La méthode proposée combine une méthode non linéaire de la
réduction de la dimension et une méthode d’indexation
multidimensionnelle
fondée sur l’approche approximation pour faire face au problème de la
malédiction
de la dimension et à celui de l’indexation des données hétérogènes. Un
schéma de bouclage de pertinence avec une approche
statistique a été implémenté. L'approche
proposée a été intégrée au moteur de recherche par le contenu
des images fixes
IMALBUM,
développé au sein du LIRIS Ce travail a été réalisé durant la Thèse de Imane Daoudi
|