|
|||||
Titre : | Compression fractale des images de documents textuels |
||||
Responsables du stage de recherche | Frank Le Bourgeois, Eric Guerin, Atilla Baskurt | ||||
Pour plus de détail, contacter : |
Franck Lebourgeois
flebourgeois@liris.cnrs.fr Tel: 04 72 43 80 93 Eric Guérin eric.guerin@liris.cnrs.fr Tel : 04 72 43 13 38 |
||||
Mots-clefs : | Compression des images, segmentation des images |
||||
L’Action Concertée Incitative sur les MAsses de DOnnées issues de la Numérisation du patrimoiNE (ACI MADONNE) regroupe plusieurs laboratoires de Recherche (universités de Rouen, La Rochelle, Nancy, Tours, Rennes et l’INSA de Lyon) sur le sujet de la réduction du volume des données numériques provenant de la numérisation des collections dans les bibliothèques et les archives. Le volume important qu’occupent ces images pose des problèmes de coûts de stockage et d’accès aux bibliothèques numériques par le réseau Internet. Les formats génériques de compression comme JPEG ou JPEG2000 atteignent des taux très faibles de compression, de l’ordre de 1:10 et sont donc inefficaces sur ces images qui contiennent principalement des traits et des formes complexes. Certains formats de compression qui ont déjà été développés pour les images de documents textuels, comme DJVU d’AT&T et la plate-forme de compression DEBORA du LIRIS-RFV à l’INSA, obtiennent des taux de compression beaucoup plus élevés de l’ordre de 1:100. Ces deux méthodes séparent l’image en différentes couches d’informations auxquelles on applique des méthodes de compression adaptées aux contenus des images. La compression sans perte de l’image de texte est réalisée par redondance de formes alors que l’image du support papier et les informations sur la couleur sont fortement comprimées avec perte. Cependant cette approche, très performante sur les documents imprimés, obtient de mauvais résultats sur des documents manuscrits contenant des formes plus variables ou sur des documents contenant très peu de formes connexes redondantes comme les plans, les illustrations et les dessins au trait. De plus la perte d’information consécutive à la séparation des traits du fond de l’image pose aussi des problèmes de rendus visuels inacceptables dans certaines applications et pour une conservation de qualité.
|
|||||
Il s’agit d’explorer pour la première fois une approche complètement nouvelle qui consiste à adapter les méthodes existantes de compression fractale (IFS) aux images de documents numérisés (plans, manuscrits anciens, imprimés, dessins ...) et éviter la séparation en couches. L’utilisation de la compression fractale devrait être a priori très performante grâce à la forte redondance du contenu de ces images et à la connaissance a priori de localisations. Ce sujet est à la base d’une coopération entre deux équipes du LIRIS, chacune spécialisée dans un domaine très particulier : la segmentation des images de documents et la recherche des redondances d’informations par l’équipe de l’INSA et la compression IFS par l’équipe de Lyon I. Cette coopération devrait aboutir rapidement sur une plate-forme de compression qui sera testée et évaluée sur des images issues de différents projets de numérisation du patrimoine dans le cadre de MADONNE pour être comparée aux meilleurs méthodes actuelles de compression. |