Ph.D Alexandre MILLOT
Exceptional Model Mining meets Multi-Objective
Optimization: Application to Plant Growth Recipes in Controlled Environments
Download Draft here
Defended on October 4th 2021 at
INSA Lyon
Committee
Résumé. L’information devient de plus en plus pervasive : collecter
et stocker d’immenses quantités d’informations devient de plus en plus
accessible. Dans ce contexte, la conception de méthodes de découverte de motifs
permettant la découverte semi-automatique d’informations pertinentes ou de
connaissances est cruciale. Nous considérons des données mettant en jeu un
ensemble d’attributs descriptifs, avec un ou plusieurs de ces attributs qui
peut (peuvent) être considéré(s) comme variable(s) cible(s). Quand on a un seul
attribut cible, la découverte de sous-groupes vise à découvrir des
sous-ensembles d’objets – des sous-groupes – dont la distribution de l’étiquette
cible dévie significativement de celle de l’ensemble des données. La fouille de
modèles exceptionnels est une généralisation de la découverte de sous-groupes.
C’est un cadre récent permettant la découverte de déviations locales
significatives dans des interactions complexes entre plusieurs variables
cibles. Dans un monde ou` tout doit être optimisé, les méthodes d’optimisation
multi-objectifs, qui trouvent les compromis optimaux entre plusieurs variables
concurrentes, sont essentielles. Bien que ces différents domaines de recherche
possèdent une littérature riche, leur fertilisation croisée n’a été que peu étudiée.
Avec la disponibilité de données collectées sur un processus d’intérêt, nous
nous intéressons à la conception de méthodes permettant la découverte de
valeurs de paramètres pertinentes pour son optimisation. Notre première
contribution est OSMIND, un algorithme de découverte de sous-groupes qui
retourne un motif optimal dans des données purement numériques. OS-MIND
exploite des techniques avancées de réduction de l’espace de recherche
garantissant l’optimalité de la découverte. Notre seconde contribution consiste
en un framework itératif générique qui met à profit l’exploitabilité de la découverte
de sous-groupes pour résoudre des problèmes d’optimisation. Notre troisième et
principale contribution est la fouille de frontières de Pareto exceptionnelles,
une nouvelle classe de modèles pour la fouille de modèles exceptionnels, qui
implique une fertilisation croisée entre la découverte de motifs et
l’optimisation multi-objectifs. La pertinence de chacune de nos contributions a
été confirmée à travers des études empiriques approfondies. Nos méthodes sont génériques
et peuvent être utilisées dans de nombreux domaines d’application. Pour évaluer
l’exploitabilité de nos contributions en situation réelle, nous considérons le
problème d’optimisation de recettes de pousse de plantes en environnements
contrôlés tels que les fermes urbaines, le scénario d’application qui a motivé
nos travaux. Améliorer la pousse des plantes est un problème intrinsèquement
multi-objectifs. Nous souhaitons appliquer nos méthodes de découverte de motifs
pour découvrir les valeurs de paramètres menant à une pousse optimisée. En
effet, découvrir ces réglages optimaux pourrait avoir des répercussions
importantes sur la rentabilité des fermes urbaines. A partir de données synthétiques
et réelles, nous démontrons que nos méthodes permettent la découverte de
valeurs de paramètres optimisant le compromis rendement/coûts de recettes de
pousses
Abstract. It is extremely useful In today’s society, information is becoming ever more pervasive. With
the advent of the digital age, collecting and storing these near-infinite
quantities of data is becoming increasingly easier. In this context, designing
new Pattern Discovery methods, that allow for the semi- automatic discovery of
relevant information and knowledge, is crucial. We consider data made of a set
of descriptive attributes, where one or several of these attributes can be
considered as target label(s). When a unique target label is considered, the
Subgroup Discovery task aims at discovering subsets of objects – subgroups –
whose target label distribution significantly deviates from that of the overall
data. Exceptional Model Mining is a generalization of Subgroup Discovery. It is
a recent framework that enables the discovery of significant local deviations
in complex interactions between several target labels. In a world where
everything has to be optimized, Multi-objective Optimization methods, which
find the optimal trade-offs between numerous competing objectives, are of the
essence. Although these research fields have given an extensive literature,
their cross-fertilization has been considered only sparsely. Given collected
data about a process of interest, we investigate the design of methods for the
discovery of relevant parameter values driving the its optimization. Our first
contribution is OSMIND, a Subgroup Discovery algorithm that returns an optimal
pattern in purely numerical data. OSMIND leverages advanced techniques for
search space reduction that guarantee the optimality of the discovery. Our
second contribution consists of a generic iterative framework that leverages
the actionability of Subgroup Discovery to solve optimization problems. Our
third and main contribution is Exceptional Pareto Front Mining, a new class of
models for Exceptional Model Mining that involves cross-fertilization between
Pattern Discovery and Multi-objective Optimization. In-depth empirical studies
have been carried out on each contribution to illustrate their relevance. Our methods
are generic and can be applied to many application domains. To assess the
actionability of our contributions in real life, we consider the problem of
plant growth recipe optimization in controlled environments such as urban
farms, the application scenario that has motivated our work. It is an intrinsic
Multi-objective Optimization problem. We want to apply our pattern discovery
methods to discover parameter values that lead to an optimized growth. Indeed,
finding optimal settings could have tremendous repercussions on the
profitability of urban farms. On synthetic and real-life data, we show that our
methods allow for the discovery of parameter values that optimize the
yield-cost trade-off of growth recipes.
Publications liées à la thèse
Research Report
Alexandre
Millot, Rémy Cazabet, Jean-François Boulicaut. Exceptional Model Mining
to support Multi-Objective Optimization. Rapport de recherche LIRIS UMR CNRS 5205, 45 pages, September 2021.
Papers in proceedings of international events
Alexandre Millot, Rémy Cazabet, Jean-François
Boulicaut. Exceptional
Model Mining meets Multi-Objective Optimization. Proc. 21th SIAM International Conference on
Data Mining SDM, Alexandria, USA, April 2021, pp. 378-386.
Alexandre Millot, Romain Mathonat, Rémy Cazabet,
Jean-François Boulicaut. Actionable Subgroup Discovery and Urban Farm Optimization. Proc. 18th Int. Symp. on Intelligent Data
Analysis IDA, Konstanz, Germany, April 2020, Springer LNCS 12080, pp.
339-351.
Alexandre Millot, Rémy Cazabet, Jean-François
Boulicaut. Optimal
Subgroup Discovery in Purely Numerical Data. Proc. 24th Int. Pacific-Asia Conf. PaKDD Advances
in Knowledge Discovery and Data Mining Part II, May 2020, Singapore,
Singapore, Springer LNCS 12085, pp. 112-124.
Papers in proceedings of national events
Alexandre Millot, Rémy Cazabet, Jean-François
Boulicaut. Découverte
d'un sous-groupe optimal dans des données purement numériques. Actes Extraction et Gestion de Connaissances EGC 2020,
janvier 2020, Bruxelles, Belgique, pp. 25-36. Prix
du meilleur article académique EGC 2020.