Ph.D Alexandre MILLOT

 
Exceptional Model Mining meets Multi-Objective Optimization: Application to Plant Growth Recipes in Controlled Environments

Download Draft here

Defended on October 4th 2021 at INSA Lyon

Committee

Prof. Jean-François BOULICAUT, INSA Lyon, Directeur de thèse
Prof. Bruno CREMILLEUX, Université de Caen, Rapporteur
Prof. Bart GOETHALS, Antwerp University, Belgique
Dr. Dino IENCO, INRAE Montpellier, Rapporteur
Dr. Rémy CAZABET, Université Lyon 1, Co-directeur de thèse
Dr. Thomas GUYET, INRIA Lyon
Prof. Céline ROBARDET, INSA Lyon, Présidente du jury
Prof. Céline ROUVEIROL, Université Paris-Nord

Résumé. L’information devient de plus en plus pervasive : collecter et stocker d’immenses quantités d’informations devient de plus en plus accessible. Dans ce contexte, la conception de méthodes de découverte de motifs permettant la découverte semi-automatique d’informations pertinentes ou de connaissances est cruciale. Nous considérons des données mettant en jeu un ensemble d’attributs descriptifs, avec un ou plusieurs de ces attributs qui peut (peuvent) être considéré(s) comme variable(s) cible(s). Quand on a un seul attribut cible, la découverte de sous-groupes vise à découvrir des sous-ensembles d’objets – des sous-groupes – dont la distribution de l’étiquette cible dévie significativement de celle de l’ensemble des données. La fouille de modèles exceptionnels est une généralisation de la découverte de sous-groupes. C’est un cadre récent permettant la découverte de déviations locales significatives dans des interactions complexes entre plusieurs variables cibles. Dans un monde ou` tout doit être optimisé, les méthodes d’optimisation multi-objectifs, qui trouvent les compromis optimaux entre plusieurs variables concurrentes, sont essentielles. Bien que ces différents domaines de recherche possèdent une littérature riche, leur fertilisation croisée n’a été que peu étudiée. Avec la disponibilité de données collectées sur un processus d’intérêt, nous nous intéressons à la conception de méthodes permettant la découverte de valeurs de paramètres pertinentes pour son optimisation. Notre première contribution est OSMIND, un algorithme de découverte de sous-groupes qui retourne un motif optimal dans des données purement numériques. OS-MIND exploite des techniques avancées de réduction de l’espace de recherche garantissant l’optimalité de la découverte. Notre seconde contribution consiste en un framework itératif générique qui met à profit l’exploitabilité de la découverte de sous-groupes pour résoudre des problèmes d’optimisation. Notre troisième et principale contribution est la fouille de frontières de Pareto exceptionnelles, une nouvelle classe de modèles pour la fouille de modèles exceptionnels, qui implique une fertilisation croisée entre la découverte de motifs et l’optimisation multi-objectifs. La pertinence de chacune de nos contributions a été confirmée à travers des études empiriques approfondies. Nos méthodes sont génériques et peuvent être utilisées dans de nombreux domaines d’application. Pour évaluer l’exploitabilité de nos contributions en situation réelle, nous considérons le problème d’optimisation de recettes de pousse de plantes en environnements contrôlés tels que les fermes urbaines, le scénario d’application qui a motivé nos travaux. Améliorer la pousse des plantes est un problème intrinsèquement multi-objectifs. Nous souhaitons appliquer nos méthodes de découverte de motifs pour découvrir les valeurs de paramètres menant à une pousse optimisée. En effet, découvrir ces réglages optimaux pourrait avoir des répercussions importantes sur la rentabilité des fermes urbaines. A partir de données synthétiques et réelles, nous démontrons que nos méthodes permettent la découverte de valeurs de paramètres optimisant le compromis rendement/coûts de recettes de pousses

Abstract. It is extremely useful In today’s society, information is becoming ever more pervasive. With the advent of the digital age, collecting and storing these near-infinite quantities of data is becoming increasingly easier. In this context, designing new Pattern Discovery methods, that allow for the semi- automatic discovery of relevant information and knowledge, is crucial. We consider data made of a set of descriptive attributes, where one or several of these attributes can be considered as target label(s). When a unique target label is considered, the Subgroup Discovery task aims at discovering subsets of objects – subgroups – whose target label distribution significantly deviates from that of the overall data. Exceptional Model Mining is a generalization of Subgroup Discovery. It is a recent framework that enables the discovery of significant local deviations in complex interactions between several target labels. In a world where everything has to be optimized, Multi-objective Optimization methods, which find the optimal trade-offs between numerous competing objectives, are of the essence. Although these research fields have given an extensive literature, their cross-fertilization has been considered only sparsely. Given collected data about a process of interest, we investigate the design of methods for the discovery of relevant parameter values driving the its optimization. Our first contribution is OSMIND, a Subgroup Discovery algorithm that returns an optimal pattern in purely numerical data. OSMIND leverages advanced techniques for search space reduction that guarantee the optimality of the discovery. Our second contribution consists of a generic iterative framework that leverages the actionability of Subgroup Discovery to solve optimization problems. Our third and main contribution is Exceptional Pareto Front Mining, a new class of models for Exceptional Model Mining that involves cross-fertilization between Pattern Discovery and Multi-objective Optimization. In-depth empirical studies have been carried out on each contribution to illustrate their relevance. Our methods are generic and can be applied to many application domains. To assess the actionability of our contributions in real life, we consider the problem of plant growth recipe optimization in controlled environments such as urban farms, the application scenario that has motivated our work. It is an intrinsic Multi-objective Optimization problem. We want to apply our pattern discovery methods to discover parameter values that lead to an optimized growth. Indeed, finding optimal settings could have tremendous repercussions on the profitability of urban farms. On synthetic and real-life data, we show that our methods allow for the discovery of parameter values that optimize the yield-cost trade-off of growth recipes.

Publications liées à la thèse

Research Report

Papers in proceedings of international events

Papers in proceedings of national events