Serge Fenet homepage

Le but de ce TP est de prendre en main et d'apprendre à utiliser les fonctionnalités de base de la bibliothèque d'apprentissage automatique scikit-learn, qui inclut la plupart des méthodes rapidement vues pendant le cours. Il ne s'agit pas de vous faire une prise en main pas à pas, que vous pourrez trouver sur de nombreuses pages, et les tutoriaux de scikit-learn sont par ailleurs très bien faits, et pourront vous guider sans problèmes (je vous conseille notamment la première vidéo de la page https://scikit-learn.org/stable/presentations.html#external-tutorials). Le but est plutôt de vous demander de construire une découverte de la bibliothèque et du pipeline classique de machine learning, en répondant aux questions suivantes.

Choisir un jeu de données sur lequel vous allez pouvoir effectuer vos tests. Il peut s'agir d'un jeu de données interne à scikit, ou bien d'un autre jeu (https://www.kaggle.com/tags/environment, https://opendatascience.com/25-excellent-machine-learning-open-datasets/, https://lionbridge.ai/datasets/the-50-best-free-datasets-for-machine-learning/, https://archive.ics.uci.edu/ml/index.php, etc.).
Choisir une méthode spécifique parmi les méthode d'apprentissage supervisées ou non supervisées implémentées (https://scikit-learn.org/stable/user_guide.html). Attention, certains jeux de données se prêtent plus à l'apprentissage de certaines méthodes ( par exemple, un jeu de données sans vérités terrain ne peux pas être utilisé pour faire de l'apprentissage supervisé).
Comment cette méthode fonctionne-t-elle ? Quels sont ses paramètres ? En quoi influcencent-ils la qualité du modèle appris ? Pouvez-vous comparer cette méthode avec une méthode différente de la même classe ?
Comment représenter graphiquement le modèle appris ?
Comment évaluer la qualité de leurs résultats respectifs ? Qu'est ce que la ROC Curve ?
Qu'est-ce que le biais de sur-apprentissage ? Comment le détecter et l'éviter ?
Il peut être nécessaire de pré-traiter les données brutes avant de commencer le processus d'apprentissage (normalisation, centrage/réduction, …). Comment scikit-learn permet-il de mettre en place facilement ces traitements ?

Serge Fenet homepage

A computer scientist expedition in anthropocenic landscape

Page Tools