Analyser et nettoyer des jeux de données à l’aide de fonctions d’influence

Jun 6, 2022 · Nantes, France

Comme tous les meetups, le passe sanitaire et le masque sont obligatoires

L’omniprésence de la donnée dans nos vies modernes est indéniable, et c’est en partie cette ubiquité
qui a entraîné une popularisation des réseaux de neurones : des modèles statistiques prédictifs avec
de très hautes précisions mais également gourmands, et qui nous permettraient d’exploiter
l’information utile cachée dans ces jeux de données. Cependant, un des problèmes de ces types de
modèles, qui opèrent souvent dans des régimes sur-paramétrés, est qu’ils seront capables
d’apprendre tout ce que l’on leur montre, quand bien même cela correspondrait à surentraîner sur
ces données. Ceci nous amène à nous demander ce que nous pouvons faire pour garantir la qualité
des données sur des jeux de données qui peuvent être massifs, et que l’on ne pourra jamais
parcourir manuellement. C’est dans ce but que nous avons repris le concept de fonction d’influence
pour faire ressortir des échantillons qui pourraient potentiellement être problématiques et nuire aux
performances des modèles appris.
Cette présentation se déroulera en quatre parties :
1/ Introduction : le biais dans les datasets, le distribution shift et leur importance dans des
applications critiques
2/ La fonction d’influence : l’essor d’un outil de la statistique robuste classique appliqué aux
réseaux de neurones
3/ Applications à des use-cases concrets pour la détection de régions complexes des jeux de
données et la détection de data-points mislabelisés.
4/ Perspectives

Biographie : Agustin Martin PICARD est ingénieur de recherche en IA chez Scalian DS et responsable du volet
Biais/Fairness dans le projet DEEL (www.deel.ai) à Toulouse. Il travaille principalement sur les sujets
d’apprentissage fair et robuste par rapport aux distribution shifts, et de l’explicabilité des réseaux de
neurones pour des applications critiques.

Event organizers
  • Nantes Machine Learning Meetup

    Nous sommes développeurs et chercheurs avec un intérêt dans l'apprentissage automatique. Nous nous retrouverons pour discuter concrètement nos projets dans l'apprentissage automatique, réseau de neurones artificiels, modèles graphiques probabilistes, et traitement automatique du langage naturel. - We're developers and scientists interested in Machine Learning, Probabilistic Graphical Models, Neural networks, and Natural Language Processing. In this meetup, we'll bring together machine learning practitione

    Recent Events
    More

Are you organizing Analyser et nettoyer des jeux de données à l’aide de fonctions d’influence?

Claim the event and start manage its content.

I am the organizer
Social
Rating

based on 0 reviews