Introduction à l’analyse de données

Séance 2 - Jupyter & pandas

Emmanuel Coquery

Page de l’UE

Quelques statistiques simples

Sur une Series / Dataframe, on peut extraire des statistiques via:

  • .min(), .max(), .count()
  • .mean(), .std() (écart type), .quantile(q)

Quelques statistiques simples (suite)

  • Comparer l’effet de .min() sur la colonne RT et sur toute la Dataframe.
  • Utiliser quantile avec comme argument la valeur 0.25.
  • Utiliser quantile avec comme argument le tableau [0.25,0.5,0.75].

Filtrer les données (sélection)

Ne garder que les lignes intéressantes

  • principe: exprimer qu’une line est intéressante via une condition
    • porte sur la/les valeur(s) de la ligne
  • si la condition s’évalue à vrai: on garde la ligne

Series booléennes dans Pandas

Exemple

maserie >= 12000
  • tester avec la Series de la colonne RT
  • expliquer l’effet de la comparaison sur la série

On peut utiliser ==, >, <, >=, <=

Sélection dans une Dataframe

  • Series boolenne avec index commun à une Dataframe
  • On conserve dans la Dataframe les index qui correspondent à True dans la Series

syntaxe

madataframe[seriesbool]

Exemple

  • Placer la Series booléenne précédente dans une variable
  • Utiliser cette série pour filtrer la Dataframe de départ
  • Obtenir le même résultat sans passer par une variable intermédiaire

Conditions plus complexes

  • On peut combiner deux Series booléennes via
    & (et), | (ou) et ~ (non)

  • Attention: mettre des parenthèses autour des comparaisons, par exemple

    (df['colonne1'] > 12) | (df['colonne2'] == 5)
    

Exemple

  • Créer une Series booléenne vraie pour les index correspondant à un Name_A qui vaut 0 et un RT supérieur à 14000
  • Utiliser la Series pour filtrer la Dataframe et vérifier le résultat

Combiner les calculs

  • Une sélection sur une Dataframe produit une Dataframe
  • Une projection produit une Dataframe ou une Series
  • On peut utiliser les opérations vues jusqu’ici sur la nouvelle Dataframe/Series

Exercices

  • Donner le nombre de sujets.
  • Donner le nombre d’essais pour lesquels le deuxième prénom est Justin.
  • Donner le nombre d’essais ayant un temps de réponse supérieur à 20000 ms.
  • Donner la moyenne des temps de réponse lorsque le prénom joué en premier est celui du sujet.
  • Les sujets ayant au moins une fois répondu en plus de 50000 ms.

Données expérimentales obtenues en M1

Récupérer les données sur la clé / envoi par mail

Charger les données via le code montré dans misc2.ipynb