Introduction à l'analyse des données - séance 2 | Emmanuel Coquery

Introduction à l’analyse de données

Séance 2 - Jupyter & pandas

Emmanuel Coquery

Quelques statistiques simples

Sur une Series / Dataframe, on peut extraire des statistiques via:

.min(), .max(), .count()
.mean(), .std() (écart type), .quantile(q)

Quelques statistiques simples (suite)

Comparer l’effet de .min() sur la colonne RT et sur toute la Dataframe.
Utiliser quantile avec comme argument la valeur 0.25.
Utiliser quantile avec comme argument le tableau [0.25,0.5,0.75].

Filtrer les données (sélection)

Ne garder que les lignes intéressantes

principe: exprimer qu’une line est intéressante via une condition
- porte sur la/les valeur(s) de la ligne
si la condition s’évalue à vrai: on garde la ligne

Series booléennes dans Pandas

Exemple

maserie >= 12000

tester avec la Series de la colonne RT
expliquer l’effet de la comparaison sur la série

On peut utiliser ==, >, <, >=, <=

Sélection dans une Dataframe

Series boolenne avec index commun à une Dataframe
On conserve dans la Dataframe les index qui correspondent à True dans la Series

syntaxe

madataframe[seriesbool]

Exemple

Placer la Series booléenne précédente dans une variable
Utiliser cette série pour filtrer la Dataframe de départ
Obtenir le même résultat sans passer par une variable intermédiaire

Conditions plus complexes

On peut combiner deux Series booléennes via
& (et), | (ou) et ~ (non)
Attention: mettre des parenthèses autour des comparaisons, par exemple
```
(df['colonne1'] > 12) | (df['colonne2'] == 5)
```

Exemple

Créer une Series booléenne vraie pour les index correspondant à un Name_A qui vaut 0 et un RT supérieur à 14000
Utiliser la Series pour filtrer la Dataframe et vérifier le résultat

Combiner les calculs

Une sélection sur une Dataframe produit une Dataframe
Une projection produit une Dataframe ou une Series
On peut utiliser les opérations vues jusqu’ici sur la nouvelle Dataframe/Series

Exercices

Donner le nombre de sujets.
Donner le nombre d’essais pour lesquels le deuxième prénom est Justin.
Donner le nombre d’essais ayant un temps de réponse supérieur à 20000 ms.
Donner la moyenne des temps de réponse lorsque le prénom joué en premier est celui du sujet.
Les sujets ayant au moins une fois répondu en plus de 50000 ms.

Données expérimentales obtenues en M1

Récupérer les données sur la clé / envoi par mail

Charger les données via le code montré dans misc2.ipynb