Quelques statistiques simples
Sur une Series / Dataframe, on peut extraire des statistiques via:
.min()
, .max()
, .count()
.mean()
, .std()
(écart type), .quantile(q)
Quelques statistiques simples (suite)
- Comparer l’effet de
.min()
sur la colonne RT
et sur toute la Dataframe.
- Utiliser
quantile
avec comme argument la valeur 0.25
.
- Utiliser
quantile
avec comme argument le tableau [0.25,0.5,0.75]
.
Filtrer les données (sélection)
Ne garder que les lignes intéressantes
- principe: exprimer qu’une line est intéressante via une condition
- porte sur la/les valeur(s) de la ligne
- si la condition s’évalue à vrai: on garde la ligne
Series booléennes dans Pandas
Exemple
- tester avec la Series de la colonne
RT
- expliquer l’effet de la comparaison sur la série
On peut utiliser ==
, >
, <
, >=
, <=
Sélection dans une Dataframe
- Series boolenne avec index commun à une Dataframe
- On conserve dans la Dataframe les index qui correspondent à True dans la Series
syntaxe
Exemple
- Placer la Series booléenne précédente dans une variable
- Utiliser cette série pour filtrer la Dataframe de départ
- Obtenir le même résultat sans passer par une variable intermédiaire
Conditions plus complexes
-
On peut combiner deux Series booléennes via
&
(et), |
(ou) et ~
(non)
-
Attention: mettre des parenthèses autour des comparaisons, par exemple
(df['colonne1'] > 12) | (df['colonne2'] == 5)
Exemple
- Créer une Series booléenne vraie pour les index correspondant à un
Name_A
qui vaut 0 et un RT supérieur à 14000
- Utiliser la Series pour filtrer la Dataframe et vérifier le résultat
Combiner les calculs
- Une sélection sur une Dataframe produit une Dataframe
- Une projection produit une Dataframe ou une Series
- On peut utiliser les opérations vues jusqu’ici sur la nouvelle Dataframe/Series
Exercices
- Donner le nombre de sujets.
- Donner le nombre d’essais pour lesquels le deuxième prénom est Justin.
- Donner le nombre d’essais ayant un temps de réponse supérieur à 20000 ms.
- Donner la moyenne des temps de réponse lorsque le prénom joué en premier est celui du sujet.
- Les sujets ayant au moins une fois répondu en plus de 50000 ms.
Données expérimentales obtenues en M1
Récupérer les données sur la clé / envoi par mail
Charger les données via le code montré dans misc2.ipynb