Les données structurées n°6
A l'aide du langage de programmation Python, apprendre à effectuer des traitements sur ces données.
Sign in to Google to save your progress. Learn more
Email *
Pour traiter des données, nous allons utiliser la bibliothèque Python Pandas. Une bibliothèque Python permet de rajouter des fonctionnalités par rapport au langage de base. La bibliothèque Pandas est donc très utilisée pour tout ce qui touche au traitement des données.
Comment sont collectées et enregistrées nos données personnelles ?
Votre nom ? *
Votre prénom ? *
Votre groupe classe ? *
Télécharger le fichier "Données à manipuler" sur mon site, dans le chapitre "Données". Le placer dans un sous-répertoire données( par exemple) de votre répertoire SNT.
Charger la librairie pandas dans Thonny
Saisir ce programme dans Thonny puis l'exécuter.
Ecrire ensuite dans la console iden puis [Entrer]
Donner le nom des colonnes
Donner le nom des lignes
Les nombres présents dans cette colonne sont appelés des index. Chaque ligne du tableau a un index (première ligne : index 0, deuxième ligne index 1...)ATTENTION : les index commencent à 0 et pas à 1Les colonnes possèdes également des index, dans notre exemple ces index correspondent au "nom" (index de la première colonne), au "prenom" (index de la deuxième colonne) et à "date_naissance" (index de la troisième colonne)En résumé : les lignes possèdent des index (0,1,2..), les colonnes possèdent aussi des index ("nom", "prenom",...)Il est possible de récupérer certaines données du tableau, par exemple, certaines lignes, certaines colonnes ou bien encore des valeurs uniques. Pour cela, il suffit d'utiliser l'instruction "loc" avec les index des lignes et les index des colonnes. Le principe de fonctionnement de "loc" est relativement simple puisque l'on aura une instruction de la forme "loc[index_ligne,index_colonne]"
Quel prénom contient la variable info avec ce programme ? (Pour vérifier le contenu d'une variable, il suffit d'exécuter le programme puis de taper le nom de la variable dans la console et de valider.)
Captionless Image
Clear selection
Ecrire ici la ligne pour que la variable info contienne 12/06/1978
Il est possible de récupérer toutes les lignes d'une colonne, il suffit de remplacer la partie "index_ligne" de "loc" par ":". Exécuter ce programme et vérifier que la variable info contienne bien toutes les données de la colonne nom.
Captionless Image
Clear selection
Il est aussi possible de récupérer seulement certaines lignes et certaines colonnes en utilisant la notation suivante : loc[[index_ligne_1,index_ligne_2,...],[index_colonne_1,index_colonne_2,...]]
Vérifiez que la variable "info" contient bien un tableau avec uniquement les colonnes "nom" et "date_naissance" de la première ligne (index 0) et de la deuxième ligne (index 1).
Afin d'avoir des exemples plus complexes à traiter, pour la suite, nous allons travailler sur les données contenues dans le fichier ville_virgule.csv qui se trouve à l'url : https://dfichot.fr/snt/villes_virgule.csv . Exécuter le programme et vérifier ce que contient la variable info_villes.
Combien y a-t-il de colonnes dans ce tableau ?
Combien y a-t-il de lignes dans ce tableau ?
A l'aide des exercices précédents, afficher dans la console le nom de chaque colonne, les lister ici :
Dans le "loc", l'expression "info_villes["alt_min"]>1500" est bien avant la virgule, elle concerne donc les index des lignes du tableau. On sélectionnera uniquement les lignes qui auront la valeur du descripteur "alt_min" supérieure à 1500. Nous allons donc bien sélectionner les villes qui ont une altitude minimum supérieure à 1500 m
En vous inspirant de ce qui a été fait auparavant, écrire un programme qui permettra d'avoir les villes qui ont une densité d'habitant inférieure à 50 (dans le tableau ainsi créé, on aura 3 colonnes : le nom de la ville, la densité de la population et l'altitude minimum).
Clear selection
Il est possible de combiner plusieurs facteurs de sélection en utilisant un "et"("&") ou un "ou"("|"). Combien y-a-t-il, en France, de ville(s) avec une densité de population supérieure à 50 ET une altitude minimum supérieure à 1500 m ?
Captionless Image
Il est aussi possible d'effectuer des calculs sur des colonnes, par exemple des moyennes. Il suffit d'utiliser l'instruction "mean" pour effectuer une moyenne. Pour rappel dans "loc[:,"alt_min"]" le ":" signifie que l'on considère toutes les lignes du tableau.
Captionless Image
Clear selection
Ecrire un programme permettant de calculer le nombre moyen d'habitants par ville en 2012, faire valider par votre professeur.
Clear selection
Il est aussi possible d'imposer une condition sur les lignes qui seront utilisées pour le calcul. Vous devriez constater que les villes ayant une altitude minimum supérieure à 1500 m avaient en moyenne 350 habitants en 2012.
Il est aussi possible de trier le tableau en fonction des valeurs d'un descripteur. Il suffit d'utiliser l'instruction "sort_values". Vous allez obtenir un nouveau tableau de données "tri_alt_min" trié dans l'ordre croissant des altitudes minimums. La variable tri_alt_min permet de trouver facilement la ville ayant l'altitude minimum la plus faible de France ?
Il est aussi possible de trier par ordre décroissant en ajoutant "ascending=False". Cela permet de connaître facilement dans cet exemple  la ville ayant l'altitude minimum la plus importante de France.
Déterminer par programme  la ville ayant la densité de population la plus forte ?
Clear selection
A copy of your responses will be emailed to the address you provided.
Submit
Clear form
Never submit passwords through Google Forms.
reCAPTCHA
This content is neither created nor endorsed by Google. Report Abuse - Terms of Service - Privacy Policy