logo
Les données structurées au format CSV

On trouve énormément de données sur internet. Une partie de ces données sont publiques, par exemple le site data.gouv.fr regroupe un grand nombre de données publiques. Ces données sont librement réutilisables.

À faire vous-même 1

Afin de découvrir ce qu'est "l'open data", allez sur le site data.gouv.fr. En haut et à gauche de la page d'acceuil, cliquez sur "Découvrez L’OpenData". Résumez en quelques lignes ce que vous aurez appris en lisant cette page.


À faire vous-même 2

Explorez pendant quelques minutes le site data.gouv.fr. Recherchez les données "Opérations coordonnées par les CROSS" à l'aide du moteur de recherche proposé par le site

Vous pouvez constater que les fichiers de données proposés ont pour extension .csv. Cela indique que ces fichiers sont des fichiers de texte au format CSV.


Le format CSV est très courant sur internet. Voici ce que nous dit Wikipédia sur le format CSV :

Comma-separated values, connu sous le sigle CSV, est un format informatique ouvert représentant des données séparées par des virgules.

Un fichier CSV est un fichier texte, par opposition aux formats dits « binaires ». Chaque ligne du texte correspond à une ligne d'un tableau de donéées et les virgules correspondent aux séparations entre les colonnes. Les portions de texte séparées par une virgule correspondent ainsi aux contenus des cellules du tableau.

Voici un exemple du contenu d'un fichier CSV :

nom,prenom,date_naissance
Durand,Jean-Pierre,23/05/1985
Dupont,Christophe,15/12/1967
Terta,Henry,12/06/1978
		

Et le tableau correspondant :

nomprenomdate_naissance
DurandJean-Pierre23/05/1985
DupontChristophe15/12/1967
TertaHenry12/06/1978

Je pense qu'il est évident pour vous que nous avons ici 3 personnes :

"nom", "prenom" et "date_naissance" sont appelés des descripteurs.

Alors que, par exemple, "Durand", "Dupont" et "Terta" sont les valeurs du descripteur "nom".

À faire vous-même 3

Donnez les différentes valeurs du descripteur "date_naissance"

ATTENTION :

La virgule est un standard pour les données anglo-saxonnes, mais pas pour les données aux normes françaises. En effet, en français, la virgule est le séparateur des chiffres décimaux. Il serait impossible de différencier les virgules des décimaux et les virgules de séparation des informations. C’est pourquoi on utilise un autre séparateur : le point-virgule (;). Dans certains cas cela peut engendrer quelques problèmes, vous devrez donc rester vigilants sur le type de séparateur utilisé.

À faire vous-même 4

Les tableurs, tels que "Calc" (Libre Office), sont capables d'importer les fichiers au format CSV.

Après avoir téléchargé le fichier ident_pointVirgule.csv, ouvrez ce dernier à l'aide d'un tableur.

Si par hasard votre tableur ne gère pas correctement le fichier avec le séparateur "point-virgule", voici une version "séparateur virgule" du fichier : ident_virgule.csv


Vous devriez obtenir ceci :

Vous pouvez constater que les données sont bien "rangées" dans un tableau avec des lignes et des colonnes.

On parle de données tabulaires : on peut passer d'une colonne à la suivante grâce à la touche Tab tab.

Il est possible de trouver sur le web des données très intéressantes pour vos projets.

Par exemple, le site sql.sh, propose des fichiers csv portant sur les villes Françaises, les départements et 241 pays.

À faire vous-même 5

Ouvrez le fichier ville_point_virgule.csv à l'aide d'un tableur (c’est une version légèrement modifiée de celle disponible sur le site sql.sh, j’y ai notamment ajouté des entêtes). En cas de problème avec votre tableur, voici une version "séparateur virgule" : ville_virgule.csv (attention le séparateur "décimal" est ici le point)


Comme vous pouvez le constater, nous avons 12 colonnes (et 36700 lignes si on ne compte pas l'entête !), voici la signification de ces colonnes :

À faire vous-même 6

En vous aidant de ce fichier de données sur les villes, déterminez l'altitude maximale et l'altitude minimale de votre commune.

Ressources :

CCBYNCSA"(source pixees.fr/informatiquelycee)

Auteurs : David Roche (Modifié C. Béasse - Avril 2019)