logo
Algorithme K plus proches voisins (Knn)
Avec Python

Dans cette activité, vous allez mettre en oeuvre Knn sur le jeu de données suivant :

Attention : Ce sont des fichiers CSV avec la tabulation comme délimiteur.

Chaque donnée est définie par 2 prédicteurs (x et y) et une étiquette (A ou B)

On dispose de 100 données d’apprentissage et 200 données test.

Travail à réaliser

  1. Vous devez charger les données d'apprentissage et les représenter graphiquement à l’aide de la fonction plot du module matplotlib.
    Vous pourrez colorier les points en fonction de leur classe à l’aide du paramètre col et modifier le symbole avec le paramètre pch (=point character) et rajouter une légende à l’aide de la fonction legend.
  2. Ecrire puis appliquer la fonction knn avec k = 30 voisins pour prédire les classes des points de coordonnées (0,0) et (-2,1).
    Vérifiez sur le graphique que les prédictions sont cohérentes.
  3. Charger le jeu de données test.
    Appliquer la fonction knn pour prédire les données de l’ensemble test avec k = 30 voisins.
    Calculer le taux d’erreur test.
  4. Tester avec d'autres valeurs de k - Quellles sont vos conclusions ?

CC BY NC SA  ( Christophe Béasse - Juin 2019 )