# Algorithme des k plus proches voisins (KNN) : application aux Pokemons

Ce notebook fait suite à la présentation **"5- Apprentissage : l'algorithme des k plus proches voisins"** du cours d'algorithmique de 1ère NSI

Dans le dossier *images*, il y a le fichier **'pokemons_knn.csv'** qui contient une série de pokemons de type 'Eau' ou de type 'Psy' ayant chacun des points de vie ou d'attaque spécifiques.

On va reprendre le principe d'ouverture de fichier csv vu au paragraphe **"2- Cas d'un fichier CSV"** dans le cours de première NSI : **"Traitement de données en tables"**.

Ce notebook va nous faire retravailler les **dictionnaires** (avoir son cours **"Types construits"** de première à portée de main pourra être utile...)

**Travail préalable :**
Pour pouvoir réaliser ce travail correctement, il est nécessaire de **connaître le délimiteur** ( ',' ';' ':' ...) qui sépare les données dans ce fichier csv. Relire le document cité puis déterminer le délimiteur utilisé dans le fichier des pokemons.

## 1 - **Fonction d'extraction des données :**
La cellule ci-dessous permet de définir une fonction qui renvoie sous la forme d'une **liste de dictionnaires** l'ensemble des données présentes dans un fichier csv :



In [None]:
import csv
import os

def extraction_csv(nom_fichier, delimiteur):
 """ fonction qui extrait les données d'un fichier csv dans une liste de dictionnaires.
 Chaque dictionnaire correspond à un "enregistrement "(=une ligne de données) du fichier csv
 :param nom_fichier: (str) le nom du fichier (avec son chemin) à extraire
 :param delimiteur: (str) le délimiteur 
 :return: (list) les données dans une liste de dictionnaires
 """

 fichier = open(???, 'r') # ouverture du fichier en lecture

 lecteur = list(csv.DictReader(fichier, delimiter=';'))
 fichier.close()

 liste_data = [] # création d'une liste vide
 for ligne in lecteur: 
 liste_data.append(dict(ligne)) # ajout " à la volée" des dictionnaires représentant les enregistrements de la table
 return liste_data


# on aura besoin régulièrement d'afficher notre jeu de données pour vérifier l'effet du code
# on pourra utiliser la fonction définie ci-dessous :

def affiche_data(jeu_data):
 for elt in jeu_data:
 print(elt)
 print('*'*100)

liste_pokemons = extraction_csv(???, ???)
affiche_data(???)

## 2 - Préparation des données récupérées :

### 2.1- Analyser le type des données :

L'affichage obtenu nous permet de "visualiser" le type des données **points de vie** ou **valeurs attaque**.
Vérifier le type de **points de vie** ou de **valeurs attaque** en utilisant l'instruction qui convient :

In [None]:
# récupération du type de 'points de vie'
print('type de la variable points de vie : ', type(liste_pokemons[0][???]))

# récupération du type de 'valeur attaque'
print('type de la variable valeur attaque : ', type(liste_pokemons[0][???]))


### 2.2- Conversion des données en nommbre

Pour faciliter le travail ultérieur sur les données, on va convertir les données **points de vie** ou **valeurs attaque** en un format numérique adapté (int) puisque tous ces points de vie ou d'attaque sont des entiers.
Remarque : la liste **liste_pokemons** sera modifiée (on ne recrée pas une nouvelle liste)

In [None]:
for elt in liste_pokemons :
 elt['points de vie'] = ???
 elt['valeurs attaque'] = ???
# vérifications :
# récupération du type de 'points de vie'
print('type de la variable points de vie : ', ???)

# récupération du type de 'valeur attaque'
print('type de la variable valeur attaque : ', ???)



## 3 - Fonctions pour calculer la **"distance"** entre deux données

### 3.1 - Distance euclidienne :





In [None]:
import math # module nécessaire pour le calcul de la racine carrée

def distance_euclidienne( pt1, pt2):
 """ fonction qui renvoie la distance euclidienne entre deux points du plan
 :param pt1: (tuple) un tuple de coordonnées '(x1, y1)' définissant le point pt1
 :param pt2: (tuple) un tuple de coordonnées '(x2, y2)' définissant le point pt2
 :return: (float) la distance euclidienne entre pt1 et pt2
 Exemple :
 >>> A = (2, 5)
 >>> B = (3, 7)
 >>> distance_euclidienne(A, B)
 >>> 2.23606797749979
 """
 return ???

#test de la fonction :
A = (2, 5)
B = (3, 7)
distance_euclidienne(???, ???)




### 3.2 - Distance de Manhattan




In [None]:

def distance_manhattan( pt1, pt2):
 """ fonction qui renvoie la distance de Manhattan entre deux points du plan
 :param pt1: (tuple) un tuple de coordonnées '(x1, y1)' définissant le point pt1
 :param pt2: (tuple) un tuple de coordonnées '(x2, y2)' définissant le point pt2
 :return: (int ou float) la distance euclidienne entre pt1 et pt2 (si les coordonnées de pt1 et pt2
 sont de type int alors la fonction renvoie un int)
 Exemple :
 >>> A = (2, 5)
 >>> B = (3, 7)
 >>> distance_manhattan(A, B)
 >>> 3
 """
 return ???

# test de la fonction
A = (2, 5)
B = (3, 7)
distance_manhattan(???, ???)

### 3.3 - Application aux Pokemons :

On donne les deux dictionnaires correspondant à deux Pokemons :

**{'nom': 'Poissoroy', 'points de vie': '80', 'valeurs attaque': '92', 'type': 'Eau'}**

**{'nom': 'Clamiral', 'points de vie': '95', 'valeurs attaque': '100', 'type': 'Eau'}**

On souhaite calculer la distance euclidienne puis la distance de Manhattan qui les sépare.
On va dans un premier temps créer une fonction pour extraire d'un dictionnaire deux valeurs numériques :

In [None]:
def extrait_coordo(dico, cle1, cle2):
 """ fonction qui renvoie sous forme d'un tuple de coordonnées les deux valeurs numériques associées aux clés cle1 et cle2 du dictionnaire dico
 :param dico: (dict) le dictionnaire
 :param cle1: (str) une clé du dictionaire associée à une valeur numérique
 :param cle2: (str) une clé du dictionaire associée à une valeur numérique
 :return: (tuple) valeur1, valeur2 associées à cle1 et cle2
 :CU: on suppose que les valeurs numériques sont des entiers (int)
 Exemple :
 >>> pk1 = {'nom': 'Poissoroy', 'points de vie': 80, 'valeurs attaque': 92, 'type': 'Eau'}
 >>> extrait_coordo(pk1, 'points de vie', 'valeurs attaque')
 >>> (80, 92)
 """
 return (???, ???)

# test de la fonction :
pk1 = {'nom': 'Poissoroy', 'points de vie': 80, 'valeurs attaque': 92, 'type': 'Eau'}
print(extrait_coordo(???, ???, ???'))



On peut maintenant utiliser les fonctions **extrait_coordo()**, **distance_euclidienne()** et **distance_manhattan()** pour calculer les deux types de "distances" qui séparent les deux Pokemons pris en exemple :

In [None]:
pk1 = {'nom': 'Poissoroy', 'points de vie': 80, 'valeurs attaque': 92, 'type': 'Eau'}
pk2 = {'nom': 'Clamiral', 'points de vie': 95, 'valeurs attaque': 100, 'type': 'Eau'}

print('distance euclidienne entre pk1 et pk2 :', distance_euclidienne(extrait_coordo(pk1, 'points de vie', 'valeurs attaque'), extrait_coordo(pk2, 'points de vie', 'valeurs attaque')))
print('')
print('distance de Manhattan entre pk1 et pk2 :', distance_manhattan(extrait_coordo(pk1, 'points de vie', 'valeurs attaque'), extrait_coordo(pk2, 'points de vie', 'valeurs attaque')))

## 4 - Mise en oeuvre de l'algorithme KNN


Un Pokémon inconnu vient d’être découvert : il a 65 points de vie et 60 points d’attaque. On l’appellera pokemon_mystere : ce sera la donnée cible dont on devra estimer l'attribut **type** par algorithme).

### 4.1 - Calcul de la distance euclidienne entre le pokemon mystere et chacun des pokemons connus

Dans un premier temps, on va devoir ajouter **à chacun** des dictionnaires de la liste **liste_pokemons** un couple **clé / valeur** donnant la "distance" existant entre ce pokemon et le pokemon mystere (la donnée cible). La clé sera nommée : 'distance_cible'. 
La valeur associée à cette clé sera la distance calculée par la fonction **distance_euclidienne()**

Exemple de résultat d'affichage obtenu pour un pokemon :

{'nom': 'Ecayon', 'points de vie': 49, 'valeurs attaque': 49, 'type': 'Eau', **'distance_cible': 19.4164878389476**}




In [None]:
pokemon_mystere = {'points de vie': 65, 'valeurs attaque': 60}
for elt in liste_pokemons:
 # ajout dans le dictionnaire de l'entrée distance cible calculée avec la distance euclidienne :
 elt['distance_cible'] = distance_euclidienne(???, ???)

# vérification par affichage du jeu de données complet que chaque dictionnaire
# a bien un nouveau couple clé/valeur :
affiche_data(liste_pokemons)

### 4.2 - Estimation "manuelle" du type du pokemon mystère :

On propose :

 1- de trier la liste **liste_pokemons** par **ordre croissant** de la valeur **distance_cible** calculée : **on réutilisera la fonction de tri par sélection** écrite dans le cours d'algorithmique de première NSI, mais en **l'adaptant pour qu'elle puisse s'appliquer sur une liste de dictionnaires dont l'une des paires clé/valeur servira de critère de tri !** 

 2- de choisir une valeur arbitraire k du nombre de voisins les plus proches du pokemon mystère

 3- d'en déduire par simple observation le type le plus probable 



In [None]:
# Remarque : la cellule précédente doit avoir été exécutée pour que les données de distance soient présentes dans les dictionnaires !
def tri_select(jeu_data, cle):
 """ réalise le tri par sélection de la liste de dictionnaires 'jeu_data' sur le critère 'cle'
 :param jeu_data: (list) la liste à trier
 :param cle: (str) la clé du dictionnaire dont la valeur associée sert comme critère de tri
 :return: la fonction ne renvoie rien : la liste est triée 'en place'
 """
 for i in range(len(???)):
 i_max = 0 # i_max:indice de la valeur maximum que l'on repère
 #recherche du maximum dans le reste de la liste :
 for j in range(1,len(???) -i):
 if jeu_data[j][???] > jeu_data[???][cle]:
 i_max = ???
 # permutation("à la mode Python"):
 jeu_data[len(jeu_data)-i-1], jeu_data[i_max] = ???
 
# test de la fonction de tri du jeu de données pokemons sur le critère 'distance_cible' :
tri_select(???, ???)
affiche_data(???)


### 4.3 - Estimation automatique du type du pokemon mystère :

Notre liste de pokemons étant triée, du voisin le plus "proche" au voisin le plus "éloigné" de notre pokemon mystère, on va devoir faire un travail statistique sur le type de ces plus proches voisins pour en déduire l'estimation la plus probable du type du pokemon mystère. 
On devra fournir au programme la valeur du nombre k de voisins sur lequel on veut faire notre travail statisitique.



In [None]:
def type_cible(k, jeu_data, cle):
 """ fonction qui renvoie l'estimation la plus probable pour la donné cible
 :param k: (int) le nombre de voisins proches
 :param jeu_data: (list) la liste ordonnée des dictionnaires de données
 :param cle: (str) la clé associée à la valeur donnant le type de la donnée cible
 :return: (tuple) type, probabilité (en %) de l'estimation de la donnée cible
 le dictionnaire 'analyse' est local à cette fonction.
 Exemple de résultat pour ce dictionnaire : {'Psy': 4, 'Eau': 2} (ici k = 6)
 Le type 'Psy' est majoritaire : c'est alors le type estimé pour le pokemon mystère
 La fonction renvoie sur cet exemple le tuple : ('Psy', 66,67)
 """
 analyse = {} # création d'un dictionnaire pour accueillir les résultats
 for i in range(k):
 if jeu_data[i][???] not in analyse: 
 analyse[jeu_data[i][???]] = 1 
 else:
 analyse[jeu_data[i][???]] += 1
 # on crée une liste des clés et une liste des valeurs associées du dictionnaire 'analyse' :
 cles = list(analyse.???) # exemple de résultat : ['Psy', 'Eau']
 valeurs = list(analyse.???) # exemple de résultat: [2, 4]

 return cles[valeurs.index(max(valeurs))], '{:.2f}'.format(max(???)/ ??? *100)

 
k = ???
print("k = ", k, " ", type_cible(???, ???, ???))

# proposer un code qui permet de travailler sur une gamme de différentes valeurs de k
# et affiche le résultat de l'estimation de type avec le % de fiabilité :




# 5- Ecriture du programme complet :

Rassembler les éléments de programmation nécessaires à l'application de l'algorithme KNN sur un jeu de données présent dans un fichier csv.

## Application de la distance euclidienne sur le jeu de données :

Faire l'application sur les données pokemons en utilisant **la distance euclidienne** :


In [None]:
# importations :
???

# définitions des fonctions utiles :
????

# code de l'application
???


## 5.2 - Application de la distance de Manhattan

On souhaite reprendre cette estimation du type du pokemon mystère en appliquant cette fois **la distance de Manhattan** pour évaluer la "distance" entre le pokemon mystère et les autres pokemons connus.

Dans la cellule ci-dessous reprendre en modifiant ce qui est nécessaire les codes des cellules précédentes :

In [None]:
???


# 6- Prolongements possibles :

Les deux applications précédentes sur le pokemon mystère {'points de vie': 65, 'valeurs attaque': 60} avec un nombre de **plus proches voisins** égal à 6 donnent deux estimations différentes sur le type que pourrait avoir ce pokemon :
 - 66,7% de chance d'être de type 'Eau' avec la distance euclidienne
 - 66,7% de chance d'être de type 'Psy' avec la distance de Manhattan !!!

 On se trouve donc confronté au problème du **choix du modèle** pour le **calcul de distance** et au **choix du nombre k de voisins** pour faire la **"meilleure estimation possible"**.

 Le prolongement de cette activité consisterait à réaliser des jeux de tests de l'algoritthme KNN sur les pokemons existants (car on connaît leur type) et de chercher quel est le meilleur choix :
 - pour k 
 - et pour le calcul de distance

 choix qui aboutirait alors à une estimation qui redonnerait (le plus souvent possible) un **type estimé identique au type réel** du pokemon

 Autre prolongement de type projet :
 - une interface graphique qui permet d'aller chercher un fichier csv en un endroit quelconque du disque dur
 - des widgets d'entrée pour définir les données à analyser, les données cibles..., et widget(s) de sortie pour afficher le résultat de l'estimation
 

 