Curso oferecido por Kevin Markham na Data School

Os 4 requisitos para trabalhar com dados na scikit-learn

features e variável de interesse são objetos seperados
features e variável de interesse são numéricos
features e variável de interesse são arrays NumPy
features e variável de interesse precisam ter formatos (shape) específicos

K-nearest Neighbors (KNN)

O KNN é um algoritmo de classificação supervisionado. O valor K define quantas observações próximas ao dado que queremos classificar serão levadas em conta na classificação.

StatQuest: K-nearest neighbors, Clearly Explained

Importando o dataset

Vamos utilizar neste exemplo o Iris Dataset

from sklearn.datasets import load_iris

# dataset
iris = load_iris()

# features
X = iris.data

# target data
y = iris.target

Instanciando o modelo KNN

from sklearn.neighbors import KNeighborsClassifier

# instance of KNN
knn = KNeighborsClassifier(n_neighbors=1)

O argumento n_neighbors define o valor K do modelo KNN

Treinando o modelo

Tendo cumprido os 4 requisitos para trabalhar com os dados, podemos treinar o modelo KNN