728x90
Train_Test 데이터셋 분할 과정이다. test_size 옵션 값(0.2)에 따라 20%를 테스트, 나머지 80%를 훈련용으로 분할했다.
전체 149 샘플 중에서 119/30 개로 나누어 분류 알고리즘을 진행할 것이다. random_state를 고정 값으로 지정해야
랜덤 추출하여도 일정한 기준으로 지속해서 분할한다.
KNN(K-Nearest-Neighbors) 분류 알고리즘은 예측하려는 데이터 X가 주어지면, 기존 데이터 중 속성이 비슷한 K개의 이웃을 먼저 찾는다. 이웃값에 따라 KNN모델이 예측하는 클래스 값이 달라질 수 있다.
테스트 데이터를 통해 예측값을 산출해낸다. 모델의 성능 평가하기 위해 사이킷런 metrics 모듈에서 accuracy_score 함수를 이용해야한다. 테스트 데이터 y_test를 예측값과 함께 입력하면, 정확도 산출이 가능하다.
출처:book.naver.com/bookdb/book_detail.nhn?bid=17597510
728x90
'AI > Machine Learning&Deep Learning' 카테고리의 다른 글
MachineLearning_로지스틱 회귀&의사결정나무 (0) | 2021.03.22 |
---|---|
MachineLearning_SVM 분류 알고리즘 (0) | 2021.03.22 |
MachineLearning_분류(Classification) (0) | 2021.03.22 |
Machine Learning_일차함수 관계식 찾기 (0) | 2021.03.20 |
Machine Learning_데이터 전처리 (0) | 2021.03.19 |