728x90
시각화 패키지인 맷플롯 라이브러와 시본을 이용한다. heatmap 함수를 이용하여 상관 계수 행렬을 히트맵으로 나타낸다. 각 변수 산의 상관 계수를 다른색으로 표현하고, annot 옵션은 숫자 표시 여부를 지정한다.
목표 변수의 클래스(0,1,2)에 따라 분포에 차이가 있다. 특히 sentosa 품종의 꽃받침 길이가 짧은 편인데, 모델학습에 고려해야하는 유일한 피쳐이다. 나머지3개의 피처에 대해서도 품종별 분포를 시각화해본다. sepal_width 부분을 보면, sentosa 품종이 다른 두 품종에 비해 오른쪽으로 분포되어 있었고, petal_length나 petal_width를 보아도 sentosa 품종이 다른 두 품종에 비해 큰 차이가 있음을 확인할 수 있다.
시본 pairplot을 통해 서로 다른 피처 간 관계를 나타내는 그래프를 한번에 그릴 수 있다. 만약 이 옵션을 kde가 아닌 hist로 지정하면 히스토그램으로도 표시할 수 있다.
출처: 파이썬 딥러닝 머신러닝 입문_오승환 지음
728x90
'AI > Machine Learning&Deep Learning' 카테고리의 다른 글
MachineLearning_SVM 분류 알고리즘 (0) | 2021.03.22 |
---|---|
MachineLearning_KNN 분류 알고리즘 (0) | 2021.03.22 |
Machine Learning_일차함수 관계식 찾기 (0) | 2021.03.20 |
Machine Learning_데이터 전처리 (0) | 2021.03.19 |
Machine Learning_훈련 세트와 테스트 세트 (0) | 2021.03.19 |