AI/Machine Learning&Deep Learning

MachineLearning_회귀(Regression)

dalgorithm 2021. 3. 22. 23:27
728x90

 

판다스 데이터프레임에 corr 메소드를 적용하면 숫자 데이터를 갖는 변수 간의 상관 계수를 계산한다. 

시본의 heatmap 함수를 사용하면 상관 계수 테이블을 시각화 할 수 있다. 목표 변수인 Target 열은

RM 변수와 상관 계수가 0.69이고, LSTAT 변수와 -0.73으로 높은 편이다.

 

행 기준으로는 Target을 제외한 나머지 변수를 모두 선택하고, 열 기준으로는 Target을 선택한다.

abs는 상관계수 값을 모두 양의 값으로 바꾼다.

 

LSTAT와 RM의 선형 관계가 뚜렷하다.

 

LSTAT와 RM은 목표 변수인 Target과 강한 선형 관계를 갖기 때문에 이 둘을 학습데이터(X_data)로 선택한다. 

 

선형회귀 모델의 coef_ 속성으로부터 각 피처에 대한 회귀계수 값을 얻고 intercept_ 속성에서 상수항을 얻는다. 

LSTAT 회귀계수는 -23.2고, RM은 25.4DLEK. 따라서 저소득층 비율이 클수록 주택 가격(TARGET) 값은 작아지는 

반면, 방의 개수가 클수록 주택 가격은 커진다.

 

과대적합은 모델이 학습에 사용한 데이터와 비슷한 데이터는 잘 예측하지만, 경험해 보지 못한 새로운 특성을 갖는 데이터에 대해서는 예측력이 떨어지는 현상을 말한다. 반대로 과소적합은 훈련 데이터의 특성을 파악하기 충분하지 않을 정도로 모델의 구성이 단순하거나 데이터 개수가 부족할 때 발생한다. 모델의 예측력을 안정적으로 확보하기위해서는 과대적합이나 과소적합이 아닌 중간 상태의 균형점을 찾는 것이 필요하다. 


출처: book.naver.com/bookdb/book_detail.nhn?bid=17597510

728x90