barplot함수를 사용해 등급별 객실 요금의 중간값 분포를 알아보았다. 생존자 비율이 높은 1등석, 2등석을 보면
생존자들이 지불한 객실 요금이 높은 패턴을 보인다.
남녀 성별에 따른 생존율 분포이다. 시본 histplot함수의 옵션을 조정한다. multiple 속성에 stack 옵션을 설정하여 막대 그래프를 누적하여 나타낸다. 남성의 생존율이 낮고 여성의 생존율이 상대적으로 높다.
Name 열을 선택하고 str 속성을 적용하면 문자열을 직접 추출할 수 있다. split 메소드를 적용하면 이름을 나타내는
문자열을 쉼표를 기준으로 분할한다. 또한 성을 나타내는 Family Name 부분[1]을 나눌 수 있고, 타이틀 추출이 가능하다.
violinplot 함수를 통해 타이틀별 생존 여부에 따른 승객 나이 분포를 확인하였다.
Rev 타이틀 가진 승객 중 생존자는 존재하지 않았고, 나머지는 비슷한 비율을 유지하였다.
displot의 kind 옵션을 ‘hist’로 지정하여 히스토그램으로 나타내었다. 또한, hue 속성에 따라 생존자를 구분하였다.
그 결과. 5세 미만 승객의 생존율이 높고 30세 전후 승객의 생존율이 낮다는 것을 알았다.
비닝기법 사용한 부분이다. 판다스 cut 함수를 사용하여 각 구간의 경계값(bins), 이름(lables)을 지정하였다.
boxplot 함수로 생존여부를 표시하였다. 동승자가 2~3명일 경우, 나이에 따른 생존 여부에 차이가 있다.
이 외에도, 티켓탑승권과 형재자매/배우자, 그리고 부모/자식에 대한 분류도
위와 같은 방법들로 그래프를 나타낼수 있다.
'AI > Machine Learning&Deep Learning' 카테고리의 다른 글
Deep Learning_딥러닝을 활용한 회귀 분석 (0) | 2021.04.06 |
---|---|
Deep Learning_인공 신경망의 구조&활성화 함수 (0) | 2021.03.29 |
Machine Learning_타이타닉 생존자 예측 (0) | 2021.03.29 |
Machine Learning_확률적 경사 하강법 (0) | 2021.03.28 |
Machine Learning_선형 회귀 (0) | 2021.03.27 |