✔ 파이썬 판다스
- 머신러닝에서 데이터셋을 다룰 때 주로 판다스(pandas) 라이브러리 사용한다.
- 판다스는 1차원 배열 형태의 시리즈(Series) 자료구조와 2차원 배열 형태의 데이터프레임(DataFrame)
자료구조로 구성된다.
- 시리즈는 데이터 값의 1차원 벡터이다.
- 데이터프레임은 여러 개의 시리즈를 이어 붙인 2차원 구조의 형태. 각 열은 시리즈로 구성되고, 행 인덱스로 구분한다.
✔ 판다스 라이브러리 기본 사용법
◾ 판다스 라이브러리를 사용하려면 import 명령으로 불러와야하고, as 명령어를 사용해 pd 약칭 사용이
가능하다. __version__속성으로 판다스 버전을 확인한다.
◾ 문자열을 갖는 1차원 구조의 리스트를 만들고 type명령어로 객체를 확인하면 다음과 같다.
◾ 위에서 만든 리스트 객체를 판다스 시리즈로 변환한다. 그리고 나서 type 명령어로 객체를 확인해볼 것이다.
◾ 변환된 시리즈 객체 구조를 보면 문자열과 인덱스가 짝을 이룬다. 시리즈 객체의 원소를 추출할 때는, 새롭게
loc 인덱서를 사용한다.
◾ 인덱스 범위를 지정하여 값을 추출하는 것도 가능한데, loc 인덱서는 다른 방법과 달리 마지막 인덱스에 해당하는
원소도 포함되어 추출되는 점을 유의해야한다.
◾ 숫자 데이터로 구성된 튜플 형태의 1차원 벡터를 시리즈로 변환해본다. int형도 float타입으로 변환되어 저장된
것을 확인할 수 있다.
◾ 위에서 시리즈를 여러 개 연결하면 데이터프레임을 만들 수 있다고 하였는데, 시리즈 2개를 원소로 갖는 딕셔너리를
정의하고, DataFrame함수에 입력한다. 딕셔너리 key에 해당하는 값이 열의 이름이고, value에 해당하는 시리즈가
열의 데이터이다. df1의 열이 'c0', 'c1'인 상태인데 열이름을 바꾸기 위해 다음과 같이 진행하였다.
출처: 파이썬 딥러닝 머신러닝 입문_오승환 지음
'AI > Machine Learning&Deep Learning' 카테고리의 다른 글
Machine Learning_데이터 전처리 (0) | 2021.03.19 |
---|---|
Machine Learning_훈련 세트와 테스트 세트 (0) | 2021.03.19 |
Machine Learning_k-최근접 이웃 알고리즘 (0) | 2021.03.15 |
Machine Learning_지도학습 vs. 비지도학습 (0) | 2021.01.29 |
파이썬 머신러닝/딥러닝_개발 환경 설정 (0) | 2021.01.27 |