● 토크나이징이란?
일상에서 사용하는 언어를 자연어라고 한다.
컴퓨터는 이 자연어를 직접적으로 이해할 수 없기 때문에, 이 의미를 분석하여 컴퓨터가 처리할 수 있도록
하는 일을 자연어 처리(NLP)라고 한다.
어떤 문장을 일정한 의미가 있는 가장 작은 단어들로 나누고 나서, 그 단어들을 통해 의미를 분석한다.
여기서 가장 기본이 되는 단어들을 토큰이라고 한다.
이렇게 주어진 문장에서 토큰 단위로 정보를 나누는 작업을 토크나이징이라고 하며,
주로 텍스트 전처리 과정에서 사용된다.
한국어 토크나이징을 지원하는 파이썬 라이브러리가 존재하는데
이는 바로 KoNLPy(코엔엘파이)이다.
● KoNLPy_Kkma
KoNLPy의 내부 모듈에서는 사용하기 좋은 몇 가지 형태소 분석기를 통합해 라이브러리 형태로 제공한다.
Kkma는 자연어 처리를 위해 개발한 한국어 형태소 분석기로, 꼬꼬마로 발음한다. 총 56개의 품사 태그를 지원한다.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
|
from konlpy.tag import Kkma
# 꼬꼬마 형태소 분석기 객체 생성
kkma = Kkma()
text = "아버지가 방에 들어갑니다."
# 형태소 추출
morphs = kkma.morphs(text)
print(morphs)
# 형태소와 품사 태그 추출
pos = kkma.pos(text)
print(pos)
# 명사만 추출
nouns = kkma.nouns(text)
print(nouns)
# 문장 분리
sentences = "오늘 날씨는 어때요? 내일은 덥다던데."
s = kkma.sentences(sentences)
print(s)
|
cs |
● KoNLPy_Komoran
자바로 개발한 한국어 형태소 분석기이다. 코모란으로 발음하며, Apache 라이선스 2.0을 따르는 오픈소스 소프트웨어이다. 다른 형태소 분석기와 다르게 공백이 포함된 형태소 단위로도 분석이 가능해 많이 사용된다고 한다.
코모란은 꼬꼬마보다 형태소를 빠르게 분석하며 다양한 품사태그를 지원한다.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
|
from konlpy.tag import Komoran
# 코모란 형태소 분석기 객체 생성
komoran = Komoran()
text = "아버지가 방에 들어갑니다."
# 형태소 추출
morphs = komoran.morphs(text)
print(morphs)
# 형태소와 품사 태그 추출
pos = komoran.pos(text)
print(pos)
# 명사만 추출
nouns = komoran.nouns(text)
print(nouns)
|
cs |
● KoNLPy_Okt
Okt는 트위터에서 개발한 한국어 처리기에서 파생된 오픈소스이다. Okt는 빅데이터에서 간단한 한국어 처리를 통해 색인엉를 추출하는 목표를 갖고 있기 때문에 완전한 수준의 형태소 분석을 자랑하지 않는다. 따라서 한국어 처리기라고 표현한다. 분석되는 품사 정보는 작지만 분석 속도는 가장 빠르다.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
|
from konlpy.tag import Okt
# 코모란 형태소 분석기 객체 생성
okt = Okt()
text = "아버지가 방에 들어갑니다."
# 형태소 추출
morphs = okt.morphs(text)
print(morphs)
# 형태소와 품사 태그 추출
pos = okt.pos(text)
print(pos)
# 명사만 추출
nouns = okt.nouns(text)
print(nouns)
# 정규화, 어구 추출
text = "오늘 날씨가 좋아욬ㅋㅋ"
print(okt.normalize(text))
print(okt.phrases(text))
|
cs |
출처 : http://www.yes24.com/Product/Goods/95521062
처음 배우는 딥러닝 챗봇 - YES24
비대면 시대를 이끄는 챗봇 기술, 한 권의 책으로 만나다!이 책은 챗봇 엔진부터 NLP, 딥러닝, REST API, 카카오톡 연동에 이르기까지 챗봇에 필요한 기술을 한 권으로 만나볼 수 있는 챗봇 개발 입
www.yes24.com
'AI > Machine Learning&Deep Learning' 카테고리의 다른 글
[CodeReview] 웹크롤링/유틸스 코드리뷰 (0) | 2021.09.24 |
---|---|
[CodeReview] 음성클래스 분류 코드리뷰 (0) | 2021.09.18 |
Konlpy를 활용한 한국어 분석 (0) | 2021.07.12 |
Deep Learning_딥러닝을 활용한 분류 예측 (0) | 2021.04.06 |
Deep Learning_딥러닝을 활용한 회귀 분석 (0) | 2021.04.06 |