AI/Machine Learning&Deep Learning

    [CodeReview] NLP_문장 및 단어 유사도 분류

    [CodeReview] NLP_문장 및 단어 유사도 분류

    https://github.com/kkobooc/NLP_KoreanHateSpeech GitHub - kkobooc/NLP_KoreanHateSpeech: 한국어 자연어 처리 기술을 이용하여, 온라인 연예 기사 뉴스의 댓 한국어 자연어 처리 기술을 이용하여, 온라인 연예 기사 뉴스의 댓글들을 혐오 및 공격성에 따라 hate/offensive/none으로 분류하는 Kaggle 프로젝트 - GitHub - kkobooc/NLP_KoreanHateSpeech: 한국어 자연어 처리 github.com 01_data_skimming (3)-checkpoint.ipynb from sklearn.feature_extraction.text import CountVectorizer from sklearn.feature_..

    [CodeReview] 웹크롤링/유틸스 코드리뷰

    [CodeReview] 웹크롤링/유틸스 코드리뷰

    기존 유사 프로젝트에 대한 코드리뷰를 계속해서 진행하고 있다. 출처 : https://github.com/LEEMINJOO/Beeeep--/blob/master/utils.py GitHub - LEEMINJOO/Beeeep--: 유튜브 비속어 음성 자동 필터링 - 제 9회 투빅스 컨퍼런스 유튜브 비속어 음성 자동 필터링 - 제 9회 투빅스 컨퍼런스. Contribute to LEEMINJOO/Beeeep-- development by creating an account on GitHub. github.com [utils.py] from pytube import YouTube, Playlist 파이튜브 라이브러리를 통해 유튜브와 플레이리스트의 영상 및 음성을 저장한다. def make_dir(dir_): ..

    [CodeReview] 음성클래스 분류 코드리뷰

    [CodeReview] 음성클래스 분류 코드리뷰

    팀프로젝트 진행 전, 기존 유사 프로젝트에 대한 코드 리뷰를 진행하기로 하였다. [get_data.py] 우선 해당 프로젝트 내 get_data.py는 데이터 준비 단계에 해당하며, 유튜브에서 음성을 얻어내는 코드이다. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 chrome_dir = './chromedriver.exe' if __name__ == '__main__': parser = argparse.ArgumentParser() parser.add_argument("--get_links", default=False, action="store_true") parser.add_argument("--get_videos", default=False, action="stor..

    딥러닝챗봇_토크나이징

    딥러닝챗봇_토크나이징

    ● 토크나이징이란? 일상에서 사용하는 언어를 자연어라고 한다. 컴퓨터는 이 자연어를 직접적으로 이해할 수 없기 때문에, 이 의미를 분석하여 컴퓨터가 처리할 수 있도록 하는 일을 자연어 처리(NLP)라고 한다. 어떤 문장을 일정한 의미가 있는 가장 작은 단어들로 나누고 나서, 그 단어들을 통해 의미를 분석한다. 여기서 가장 기본이 되는 단어들을 토큰이라고 한다. 이렇게 주어진 문장에서 토큰 단위로 정보를 나누는 작업을 토크나이징이라고 하며, 주로 텍스트 전처리 과정에서 사용된다. 한국어 토크나이징을 지원하는 파이썬 라이브러리가 존재하는데 이는 바로 KoNLPy(코엔엘파이)이다. ● KoNLPy_Kkma KoNLPy의 내부 모듈에서는 사용하기 좋은 몇 가지 형태소 분석기를 통합해 라이브러리 형태로 제공한다...

    Konlpy를 활용한 한국어 분석

    Konlpy를 활용한 한국어 분석

    기존에 만들어둔 가상환경 이름이 생각나지 않아 conda create -n "이름" 통해 새로운 환경을 만들어주었다. 그 후, 만들어진 가상환경을 확인하기 위해 conda info --envs 통해 확인하였다. 간단한 형태소 분석을 해주기 위해 다음과 같은 코드를 작성해주었다. 사용법은 이처럼 간단하다. Okt()메서드로 Okt 객체를 생성하고, pos() 메서드에 형태소 분석을 수행할 문장을 지정하기만 하면 된다. Konlpy에는 5가지 형태소 분석기가 있는데 "아버지가방에들어가신다"를 제대로 분석할 수 있는 분석기는 Kkma와 Okt밖에 없다. 다음 실습에서 Word2Vec을 구현기 위해 Gensim 라이브러리를 미리 설치하였다.

    Deep Learning_딥러닝을 활용한 분류 예측

    Deep Learning_딥러닝을 활용한 분류 예측

    데이터 전처리 과정이 필요하다. 모델 설계: 드랍아웃 활용 완전 연결 레이어 4개층으로 구성되는 신경망 모델을 구성한다. 과대적합을 방지하기 위해 드랍아웃 레이어를 추가해준다. 드랍아웃은 입력 레이어와 은닉 레이어 간의 연결 중 일부를 랜덤으로 제거한 상태에서 학습하는 기법이다.