KoNLPy의 형태소 분석기
( 한국어 정보처리를 위한 패키지 )
형태소 분석기의 종류 = Hannanum, Kkma, Komoran, Mecab, Okt
Tokenizer
1. 매개변수
2. 각 텍스트를 정수 또는 단어 수에 다라 각 토큰의 계수가 이진일 수 있는 벡터로
변환하여 텍스트 말뭉치를 벡터화할 수 있음
3. parameters ( num_words : 단어 빈도에 따라 유지할 최대 단어 수
filters : 각 요소가 텍스트에서 필터링 될 문자인 문자열
lower : bool. 텍스트를 소문자로 변환할지 여부
split : str. 단어 구분을 위한 구분 기호
char_level : True일 때 모든 문자가 토큰으로 처리
oov_token : word_index에 추가되고 text_to_sequence 호출 중에 어휘 밖의 단어를 대체
TensorFlow Text 자연어 처리
Word Embedding이란
→ word embdding은 단어를 특정 차원의 벡터로 바꾸어 주는 것
→ 'environmental'을 중심으로 관련한 단어를 벡터화하여 임베딩 프로젝터로 시각화
RNN의 유형
→ One to one : 가장 기본적인 모델
→ One to many : 하나의 이미지를 문장으로 표현할 수 있음, densecap
→ Many to one : 단어 시퀀스에 대해서 하나의 출력을 하는 구조, 감정 분류, 주가 등에 사용
→ Many to Many : 입력 시퀀스가 다른 시간 단계에서 비디오의 각 프레임의 기능 표현인 비디오 분류
→ Many to Many : 여러 개의 단어를 입력받아 여러 개의 단어로 구성된 문장을 명사, 동사, 형용사 등으로 구분 반환하는 번역기
실습 중 이해하기 어려웠던 코드 복습 (1)
corpus = ["서울 코로나 상생지원금 문의입니다.",
"인천 지하철 운행시간 문의입니다.",
"버스 운행시간 문의입니다."]
word_to_index.items()
= dict_items([('문의입니다', 1), ('운행시간', 2), ('서울', 3), ('코로나', 4), ('상생지원금', 5), ('인천', 6), ('지하철', 7), ('버스', 8)])
corpus_sequences = tokenizer.texts_to_sequences(corpus)
corpus_sequences
= [[3, 4, 1], [2, 1], [2, 1]]
→ corpus를 할당해주고 items()로 빈도수를 확인하고 순위를 매긴다.
sequences로 각 문장마다 text문장을 숫자로 이루어진 리스트로 변경해준다.