20221214 = 자연어처리 복습 및 RNN 유형

PYTHON 2022. 12. 14. 17:03

KoNLPy의 형태소 분석기
( 한국어 정보처리를 위한 패키지 )

형태소 분석기의 종류 = Hannanum, Kkma, Komoran, Mecab, Okt

Tokenizer

1. 매개변수
2. 각 텍스트를 정수 또는 단어 수에 다라 각 토큰의 계수가 이진일 수 있는 벡터로
   변환하여 텍스트 말뭉치를 벡터화할 수 있음

3. parameters ( num_words : 단어 빈도에 따라 유지할 최대 단어 수
                filters : 각 요소가 텍스트에서 필터링 될 문자인 문자열
                lower : bool. 텍스트를 소문자로 변환할지 여부
                split : str. 단어 구분을 위한 구분 기호
                char_level : True일 때 모든 문자가 토큰으로 처리
                oov_token : word_index에 추가되고 text_to_sequence 호출 중에 어휘 밖의 단어를 대체

TensorFlow Text 자연어 처리

Word Embedding이란

→ word embdding은 단어를 특정 차원의 벡터로 바꾸어 주는 것
→ 'environmental'을 중심으로 관련한 단어를 벡터화하여 임베딩 프로젝터로 시각화

RNN의 유형

→ One to one : 가장 기본적인 모델
→ One to many : 하나의 이미지를 문장으로 표현할 수 있음, densecap
→ Many to one : 단어 시퀀스에 대해서 하나의 출력을 하는 구조, 감정 분류, 주가 등에 사용
→ Many to Many : 입력 시퀀스가 다른 시간 단계에서 비디오의 각 프레임의 기능 표현인 비디오 분류
→ Many to Many : 여러 개의 단어를 입력받아 여러 개의 단어로 구성된 문장을 명사, 동사, 형용사 등으로 구분 반환하는 번역기

실습 중 이해하기 어려웠던 코드 복습 (1)

corpus = ["서울 코로나 상생지원금 문의입니다.",
"인천 지하철 운행시간 문의입니다.",
"버스 운행시간 문의입니다."]

word_to_index.items()
= dict_items([('문의입니다', 1), ('운행시간', 2), ('서울', 3), ('코로나', 4), ('상생지원금', 5), ('인천', 6), ('지하철', 7), ('버스', 8)])

corpus_sequences = tokenizer.texts_to_sequences(corpus)
corpus_sequences
= [[3, 4, 1], [2, 1], [2, 1]]

→ corpus를 할당해주고 items()로 빈도수를 확인하고 순위를 매긴다.
   sequences로 각 문장마다 text문장을 숫자로 이루어진 리스트로 변경해준다.

'PYTHON' 카테고리의 다른 글

20221219 = BERT (1)	2022.12.19
20221215 = RNN 복습, TextVectorization (0)	2022.12.15
20221212 = CNN 복습 / 자연어처리 개념 정리 (0)	2022.12.12
20221207 = CNN 복습 및 정리 (0)	2022.12.07
20221206 = 딥러닝 이미지 분류 개념 (0)	2022.12.06

ABOUT ME

KEN.ALLDAY KEN.ALLDAY

'PYTHON' 카테고리의 다른 글

티스토리툴바

ABOUT ME

'PYTHON' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바