ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 20221214 = 자연어처리 복습 및 RNN 유형
    PYTHON 2022. 12. 14. 17:03
    KoNLPy의 형태소 분석기
    ( 한국어 정보처리를 위한 패키지 )
    
    형태소 분석기의 종류 = Hannanum, Kkma, Komoran, Mecab, Okt
    Tokenizer
    
    1. 매개변수
    2. 각 텍스트를 정수 또는 단어 수에 다라 각 토큰의 계수가 이진일 수 있는 벡터로
       변환하여 텍스트 말뭉치를 벡터화할 수 있음
    
    3. parameters ( num_words : 단어 빈도에 따라 유지할 최대 단어 수
                    filters : 각 요소가 텍스트에서 필터링 될 문자인 문자열
                    lower : bool. 텍스트를 소문자로 변환할지 여부
                    split : str. 단어 구분을 위한 구분 기호
                    char_level : True일 때 모든 문자가 토큰으로 처리
                    oov_token : word_index에 추가되고 text_to_sequence 호출 중에 어휘 밖의 단어를 대체
    TensorFlow Text 자연어 처리
    
    Word Embedding이란
    
    → word embdding은 단어를 특정 차원의 벡터로 바꾸어 주는 것
    → 'environmental'을 중심으로 관련한 단어를 벡터화하여 임베딩 프로젝터로 시각화
    RNN의 유형
    
    → One to one : 가장 기본적인 모델
    → One to many : 하나의 이미지를 문장으로 표현할 수 있음, densecap
    → Many to one : 단어 시퀀스에 대해서 하나의 출력을 하는 구조, 감정 분류, 주가 등에 사용
    → Many to Many : 입력 시퀀스가 다른 시간 단계에서 비디오의 각 프레임의 기능 표현인 비디오 분류
    → Many to Many : 여러 개의 단어를 입력받아 여러 개의 단어로 구성된 문장을 명사, 동사, 형용사 등으로 구분 반환하는 번역기
    실습 중 이해하기 어려웠던 코드 복습 (1)
    
    corpus = ["서울 코로나 상생지원금 문의입니다.",
    "인천 지하철 운행시간 문의입니다.",
    "버스 운행시간 문의입니다."]
    
    word_to_index.items()
    = dict_items([('문의입니다', 1), ('운행시간', 2), ('서울', 3), ('코로나', 4), ('상생지원금', 5), ('인천', 6), ('지하철', 7), ('버스', 8)])
    
    corpus_sequences = tokenizer.texts_to_sequences(corpus)
    corpus_sequences
    = [[3, 4, 1], [2, 1], [2, 1]]
    
    → corpus를 할당해주고 items()로 빈도수를 확인하고 순위를 매긴다.
       sequences로 각 문장마다 text문장을 숫자로 이루어진 리스트로 변경해준다.
Designed by Tistory.