ABOUT ME

Today
Yesterday
Total
  • 20221116 = 학습내용정리
    PYTHON 2022. 11. 17. 16:14

    왜도

    Negative Skew는 오른쪽에 더 많이 분포하고 왼쪽에 긴 꼬리를 갖는다.

    Positive Skew는 왼쪽에 더 많이 분포하고 오른쪽에 긴 꼬리를 갖는다.

     

     

    결측치

     

    수치형

    결측치가 많다고 삭제하는 것이 무조건 좋은 방법이 아니다.

    이상치, 특이값을 찾는다면 오히려 특정 값이 신호가 될 수도 있다.

    수치형 데이터인데 결측치면 잘못채웠을 때 오해할 수 있으니 조심해야 한다.

    수치형 변수를 대체할 때는 원래의 값이 너무 왜곡되지 않는지도 주의가 필요하다.

    중앙값, 평균값 등으로 대체할 수 있지만, 회귀로 예측해서 채우는 방법도 있다.

     

    범주형

     

    범주형 변수중에 결측치가 있는지 확인을 하고 어떤 범주형 변수를 선택해서 모델에 사용할지 의사결정을 한다.

    범주형 데이터는 원핫인코딩 작업을 하기 때문에 결측치를 남겨두어도 상관은 없다.

    없는 값을 변수로 생성하지 않기 때문이다.

     

    KFold

    KFold를 사용해서 분할을 나눌 수 있다.

    분할에 random_state를 사용할 수 있다.

    분할 때문에 값이 변경된건지 실험을 좀 더 고정을 할 수 있다.

     

    선형회귀

    다른 모델들에 비해 간단한 작동 원리를 가지고 있다.

    학습 속도가 매우 빠르다.

    조정해줄 파라미터가 적다.

     

    출처 : 멋쟁이사자처럼 AI 7기 강의자료

Designed by Tistory.