-
20221116 = 학습내용정리PYTHON 2022. 11. 17. 16:14
왜도
→Negative Skew는 오른쪽에 더 많이 분포하고 왼쪽에 긴 꼬리를 갖는다.
→Positive Skew는 왼쪽에 더 많이 분포하고 오른쪽에 긴 꼬리를 갖는다.
결측치
수치형
→결측치가 많다고 삭제하는 것이 무조건 좋은 방법이 아니다.
→이상치, 특이값을 찾는다면 오히려 특정 값이 신호가 될 수도 있다.
→수치형 데이터인데 결측치면 잘못채웠을 때 오해할 수 있으니 조심해야 한다.
→수치형 변수를 대체할 때는 원래의 값이 너무 왜곡되지 않는지도 주의가 필요하다.
→중앙값, 평균값 등으로 대체할 수 있지만, 회귀로 예측해서 채우는 방법도 있다.
범주형
→범주형 변수중에 결측치가 있는지 확인을 하고 어떤 범주형 변수를 선택해서 모델에 사용할지 의사결정을 한다.
→범주형 데이터는 원핫인코딩 작업을 하기 때문에 결측치를 남겨두어도 상관은 없다.
→없는 값을 변수로 생성하지 않기 때문이다.
KFold
→KFold를 사용해서 분할을 나눌 수 있다.
→분할에 random_state를 사용할 수 있다.
→분할 때문에 값이 변경된건지 실험을 좀 더 고정을 할 수 있다.
선형회귀
→다른 모델들에 비해 간단한 작동 원리를 가지고 있다.
→학습 속도가 매우 빠르다.
→조정해줄 파라미터가 적다.
출처 : 멋쟁이사자처럼 AI 7기 강의자료
'PYTHON' 카테고리의 다른 글
20221121 = 머신러닝 복습 (1) 2022.11.21 20221116 = Boosting tree 간단정리 (0) 2022.11.17 20221114 = QnA 및 강의정리 (0) 2022.11.17 20221107~09 = 멋쟁이사자처럼 AI 복습 (0) 2022.11.10 20221103 = 멋쟁이사자처럼 과제 복습 (0) 2022.11.03