20221101 = 머신러닝 복습....
* 정규화 => 숫자 스케일의 차이가 클 때 값을 정규분포로 만들어 주거나 스케일 값을 변경해 주는 것
* 이상치 => 이상치를 제거하거나 대체
* 대체 => 결측치를 다른 값으로 대체
* 인코딩 => 호칭, 탑승지의 위치, 문자 데이터를 수치화, 너무 범위가 큰 수치 데이터를 구간화 해서 인코딩 할 수도 있습니다.
* Accuracy = 올바르게 예측한 샘플 갯수 / 전체 샘플 갯수
* 수치데이터만 가져온 이유 = 머신러닝 내부에서 연산을 할 수 없기 때문에
* 머신러닝 알고리즘에서 bool 값은 수치데이터로 취급한다.
* ROAS = return on ad spend
* 이진로그, 자연로그, 상용로그의 공통점? => x가 1일 때 y는 0이다, x는 0보다 큰 값을 갖는다, x가 1보다 작을 때 y값이 마이너스 무한대로 수렴한다.
* 클래스는 분류해야하는 대상의 갯수에 따라 클래스가 나뉜다.
* 클래스를 예측할 때 True, False로 예측하기도 하지만 멀티클래스 일 때는 특정 클래스의 확률을 예측하기도 합니다. 그래서 예시의 측정공식은 logloss 라는 공식을 사용합니다. 엔트로피와 비슷하지만 다릅니다.
* 지니불순도와 엔트로피를 사용하는 목적? =>분류를 했을 때 True, False 로 완전히 나뉘지 않는데 이 때 값이 얼마나 섞여있는지 수치로 확인하기 위해서이고, 0에 가까울 수록 다른 값이 섞여있지 않은 상태입니다. 분류의 분할에 대한 품질을 평가하고 싶을 때 사용합니다.
* Q 프로젝트 등을 할 때 지니불순도 등을 참고하게 되나요? => A 캐글이나 데이콘 등에 제출하기 전에 시각화를 해보고 그 모델이 얼마나 잘 나뉘었는지 여러가지로 평가해 볼 수 있는데 이 때 함께 참고해 볼 수 있을거 같아요. 이 때 함께 참고해 볼 수 있는 것은 피처 중요도, 교차검증(cross validation) 값 등을 참고해 볼 수 있겠습니다.
* 지니불순도나 엔트로피가 0보다 크더라도, 지정한 max_depth 값이 되면 멈춥니다.