20221114 = QnA 및 강의정리
* 범주가 적은 값을 만들면 어떤 문제가 있을까?
→과대적합의 우려가 있다.
* 너무 희소한 값이라면 one-hot-encoding 할 때 어떤 전처리를 해야할까?
→이산화 할 때 ordinal, one-hot-encoding, ‘기타’ or 결측치 등으로 묶어주는 방법이 있다.
* 표준정규분포 형태로 만들기 위해서는 무엇이 먼저??
→로그변환이 먼저다!
* 왜 데이터를 정규분포 형태로 만들면 머신러닝이나 딥러닝에서 더 나은 성능을 낼까?
→PCA전에 전처리 할 속성의 영향을 같은 선상에서 비교할 수 있다.
* Label Encoder, Ordinal Encoder의 입력값의 차이는 무엇일까?
→Ordinal encoding은 Label enconding과 달리 변수에 순서를 고려한다는 점에서 가장 큰 차이가 있다. Label encoder는 1차원 y값, Ordinal encoder는 2차원 X값을 갖는다.
* Encoder 3가지의 공통점은?
→범주형 데이터를 수치형 데이터로 변환시켜 준다.
* SQL로 관리하는 데이터와 파일로 관리하는 데이터는 어떻게 구분할까?
→SQL에 저장하는 데이터는 실시간으로 사용해야 하는 데이터고, 파일로 관리하는 데이터는 로그성 데이터이다.
* SQL:로 관리하는 실시간 정보?
→로그인 정보, 리뷰 데이터, 장바구니 내역, 회원가입정보, 각종 status 값
* pd.options.display.max_columns = None
→컬럼의 개수가 많은 경우 중략되는 경우가 있는데 위 코드를 사용하여 전체의 컬럼을 다 보여줄 수 있다.
* sns.displot(data=df, x="SalePrice", aspect=5)
→plotly에서 aspect는 가로길이를 의미한다.
* pd.concat([isna_sum, isna_mean], axis=1)
→concat을 할 때에는 axis=1로 두 개의 데이터를 열로 붙여줄 수 있음. Axis=0은 행을 의미.
* df.select_dtypes(include=np.number).nunique().sort_values()
→수치형 데이터의 nunique 값 구해보기, sort_values로 정렬하기
* df[num_to_str_col].astype(str)
→문자열 형태로 변경하게 되면 나중에 pd.get_dummies로 인코딩했을 때 원핫인코딩을 한다.
출처 : 멋쟁이사자처럼 AI 7기 강의자료