PYTHON

20221011 = crosstab, replace

K.Y.PARK 2022. 10. 27. 16:31

# df["연도월"] = df["연도"].astype(str)+"-"+df["월"].astype(str)
  df["확진일"].astype(str).str[:7]
tail로 자르면 2020-1로 앞에 0이 사라지기 때문에 위 코드로 문자열을 7자리로 잘라서 보기 편하게 변환가능

# 컬럼안에 행을 변경할 경우
df["컬럼명"] = df["컬럼명"].str.replace("기존행", "변경할 행이름") 으로 변경가능
( 일부만 일치하더라도 변경해준다 )

# 빈도수를 구하기 위해서는 value_counts()를 사용한다

# 텍스트 앞뒤 공백제거는 df["컬럼명"].str.strip() 을 사용해서 제거해 준다

# pd.crosstab(df["연도"], df["퇴원현황"], normalize=True) 
빈도비율을 구하기 위해서는 normalize = True를 설정!

# regex=True 정규표현식 사용여부

# pd.crosstab(["컬럼1"],["컬럼2"]) = 두 개의 변수에 대한 빈도수를 구해볼 수 있음

# 컬럼명 변경하기 = list("항목들")을 만들어서 변경가능하고, w for w in "변경할컬럼명" 으로도 변경가능

# 특정 컬럼에 특정 행만 보고 싶을 때 = df.loc[(df["컬럼"] == "행이름") & (df["컬럼"] == "행이름")]

# pd.pivot_table(data=df, index="거주구", columns="해외유입", aggfunc=len)["환자"]
df.groupby(by=["거주구", "해외유입"])["환자"].count().unstack(level=1)
df.groupby(by=["연도","월"])["해외유입"].describe()
위 코드 복습하기!!

# sort_index() / median() = 중앙값 / mean() = 평균값 - 복습하기

# isnull() = 결측치를 True/False로 보여줌 -> isnull().sum() 으로 합계구할 수 있음

# pd.to_numeric으로 수치 데이터로 변경가능 ( pd.to_numeric(df["컬럼명"], errors="coerce" )

# df_last["전용면적"] = df_last["규모구분"].str.replace("전용면적|제곱미터이하", "", regex=True)
df_last["전용면적"] = df_last["전용면적"].str.replace("제곱미터초과", "~")
df_last["전용면적"].str.replace(" ", "")
코드 복습하기!!

# regex=True !!!! / FutureWarning: The default value of regex will change from True to False in a future version.