공부/Microsoft Data School 1기
파이썬으로 데이터 수집, 형태 및 분석 4
_빌런
2025. 4. 17. 09:00
Concat
매개변수 | 설명 |
DataFrame | 연결할 dataframe을 매개변수로 주어준다. 2개만 이름으로 줘도 되지만, 3개 이상은 iterable object로 주어야 한다. |
ignore_index | 병합할 때 index를 무시하고, 0 ~ n까지의 index를 새롭게 부여한다. |
join | SQL의 join을 생각하면 편하다. 어디를 기준으로 어떻게 연결할지 정하는 매개변수다. inner, outer가 있고 default 값은 outer다. |
axis | 어느 축으로 할지 결정한다. 0은 행을 기준으로, 1은 열을 기준으로 연결한다. |
pandas 라이브러리의 concat 함수 매개변수 설명이다.
Merge
매개변수 | 설명 |
left, right | merge는 두 개의 dataframe만 가능하다. 3개 이상은 불가능하다. 따라서 left와 right의 데이터프레임에 매개변수로 넘겨주면 된다. 당연하지만 순서에 유의하자. |
how | SQL의 join에 해당한다. left, right, inner, outer가 있다. |
on | 어떤 column을 기준으로 병합할지 선택하는 매개변수다. |
left on, right on | SQL의 LEFT ON, RIGHT ON과 유사하다. LEFT ON과 RIGHT ON의 column 이름은 다르지만 데이터가 같을 때 사용한다. SQL과 달리 특이한 점은 한 쪽만 남기지 않고, 모두 하나의 dataframe에 병합해서 보여준다. 이후 특정 하나의 column을 drop으로 따로 지워줘야 한다. |
pandas 라이브러리의 merge 함수 매개변수 설명이다.
Groupby
groupby 함수 | 설명 |
df.groupby(std) | 어떤 기준으로 dataframe을 그룹화할지 정하는 함수다. |
group_obj.groups | 그룹이 어떻게 묶였는지 확인할 수 있다. 반환값은 dict이다. |
group_obj.ngroups | 몇 개의 그룹으로 묶였는지 확인할 수 있다. 반환값은 int다. |
group_obj.get_group(name) | name에 해당하는 group만을 데이터프레임을 반환한다. |
group_obj.describe() |
group obj의 전체 요약 통계를 보여준다. column을 지정하면 특정 column의 요약 통계만 조회할 수도 있다. |
agg |
pandas 라이브러리의 groupby 함수에 대한 설명이다.
Folium
매개변수 | 설명 |
folium 라이브러리 설