공부/Microsoft Data School 1기

파이썬으로 데이터 수집, 형태 및 분석 4

_빌런 2025. 4. 17. 09:00

Concat

매개변수 설명
DataFrame 연결할 dataframe을 매개변수로 주어준다.
2개만 이름으로 줘도 되지만, 3개 이상은 iterable object로 주어야 한다.
ignore_index 병합할 때 index를 무시하고, 0 ~ n까지의 index를 새롭게 부여한다.
join SQL의 join을 생각하면 편하다. 어디를 기준으로 어떻게 연결할지 정하는 매개변수다.
inner, outer가 있고 default 값은 outer다.
axis 어느 축으로 할지 결정한다. 0은 행을 기준으로, 1은 열을 기준으로 연결한다.

pandas 라이브러리의 concat 함수 매개변수 설명이다.

 

Merge

매개변수 설명
left, right merge는 두 개의 dataframe만 가능하다. 3개 이상은 불가능하다.
따라서 left와 right의 데이터프레임에 매개변수로 넘겨주면 된다. 당연하지만 순서에 유의하자.
how SQL의 join에 해당한다. left, right, inner, outer가 있다.
on 어떤 column을 기준으로 병합할지 선택하는 매개변수다.
left on, right on SQL의 LEFT ON, RIGHT ON과 유사하다.
LEFT ON과 RIGHT ON의 column 이름은 다르지만 데이터가 같을 때 사용한다.
SQL과 달리 특이한 점은 한 쪽만 남기지 않고, 모두 하나의 dataframe에 병합해서 보여준다.
이후 특정 하나의 column을 drop으로 따로 지워줘야 한다.

pandas 라이브러리의 merge 함수 매개변수 설명이다.

 

Groupby

groupby 함수 설명
df.groupby(std) 어떤 기준으로 dataframe을 그룹화할지 정하는 함수다.
group_obj.groups 그룹이 어떻게 묶였는지 확인할 수 있다. 반환값은 dict이다.
group_obj.ngroups 몇 개의 그룹으로 묶였는지 확인할 수 있다. 반환값은 int다.
group_obj.get_group(name) name에 해당하는 group만을 데이터프레임을 반환한다.
group_obj.describe()
 group obj의 전체 요약 통계를 보여준다.
column을 지정하면 특정 column의 요약 통계만 조회할 수도 있다.
agg  

pandas 라이브러리의 groupby 함수에 대한 설명이다.

 

Folium

매개변수 설명
   
   
   
   

folium 라이브러리 설