파이썬 > Pandas

데이터 시각화 - 그래프 종류와 해석

more_biscuit 2024. 8. 28. 20:33

 

seaborn 에서 제공하는 데이터를 가지고 여러 그래프를 그려보았다. 

 

Joint Plot

  1. 목적: 두 변수 간의 관계를 시각화하는 데 사용됩니다. 주로 2D 공간에서 두 변수의 분포와 관계를 동시에 보여줍니다.
  2. 구성: 중심에는 두 변수의 산점도가 있고, 양쪽에는 각 변수의 일변량 분포(히스토그램, 커널 밀도 추정 등)가 나타납니다. 회귀선, KDE plot, 히스토그램 등 다양한 옵션을 추가할 수 있습니다.
  3. 사용 예시: sns.jointplot(x="x_variable", y="y_variable", data=data)

데이터 set: 팁가격 

 

대각선 실선의 주변으로 파란 영역은 분포 범위 이다. 실선에서 데이터들이 얼마나 많이 흩어져 있는가를 보여준다. 

 

 

Pair Plot

  1. 목적: 여러 변수 간의 쌍(pairwise) 관계를 시각화하는 데 사용됩니다. 보통 데이터프레임의 모든 수치형 변수에 대해 산점도와 히스토그램을 그립니다.
  2. 구성: 각 변수 쌍의 산점도가 그려지며, 대각선에는 각 변수의 일변량 분포(히스토그램, KDE 등)가 표시됩니다. 다중 변수의 관계를 한눈에 볼 수 있습니다.
  3. 사용 예시: sns.pairplot(data)

데이터 set : 꽃잎과 꽃받침 길이

 

diag_kind : 

양옆 그리고 대각선 상에 다른 그래프를 같이 보여줄 때, 대각선 상의 그래프 지정하는 변수

auto 가 디폴트 , hist, kde 등을 사용할 수 있다. 위는 kde 일 경우 예.

 

본래 기준 그래프는 3사분면의 그래프이다.

1사분면 그래프는 3사분면 그래프의  x=y  선에 대해 대칭된 그래프이다. 

2,4 사분면의 그래프는 1,3 사분면의 그래프의 데이터 밀집도 이다. (점이 얼마나 같은곳에 많이 찍혀 있는지)

 

 

 

Box, Swarmplot

데이터 set: 팁가격 

 

설명:  박스,, 스왐 그래프가 가장 어려웠는데, 간단히 말하면, 눈금자 처럼 길게 생긴 선의 처음과 끝이 거의 모든 데이터가 분산된 넓이? 를 의미하고, 박스는 평균과 표준편차를 의미한다.