파이썬 > Pandas

Pandas DataFrame 만들고 연산하기 (2) - 맥, 주피터 사용

more_biscuit 2024. 7. 17. 23:34

데이터 프레임 통계

 

데이터 프레임의 값의 통계치를 확인하거나 통계를 내기위해 임의 값으로 데이터를 부분 치환하는 연산들(전처리라고 한다)을 나열해보았다. 

 

 

** 참고 interactiveshell 을 import 하면, print 문 없이 데이터 프레임이 나온다고 함.

 

 

info()

전체 내용, 아래와 같이 보여줌

 

describe()

통계치 보여줌

 

sort_index()

axis =0 은 행을 기준으로 정렬, 가로 한줄의 인덱스가 통으로 움직임 즉 인덱스가 정렬됨..

ascending = false : 내림차순, 즉, 큰 수 부터 정렬

 

*axis 참고 내용 (sum () 에서는 반대로 쓰이는것 같다.)

Pandas에서 axis 매개변수는 데이터를 처리할 때 행과 열을 기준으로 작업을 수행하는 방향을 지정하는 데 사용됩니다.

  • axis=0: 이는 행 방향을 의미합니다. 즉, 행을 따라 작업을 수행하거나 행을 기준으로 함수를 적용하는 경우에 사용됩니다. 예를 들어, DataFrame에서 sum(axis=0)은 각 열의 합을 계산합니다.
  • axis=1: 이는 열 방향을 의미합니다. 즉, 열을 따라 작업을 수행하거나 열을 기준으로 함수를 적용하는 경우에 사용됩니다. 예를 들어, DataFrame에서 sum(axis=1)은 각 행의 합을 계산합니다.

 

sort_values(by=)

특정 열의 내용을 기준으로 정렬할 수 있음

 

isnull(), notnull()

NaN, 즉 비어있는 값이 있는 곳을 찾고 카운트 할 수 있음

 

fillna()

NaN 값을 채울 수 있음

아래는 0으로 채워달라는 내용

 

ffill(), bfill()

NaN 을 채울 때 앞 또는 뒤의 값으로 채울 수 있음

데이터 모으다 보면 유실 되는 경우가 있는데 이때 빵꾸난 데이터를 메꾸는 데 유용. 예를 들어 온도 같은 경우 앞 또는 뒤 시간과 비슷할 가능성이 있기 때문에 자주 사용됨


3에서 이어서..