데이터 프레임 통계
데이터 프레임의 값의 통계치를 확인하거나 통계를 내기위해 임의 값으로 데이터를 부분 치환하는 연산들(전처리라고 한다)을 나열해보았다.
** 참고 interactiveshell 을 import 하면, print 문 없이 데이터 프레임이 나온다고 함.
info()
전체 내용, 아래와 같이 보여줌
describe()
통계치 보여줌
sort_index()
axis =0 은 행을 기준으로 정렬, 가로 한줄의 인덱스가 통으로 움직임 즉 인덱스가 정렬됨..
ascending = false : 내림차순, 즉, 큰 수 부터 정렬
*axis 참고 내용 (sum () 에서는 반대로 쓰이는것 같다.)
Pandas에서 axis 매개변수는 데이터를 처리할 때 행과 열을 기준으로 작업을 수행하는 방향을 지정하는 데 사용됩니다.
- axis=0: 이는 행 방향을 의미합니다. 즉, 행을 따라 작업을 수행하거나 행을 기준으로 함수를 적용하는 경우에 사용됩니다. 예를 들어, DataFrame에서 sum(axis=0)은 각 열의 합을 계산합니다.
- axis=1: 이는 열 방향을 의미합니다. 즉, 열을 따라 작업을 수행하거나 열을 기준으로 함수를 적용하는 경우에 사용됩니다. 예를 들어, DataFrame에서 sum(axis=1)은 각 행의 합을 계산합니다.
sort_values(by=)
특정 열의 내용을 기준으로 정렬할 수 있음
isnull(), notnull()
NaN, 즉 비어있는 값이 있는 곳을 찾고 카운트 할 수 있음
fillna()
NaN 값을 채울 수 있음
아래는 0으로 채워달라는 내용
ffill(), bfill()
NaN 을 채울 때 앞 또는 뒤의 값으로 채울 수 있음
데이터 모으다 보면 유실 되는 경우가 있는데 이때 빵꾸난 데이터를 메꾸는 데 유용. 예를 들어 온도 같은 경우 앞 또는 뒤 시간과 비슷할 가능성이 있기 때문에 자주 사용됨
3에서 이어서..
'파이썬 > Pandas' 카테고리의 다른 글
데이터 시각화 - 그래프 종류와 해석 (0) | 2024.08.28 |
---|---|
파이썬에서 생성자란 (0) | 2024.07.19 |
Pandas DataFrame 만들고 연산하기 (1) - 맥, 주피터 사용 (0) | 2024.07.17 |