전체 글 17

데이터 시각화 - 그래프 종류와 해석

seaborn 에서 제공하는 데이터를 가지고 여러 그래프를 그려보았다.  Joint Plot목적: 두 변수 간의 관계를 시각화하는 데 사용됩니다. 주로 2D 공간에서 두 변수의 분포와 관계를 동시에 보여줍니다.구성: 중심에는 두 변수의 산점도가 있고, 양쪽에는 각 변수의 일변량 분포(히스토그램, 커널 밀도 추정 등)가 나타납니다. 회귀선, KDE plot, 히스토그램 등 다양한 옵션을 추가할 수 있습니다.사용 예시: sns.jointplot(x="x_variable", y="y_variable", data=data)데이터 set: 팁가격  대각선 실선의 주변으로 파란 영역은 분포 범위 이다. 실선에서 데이터들이 얼마나 많이 흩어져 있는가를 보여준다.   Pair Plot목적: 여러 변수 간의 쌍(pair..

파이썬 > Pandas 2024.08.28

학습 모델 종류와 특징

나이브 베이즈 모델 분류 학습 모델 중에 데이터들 간의 독립적일 경우 효과적인 모델 의사 결정 트리의사결정 트리는 특성의 중요도를 평가하고, 어떤 특성이 분류에 가장 중요한지 쉽게 확인이 가능함 SVM분류 학습 모델 중에 비선형 데이터 분류에 강하고 많은 피쳐들을 가지고 분류할 경우 적합함  학습용 데이터가 중요함 (이상치의 유무 등) 좋은 학습용 데이터란? (아래 5가지가 충족되어야함) 다양성: 학습용 데이터는 다양한 상황과 조건을 반영해야 합니다. 즉, 다양한 예제와 변수를 포함하여 모델이 다양한 경우를 학습할 수 있도록 해야 합니다. 예를 들어, 이미지 인식 모델의 경우 다양한 조명, 각도, 배경을 포함한 이미지가 필요합니다.대표성: 데이터는 실제 문제를 잘 대표해야 합니다. 모델이 실제 환경에서 ..

AI 2024.08.01

이상치

이상치란 다른 데이터들과는 매우 다른 특성을 가진 포인트를 말합니다.이상치의 의미와 영향 이상치는 데이터 세트의 나머지 부분과 비정상적으로 차이가 나는 데이터 포인트입니다. 이상치는 여러 가지 이유로 발생할 수 있습니다:측정 오류데이터 입력 실수데이터 수집 과정에서의 문제실제 변동성 (예: 경제적 이벤트, 자연 재해 등)SVM에서 이상치는 결정 경계(분류를 위해 그려지는 선)에 큰 영향을 미칠 수 있습니다. 특히 SVM은 최대 마진을 찾는 모델이기 때문에, 이상치가 경계 근처에 위치하면 그 경계가 이상치에 의해 크게 왜곡될 수 있습니다. 이는 결국 모델의 일반화 능력을 저하시키며, 새로운 데이터에 대한 예측력이 떨어지는 원인이 됩니다.  이상치 탐지 방법이상치를 탐지하는 방법은 여러 가지가 있습니다. 대..

AI 2024.07.26