분류 전체보기 16

이상치

이상치란 다른 데이터들과는 매우 다른 특성을 가진 포인트를 말합니다.이상치의 의미와 영향 이상치는 데이터 세트의 나머지 부분과 비정상적으로 차이가 나는 데이터 포인트입니다. 이상치는 여러 가지 이유로 발생할 수 있습니다:측정 오류데이터 입력 실수데이터 수집 과정에서의 문제실제 변동성 (예: 경제적 이벤트, 자연 재해 등)SVM에서 이상치는 결정 경계(분류를 위해 그려지는 선)에 큰 영향을 미칠 수 있습니다. 특히 SVM은 최대 마진을 찾는 모델이기 때문에, 이상치가 경계 근처에 위치하면 그 경계가 이상치에 의해 크게 왜곡될 수 있습니다. 이는 결국 모델의 일반화 능력을 저하시키며, 새로운 데이터에 대한 예측력이 떨어지는 원인이 됩니다.  이상치 탐지 방법이상치를 탐지하는 방법은 여러 가지가 있습니다. 대..

AI 2024.07.26

SVM(Support vector machine)

SVM (Support vector machine)지도 학습 알고리즘 중 하나로, 주어진 데이터를 바탕으로 클래스를 구분(분류)하는 모델데이터를 두개의 클래스로 분류하기 위해 고차원 공간에서 최적의 초평면을 찾는 것이 목표. 초평면, 결정결계선, 서포트 벡터의 의미 초평면 (Hyperplane):SVM에서 데이터를 분리하는 결정 경계로 사용되는 개념입니다.데이터 포인트들이 N차원 공간에 존재할 때, N-1 차원의 초평면으로 데이터를 나누게 됩니다.예를 들어, 2차원 공간에서 초평면은 하나의 직선이 되며, 3차원 공간에서는 하나의 평면이 됩니다.결정 경계선 (Decision Boundary):SVM에서 초평면이 데이터를 나누는 경계선을 말합니다.이 경계선은 클래스를 분리하는 역할을 하며, 분류기가 새로운 ..

AI 2024.07.26

머신러닝 알고리즘 종류 - K-최근접 이웃 알고리즘 (K-Nearest Neighbors, KNN)

K-최근접 이웃 알고리즘 (K-Nearest Neighbors, KNN) K개의 데이터, 즉 얼마나 많은, 몇개의 데이터를 이용하여 판단할지가 관건입니다.**1. 왜 사용하는가?**  KNN은 데이터를 분류하거나 회귀 분석할 때 사용되는 간단하면서도 효과적인 알고리즘입니다. 특히 KNN은 패턴 인식, 통계 및 데이터 분석 분야에서 많이 사용되며, 다음과 같은 상황에서 유용합니다:- 분류: 새로운 데이터가 어떤 클래스에 속하는지 예측할 때- 회귀: 새로운 데이터에 대한 연속적인 값을 예측할 때**2. 누가 개발했는가?**  KNN 알고리즘은 1951년 Evelyn Fix와 Joseph Hodges가 개발했습니다. 이들은 패턴 인식 문제를 다루기 위해 KNN을 제안했습니다. 이후 이 알고리즘은 다양한 분야에..

AI 2024.07.24

파이썬에서 생성자란

생성자로 객체를 만든다.. -> 무슨말일까... 궁금하신 분들을 위한 글.  생성자(Constructor)는 객체 지향 프로그래밍에서 클래스로부터 객체가 생성될 때 자동으로 호출되는 특별한 종류의 메소드(함수)입니다. 생성자의 주된 목적은 객체가 생성될 때 그 객체의 데이터를 초기화하는 것이며, 필요한 자원을 할당하거나 초기 상태를 설정하는 등의 작업을 수행합니다. 라고 정의되었는데, 잘 모르겠면. 저의 언어로 다시 설명.. 정의된 클래스를 붕어빵틀이라고 합시다. 난 먹을 붕어빵을 여러개를 만들어서, 팥, 슈크림, 초코를 넣을 예정입니다.틀을 사용하면 붕어빵을 여러개 만들 수 있습니다. 붕어빵 여러개는 이렇게 만들어요.  코드로 본다면,//일단 붕어빵틀이라는 클래스를 만든다class 붕어빵틀:    st..

파이썬 > Pandas 2024.07.19

Pandas DataFrame 만들고 연산하기 (2) - 맥, 주피터 사용

데이터 프레임 통계 데이터 프레임의 값의 통계치를 확인하거나 통계를 내기위해 임의 값으로 데이터를 부분 치환하는 연산들(전처리라고 한다)을 나열해보았다.   ** 참고 interactiveshell 을 import 하면, print 문 없이 데이터 프레임이 나온다고 함.  info()전체 내용, 아래와 같이 보여줌 describe()통계치 보여줌 sort_index()axis =0 은 행을 기준으로 정렬, 가로 한줄의 인덱스가 통으로 움직임 즉 인덱스가 정렬됨..ascending = false : 내림차순, 즉, 큰 수 부터 정렬 *axis 참고 내용 (sum () 에서는 반대로 쓰이는것 같다.)Pandas에서 axis 매개변수는 데이터를 처리할 때 행과 열을 기준으로 작업을 수행하는 방향을 지정하는 데..

파이썬 > Pandas 2024.07.17

Pandas DataFrame 만들고 연산하기 (1) - 맥, 주피터 사용

PANDAS 의 데이터는 어떻게 정의할까?다음 두 데이터 형태를 사용하여 데이터를 정의하고 각데이터를 연산함 시리즈어떤 항목에 대한 값들의 묶음. 정확한 정의는 Numpy 기능을 기반으로 만든 Wrapper 패키지로 벡터라이징이 가능하도록 만든 판다스의 모듈이다. 예를 들어, 이름 : 김연아, 송혜교, 김태희 ..... 데이터 프레임이런 시리즈 들의 묶음, 각 시리즈들은 인덱스를 공유함예를 들어,   시리즈 1 -> 이름 : 김연아, 송혜교, 이효리시리즈 2 -> 직업:  피겨선수, 배우, 가수두개를 붙여서 데이터 프레임.예를 또 들어,시리즈 1 : 국어 성적국어9090100시리즈 2 : 수학 성적수학8090100공통 특징은 '중간고사 성적' -> 인덱스로 정한다.  인덱스 여러개 붙이면 데이터 프레임이..

파이썬 > Pandas 2024.07.17