나이브 베이즈 모델
분류 학습 모델 중에 데이터들 간의 독립적일 경우 효과적인 모델
의사 결정 트리
의사결정 트리는 특성의 중요도를 평가하고, 어떤 특성이 분류에 가장 중요한지 쉽게 확인이 가능함
SVM
분류 학습 모델 중에 비선형 데이터 분류에 강하고 많은 피쳐들을 가지고 분류할 경우 적합함
학습용 데이터가 중요함 (이상치의 유무 등)
좋은 학습용 데이터란? (아래 5가지가 충족되어야함)
- 다양성: 학습용 데이터는 다양한 상황과 조건을 반영해야 합니다. 즉, 다양한 예제와 변수를 포함하여 모델이 다양한 경우를 학습할 수 있도록 해야 합니다. 예를 들어, 이미지 인식 모델의 경우 다양한 조명, 각도, 배경을 포함한 이미지가 필요합니다.
- 대표성: 데이터는 실제 문제를 잘 대표해야 합니다. 모델이 실제 환경에서 잘 작동하도록 하기 위해서는 데이터가 현실적인 상황과 유사해야 합니다. 예를 들어, 자연어 처리 모델의 경우 다양한 발음, 억양, 언어 스타일 등을 포함해야 합니다.
- 정확성: 데이터는 정확하고 신뢰할 수 있어야 합니다. 레이블이 잘못된 데이터는 모델의 성능을 저하시킬 수 있습니다. 예를 들어, 이미지에 잘못된 레이블이 붙어 있거나 텍스트에 오류가 있는 경우 모델이 잘못된 학습을 할 수 있습니다.
- 균형: 클래스 간의 균형이 중요합니다. 특정 클래스가 너무 많거나 적으면 모델이 편향될 수 있습니다. 예를 들어, 스팸 필터를 학습할 때 스팸과 정상 이메일의 비율이 균형을 이루는 것이 중요합니다.
- 크기: 데이터의 양도 중요합니다. 충분한 양의 데이터가 있어야 모델이 복잡한 패턴을 학습할 수 있습니다. 그러나 너무 많은 데이터는 처리나 저장에 부담을 줄 수 있으므로 적절한 균형을 찾는 것이 중요합니다.
- 적시성: 데이터는 최신 상태여야 합니다. 오래된 데이터는 현재 상황을 반영하지 못할 수 있습니다. 예를 들어, 최신 트렌드를 반영하기 위해서는 최신 뉴스 기사를 포함하는 것이 좋습니다.
'AI' 카테고리의 다른 글
파인튜닝과 RAG 차이, 언제 fine-tunning을 사용하고 RAG를 사용하나 (4) | 2024.09.24 |
---|---|
엔비디아 딥러닝 기초교육 수료 (7) | 2024.09.18 |
이상치 (0) | 2024.07.26 |
SVM(Support vector machine) (0) | 2024.07.26 |
머신러닝 알고리즘 종류 - K-최근접 이웃 알고리즘 (K-Nearest Neighbors, KNN) (0) | 2024.07.24 |