AI 6

파인튜닝과 RAG 차이, 언제 fine-tunning을 사용하고 RAG를 사용하나

**파인튜닝(Fine-Tuning)**과 **RAG(Retrieval-Augmented Generation)**는 언어 모델을 개선하거나 맞춤형 기능을 제공하는 방법이지만, 각각의 특성과 목적이 다릅니다. 이를 기반으로 어떤 상황에서 **파인튜닝**을 사용할지, **RAG**를 사용할지 결정하는 기준을 설명합니다. ### 1. **파인튜닝(Fine-Tuning)**파인튜닝은 **기존 모델을 사용자가 원하는 특정 작업이나 도메인에 맞춰 추가로 학습**시키는 방법입니다. 모델의 파라미터 자체를 변경하여 해당 도메인에 더 적합한 결과를 생성하게 만듭니다.#### **파인튜닝을 사용해야 하는 상황**:1. **특정 도메인에 대한 깊은 이해가 필요한 경우**:   - 예를 들어, 특정 산업(의료, 금융, 법률 등..

AI 2024.09.24

엔비디아 딥러닝 기초교육 수료

성남여성인력개발센터의 AI 기획자 과정을 수료를 완료하였다. 과정중의 많은 시간을 AI 모델링과 시각화 실습에 할당을 하였으나, 실질적으로 코드 따라쓰기 외에 실력이는 것 같지 않았다. 전공자들이 아닌 AI 자체를 처음 접하는 분들이 많아서인지, 과정을 깊게 가르치지 않았다.  좀더 이해하고 싶은 마음에 어떤 교육을 더 들어볼지 고민하며 이곳 저곳 서치를 하던 차에스타트업 캠퍼스에서 딥러닝 교육을 하고 있다는 것을 알게되었다. 현직 스타트업 대표들과 예비 창업자를 대상으로 하고 있었고, 나 또한 새로운 서비스를 기획하고 내어놓는 창업과 관련된 일을 하고 있기에 신청을 해보았다.  다행히 당일 취소된 자리가 있어 참석할 수 있었고, 노트북을 들고 교육장으로 향했다. 판교에 있는 캠퍼스에 도착하자 직장인들과..

AI 2024.09.18

학습 모델 종류와 특징

나이브 베이즈 모델 분류 학습 모델 중에 데이터들 간의 독립적일 경우 효과적인 모델 의사 결정 트리의사결정 트리는 특성의 중요도를 평가하고, 어떤 특성이 분류에 가장 중요한지 쉽게 확인이 가능함 SVM분류 학습 모델 중에 비선형 데이터 분류에 강하고 많은 피쳐들을 가지고 분류할 경우 적합함  학습용 데이터가 중요함 (이상치의 유무 등) 좋은 학습용 데이터란? (아래 5가지가 충족되어야함) 다양성: 학습용 데이터는 다양한 상황과 조건을 반영해야 합니다. 즉, 다양한 예제와 변수를 포함하여 모델이 다양한 경우를 학습할 수 있도록 해야 합니다. 예를 들어, 이미지 인식 모델의 경우 다양한 조명, 각도, 배경을 포함한 이미지가 필요합니다.대표성: 데이터는 실제 문제를 잘 대표해야 합니다. 모델이 실제 환경에서 ..

AI 2024.08.01

이상치

이상치란 다른 데이터들과는 매우 다른 특성을 가진 포인트를 말합니다.이상치의 의미와 영향 이상치는 데이터 세트의 나머지 부분과 비정상적으로 차이가 나는 데이터 포인트입니다. 이상치는 여러 가지 이유로 발생할 수 있습니다:측정 오류데이터 입력 실수데이터 수집 과정에서의 문제실제 변동성 (예: 경제적 이벤트, 자연 재해 등)SVM에서 이상치는 결정 경계(분류를 위해 그려지는 선)에 큰 영향을 미칠 수 있습니다. 특히 SVM은 최대 마진을 찾는 모델이기 때문에, 이상치가 경계 근처에 위치하면 그 경계가 이상치에 의해 크게 왜곡될 수 있습니다. 이는 결국 모델의 일반화 능력을 저하시키며, 새로운 데이터에 대한 예측력이 떨어지는 원인이 됩니다.  이상치 탐지 방법이상치를 탐지하는 방법은 여러 가지가 있습니다. 대..

AI 2024.07.26

SVM(Support vector machine)

SVM (Support vector machine)지도 학습 알고리즘 중 하나로, 주어진 데이터를 바탕으로 클래스를 구분(분류)하는 모델데이터를 두개의 클래스로 분류하기 위해 고차원 공간에서 최적의 초평면을 찾는 것이 목표. 초평면, 결정결계선, 서포트 벡터의 의미 초평면 (Hyperplane):SVM에서 데이터를 분리하는 결정 경계로 사용되는 개념입니다.데이터 포인트들이 N차원 공간에 존재할 때, N-1 차원의 초평면으로 데이터를 나누게 됩니다.예를 들어, 2차원 공간에서 초평면은 하나의 직선이 되며, 3차원 공간에서는 하나의 평면이 됩니다.결정 경계선 (Decision Boundary):SVM에서 초평면이 데이터를 나누는 경계선을 말합니다.이 경계선은 클래스를 분리하는 역할을 하며, 분류기가 새로운 ..

AI 2024.07.26

머신러닝 알고리즘 종류 - K-최근접 이웃 알고리즘 (K-Nearest Neighbors, KNN)

K-최근접 이웃 알고리즘 (K-Nearest Neighbors, KNN) K개의 데이터, 즉 얼마나 많은, 몇개의 데이터를 이용하여 판단할지가 관건입니다.**1. 왜 사용하는가?**  KNN은 데이터를 분류하거나 회귀 분석할 때 사용되는 간단하면서도 효과적인 알고리즘입니다. 특히 KNN은 패턴 인식, 통계 및 데이터 분석 분야에서 많이 사용되며, 다음과 같은 상황에서 유용합니다:- 분류: 새로운 데이터가 어떤 클래스에 속하는지 예측할 때- 회귀: 새로운 데이터에 대한 연속적인 값을 예측할 때**2. 누가 개발했는가?**  KNN 알고리즘은 1951년 Evelyn Fix와 Joseph Hodges가 개발했습니다. 이들은 패턴 인식 문제를 다루기 위해 KNN을 제안했습니다. 이후 이 알고리즘은 다양한 분야에..

AI 2024.07.24