머신러닝
- 데이터를 기반으로 패턴을 학습하여 미래의 데이터를 예측하거나 분류하는 알고리즘
지도 학습
- 데이터 + 정답(label)
- 입력 데이터와 그에 대응하는 정답(레이블)을 학습하여 새로운 데이터에 대한 예측을 수행
- 입력을 출력에 매핑하는 일반적인 규칙을 학습
- 예) 선형 회귀, k-최근접 이웃(K-NN), 서포트 벡터 머신, 결정트리 등
비지도 학습
- 정답이 없는 데이터를 기반으로 패턴, 구조를 발견하여 클러스터링 또는 차원 축소를 수행
- 외부에서 레이블을 주지 않고 학습 알고리즘이 스스로 입력으로부터 구조나 패턴을 발견
- 예) 군집화(Clustering), 주성분 분석(PCA) 등
강화 학습
- 에이전트가 환경과 상호작용하면서 경험을 쌓아 최적의 행동 방식을 보고 배우는 방법
- 에이전트는 행동을 할 때마다 보상을 받고, 이 보상을 최대화할 수 있는 방법을 점차 학습
- 에이전트가 특정 상태에서 행동을 선택하고, 결과에 따라 환경으로부터 보상을 받아 다음 상태로 이동
- 환경에서 다양한 행동을 시도하고 얻는 보상을 기반으로 최적의 행동을 학습
- 예) Q-러닝, 동적 계획법, 마르코프 결정 프로세스 등
회귀와 분류 문제
- 지도학습에서 주어진 데이터를 바탕으로 예측하는 방법
회귀 Regression
- 연속적인 실수값을 예측 ➡️ 가격, 온도 등
- 결과/출력값은 문제에 따라 다양한 값이 나올 수 있음
- 오차 기반의 평가 지표를 사용하여 평가 ➡️ MSE(Mean Squared Error), MAE(Mean Absolute Error)
분류 Classification
- 범주(클래스)를 예측 ➡️ 어떤 범주에 속하는지 예측하는 문제, 고양이/개, 긍정/부정
- 결과값은 미리 정의된 클래스 중 하나로 이산적인 값
- 분류 문제에서 나누어야 할 목표값을 클래스라고 함
- 분류 성능 지표를 사용하여 평가 ➡️ 정확도 accuracy, 정밀도 precision, 재현율 recall 등
- 이진분류
- 두 가지의 서로 다른 클래스 중 하나로 데이터를 분류하는 문제
- 분류값이 두 개의 범주로만 나뉘며, 보통 0과 1 또는 긍정/부정 같은 형태
- 로지스틱 회귀 logistic regression, 서포트 벡터 머신 SVM, 의사결정 나무 등
- 예) 스팸 메일 판별, 신용 카드 사기 거래 탐지, X선 종양 탐지 등
- 다중 분류
- 세 가지 이상의 서로 다른 클래스로 데이터를 분류하는 문제
- 결과값이 세 개 이상의 카테고리 중 하나
- 소프트맥스 회귀 softmax regression, K-최근접 이웃, 랜덤 포레스트 random forest 등
- 예) 삼각형/사각형/오각형 분류, 0-9 사이 숫자 중 하나로 분류, 뉴스 카테고리 분류 등
'빅데이터 & AI' 카테고리의 다른 글
| [딥러닝] 3주차 - 파이썬, 딥러닝 라이브러리, 넘파이 Numpy, 행렬 연산 (0) | 2025.04.01 |
|---|---|
| [딥러닝] 1주차 - 딥러닝, 인공지능, 기계학습, 퍼셉트론 (0) | 2025.03.31 |
| [크롤링] Selenium을 이용한 네이버 뉴스 크롤링 (1) - 환경 설정 (0) | 2025.03.25 |
| [크롤링] Selenium을 이용한 네이버 뉴스 크롤링 (0) - Crawling & Selenium (0) | 2025.03.25 |