01. 예제 실습 환경 정보: PyCharm (ver 2024.3.2)
02. 머신 러닝
- 머신 러닝 (Machine Learning): 데이터를 이해하는 알고리즘
- 자기 학습 (self-learning) 알고리즘과 관련된 인공 지능(Artificial Interlligence, AI)의 하위 분야
- 사람이 수동으로 규칙을 만들고 모델을 만드는 것을 데이터를 이용해 더욱 효율적으로 관련 정보를 추출하여 예측 모델과 데이터 기반의 의사 결정 성능을 점진적으로 향상시킬 수 있음
- 머신러닝 세 가지 종류
- 지도 학습 (supervised learning)
- 레이블된 테이블
- 직접 피드백
- 출력 및 미래 예측
- 비지도 학습 (unsupervised learning)
- 레이블 및 타깃 없음
- 피드백 없음
- 데이터에서 숨겨진 구조 찾기
- 강화 학습 (reinforecement learning)
- 결과 과정
- 보상 시스템
- 연속된 행동에서 학습
- 지도 학습 (supervised learning)
03. 지도 학습 (supervised learning)
- 주요 목적
- 레이블(label)된 훈련 데이터에서 모델 학습
- 미래 데이터에 대해 예측을 만드는 것
- 지도 (supervised)
- 의미: 희망하는 출력 신호(레이블)가 있는 일련의 샘플
- 지도 학습의 과정: 레이블된 훈련 데이터가 머신 러닝 알고리즘에 전달되어 예측 모델을 훈련하고 새로운 레이블되지 않은 데이터 입력에 대해 예측을 수행하는 것
- 훈련 된 예측 모델: 두 개의 범주(category) 중 어디에 속하는지 예측
- 지도 학습 종류
- 분류 (classification): 개별 클래스 레이블이 있는 지도 학습
- 회귀 (regression): 연속적인 값을 출력
04. 지도학습 - 분류 (classification)
- 목적: 과거의 관측을 기반으로 새로운 샘플의 범주형 클래스 레이블을 예측하는 것
- 클래스 레이블: 이산적(discrete), 순서 없음 (샘플이 속한 그룹)
- 이진 분류 (binary classification): 두 클래스 레이블로 예측하는 것
- 2차원 데이터 셋
- 구성
- 음성 클래스 (negative class)
- 양성 클래스 (postive class)
- 결정 경계 (decision bounary): 음성 클래스와 양성 클래스를 나누는 점선
- 예시: 두 클래스로 나눠지는 데이터, 스팸 메일와 일반 메일 구분
- 다중 분류 (multiclass classfication): 두 개 이상의 클래스로 분류
- 예시: 2개 이상의 범주로 나눠지는 데이터, 글자 인식
05. 지도학습 - 회귀 (regression)
- 연속적인 출력 값을 예측하는 분석 방법
- 구성
- 예측 변수 (predictor variable) (= 설명 변수 (explanatory variable))
- 반응 변수 (reponse variable) (= 반응 변수 (reponse variable))
- 결과 (outcome): 예측 변수와 반응 변수는 결과가 주어졌을 때 출력값을 예측하기 위해 두 변수 사이의 관계를 찾음
- 머신러닝에서의 용어
- 예측 변수: 특성 (feture)
- 반응 변수: 타깃 (target)
- 선형 회귀 (linear regression)
- 특성 x와 y가 주어지면 데이터 포인트와 직선 사이 거리가 최소가 되는 직선을 그을 수 있음
- 일반적으로 평균 제곱 거리 사용
- 이렇게 학습한 직선의 기울기와 절편(intercept)를 사용하여 새로운 데이터 출력 값을 예측
- 특성 x와 y가 주어지면 데이터 포인트와 직선 사이 거리가 최소가 되는 직선을 그을 수 있음
- 예시: 특성 A와 B의 사이에 상관관계가 존재하는 모델
06. 강화 학습 - 반응형 문제 해결
- 강화 학습: 환경과 상호작용하여 시스템(에이전트, agent) 성능을 향상하는 것이 목표
- 환경의 현재 상태 정보는 보상(reward) 신호를 포함하기 때문에 지도학습과 같은 분야라고 오해할 수 있음
- 강화 학습의 피드백은 정답(ground truth) 레이블이나 값이 아님
- 보상 함수로 인해 행동이 얼마나 좋은지를 측정한 값임
- 따라서 환경과 상호작용하여 보상이 최대화 되는 일련의 행동을 학습하는 것
- 환경의 상태: 양의 보상이나 음의 보상과 연관
- 강화 학습은 행동을 수행하고 즉시 얻거나 지연된 피드백을 통해 얻은 전체 보상을 최대화하는 일련의 행동을 학습
- 예시: 체스 경기, 룰이 존재하는 게임 등
07. 비지도 학습
- 비지도 학습: 레이블되지 않거나 구조를 알 수 없는 데이터를 다룸
- 알려진 출력값(지도학습)이나 보상 함수(강화학습)의 도움을 받지 않고 의미있는 정보를 추출하기 위해 데이터 구조를 탐색할 수 있음
- 비지도 학습의 종류
- 군집 (Clustering): 서브그룹 찾기
- 차원 축소 (Dimensionality reduction): 고차원 데이터 → 저차원 데이터
08. 비지도 학습 - 군집 (Clustering)
- 사전 정보 없이 쌓여있는 그룹 정보를 의미 있는 서브 그룹(subgroup) 또는 클러스터(cluster)로 조직하는 탐색적 데이터 분석 기법
- 클러스터: 분석 과정에서 생성된 클러스터는 각각의 클러스터마다 유사성을 공유하고 다른 클러스터와 비슷하지 않은 샘플 그룹을 형성
- 비지도 분류(unsupervised classfication)과 유사
- 예시: 관심사를 기반으로 고객을 그룹을 나누어 각각에 맞는 마케팅 프로그램 제작
09. 비지도 학습 - 차원 축소 (Dimensionality reduction)
- 하나의 관측 샘플에 많은 측정 지표(데이터)가 존재할 경우 머신 러닝 알고리즘의 계산 성능과 저장 공간에 불리
- 특정 데이터 전처리 단계에서 사용: 잡음(noise) 데이터를 제거하기 위해
- 잡음 데이터는 특정 알고리즘의 성능을 저하
- 차원 축소를 통해 관련 있는 정보는 유지하면서 더 작은 차원을 가진 부분 공간(subvspace)로 데이터를 압축
- 예시: 데이터 시각화, 잡음 데이터 제거
'머신러닝 & 딥러닝' 카테고리의 다른 글
[머신러닝 & 딥러닝] K-최근접 이웃(K-Nearest Neighbor, KNN) (2) | 2025.04.14 |
---|---|
[머신러닝 & 딥러닝] 적응형 선형 뉴런(ADAptive Linear NEuron, ADALINE) (0) | 2025.04.14 |
[머신러닝 & 딥러닝] 퍼셉트론(perceptron) - 이론 (2) | 2025.04.11 |
[머신러닝 & 딥러닝] 전체적인 작업 흐름 (0) | 2025.02.19 |
[머신러닝 & 딥러닝] 기본 용어와 표기법 (0) | 2025.02.18 |