[머신러닝 & 딥러닝] 머신러닝을 시작하기 전에

머신러닝 & 딥러닝

beginner-in-coding 2025. 2. 13. 10:16

01. 예제 실습 환경 정보: PyCharm (ver 2024.3.2)

02. 머신 러닝

머신 러닝 (Machine Learning): 데이터를 이해하는 알고리즘
자기 학습 (self-learning) 알고리즘과 관련된 인공 지능(Artificial Interlligence, AI)의 하위 분야
사람이 수동으로 규칙을 만들고 모델을 만드는 것을 데이터를 이용해 더욱 효율적으로 관련 정보를 추출하여 예측 모델과 데이터 기반의 의사 결정 성능을 점진적으로 향상시킬 수 있음
머신러닝 세 가지 종류
1. 지도 학습 (supervised learning)
  - 레이블된 테이블
  - 직접 피드백
  - 출력 및 미래 예측
2. 비지도 학습 (unsupervised learning)
  - 레이블 및 타깃 없음
  - 피드백 없음
  - 데이터에서 숨겨진 구조 찾기
3. 강화 학습 (reinforecement learning)
  - 결과 과정
  - 보상 시스템
  - 연속된 행동에서 학습

03. 지도 학습 (supervised learning)

주요 목적
- 레이블(label)된 훈련 데이터에서 모델 학습
- 미래 데이터에 대해 예측을 만드는 것
지도 (supervised)
- 의미: 희망하는 출력 신호(레이블)가 있는 일련의 샘플
지도 학습의 과정: 레이블된 훈련 데이터가 머신 러닝 알고리즘에 전달되어 예측 모델을 훈련하고 새로운 레이블되지 않은 데이터 입력에 대해 예측을 수행하는 것

훈련 된 예측 모델: 두 개의 범주(category) 중 어디에 속하는지 예측
지도 학습 종류
- 분류 (classification): 개별 클래스 레이블이 있는 지도 학습
- 회귀 (regression): 연속적인 값을 출력

04. 지도학습 - 분류 (classification)

다중 분류 (multiclass classfication): 두 개 이상의 클래스로 분류
- 예시: 2개 이상의 범주로 나눠지는 데이터, 글자 인식

05. 지도학습 - 회귀 (regression)

연속적인 출력 값을 예측하는 분석 방법
구성
- 예측 변수 (predictor variable) (= 설명 변수 (explanatory variable))
- 반응 변수 (reponse variable) (= 반응 변수 (reponse variable))
- 결과 (outcome): 예측 변수와 반응 변수는 결과가 주어졌을 때 출력값을 예측하기 위해 두 변수 사이의 관계를 찾음
머신러닝에서의 용어
- 예측 변수: 특성 (feture)
- 반응 변수: 타깃 (target)
선형 회귀 (linear regression)
- 특성 x와 y가 주어지면 데이터 포인트와 직선 사이 거리가 최소가 되는 직선을 그을 수 있음
  - 일반적으로 평균 제곱 거리 사용
- 이렇게 학습한 직선의 기울기와 절편(intercept)를 사용하여 새로운 데이터 출력 값을 예측
예시: 특성 A와 B의 사이에 상관관계가 존재하는 모델

06. 강화 학습 - 반응형 문제 해결

강화 학습: 환경과 상호작용하여 시스템(에이전트, agent) 성능을 향상하는 것이 목표
환경의 현재 상태 정보는 보상(reward) 신호를 포함하기 때문에 지도학습과 같은 분야라고 오해할 수 있음
- 강화 학습의 피드백은 정답(ground truth) 레이블이나 값이 아님
- 보상 함수로 인해 행동이 얼마나 좋은지를 측정한 값임
- 따라서 환경과 상호작용하여 보상이 최대화 되는 일련의 행동을 학습하는 것
환경의 상태: 양의 보상이나 음의 보상과 연관
강화 학습은 행동을 수행하고 즉시 얻거나 지연된 피드백을 통해 얻은 전체 보상을 최대화하는 일련의 행동을 학습
예시: 체스 경기, 룰이 존재하는 게임 등

07. 비지도 학습

비지도 학습: 레이블되지 않거나 구조를 알 수 없는 데이터를 다룸
알려진 출력값(지도학습)이나 보상 함수(강화학습)의 도움을 받지 않고 의미있는 정보를 추출하기 위해 데이터 구조를 탐색할 수 있음
비지도 학습의 종류
1. 군집 (Clustering): 서브그룹 찾기
2. 차원 축소 (Dimensionality reduction): 고차원 데이터 → 저차원 데이터

08. 비지도 학습 - 군집 (Clustering)

사전 정보 없이 쌓여있는 그룹 정보를 의미 있는 서브 그룹(subgroup) 또는 클러스터(cluster)로 조직하는 탐색적 데이터 분석 기법
클러스터: 분석 과정에서 생성된 클러스터는 각각의 클러스터마다 유사성을 공유하고 다른 클러스터와 비슷하지 않은 샘플 그룹을 형성
비지도 분류(unsupervised classfication)과 유사
예시: 관심사를 기반으로 고객을 그룹을 나누어 각각에 맞는 마케팅 프로그램 제작

09. 비지도 학습 - 차원 축소 (Dimensionality reduction)

하나의 관측 샘플에 많은 측정 지표(데이터)가 존재할 경우 머신 러닝 알고리즘의 계산 성능과 저장 공간에 불리
특정 데이터 전처리 단계에서 사용: 잡음(noise) 데이터를 제거하기 위해
- 잡음 데이터는 특정 알고리즘의 성능을 저하
- 차원 축소를 통해 관련 있는 정보는 유지하면서 더 작은 차원을 가진 부분 공간(subvspace)로 데이터를 압축
예시: 데이터 시각화, 잡음 데이터 제거

[머신러닝 & 딥러닝] K-최근접 이웃(K-Nearest Neighbor, KNN) (2)	2025.04.14
[머신러닝 & 딥러닝] 적응형 선형 뉴런(ADAptive Linear NEuron, ADALINE) (0)	2025.04.14
[머신러닝 & 딥러닝] 퍼셉트론(perceptron) - 이론 (2)	2025.04.11
[머신러닝 & 딥러닝] 전체적인 작업 흐름 (0)	2025.02.19
[머신러닝 & 딥러닝] 기본 용어와 표기법 (0)	2025.02.18

beginner-in-coding 님의 블로그

beginner-in-coding 님의 블로그 입니다.

beginner-in-coding 님의 블로그