2025/04/17 4

[머신러닝 & 딥러닝] 비지도 학습에서의 성능 평가 (2) - 실루엣 그래프

00. 실루엣 분석(silhouette analysis)군집 품질을 평가하는 또다른 방법 중 하나k-평균 이외의 다른 군집 알고리즘에도 적용 가능01. 실루엣 그래프로 군집 품질 정량화단계샘플과 동일한 클러스터 내 모든 포인트 사이의 거리를 평균하여 클러스터 응집력(cluster cohesion)을 계산샘플과 가장 가까운 클러스터의 모든 샘플 간 평균 거리로 최근접 클러스터의 클러스터 분리도(cluster seoaration)을 계산클러스터 응집력과 분리도 사이의 차이를 둘 중 큰 값으로 나누어 실루엣 결과값 출력응집력: 다른 클러스터와 얼마나 다른지 나타냄분리도: 클러스터 내 다른 샘플과 얼마나 비슷한지 나타냄실루엣 점수가 1.0과 가까울 수록 좋은 군집을 띔실루엣 점수표0.7 ~ 1.0군집이 아주 잘..

[머신러닝 & 딥러닝] 비지도 학습에서의 성능 평가 (1) - 엘보우 방법

비지도 학습: 최종 클래스 레이블이 존재하지 않음 → 지도 학습에서의 성능 평가 방법을 사용할 수 없음따라서 군집 평가를 위해 알고리즘 자체의 지표를 사용01. 엘보우 방법을 사용하여 최적의 클러스터 개수 찾기클래스 내 SSE를 바탕으로 문제에 최적인 클러스터 개수 k를 추정함k가 증가하면 왜곡은 줄어들 것, 샘플이 할당된 센트로이드에 더 가까워지기 때문따라서 왜곡이 빠르게 증가하는 지점의 k 값을 찾는 것k값을 바꿔가며 왜곡 값을 그래프로 그리면 명확히 알 수 있음

[머신러닝 & 딥러닝] 퍼지 C-평균(Fuzzy C-Means, FCM)

01. 퍼지 C-평균(Fuzzy C-Means, FCM) 동의어: 간접 k-평균(soft k-means) 또는 퍼지 k-평균(fuzzy k-means)FCM의 처리 단계는 k-평균과 유사차이점: 포인트가 직접적으로 클러스터에 할당되는 것을 각 클러스터에 속할 확률로 바뀜단계센트로이드 개수 k를 지정하고 랜덤하게 각 포인트에 대해 클러스터 확률을 할당클러스터 센트로이드를 계산각 샘플에 대해 클러스터 소속 확률을 업데이트클러스터 확률이 변하지 않거나 사용자가 지정한 허용 오차나 최대 반복 횟수에 도달할 때까지 단계 2와 3을 반복퍼지 계수(fuzziness coefficient, == 퍼지 지수(fuzzofoer)): 지수 m, 1보다 크거가 같으며(일반적으로 m=2) 퍼지의 정도를 제어m이 클수록 소속 확..

[머신러닝 & 딥러닝] K-means 알고리즘

00. K-평균 알고리즘을 사용하여 유사한 객체 그룹핑군집 알고리즘(clustering) 비슷한 객체로 이루어진 그룹을 찾는 기법같은 그룹 안에 객체들과의 연관성이 다른 그룹 안의 객체들보다 연관성이 높음예시: 문서나 음악, 영화를 여러 주제의 그룹으로 모으는 경우, 추천 엔진에서 구매 이력을 기준으로 관심사 비슷한 고객을 찾음01. 사이킷런을 이용한 k-평균 군집장점: 구현하기 쉽고 다른 군집 알고리즘에 비해 계산 효율성이 높음프로토타입 기반 군집(prototype-based clustering)의미: 각 클러스터가 하나의 프로토타입으로 표현됨연속적인 특성에서는 비슷한 데이터 포인트의 센트로이드(centroid), 즉 평균범주형 특성에서는 메도이드(medoid), 즉 가장 대표되는 포인트나 가장 자주 ..