머신러닝 13

머신러닝(4): Clustering

1. K-means -비지도학습으로 데이터를 K개의 군집으로 묶어주는 알고리즘 Step 1: 군집의 개수(K) 선정 #직접 설정하며 몇 개를 정할 지는 Rule of thumb, Elbow method, 정보 기준 접근법 활용 Step 2: 초기 중심점 설정 # Randomly Select, Maually assign, K-means(++) Step 3: 데이터를 군집에 할당(배정) Step 4: 중심점 재설정(갱신) Step 5: 데이터를 군집에 재할당(배정) 2. Hierarchical Clustering: -군집 수를 사전에 정하지 않아도 학습을 수행, 덴드로그램 생성 후 적절한 수준에서 트리 CUT Step 1: 모든 개체들 간 거리와 유사도를 미리 계산 #유클리디안, 마할라노비스, etc Ste..

머신러닝(2): Feature Selection

전통적인 feature selection: [전진 선택법, 후진 소거법, 단계적 선택법] --> 효율 ↓ 개선된 feature selection: Penalty Term Penalty Term: 불필요한 Feature에게 벌을 부여해서 학습하지 못하게 함 -Error를 최소화 하는 제약 조건에서 필요 없는 Feature의 베타(계수)에 페널티를 부여 미분하여 0에 가깝게, Loss Func 발견 목적 -> 페널티 부여로 가능 1) Ridge Regression(L2-norm): 제곱 오차를 최소화하며 회귀 계수를 제한 2) Rasso Regression(L1-norm): 절대값을 씌운 오차를 최소화하며 회귀 계수 제한, 미분 불가로 경사하강법 사용 Ridge(제곱) Rasso(절대값) L2 norm 규제..