[AI 스터디] Section 6 : 비지도 학습 모델

동아리,학회/GDGoC

[AI 스터디] Section 6 : 비지도 학습 모델

egahyun 2024. 12. 26. 05:45

Clustering

: 비슷한 object들 끼리 모으는 것

특징

Label data가 없음 (분류와의 차이점)
Unsupervised ML

적용 사례

고객의 구매 형태별 분류
고객의 취향에 맞는 책, 동영상 등의 추천
신용카드 사용의 fraud detection
뉴스 자동 분류 및 추천
유전자 분석 등

종류

K-Means Clustering
Hierarchical Clustering (dendrogram)
Density-based Clustering (DBSCAN)

K-Means Clustering 알고리즘

[ Distance 계산 ]

Distance = Euclidean Distance (유클리드 기하학 거리)
공식 : $\sqrt{\sum^{n}{i=0} (x{1i} - x_{2i} )^2 }$
예시

고객 나이 수입 교육

1 → x1 54 190 3

2 → x2 50 200 8

Distance(x1, x2) = $\sqrt{(54 − 50)^2 + (190 − 200)^ 2 + (3 − 8)^ 2}$
⇒ 두 점 사이의 거리 식

[ 알고리즘 과정 ]

Random 하게 k 개의 centroid (중심점) 를 정한다.
각 centroid 로 부터 각 data point 까지의 거리를 계산.
각 data point 를 가장 가까운 centroid로 할당
각 클러스터의 centroid 의 위치를 다시 계산 : 클러스터별로, 데이터 포인트들의 평균을 계산해 그 점으로 centroid를 옮김
⇒ 클러스터 별로 속하는 점들이 계속 바뀜
centroid 가 더 이상 움직이지 않을 때까지 2-4 단계를 반복

[ K 정하기 ]

방법 : 경험적으로 $k=\sqrt{n} \ \ (n : data \ sample \ 개수)$
(각 클러스터의 centroid에서 데이터 포인트들의 평균 거리가 어느 순간이 되면 급격히 줄다가 완만히 감소하는 형태로 변할 때의 점)
⇒ elbow point의 k값을 사용
특징
- K 를 잘 정하는 것이 중요하다
- 피처가 많을 수록 계산량 증가
- K를 많이 줄수록, 각 클러스터의 centroid에서의 데이터 포인트들의 평균 거리가 감소

[ 특징 ]

단점 1: 임의로 cluster 지정하므로 same cluster 내의 data point 들이 실제로는 유사하지 않을 수 있다
단점 2: 이상치 감지 불가 : 가장 가까운 centroid로 집어 넣으므로, 이상치도 어딘가의 클러스터에 속하게된다
Spherical-shape clusters : 구형으로된 shape의 클러스터

DBSCAN (Density-Based Spatial Clustering of Applications with Noise)

특징
- 밀도가 높은 지역과 낮은 지역을 서로 분리하여 실제 데이터 포인트 들이 유사 (밀도 – 특정 반경내의 data point 숫자)
- 이상치 감지 가능 : 밀도 기준으로 하기 때문에 속할 곳이 없어, 이상치 감지 가능
  ⇒ a, b는 kmeans의 단점 해결
- Outlier 의 영향을 적게 받음
- cluster 숫자를 미리 정해주지 않아도 됨
- Arbitrary-shape clusters
실행 과정
- Radius(반경) , Minimum Neighbor number 지정
- 각 point 를 Core, Border, Outlier 로 구분
  - core : 한 점을 Radius를 기준으로 Minimum Neighbor number개수 이상의 데이터점이 있을경우 해당 점을 core라고함
  - Border : Minimum Neighbor number 개수 미만의 데이터 점이 있을 경우
  - Outlier : radius 안의 이웃하는 점이 없는 경
- 모든 point 에 대해 동일한 과정 반복

군집화 실습

KMeans

파라미터

init : initialization method -> k-means++ (smart choosing of centroids)
n_clusters : k 값
n_init : 반복횟수

토이 데이터 생성

# seed = 101로 해서 어떤 알고리즘에 따라 난수를 생성 -> 항상 같은 데이터를 생성가능
np.random.seed(101)
# 3개의 centroid 점을 줌 : center 포지션을 넓게 벌리기 위한 임의의 점
centroidLocation = [[3,2], [1,-1],[-1,2]]
# 비지도 학습을 위해 y 자리는 _ 를 사용해, 위치만 잡음 
X, _ = make_blobs(n_samples=1500, centers=centroidLocation)
# 데이터 분포 시각화
plt.scatter(X[:,0], X[:,1], marker='.')
# 데이터 shape
X.shape # (1500, 2)

Kmeans 실행

from sklearn.cluster import KMeans
# 모델 구성
nclusters = 3
k_means = KMeans(n_clusters=nclusters)
# 학습
k_means.fit(X)
# 레이블 : 0,1,2 중 어느걸로 속하는지
k_means.labels_
# 3개의 샘플 위치 : [3,2], [1,-1],[-1,2] => [1.04677914, -0.97038147], [3.14135743, 2.01895659], [-0.97958037, 2.04290344]
centers = k_means.cluster_centers_

클러스터링 된 결과 시각화

from matplotlib.colors import ListedColormap

colors_bold = ListedColormap(['#FF0000', '#00FF00', '#0000FF'])
colors_light = ListedColormap(['#FFAAAA', '#AAFFAA', '#AAAAFF'])

plt.figure(figsize=(8,6))

for i in range(nclusters):
    members = k_means.labels_ == i
    plt.plot(X[members, 0], X[members, 1], '.', 
             color=colors_light(i), markersize=10, label=i)
    plt.plot(centers[i, 0], centers[i, 1], 'o', 
             color=colors_bold(i), markeredgecolor='k', markersize=20)

plt.title("KMeans")
plt.legend()

DBSCAN

파라미터

eps : epsilon (radius)
min_sample : minimum samples within the radius

데이터 생성

# 이상치가 있는 데이터 포인트 생성
X1, _ = make_blobs(n_samples=500, centers=[[-3,-3]])
X2, _ = make_blobs(n_samples=500, centers=[[3,3]])
X3 = np.random.rand(500, 2) * 3 + 4
X4 = np.random.randn(10, 2) * 3  #outlier

X1.shape, X2.shape, X3.shape, X4.shape # ((500, 2), (500, 2), (500, 2), (10, 2))

# 데이터 분포 시각화
plt.figure(figsize=(8, 6))
plt.scatter(X1[:, 0], X1[:, 1], marker='.')
plt.scatter(X2[:, 0], X2[:, 1], marker='.')
plt.scatter(X3[:, 0], X3[:, 1], marker='.')
plt.scatter(X4[:, 0], X4[:, 1], marker='.')

# 4개의 데이터를 하나로 합침
X = np.vstack([X1, X2, X3, X4])
X.shape # (1510, 2)
# 합친 데이터 시각화
plt.figure(figsize=(8, 6))
plt.scatter(X[:, 0], X[:, 1], marker='.')

DBSCAN 모델링

from sklearn.cluster import DBSCAN
# 모델링
epsilon = 0.3 # 반경 radius
minimumSamples = 7
db = DBSCAN(eps=epsilon, min_samples=minimumSamples).fit(X)

# 레이블 확인
labels = db.labels_ # [ 0  0 -1 ...  4 -1 -1]
unique_labels = set(labels) # {-1, 0, 1, 2, 3, 4, 5}  -1 : outlier

print(labels.shape) # (1510, )
print(db.core_sample_indices_.shape) # (1234, )
print(db.core_sample_indices_) # [   0    1    3 ... 1499 1505 1507]

DBSCAN 시각화

colors = plt.cm.Spectral(np.linspace(0, 1, len(unique_labels)))

plt.figure(figsize=(8, 6))

for k, col in zip(unique_labels, colors):
    members = (labels == k)
    plt.scatter(X[members, 0], X[members, 1], color=col, 
                marker='o', s=10)

plt.title('DBSCAN')
plt.show()

차원 축소 기법 : PCA

차원의 저주 (Curse of Dimensionality)

: 차원이 증가함에 따라 vector 공간내의 space 도 증가하는데 데이터의 양이 적으면 빈공간이 많이 발생하여 예측의 정확도가 떨어진다.

(⇒ 피처가 증가하면 축이 늘어나므로, 차원이 증가한다. 그러므로 피처가 늘어날 수록 데이터의 양이 늘어나야한다.)

해결방법 : 유사한 성격의 feature는 하나의 새로운 feature로 성분을 합칠 수 있음 (예, 키, 신장, 앉은키 ⇒ 키)
차원 축소시, 정보 소실 발생
⇒ PC(principal component) : X, Y축의 정보를 어느정도 보존하는 새로운 선

PCA (Principal Component Analysis) : 주성분 분석

1. 방법 : 선형대수학의 SVD (특이값 분해) 를 이용하여 분산이 최대인 축을 찾음

데이터의 분산을 최대한 보존하면서 서로 직교하는 새 축을 찾음
⇒ 데이터가 퍼져있는 정도가 가장 잘 보존되는 선을 찾는 것
(분산을 보존한다 == 최대한 원래의 정보를 보존한다)
고차원 공간의 표본들을 선형 연관성이 없는 저차원 공간으로 변환

PCA 파라미터

components_
- array, shape (n_components, n_features)
- n_feature dimension 공간에서의 주성분 축
- data 의 분산을 최대로 보존하는 방향
- explained_variance_ 에 순서대로 정렬되어 있음
explained_variance_
- shape (n_components,)
- 선택한 각 구성 요소에서 설명하는 분산의 양
explained_variance_ratio_
- shape (n_components,)
- 선택한 각 구성 요소가 설명하는 분산의 백분율입니다.

PCA 실습

# 각 행은 고객을 나타내고 각 열은 고객의 속성 표시
# 지난달에 탈회한 고객에 대한 정보가 포함 (Churn 1.0 - 탈회, 0.0 - 유지)
# 28개의 피처를 차원 축소하여 해당 고객이 탈회할 것인지를 예측
# 2차원 상에 시각화할 수 없기 때문에 pca를 통해 2차원으로 축소하는 것

churn_df = pd.read_csv("datasets/ChurnData.csv")
# 데이터 확인
churn_df.head()
# 칼럼 확인
churn_df.columns
# Index(['tenure', 'age', 'address', 'income', 'ed', 'employ', 'equip',
       'callcard', 'wireless', 'longmon', 'tollmon', 'equipmon', 'cardmon',
       'wiremon', 'longten', 'tollten', 'cardten', 'voice', 'pager',
       'internet', 'callwait', 'confer', 'ebill', 'loglong', 'logtoll',
       'lninc', 'custcat', 'churn'],
      dtype='object')
# churn : 예측할 피처

# shape 확인
churn_df.shape # (200,28)

X = churn_df.loc[:, columns]
y = churn_df['churn']

tenure age address income ed employ equip callcard wireless longmon ... pager internet callwait confer ebill loglong logtoll lninc custcat churn

	tenure	age	address	income	ed	employ	equip		loglong	logtoll	lninc	custcat	churn
0	11.0	33.0	7.0	136.0	5.0	5.0	0.0	...	1.482	3.033	4.913	4.0	1.0
1	33.0	33.0	12.0	33.0	2.0	0.0	0.0	...	2.246	3.240	3.497	1.0	1.0
2	23.0	30.0	9.0	30.0	1.0	2.0	0.0	...	1.841	3.240	3.401	3.0	0.0
3	38.0	35.0	5.0	76.0	2.0	10.0	1.0	...	1.800	3.807	4.331	4.0	0.0
4	7.0	35.0	14.0	80.0	2.0	15.0	0.0	...	1.960	3.091	4.382	3.0	0.0

데이터 분리

# train / test dataset split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
# 최종 데이터 shape 확인
print(X_train.shape) # (160, 27)
print(X_test.shape) # (40, 27)
# 스케일링
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

PCA 적용 전, logistic regression 결과 : 탈회 여부 예측

# Fitting Logistic Regression
clf = LogisticRegression(solver='lbfgs', random_state=0)
clf.fit(X_train, y_train)

# predict test set
y_pred = clf.predict(X_test)
# Confusion matrix
accuracy_score(y_test, y_pred) # 0.775

PCA 적용 후, logistic regression 결과 : 탈회 여부 예측

PCA 적용 : 피처 개수 27 -> 2

# Apply kernel PCA
from sklearn.decomposition import PCA

pca = PCA(n_components=2)  # 2개 component로 차원 축소

X_train_pca = pca.fit_transform(X_train) # pca 함수가 다차원 공간의 공분산(분산이 최대화 되는 축)을 찾음 -> 두개의 매트릭스로력
X_test_pca = pca.transform(X_test) # 동일한 분포를 가진것으로 해야하므로 fit_transform 이 아닌 transform만

print("차원 축소된 X_train :", X_train_pca.shape) # (160, 2)
print("차원 축소된 X_test :", X_test_pca.shape) # (40, 2)
print(pca.components_.shape) # (2,27)

print("첫번째 주성분(고유벡터) :")
print(pca.components_[0])

첫번째 주성분(고유벡터) :
[0.18870382 0.09407626 0.06999421 0.02405283 0.08039882 0.10532452
 0.0913006  0.22012759 0.24022929 0.17035807 0.26783154 0.16389682
 0.25017627 0.28326203 0.17638143 0.27435707 0.22993114 0.24062665
 0.26112415 0.0747603  0.22729268 0.21587761 0.06959358 0.17457864
 0.17900112 0.07082588 0.29324012]

print("두번째 주성분(고유벡터) :")
print(pca.components_[1])

두번째 주성분(고유벡터) :
[ 0.2917276   0.18411246  0.24507417  0.04409899 -0.16349343  0.2142686
 -0.23252316  0.07599265 -0.23520159  0.29224485 -0.06742566 -0.24108039
  0.12944092 -0.20861384  0.29806582  0.04425842  0.22376079 -0.18866967
 -0.17737835 -0.24830636 -0.0674659  -0.05215805 -0.21541163  0.28738933
  0.03136523  0.07488121 -0.10196478]

print('설명된 분산(고유값)의 비율: {}, 두 성분의 합: {:.2f}'
      .format(pca.explained_variance_ratio_,sum(pca.explained_variance_ratio_)))

설명된 분산(고유값)의 비율: [0.25193472 0.21764464], 두 성분의 합: 0.47

Logistic regression 적용

# Fitting Logistic Regression
clf = LogisticRegression(solver='lbfgs', random_state=0)
clf.fit(X_train_pca, y_train)

# predict test set
y_pred = clf.predict(X_test_pca)
y_pred  # array([0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 1., 1., 0., 1., 1., 0., 0., 0., 0., 0., 0., 0., 0.])

# Accuracy Score
from sklearn.metrics import accuracy_score
accuracy_score(y_test, y_pred) # 0.725 -> 차원 축소 후에도 별 차이가 없음 : 정보 손실이 거의 없

시각화 : 차원축소된 churn data

→ 2개로 축소되었기 때문에 평면상의 시각화 가능

→ X_train_pca ⇒ X1, X2 축으로 시각화

→ y_train : 0,1을 색으로 구분 (0 : 탈회 X, 1 : 탈회 O)

'동아리,학회 > GDGoC' 카테고리의 다른 글

[AI 스터디] Section 8 : CNN & LeNet5 (0)	2024.12.27
[AI 스터디] Section 7 : 신경망과 딥러닝 (2)	2024.12.26
[AI 스터디] Section 5 : 전통적인 머신러닝 - 지도학습 모델 part 2 (3)	2024.12.26
[AI 스터디] Section 4 :데이터셋 분할 및 모델 성능 평가 지표 (2)	2024.12.26
[AI 스터디] Section 3 : 전통적 머신러닝 - 지도학습 모델 part 1 (0)	2024.12.26

현재글[AI 스터디] Section 6 : 비지도 학습 모델

💻 STUDY

데이터 분석 및 AI 관련 스터디 포스팅

gdg스터디 #ai #ml #gdg, ML, 머신러닝, 기계학습, 데이터분석, xgboost, GBM, 오블완, 티스토리챌린지, 블챌, SVM, 서포트벡터머신, GradientBoosting, BDA, DecisionTree,

Today :
Yesterday :

💻 STUDY