from sklearn import datasets
from sklearn.tree import DecisionTreeClassifier

먼저 scikit learn에서 제공하는 dataset들을 불러오고 decision tree 머신러닝 모델을 사용하기위한 모듈도 불러옵니다. decisiontree에 대해서는 뒤에 또 다루도록 하겠습니다.

from sklearn.model_selection import train_test_split
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import cross_val_score

그 다음, 데이터 셋을 train과 test로 나누기 위한 모듈과 stratified k fold cross validation을 사용하기 위한 모듈을 불러옵니다. 그냥 kfold모듈과는 다르게 각 fold내 데이터의 클래스 비율을 일정하게 유지해줍니다. 그리고 결과의 정확도를 측정하기 위한 모듈도 불러옵니다.

from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
from sklearn.metrics import classification_report
from sklearn.metrics import roc_auc_score
from sklearn.metrics import mean_squared_error

그리고 confusionmatrix를 추출하기 위한 모듈, 정확도, recall, precosion, f-measure를 측정하기 위한 모듈, roc곡선의 아래 넓이를 구하기 위한 모듈, MSE를 구하기 위한 모듈들을 불러옵니다.

data = datasets.load_breast_cancer()
X = data.data
y = data.target

데이터 셋에서 load_breast_cancer함수를 사용하여 유방암 데이터를 가져와 변수 data에 저장하고, 속성 데이터를 변수x, 클래스 데이터를 변수 y에 저장합니다.

Holdout시작¶

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

이제 train_test_split 함수를 사용해 train set과 test set을 분리하는데 저는 전체 데이터 중 test set을 20%로 설정하겠습니다.

clf = DecisionTreeClassifier()
clf.fit(X_train, y_train)
clf

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,
                       max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort=False,
                       random_state=None, splitter='best')

머신러닝을 사용하기 위해 불러왔던 deicisiontreeclassifier모델을 변수 clf에 할당하고, train데이터와 fit 함수를 사용해 모델을 훈련시킵니다.

y_pred = clf.predict(X_test)

Predict 함수를 사용해 test 데이터(X_test)에 대한 예측값을 구하고 변수 y_pred에 저장합니다.

print('Confusion Matrix')
print(confusion_matrix(y_test, y_pred))

Confusion Matrix
[[44  3]
 [ 6 61]]

test 데이터의 실제 값인 y_test와 예측 결과값 y_pred를 confusion_matrix 함수에 입력해 matrix를 출력합니다. 결과를 보시면 실제 총114건 중 yes와 no를 맞게 예측한 값이 105건인 것을 확인할 수 있습니다.

print('Accuracy')
print(accuracy_score(y_test, y_pred, normalize=True))

Accuracy
0.9210526315789473

y_test와 y_pred 값을 비교해 정확도를 출력하합니다. normalize를 false로 하게 되면 올바르게 분류된 데이터 건수를 출력하고, true로 하면 비율을 출력합니다.

print('Classification Report')
print(classification_report(y_test, y_pred))

Classification Report
              precision    recall  f1-score   support

           0       0.88      0.94      0.91        47
           1       0.95      0.91      0.93        67

    accuracy                           0.92       114
   macro avg       0.92      0.92      0.92       114
weighted avg       0.92      0.92      0.92       114

classification_report 함수를 사용해 각 클래스(0과 1)에 대한 precision과 recall, f-measure, 데이터 건수를 출력합니다. 클래스 0과 1은 유방암에 결렸다, 걸리지 않았다의 구분에 따라 나눠진 클래스입니다. 총 114 건에 대해 92퍼 정도의 정확도를 보여줍니다.

print('AUC')
print(roc_auc_score(y_test, y_pred))

AUC
0.9233089869799938

ROC 곡선의 아래 면적도 출력해 보겠습니다. 1에 가까울 수록 정확도가 높은 모델이라고 했는데 0.92정도면 아주 높은 수치라고 볼 수 있습니다.

print('Mean Squared Error')
print(mean_squared_error(y_test, y_pred))

Mean Squared Error
0.07894736842105263

MSE의 결과도 보겠습니다.

k fold cross validation¶

skf = StratifiedKFold(n_splits=10)
skf.get_n_splits(X, y)
print(skf)

StratifiedKFold(n_splits=10, random_state=None, shuffle=False)

이번엔 StratifiedKFold 모듈을 사용해 10 cross validation 모듈을 skf로 생성했습니다. k fold corss validation에 대해서는 앞서 설명했듯, 총 k 번의 실험을 진행하는 것인데 저는 그 횟수를 10번으로 지정한 것입니다. 여기에 Stratified sampling 샘플을 추출할때에 한 개의 클래스에 편중되지 않도록 하는 것입니다.

for train_index, test_index in skf.split(X, y) :
    print('Train set: ', train_index[0])
    print('Test set: ', test_index[0])

Train set:  25
Test set:  0
Train set:  0
Test set:  25
Train set:  0
Test set:  54
Train set:  0
Test set:  100
Train set:  0
Test set:  164
Train set:  0
Test set:  205
Train set:  0
Test set:  255
Train set:  0
Test set:  321
Train set:  0
Test set:  389
Train set:  0
Test set:  489

10번의 실험을 위한 데이터 셋 구성을 살펴봅니다. 저는 편의를 위해 첫번째만 프린트해 보았는데 저 부분을 제외한 모든 값을 보시면 이해가 빠르실 것입니다.

clf = DecisionTreeClassifier()
scores = cross_val_score(clf, X, y, cv=skf)
print('K Fold Cross Validation Score')
print(scores)
print("Average Accuracy")
print(scores.mean())

K Fold Cross Validation Score
[0.93103448 0.89655172 0.92982456 0.89473684 0.96491228 0.89473684
 0.84210526 0.94642857 0.92857143 0.96428571]
Average Accuracy
0.919318771065595

마찬가지로 decisiontree를 이용하여 모델을 생성하고 정확도를 출력하여 10개 결과의 평균을 내보겠습니다. 약 0.92정도의 정확도를 보여주는 것을 알 수 있습니다.

k fold cross validation - shuffle¶

skf_sh = StratifiedKFold(n_splits=10, shuffle=True)
skf_sh.get_n_splits(X, y)
print(skf_sh)

StratifiedKFold(n_splits=10, random_state=None, shuffle=True)

이번엔 위의 과정과 동일하지만 shuffle을 이용하여 데이터를 섞은 후 데이터 셋을 구성하게 하여 동일한 테스트를 진행해 보겠습니다.

for train_index, test_index in skf_sh.split(X, y) :
    print('Train set: ', train_index[0])
    print('Test set: ', test_index[0])

Train set:  0
Test set:  4
Train set:  0
Test set:  1
Train set:  0
Test set:  2
Train set:  0
Test set:  12
Train set:  0
Test set:  3
Train set:  0
Test set:  16
Train set:  0
Test set:  7
Train set:  0
Test set:  9
Train set:  0
Test set:  5
Train set:  1
Test set:  0

전체 결과를 확인해보시면 shuffle전과 index가 섞여 있는 것을 확인해 보실 수 있습니다.

clf = DecisionTreeClassifier()
scores = cross_val_score(clf, X, y, cv=skf_sh)
print('K Fold Cross Validation Score')
print(scores)
print("Average Accuracy")
print(scores.mean())

K Fold Cross Validation Score
[1.         0.9137931  0.94736842 0.85964912 0.89473684 0.96491228
 0.94736842 0.96428571 0.92857143 0.94642857]
Average Accuracy
0.9367113905453287

shuffle을 하니까 정확도가 오른 것을 확인해 볼 수 있습니다. 이렇게 해서 머신러닝에 대한 기초적인 내용들을 다뤄봤습니다. 관련된 내용들은 추가로 올리도록 하겠습니다. :)

Folium 지도에 heatmap을 이용하여 빈도수를 표현해보자 :) (0)	2020.01.19
수열을 통해 마코프 체인의 단서를 얻어보자 :) (0)	2020.01.15
위도 경도 값을 이용하여 거리를 구하고 그래프를 그려보자 :) (0)	2020.01.15
LZW 알고리즘과 허프만 부호화 방법을 서로 비교하여 분석해보자. (0)	2020.01.08
기사를 크롤링하여 워드클라우드를 만들어보자. (0)	2020.01.08

Justkeepitsteady

머신러닝을 이용해 데이터분석에 필요한 기초지식을 습득해보자 :)

Holdout시작¶

k fold cross validation¶

k fold cross validation - shuffle¶

'데이터분석 및 프로젝트' 카테고리의 다른 글

티스토리툴바

머신러닝을 이용해 데이터분석에 필요한 기초지식을 습득해보자 :)

Holdout시작¶

k fold cross validation¶

k fold cross validation - shuffle¶

'데이터분석 및 프로젝트' 카테고리의 다른 글

'데이터분석 및 프로젝트' Related Articles

티스토리툴바