언젠가는
데이터 분석방법 본문
지도 학습과 비지도 학습
데이터의 학습방법은 지도 학습과 비지도 학습이 있습니다.
지도 학습은 정답인 레이블이 있는 학습이고, 비지도 학습은 레이블이 없이 이루어지는 학습이라고 생각하면 됩니다.
지도 학습에는 의사결정 나무, 인공신경망, 회귀분석, 로지스틱 회귀분석, 사례기반 추론, 최근접 이웃 법(KNN)이 있습니다.
비지도 학습에는 연관성 규칙 발견, 군집분석, SOM이 있습니다.
'예측'은 분류 규칙을 가장 많이 사용합니다. 예측은 회귀분석, 판별분석, 신경망, 의사결정 나무도 활용합니다.
'설명'은 연관 규칙(사기 적발), 연속 규칙(고객 구매이력을 통한 목표 마케팅), 데이터 군집화(판촉활동, 이벤트 대상 선정)
데이터 마이닝 추진단계는 목적 설정, 데이터 준비, 가공, 기법 적용, 검증으로 이루어져 있습니다.
데이터를 통해 학습하기 위해서 테스트 데이터와 훈련용 데이터로 나누게 됩니다. 이를 '교차검증'이라고도 부릅니다.
테스트 데이터는 얼마나 적합한지 확인하고, 훈련용 데이터로 무형을 생성하는 것입니다.
교차검증 방법에는 홀드 아웃 방법과 교차 확인 방법이 있습니다.
홀드 아웃 방법은 랜덤 하게 두 개 데이터로 구분하여, 학습용, 시험용으로 나눕니다.
교차 확인 방법은 K개의 하부 집단으로 나누고, K-1개의 집단을 학습용, 나머지를 검증용으로 사용합니다.
성과분석은 오분류에 대한 추정치로 합니다. 정 분류율, 오분류율, 특이도, 민감도, 정확도, 재현율, F1 Score로 확인합니다.
F1 스코어는 2*(Precision*Recall) / (Precision+Recall)로 구합니다.
또한, ROC곡선으로도 성과분석을 합니다. ROC커브는 가로축이 FPR(1-특이도), 세로축이 TPR(민감도)입니다.
ROC곡선은 이진 분류에서 모형의 성능평가로 많이 사용합니다. 왼쪽 상단에 가까울수록 예측도가 올라갑니다.
ROC곡선의 아래 면적을 의미하는 것이 AUROC라고 합니다. ROC-AUC라고도 불립니다.
이익 도표(Lift Chart)는 분류 모형을 평가하기 위한 척도입니다. 각 등급별 반응 검출율, 반응률, 리프트를 볼 수 있습니다.
좋은 모델이라면 Lift가 빠른 속도로 감소해야 합니다(급작스럽게 변화할수록 좋은 모델)
과대 적합과 과소 적합
과적합은 과대 적합으로도 부르고, 학습용 데이터를 과하게 학습하여 학습용 데이터에는 높은 정확도를 보이지만, 테스트 데이터 또는 다른 데이터에서는 성능이 떨어지는 것을 말합니다.
과소 적합은 과대 적합의 반대로, 너무 모형이 단순해서(학습을 극도로 적은 양의 데이터만 함) 패턴, 규칙을 제대로 학습하지 못한 것을 말합니다.
분류 분석과 예측 분석
분류 분석은 어떤 그룹에 속하는지 예측하는 것입니다. 클러스터링과 유사하지만, 각 그룹이 '정의'되어 있다는 점에서 차이가 납니다. 학생들의 영어 성적을 통해서 내신 등급을 예측하는 것이나, 카드나 은행에서 몇 년 후 신용 등급을 예측하는 것에서 사용합니다. 또한 신용평가 모형뿐만 아니라 사기 방지, 고객 이탈 유무, 고객 등급에서도 활용합니다.
예측 분석은 시간에 따른 두 개의 값만 이용합니다. 한 개의 설명 변수를 가지고 예측합니다. 학생들의 공부시간으로 자격증 점수를 예측하거나, 카드사가 가진 정보를 통해서 연 매출액을 예측하는 것이 있습니다.
분류 분석의 대표적인 예로 '로지스틱 회귀분석'이 있습니다. 로지스틱 회귀분석은 '분류'분석입니다. 일반적인 선형 회귀분석과 다른 점은 로지스틱 회귀분석은 '범주형'일 때 사용합니다. 새로운 설명변수로 반응 변수가 각 범주에 속할 확률을 추정하여 기준치에 따라 분류하는 것입니다. 이때 추정된 확률을 '사후 확률'이라고 합니다.
또한, 의사결정 나무도 있습니다. 분류 함수를 의사결정 규칙으로 이루어진 트리 모양으로 그리는 방법입니다.
연속적으로 발생하는 의사결정 문제를 눈에 보이게 만들어서 시점과 성과를 한 번에 볼 수 있어서 해석하기 쉽다는 장점이 있습니다. 의사결정 나무는 분류 나무와 회귀 나무가 있습니다. 그리고 뿌리 마디(root node)는 시작되는 마디로 전체 자료를 포함합니다. 끝마디(terminal node)는 자식이 없는 마디를 말합니다. 뿌리 마디와 끝마디를 종종 헷갈려서 기억하는 경우가 있습니다.
의사결정 나무는 비슷한 특성들을 발견해서 '세분화'가 가능해집니다. 예측 변수를 보면서 목표 변수의 범주를 분류할 때도 사용합니다. 또한, 규칙을 찾아 미래의 사건을 예측하는 데도 활용합니다. 예측 변수들을 정리해서 차원 축소와 변수 선택을 가능하게 만들어 줍니다. 계산이 간단하고 큰 용량도 빠르게 실행 가능합니다. 비정상적인 잡음에도 예민하지 않고, 불필요한 변수에도 큰 영향을 받지 않습니다. 그러나, 새로운 자료가 들어오면 과대 적합 가능성이 높아지고, 경계선 부근에서 오차가 많이 발생하며, 설명변수의 중요도를 파악하기 어렵다는 단점이 있습니다.
분석 과정은 최고의 분리 규칙을 찾아서 나무를 성장시키고, 적절한 정지 규칙으로 성장을 중단합니다. 그리고 가지치기를 통해 오차를 크게 할 가능성이 있거나 부적절한 규칙들을 가진 가지, 필요 없는 가지들을 제거합니다. 그 후에 타당성 평가를 하고, 해석과 예측에 활용합니다. '불순도'는 범주형 변수인 의사결정 나무 분류 규칙의 선택 기준이 됩니다. 이는 카이제곱 통계량, 지니 지수, 엔트로피 지수로 확인합니다.
'IT > IT 지식' 카테고리의 다른 글
기억해 두면 좋은 IT 지식 4 - 트랜잭션 특성, 스키마, 블랙박스 테스트 (0) | 2022.07.12 |
---|---|
기억해 두면 좋은 IT 지식 3 - 서비스 거부 공격(DoS) (0) | 2022.07.12 |
기억해 두면 좋은 IT 지식 2 - SOA, RAID, 암호 알고리즘 (0) | 2022.07.12 |
기억해 두면 좋은 IT 지식 1 - 미들웨어, IEEE 802 (0) | 2022.07.12 |
앙상블, 텍스트 마이닝, SOM (0) | 2022.07.11 |