ADP(데이터분석전문가) 자격취득을 위한 '분석방법론' 과목의 출제 예시와 출제 경향에 대해 정리해드리겠습니다.
1. 분석방법론 과목 개요
분석방법론 과목은 데이터 분석에 활용되는 다양한 통계적, 기계학습적 기법과 알고리즘의 이해 및 적용 능력을 평가합니다. 분석 목적에 맞는 적절한 방법론을 선택하고, 이를 실제 데이터에 적용하는 과정에서 발생하는 문제 해결 능력을 중점적으로 다룹니다.
2. 출제 예시
(1) 객관식 문제 예시
회귀분석에서 다중공선성 문제를 해결하기 위한 방법으로 적절한 것은?
① 변수 제거 ② 변수 변환 ③ 주성분 분석(PCA) ④ 이상치 제거
의사결정나무(Decision Tree)의 가지치기(pruning) 목적은?
① 모델 복잡도 증가 ② 과적합 방지 ③ 변수 선택 ④ 데이터 정규화
군집분석에서 K-means 알고리즘의 특징으로 옳은 것은?
① 비지도 학습에 속한다 ② 레이블이 필요한 지도 학습이다 ③ 거리 기반이 아닌 밀도 기반 방법이다 ④ 계층적 군집 방법이다
(2) 주관식/서술형 문제 예시
로지스틱 회귀분석의 기본 가정과 적용 시 주의점을 설명하시오.
SVM(Support Vector Machine)의 핵심 아이디어와 커널 함수의 역할을 기술하시오.
시계열 분석에서 자기상관 함수(ACF)와 부분자기상관 함수(PACF)의 차이점을 설명하시오.
(3) 사례 기반 문제 예시
온라인 쇼핑몰의 고객 이탈 예측 모델을 설계하려 한다. 적합한 분석 방법론을 선정하고 그 이유를 서술하시오.
주어진 판매 데이터에 이상치가 다수 존재하는 경우, 분석 방법론 선택에 어떤 영향을 미치는지 설명하고, 이를 처리하는 방법을 제안하시오.
금융 사기 탐지 시스템 구축을 위한 분석 방법론을 제안하고, 각 기법의 장단점을 비교하시오.
3. 출제 경향 분석
1) 이론과 실무의 균형
출제문제는 단순한 이론 암기보다는 각 분석 기법의 원리와 적용 방법, 한계점 및 실무에서의 활용 방안을 종합적으로 이해하는 능력을 평가합니다. 따라서 기본 개념, 수학적 배경, 그리고 현장 적용 사례를 함께 묻는 문제가 많습니다.
2) 다양한 분석 기법 출제
회귀분석, 분류 알고리즘(로지스틱 회귀, SVM, 랜덤포레스트 등), 군집분석, 차원 축소(PCA), 시계열 분석, 텍스트 분석 등 다양한 분석 기법이 고르게 출제됩니다. 최근에는 머신러닝 및 딥러닝 기법에 대한 기초 개념 출제 비중도 증가하는 추세입니다.
3) 문제 해결 및 사례 적용 문제 증가
실제 데이터를 기반으로 한 사례 문제 출제가 늘어나고 있으며, 문제 상황에 맞는 적절한 분석 방법론을 선택하고, 그 이유와 예상 결과를 서술하는 문제가 자주 등장합니다. 이를 통해 응시자의 문제 해결 능력과 실무 감각을 평가합니다.
4) 데이터 품질 문제와 분석 방법론의 연계
이상치, 결측치, 불균형 데이터 등 데이터 품질 이슈가 분석에 미치는 영향과 이를 극복하기 위한 방법론에 관한 문제가 자주 출제됩니다. 예를 들어, 불균형 데이터에서는 SMOTE 같은 오버샘플링 기법을 적용하는 사례 등이 포함됩니다.
5) 수학적 이해도 요구
분석방법론은 통계학과 기계학습의 수학적 원리를 이해하는 것이 중요하므로, 회귀식, 손실 함수, 최적화 방법 등 기본 수식에 대한 이해를 묻는 문제가 출제됩니다. 그러나 너무 복잡한 수식보다는 개념적 이해 중심으로 출제되는 경향이 있습니다.
4. 출제 경향 분석에 대한 예상문제
1) 한 온라인 쇼핑몰에서 고객 이탈률 예측 모델을 구축하려 한다. 로지스틱 회귀분석과 랜덤포레스트 중 적합한 분석 기법을 선택하고, 각각의 장단점 및 적용 시 고려사항을 서술하시오.
모범답안 : 로지스틱 회귀분석과 랜덤포레스트 모두 고객 이탈 예측에 적합한 분류 기법이다.
로지스틱 회귀분석
장점: 결과 해석이 용이하며, 각 변수의 영향력을 확률로 해석할 수 있다. 계산 비용이 낮아 대규모 데이터에도 적용 가능하다.
단점: 선형 결정 경계를 가정하므로 복잡한 비선형 관계를 잘 반영하지 못한다. 다중공선성 문제에 취약하다.
적용 시 고려사항: 변수 간 상관관계, 데이터의 선형성, 이상치 영향 등을 사전에 점검해야 한다.
랜덤포레스트
장점: 비선형 관계와 변수 간 상호작용을 잘 처리하며, 과적합에 강한 앙상블 기법이다. 변수 중요도 평가가 가능하다.
단점: 결과 해석이 상대적으로 어려우며, 모델 학습 시간이 길 수 있다.
적용 시 고려사항: 충분한 데이터 양과 적절한 하이퍼파라미터 튜닝이 필요하다.
따라서, 데이터의 특성과 해석 목적에 따라 선택하되, 해석이 중요한 경우 로지스틱 회귀를, 예측 성능이 중요할 경우 랜덤포레스트를 우선 고려할 수 있다.
2) 분석 대상 데이터에 결측치가 다수 존재할 경우, 분석 방법론 선택과 결과 해석에 어떤 영향을 미치는지 설명하고, 결측치 처리 방법 3가지를 제시하시오.
모범답안 :
결측치 영향 : 결측치는 데이터의 불완전성을 초래하여 분석 결과의 왜곡, 편향, 신뢰도 저하를 유발한다. 일부 분석 기법은 결측치를 허용하지 않아 데이터 손실이 발생할 수 있으며, 결측치의 패턴에 따라 결과 해석이 달라질 수 있다.
분석 방법론 선택 영향 : 결측치가 많은 경우 결측치를 처리할 수 있는 알고리즘(예: 랜덤포레스트, XGBoost)이나 결측치를 보완하는 전처리 기법이 필요하다. 단순 제거는 데이터 손실을 키우므로 주의해야 한다.
결측치 처리 방법 : 삭제법: 결측치가 포함된 행 또는 열을 제거하는 방법으로, 결측치가 적을 때 유용하다.
대체법: 평균, 중앙값, 최빈값 등으로 결측치를 채우거나, 회귀분석, KNN, 다중대체법(Multiple Imputation) 등을 사용하여 예측 대체한다.
모델 기반 처리: 결측치를 포함한 상태로 학습 가능한 알고리즘을 사용하거나, 결측치 여부를 변수로 추가하여 모델에 반영한다.
3) ARIMA 모델의 구성 요소(AR, I, MA)를 정의하고, 각 요소가 시계열 데이터 분석에서 수행하는 역할을 구체적으로 설명하시오.
모범답안:
AR (AutoRegressive, 자기회귀) 부분 : 과거 시계열 값들의 선형 결합으로 현재 값을 설명한다. 즉, 시계열의 현재 값이 이전의 관측값들에 의존한다는 가정이며, 시계열의 자기상관 구조를 반영한다.
I (Integrated, 차분) 부분 : 시계열 데이터를 정상성(stationarity) 상태로 만들기 위해 차분(differencing)을 수행하는 단계다. 데이터의 추세나 비정상성을 제거하여 안정적인 분석이 가능하도록 한다.
MA (Moving Average, 이동평균) 부분 : 과거의 오차항(백색잡음)의 선형 결합으로 현재 값을 설명한다. 즉, 시계열에 내재된 무작위 충격의 영향을 모델링하여 예측 정확도를 높인다.
ARIMA 모델은 이 세 가지 요소를 결합하여 비정상 시계열 데이터를 정상 시계열로 변환하고, 과거 값과 오차항을 이용해 미래 값을 예측하는 통계적 모델이다.