제2회 빅데이터 분석기사(실기) - 작업형:제2유형-모델특성
작성자 정보
- ◆딥셀◆ 작성
- 작성일
컨텐츠 정보
- 16,935 조회
본문
제2유형의 문제에서 모델에 따라 범주형 데이터의 인코딩을 다르게 해야합니다.
결정나무(Decision Tree)계열의 모델은 범주형 데이터를 라벨인코딩(Label Encoding)하면 됩니다. 그리고 변수 스케일 변환을 하지 않아도 됩니다. 하지만 그외의 모델에서는 수치형 데이터를 스케일변환을 해야하고 범주형데이터를 원핫인코딩(One-Hot Encoding)해야 합니다. 스케일 변환은 Standard, MinMax, Robust 세가지 중 한가지로 할 수 있는데 MinMax로 하면 원핫이코딩된 데이터를 함께 변환해도 문제가 없습니다. Standard나 Robust를 사용할 경우 수치형만 변환하고 범주형은 그대로 사용해야합니다.
실기시험에서 사용할 수 있는 모델과 인코딩을 정리해 보면 다음과 같습니다.
결정나무 계열 : 범주형을 라벨 인코딩, 스케일변환 안 해도 됨
- DecisionTreeClassifier
- ExtraTreesClassifier
- RandomForestClassifier
- AdaBoostClassifier
- GradientBoostingClassifier
- XGBClassifier (sklearn에 없음, 별도 패키지)
그외 : 범주형을 원핫인코딩, 스케일변화 필요함
- LogisticRegression
- KNeighborsClassifier
- SVC
- GaussianNB
- MLPClassifier
그리고 각 모델별로 초매개변수가 달라서 초매개변수 튜닝이 다름니다. 특히 결정나무 계열은 초매개변수가 많습니다.
이런 점들을 고려해서 모델을 선택해야합니다. 그리고 프로그램으로 최선의 모델을 선택할 때나 앙상블 방법을 사용할 때 데이터의 인코딩과 스케일 변환을 고려하여 서로 호환되는 모델들로 앙상블을 구현해야 합니다.
관련자료
-
이전
-
다음