반응형
Decision Tree
타이타닉 데이터에서
생존자에 대한 질문
빨간색 구슬이 없거나 빨간색 구슬만 있을때 -> 불순도가 0
지니 불순도의 최대값은 0.5
같은 비율로 섞여도 엔트로피의 불순도가 더 높다 -> 성능(정확도)은 Entropy가 우세
계산 속도는 -> Gini가 빠르다
데이터의 수가 많을때 -> Gini 데이터 수가 적어서 성능이 중요할때 -> Entropy
질문의 수를 제한하여 과대적합 제어
하이퍼 파라미터를 이용해 질문의 개수 제어
Decision Tree로 중요한 특성을 찾고 앙상블 모델로 넘어가서 모델링
글자형태의 범주형 데이터는 모델에게 학습을 시키기 어렵워
데이터를 전처리해주어야하는데 범주형 데이터중에서 순서가 없는 데이터를 인코딩하는 것을
One-hot Encoding 이라 한다.
반응형
'빅데이터 서비스 교육 > 머신러닝' 카테고리의 다른 글
Cross validation (0) | 2022.06.24 |
---|---|
머신러닝 Decision Tree (0) | 2022.06.24 |
머신러닝 데이터 예측 (KNN모델) (0) | 2022.06.23 |
KNN 모델 (0) | 2022.06.22 |
머신러닝 (0) | 2022.06.21 |