빅데이터 서비스 교육/머신러닝

Decision Tree

Manly 2022. 6. 23. 12:28
반응형

Decision Tree

 

 

 

타이타닉 데이터에서

생존자에 대한 질문

 

 

 

 

 

 

빨간색 구슬이 없거나    빨간색 구슬만 있을때   -> 불순도가 0

 

 

지니 불순도의 최대값은 0.5

 

같은 비율로 섞여도 엔트로피의 불순도가 더 높다 -> 성능(정확도)은 Entropy가 우세

                                                           계산 속도는 -> Gini가 빠르다

 

데이터의 수가 많을때 -> Gini           데이터 수가 적어서 성능이 중요할때 -> Entropy

 

                            질문의 수를 제한하여 과대적합 제어

                 하이퍼 파라미터를 이용해 질문의 개수 제어

       

질문의 수를 줄여 과대적합을 제어

 

 

 

                    Decision Tree로 중요한 특성을 찾고 앙상블 모델로 넘어가서 모델링

 

글자형태의 범주형 데이터는 모델에게 학습을 시키기 어렵워

데이터를 전처리해주어야하는데 범주형 데이터중에서 순서가 없는 데이터를 인코딩하는 것을 

One-hot Encoding 이라 한다.

반응형

'빅데이터 서비스 교육 > 머신러닝' 카테고리의 다른 글

Cross validation  (0) 2022.06.24
머신러닝 Decision Tree  (0) 2022.06.24
머신러닝 데이터 예측 (KNN모델)  (0) 2022.06.23
KNN 모델  (0) 2022.06.22
머신러닝  (0) 2022.06.21