TPS-mar-2021 Report

5 minute read

TPS-mar-2021 Report

TPS-mar-2021 Data

https://www.kaggle.com/competitions/tabular-playground-series-mar-2021

Purpose & Contents

Tabular Playground Series 는 Kaggle Data 경진 대회에 참가하는 초보자들을 위해 표 현태의 데이터를 제공합니다. 실제 데이터세트를 기반으로 하고 있으며 TPS-mar-2021 Report는 보험 청구 금액을 예측하기 위해 Category형 데이터 cat0 - cat18, 연속형 데이터 cont0 - cont18을 바탕으로 모델을 학습힌다.

Data

Data Summary

  • 총 학습 데이터 개수: 3000
  • 총 예측 데이터 개수: 20000
  • 총 결측치 수: 0 = 전체 데이터의 0%

Summary

  • XGBoost를 기반으로 한 학습에서 0.8836의 scores를 획득 (파라미터를 튜닝을 통해 성능을 향상시켰음.)
  • 의료 데이터에서는 Random Forest의 성능 향상이 두드러진다는 논문을 인용해 Random Forest 기반의 학습을 시행했으나 오히려 성능이 감소함
  • 모델의 학습 시간을 단축하기 위해 LightGBM 도입, 성능이 < scores : 0.88583 > 로 증가하였음.

    Code

<!DOCTYPE html>

TPS_mar_2021
TAEWON KIM

TAEWON KIM

Avid learner with diverse interests in coding, machine learning, artificial intelligence and reinforcement learning. 17+ years of experience working in multinational corporations.

Comments

  Write a comment ...