Click Through Rate Prediction

머신러닝 2019. 3. 21. 15:29
  • Kaggle
    • Avazu - Predict whether a mobile ad will be clicked
      • Data
      • Beat the benchmark with less than 1MB of memory
    • CriteoLabs - Display Advertising Challenge
      • Data
      • md5sum 확인용
      • Beat the benchmark with less than 200MB of memory

Kaggle

  • Avazu - Predict whether a mobile ad will be clicked

https://www.kaggle.com/c/avazu-ctr-prediction

Data

https://www.kaggle.com/c/avazu-ctr-prediction/data 에서 제공하는 test.gz, train.gz 파일을 내려받는다.

train.gz 파일의 크기는 1.12GB 이다.

Data Field
id: ad identifier
click: 0/1 for non-click/click
hour: format is YYMMDDHH, so 14091123 means 23:00 on Sept. 11, 2014 UTC.
C1 -- anonymized categorical variable
banner_pos
site_id
site_domain
site_category
app_id
app_domain
app_category
device_id
device_ip
device_model
device_type
device_conn_type
C14-C21 -- anonymized categorical variables

4 Idiots' Solution & LIBFFM

https://www.kaggle.com/c/avazu-ctr-prediction/discussion/12608

Beat the benchmark with less than 1MB of memory

https://www.kaggle.com/c/avazu-ctr-prediction/discussion/10927


논문, 구현체

https://www.csie.ntu.edu.tw/~cjlin/libffm/


https://github.com/guestwalk/kaggle-avazu


  • CriteoLabs - Display Advertising Challenge

https://www.kaggle.com/c/criteo-display-ad-challenge

Data

kaggle 의 data 페이지에서 제공하는 data download link 는 깨어져 있다. CriteoLab 홈페이지에서 다운로드 받을 수 있는 링크는 다음과 같다.

위의 링크에서 제공하는 dac.tar.gz 파일은 약 4GB 의 크기이다. 인터넷을 통해 내려받는데 속도가 느려 시간이 10시간 이상 걸릴 수 있다.

https://jkkim.me/kaggle/dac.tar.gz - 내려받아 놓은 파일

md5sum 확인용
$ md5 *.gz
MD5 (dac.tar.gz) = df9b1b3766d9ff91d5ca3eb3d23bed27
MD5 (sampleSubmission.gz) = 39c3ff7b677a8de71412f7cb00c4e5f2
MD5 (test.gz) = 47e20bc113bd2009b46dd125bb987c76
MD5 (train.gz) = f65aa86a4d3e3219c17225bd301b64f6
$


Beat the benchmark with less than 200MB of memory

https://www.kaggle.com/c/criteo-display-ad-challenge/discussion/10322


https://github.com/guestwalk/kaggle-2014-criteo


https://www.csie.ntu.edu.tw/~r01922136/kaggle-2014-criteo.pdf

https://medium.com/@chris_bour/what-i-learned-from-the-kaggle-criteo-data-science-odyssey-b7d1ba980e6

'머신러닝' 카테고리의 다른 글

Optimization Algorithms  (0) 2019.08.29
optimizer 원리  (0) 2019.08.29
부스팅 기법의 이해  (0) 2019.03.06
회귀분석 강의노트  (0) 2019.03.06
최대우도법(Maximum Likelihood)  (0) 2019.03.06
: