Kaggle事始め
Kaggleとは
Kaggleは企業や研究者がデータを投稿し、世界中の統計家やデータ分析家がその最適モデルを競い合う、予測モデリング及び分析手法関連プラットフォーム及びその運営会社である
情報科学、統計学、経済学、数学などの分野から全世界で約95,000人のデータサイエンティストが登録しており、同社はアメリカ航空宇宙局、ウィキペディア、デロイト トウシュ トーマツ、オールステート保険等の組織と提携している。 Heritage Health Prizeによる300万ドルの賞金課題で話題となり、 最近の事例ではKinectの挙動認識改善課題が知られている。
公開課題方式により、HIV研究への最新技術の促進[8] 、チェス格付けや交通量予測など、多くの課題解決につながった。 即座に反映されるスコアボードが、回答者に既存の最適解を超えた革新策を導出させる動機付けとなっている。模範回答は頻繁に公式ブログに掲載されている。
空間的にも技術的にも世界レベルでオープンにデータサイエンティストたちがしのぎを削っている場であるということがわかる。
そんなスーパーサイヤ人のようなスペシャリストがいるからといって、私のような一般ピーポーが踏み入れてはいけない場所だというわけではないらしい。
映画でも有名な「タイタニック」の生存予測を題材としたチュートリアルが用意されている。このチュートリアルを利用してKaggleに参加する間隔をつかめるというわけだ。
Kaggleのページは英語で日本語対応していないが、わからないところはGoogle翻訳で何とかなる。実際、普段使わないような単語が出てくるのでどんどん調べて覚えればよいと思う。
チュートリアルではPython、R、excelが選べる。私はPython を選択
Notebook形式のkernelが立ち上がり、課題に対して受講者が答えを打ち込み、採点までプログラム内でやってくれるという優れもの。Python の練習にもいいかも。
ちょっと感動したのは、愚直にやるとこうだけど、慣れてくるとこういう書き方もできるよという、コードの書き方のバリエーションを教えてくれること。これは勉強になる。
よーし頑張るぞー