2016年3月31日木曜日

「Titanic: Machine Learning from Disaster-Information-Evaluation」翻訳してみた(Kaggleのタイタニック号沈没生存グループ予測チュートリアル)

Titanic: Machine Learning from Disaster
(タイタニック号沈没:災害の機械学習)

Evaluation
(評価方法)

 元記事:https://www.kaggle.com/c/titanic/details/evaluation



史実に基づくデータセットを「トレーニングセット」と「テストセット」の2つに分けています。トレーニングセットでは、各船客に対する生死(ground truth)を提供します。このセットを使って、テストセットの予測をするためのモデルを生成してください。
テストセットの各船客に対して、彼らが沈没から生き残ったかどうかを、死亡は0、生存は1として予測する必要があります。モデルのスコアは、 正しく予測できた割合です。
Kaggleのleaderboardの構成要素には、おおやけにしているものと、秘密にしているものとがあります。 テストセットに対する予測の50%はおおやけにしているほうのleaderboardにランダムに掲載されます。(すべての利用者とも、50%です。)おおやけにされたほうのスコアは、leaderboardに表示されます。コンテストの終わりに、最終勝者を決めるために残りの50%を明らかにします。これはleaderboardに対して過学習を予防する効果があります。
 
 
****以下、翻訳時点での記事コピー(元記事:https://www.kaggle.com/c/titanic/details/evaluation)*****


The historical data has been split into two groups, a 'training set' and a 'test set'.  For the training set, we provide the outcome ( 'ground truth' ) for each passenger.  You will use this set to build your model to generate predictions for the test set.
For each passenger in the test set, you must predict whether or not they survived the sinking ( 0 for deceased, 1 for survived ).  Your score is the percentage of passengers you correctly predict.
 The Kaggle leaderboard has a public and private component.  50% of your predictions for the test set have been randomly assigned to the public leaderboard ( the same 50% for all users ).  Your score on this public portion is what will appear on the leaderboard.  At the end of the contest, we will reveal your score on the private 50% of the data, which will determine the final winner.  This method prevents users from 'overfitting' to the leaderboard.

0 件のコメント:

コメントを投稿