2016年3月31日木曜日

「Titanic: Machine Learning from Disaster-Information-Rules」翻訳してみた((Kaggleのタイタニック号沈没生存グループ予測チュートリアル))

Titanic: Machine Learning from Disaster

(タイタニック号沈没:災害の機械学習)

Competition Rules
(コンペのルール)

元記事:https://www.kaggle.com/c/titanic/rules
  • 参加者一人に対して1つのアカウントです

    複数のアカウントでKaggleにサインアップしたり、複数のアカウントから結果を送ったりすることはできません。
  • 他の参加者にコードやデータを秘密にしてはいけません

    コードやデータをチーム外に秘密にすることはできません。フォーラムのすべての参加者に対してコードを公開する必要があります。

  • チームの合併

  • チームリーダはチームを合併することができます。合併するためには、合計投稿数が合併日として許可されている日以下であることが必要です。最大数は、一日あたりの投稿数に、コンペが開催されてからの日数を乗じたものです。
  • チーム制限

     チームのサイズに制限はありません。
  • 投稿制限

    一日当たり10エントリーまでです。最終選考には5つまで出すことができます。

コンペのタイムライン

開始日: 9/28/2012 9:13:33 PM UTC
合併の最終ライン: なし
最初の投稿の最終ライン: なし
終了日: 12/31/2016 11:59:00 PM UTC
これは機械学習入門を手助けするファンコンペです。タイタニック号のデータセットがインターネット上に公開されている間は、答えを探すことができます。まずは試してみましょう。

     

  •   ****以下、翻訳時点での記事コピー(元記事:https://www.kaggle.com/c/titanic/rules)*****

     

    One account per participant

    You cannot sign up to Kaggle from multiple accounts and therefore you cannot submit from multiple accounts.
  • No private sharing outside teams

    Privately sharing code or data outside of teams is not permitted. It's okay to share code if made available to all participants on the forums.
  • Team Mergers

    Team mergers are allowed and can be performed by the team leader. In order to merge, the combined team must have a total submission count less than or equal to the maximum allowed as of the merge date. The maximum allowed is the number of submissions per day multiplied by the number of days the competition has been running.
  • Team Limits

    There is no maximum team size.
  • Submission Limits

    You may submit a maximum of 10 entries per day.
    You may select up to 5 final submissions for judging.

Competition Timeline

Start Date: 9/28/2012 9:13:33 PM UTC
Merger Deadline: None
First Submission Deadline: None
End Date: 12/31/2016 11:59:00 PM UTC
This is a fun competition aimed at helping you get started with machine learning.  While the Titanic dataset is publically available on the internet, looking up the answers defeats the entire purpose.  So seriously, don't do that.

 

「Titanic: Machine Learning from Disaster-Information-Evaluation」翻訳してみた(Kaggleのタイタニック号沈没生存グループ予測チュートリアル)

Titanic: Machine Learning from Disaster
(タイタニック号沈没:災害の機械学習)

Evaluation
(評価方法)

 元記事:https://www.kaggle.com/c/titanic/details/evaluation



史実に基づくデータセットを「トレーニングセット」と「テストセット」の2つに分けています。トレーニングセットでは、各船客に対する生死(ground truth)を提供します。このセットを使って、テストセットの予測をするためのモデルを生成してください。
テストセットの各船客に対して、彼らが沈没から生き残ったかどうかを、死亡は0、生存は1として予測する必要があります。モデルのスコアは、 正しく予測できた割合です。
Kaggleのleaderboardの構成要素には、おおやけにしているものと、秘密にしているものとがあります。 テストセットに対する予測の50%はおおやけにしているほうのleaderboardにランダムに掲載されます。(すべての利用者とも、50%です。)おおやけにされたほうのスコアは、leaderboardに表示されます。コンテストの終わりに、最終勝者を決めるために残りの50%を明らかにします。これはleaderboardに対して過学習を予防する効果があります。
 
 
****以下、翻訳時点での記事コピー(元記事:https://www.kaggle.com/c/titanic/details/evaluation)*****


The historical data has been split into two groups, a 'training set' and a 'test set'.  For the training set, we provide the outcome ( 'ground truth' ) for each passenger.  You will use this set to build your model to generate predictions for the test set.
For each passenger in the test set, you must predict whether or not they survived the sinking ( 0 for deceased, 1 for survived ).  Your score is the percentage of passengers you correctly predict.
 The Kaggle leaderboard has a public and private component.  50% of your predictions for the test set have been randomly assigned to the public leaderboard ( the same 50% for all users ).  Your score on this public portion is what will appear on the leaderboard.  At the end of the contest, we will reveal your score on the private 50% of the data, which will determine the final winner.  This method prevents users from 'overfitting' to the leaderboard.

2016年3月29日火曜日

「Predict survival on the Titanic using Excel, Python, R & Random Forests」翻訳してみた(Kaggleのタイタニック号沈没生存グループ予測チュートリアル)

Predict survival on the Titanic using Excel, Python, R & Random Forests
(Excel、Phtyon、R、Random Forestsを用いてタイタニックの生存者を予測する)

元記事:https://www.kaggle.com/c/titanic


Kaggleスクリプトの、もっとも良い練習コードやタイタニックのデータセットを図式化したものを探す場合はこちら(https://www.kaggle.com/c/titanic/forums/t/13390/introducing-kaggle-scripts)。
コンペに直接送る場合、データをダウンロードしたりローカルに環境を作る必要はありません。

英国郵船タイタニック号の沈没は、歴史上の最も忌まわしい沈没事件の一つです。1912年4月15日、処女航海の途中で、タイタニックは氷山にぶつかり、2224人の客やクルーのうち1502人が死亡しました。この世間をあっと言わせた悲劇は世界中に衝撃を与え、船舶の安全性向上策の実施へとつながりました。
難破でこれほど多くの命が失われた一つの理由として、救命艇の数が客やクルーの人数に対して十分ではなかったことが挙げられます。
沈みゆく船から生き延びるのに運の要素はありますが、あるグループはほかのグループより生存率が高くなっています。そのグループとは女性、子供、上流階級、です。
このチャレンジで、Kaggleはあなたにどのような人々がより生き残りやすかったかを分析していただきます。特に、この悲劇を生き延びた客の予測に、機械学習のツールを適用していただくことを望んでいます。
このKaggleの「入門」コンペは、データサイエンティストや機械学習の経験があまりない人々に向けた典型的な入門として提供しています。データは高度に構造化されており、Excel、Python、Pythonのpandas、PythonのRandom Forest(サイドバーのリンク参照)向けに複雑性を増したチュートリアルを準備しています。Rを使ったチュートリアルへのリンクも準備しています。フォーラムはご自由にお使いください。誰かが同じように悩んでいるかもしれませんし。
 
機械学習は初めての場合。
このタイタニックチュートリアルを入門として使うのをおすすめします。
Rのモデルがほしい場合、DataCamp(https://www.datacamp.com/?utm_source=kaggle-ml-launch&utm_medium=blog&utm_campaign=kaggle-ml-launch)によるチュートリアル(https://www.datacamp.com/courses/kaggle-tutorial-on-machine-learing-the-sinking-of-the-titanic)をご参照ください。
Pythonについて学びたい場合、Dataquest(https://www.dataquest.io/)によるチュートリアル(https://www.dataquest.io/course/kaggle-competitions)をご参照ください。

 

****以下、翻訳時点での記事コピー(元記事:https://www.kaggle.com/c/titanic)*****


See best practice code and explore visualizations of the Titanic dataset on Kaggle Scripts. Submit directly to the competition, no data download or local environment needed!
The sinking of the RMS Titanic is one of the most infamous shipwrecks in history.  On April 15, 1912, during her maiden voyage, the Titanic sank after colliding with an iceberg, killing 1502 out of 2224 passengers and crew. This sensational tragedy shocked the international community and led to better safety regulations for ships.
One of the reasons that the shipwreck led to such loss of life was that there were not enough lifeboats for the passengers and crew. Although there was some element of luck involved in surviving the sinking, some groups of people were more likely to survive than others, such as women, children, and the upper-class.
In this challenge, we ask you to complete the analysis of what sorts of people were likely to survive. In particular, we ask you to apply the tools of machine learning to predict which passengers survived the tragedy.
This Kaggle "Getting Started" Competition provides an ideal starting place for people who may not have a lot of experience in data science and machine learning. The data is highly structured, and we provide tutorials of increasing complexity for using Excel, Python, pandas in Python, and a Random Forest in Python (see links in the sidebar). We also have links to tutorials using R instead. Please use the forums freely and as much as you like. There is no such thing as a stupid question; we guarantee someone else will be wondering the same thing!
New to machine learning?
We recommend getting started with this either of these free, interactive Titanic tutorials:
Want to model in R? Check out this tutorial by DataCamp
Prefer to learn Python? Get started with this tutorial by Dataquest.
 

2016年3月24日木曜日

Packt Publishingで一日一冊無料で技術本ダウンロード

Packt PublishingはIT技術系電子書籍販売サイト。基本的に英語のみ対応だが、一日一度無料で電子書籍(PDF版)を入手することができる。気になる技術、書籍がある場合、一日一度はチェックしておきたいところ。



注:Packt PublishingのNeo4j本は、「Learning Neo4j」がNeo4j公式サイトから2016/3/24時点でNeo4jサイトにユーザ登録すると無料でダウンロードできる。ちなみに同種の書籍「Graph Databases」(オライリー書籍(英語版))もユーザ登録で無料でダウンロードできるので、ぜひ両方取得しておくことをおすすめする。
 *Learning Neo4j :http://neo4j.com/book-learning-neo4j/(説明翻訳: http://techinfo4dog.blogspot.jp/2015/09/learning-neo4jneo4jneo4j.html
 *Graph Databases :http://graphdatabases.com/ (日本語書籍は有料で販売されている。)



2016/3/24時点でのユーザ登録、フリーブック取得方法は以下の通り。


●アカウント取得方法


Packt Publishingのサイト(https://www.packtpub.com/)を開く。右上のLog inリンクをクリックする。



アカウントを新規作成する場合、「Not yet a member?」下の「Register now」リンクをクリックする。


Create a New Accountページで必要事項(メールアドレス、氏名、TechPreferences(興味ある技術)、パスワード)を入力し、「私はロボットではありません」にチェックを入れ、右側のメールニュース欄で不必要なもののチェックを外し、Registerボタンを押す。




アカウント作成後、自動ログイン状態でトップページに戻る。(右上のLog inがMy Accountになっている。)



●フリーブック取得方法


ログイン後、トップページを少し下にスクロールしたところにある「FREE LEARNING FOREVER」をクリックする。
(注:Google Chromeではこの画像が出てこないことがある様子。直接のリンクは、https://www.packtpub.com/packt/offers/free-learning )


今日ダウンロードできる本の紹介がある。「Claim Your Free eBook」をクリックする。


「My eBooks」ページに遷移すると、先ほどの本が入っている。



本の名前をクリックすると、Read Onlineなどいくつかのメニューが表示される。


たとえばPDFボタンを押すと、すぐにPDF形式の本がダウンロードされる。




Kindleボタンを押したときには、自分のKindleアドレスの入力欄が表示される。Kindleのアドレス(Send-to-Kindle Eメールアドレス)の確認方法については、http://www.amazon.co.jp/gp/help/customer/display.html?nodeId=201974220 、あるいは以下の記述参照。




●Kindleへの送り方(kindle.comへ送信できるメールアドレス設定と自分のkindle,comメールアドレス確認方法)

*Kindleアドレスに送れるアカウントの設定



Webブラウザの場合、「コンテンツと端末の管理」サイト(https://www.amazon.co.jp/mn/dcw/myx.html#/home/content/booksAll/dateDsc/ )の右にあるタブ「設定」をクリックする。


下のほうに「承認済みEメールアドレス一覧」がある。通常、自分の普段AmazonにログインしているEメールアドレスが表示されている。


「承認済みEメールアドレスを追加」をクリックし、小さなウィンドウが出るので、kindle@packtpub.com を入れて「アドレスを追加」を押す。




*自分のKindleアドレスの確認方法



Webブラウザの場合、先ほどの「コンテンツと端末の管理」サイトの設定内に、「Send-to-Kindle Eメールアドレスの設定」があり、xxx@kikindle.comのメールアドレスの確認ができる。
他に、たとえばAndroid版Kindleアプリの場合、左のボタンを押して出る「設定」を開くと、「個人のドキュメント」欄に「Kindleへの送信用Eメールアドレス」という記載があり、xxx@kindle.comのメールアドレスの確認ができる。