2016年4月2日土曜日

「Titanic: Machine Learning from Disaster」コンペ用データの取得方法、概要説明(Kaggleのタイタニック号沈没生存グループ予測チュートリアル)

KaggleのTitanicコンペのデータの取得先、データの説明は、
https://www.kaggle.com/c/titanic/data
にある。

 データを取得するには、コンペルールに承諾する必要がある(I understand and acceptを押す)。





ダウンロードできるファイルとその中身の概要は以下の通り。

File NameAvailable Formats
train(訳注:フォーマットは以下に記載。891人分。訓練データだろう。).csv (59.76 kb)
gendermodel(訳注:892-1309番目までの番号とSurvivedが0か1か。).csv (3.18 kb)
genderclassmodel(訳注:gendermodel.csvと同じ???).csv (3.18 kb)
test(訳注:892-1309番目までのtrain.csvと同じフォーマット。ただしSurvivedなし。これが問題、gendermodel.csvが答えだろう。).csv (27.96 kb)
gendermodel(訳注:未確認。確認後記載).py (3.58 kb)
genderclassmodel(訳注:未確認。確認後記載).py (5.63 kb)
myfirstforest(訳注:未確認。確認後記載).py (3.99 kb)


train.csvデータの概要は以下の通り。

※訳注:以下、青文字の訳注部分は、2016/4/2時点でダウンロードしたtrain.csvの中身を見てのデータ例。結構からっぽデータがあるのとキャビン、チケットのフォーマットが統一されていないのが注意が必要か。


図:train.csvの中身例
図:test.csvの中身例
図:gendermodel.csvの中身例
VARIABLE DESCRIPTIONS: survival Survival(生存したかどうか。0が死亡、1が生存。) (0 = No; 1 = Yes) pclass Passenger Class(船客のクラス。社会的地位。訳注:1,2,3のみで全部入っている様子。) (1 = 1st; 2 = 2nd; 3 = 3rd) name Name(名前) sex Sex(性別。※訳注:maleとfemale。) age Age(年齢。※訳注:からっぽあり。例:0.75、24.5) sibsp Number of Siblings/Spouses Aboard(乗船している兄弟姉妹、配偶者の数。訳注:全部入っている様子。整数。0-8) parch Number of Parents/Children Aboard(乗船している親あるいは子の数。訳注:全部入っている様子。整数。0-6) ticket Ticket Number(チケット番号。※訳注:フォーマットばらばら。例:A/5 21171、237736、STON/O2. 3101282など) fare Passenger Fare(乗船料金。※訳注:けっこういろいろ。例:8.4583、16.7。0~512少々) cabin Cabin(キャビンの種類。※訳注。からっぽあり。フォーマットばらばら。例:A5、C110、C23 C25 C27(←3つも入っていたりするものもある)、F G73(←なんだろこれ)) embarked Port of Embarkation(乗船した港名)※訳注:以下の3つのみ。少しだけ空っぽあり。実際の地図については、http://trevorstephens.com/post/72916401642/titanic-getting-started-with-r のサイトの頭のほうに分かりやすいものあり。 (C = Cherbourg; Q = Queenstown; S = Southampton) SPECIAL NOTES(注釈): Pclass is a proxy for socio-economic status (SES) (Pclassは社会的地位(SES)を示す。) 1st ~ Upper; 2nd ~ Middle; 3rd ~ Lower Age is in Years; Fractional if Age less than One (1) If the Age is Estimated, it is in the form xx.5(年齢が推測の場合、xx.5と記載。) With respect to the family relation variables (i.e. sibsp and parch) some relations were ignored. The following are the definitions used for sibsp and parch.(家族の関係を尊重するため、以下のように定義している。) Sibling: Brother, Sister, Stepbrother, or Stepsister of Passenger Aboard Titanic(乗船している兄弟、姉妹、義理の兄弟、義理の姉妹) Spouse: Husband or Wife of Passenger Aboard Titanic (Mistresses and Fiances Ignored)(夫、妻が乗船しているか。女主人(←?)、婚約中は除外。) Parent: Mother or Father of Passenger Aboard Titanic(父か母が乗船しているか) Child: Son, Daughter, Stepson, or Stepdaughter of Passenger Aboard Titanic(息子、娘、義理の息子、義理の娘が乗船しているか) Other family relatives excluded from this study include cousins, nephews/nieces, aunts/uncles, and in-laws. Some children travelled only with a nanny, therefore parch=0 for them. As well, some travelled with very close friends or neighbors in a village, however, the definitions do not support such relations.(いとこ、甥、姪、おじ、おばといったその他の親族は無視しています。乳母と一緒に乗船している子供については、parch(父母を示す)は0です。かなり親しい友達や隣人も、関係性としては記載していません。)


  ****以下、翻訳時点での記事コピー(元記事:https://www.kaggle.com/c/titanic/data)*****


VARIABLE DESCRIPTIONS:
survival        Survival
                (0 = No; 1 = Yes)
pclass          Passenger Class
                (1 = 1st; 2 = 2nd; 3 = 3rd)
name            Name
sex             Sex
age             Age
sibsp           Number of Siblings/Spouses Aboard
parch           Number of Parents/Children Aboard
ticket          Ticket Number
fare            Passenger Fare
cabin           Cabin
embarked        Port of Embarkation
                (C = Cherbourg; Q = Queenstown; S = Southampton)

SPECIAL NOTES:
Pclass is a proxy for socio-economic status (SES)
 1st ~ Upper; 2nd ~ Middle; 3rd ~ Lower

Age is in Years; Fractional if Age less than One (1)
 If the Age is Estimated, it is in the form xx.5

With respect to the family relation variables (i.e. sibsp and parch)
some relations were ignored.  The following are the definitions used
for sibsp and parch.

Sibling:  Brother, Sister, Stepbrother, or Stepsister of Passenger Aboard Titanic
Spouse:   Husband or Wife of Passenger Aboard Titanic (Mistresses and Fiances Ignored)
Parent:   Mother or Father of Passenger Aboard Titanic
Child:    Son, Daughter, Stepson, or Stepdaughter of Passenger Aboard Titanic

Other family relatives excluded from this study include cousins,
nephews/nieces, aunts/uncles, and in-laws.  Some children travelled
only with a nanny, therefore parch=0 for them.  As well, some
travelled with very close friends or neighbors in a village, however,
the definitions do not support such relations.

中古iPhone5にアクティベーション専用SIMを入れて音楽プレイヤー代わりに使う話

 iPod touchの2代目だったか、後ろが銀色の鏡みたいで丸くなっている機種を長年使っていたが、ここ数年、アプリを落とそうとすると、iOSが古くて対応していないと言われるようになり、何もダウンロードできなくなってしまった。
 英語勉強用アプリケーション(と少々のゲーム)を多用していたが、新しいのを入れられない。iOSのUpdateも考えたが、中途半端にUpdateしても、今ダウンロード済みのも使えないし新しいのも結局古くて新規インストールできないという非常に嫌な穴に落ち込まないとも限らない。
 iPod touchを新しく買おうと思ったのだが……。
 
先日のMNP事件(http://techinfo4dog.blogspot.jp/2016/01/auuq-mobilemnp.html)で、どうもメインのスマホ状況が不安定。iPod touchもWi-Fi環境があれば普通にネット接続もできるのが、GPSが使えない。iPhoneならGPSは使えるが、新品の入手は難しい。それにiPhone買っておけば、約一年後に格安スマホ業者をMNPしたときにそのまま機種が2ndとして使えるかも。それに海外にしばらく行く可能性が少しだけ出てきたので、iPhone持っていればその辺のSIM刺すとそのまま使えるのでは、とか甘い期待。特にsoftbankなら米国と手を組んでなかったっけ、なんて。(これは見通しが甘すぎるかもしれないが。)


 ……ということで、先日のsol22中古入手したのに味を占めたこともあり、中古iPhoneを狙ってみることにした。
 いろいろな店で中古のiPhoneは売られている。傷とか機種によって、およびauかdocomoかsoftbankによって価格が違う。ネットショップから現実世界の店からいろいろと見てみたのだが。
 ちょうど近くのショップで、相場よりかなり安価なiPhone5を見つけた。傷がついているからその価格、というが、気にならない程度。それで1万少々で買えるなら結構いいのでは(他の同型機種が2、3万する)。softbank準拠。意気揚々と買おうとしたのだが……。
 SIMが無いとアクティベートできない、アクティベートしないと使えない、という情報を店員から聞き、すごすごと引き下がる。むーん。まさかそんな穴があろうとは。(NanoSIMなので、私が持っているMicroSIMは使えない。)
 
 ただあきらめきれない。少々Google先生に聞いてみると、こういう問題がよくあるらしく、アクティベート専用SIMが売られているらしい! ……へぇ、おもしろいね。
 価格も、もしダメで泣き寝入りしても問題ない程度。試しに購入(下記リンク参照。iPhone5対応アクティベーションSIM)。そして先日の店に走り、まだあった機種購入。いそいそとアクティベート。おぉ……。確かに通った。

 二週間ほど使って、今のところ快適。Wi-Fi経由でアプリはさくさくダウンロードできるし。iPhone5用のケースだとまだまだいろいろなところで売っているし(下記サイトの購入。Suicaも入って反応悪くないし、いい色だしいい感じ)。音楽アプリの使い勝手がiPod touchより多少悪いけれど、まぁそれほど不便はないか。Wi-Fiは問題なく使えるので、Wi-Fi拾えるところだとネットサーフィンとかアプリダウンロード、ゲームも問題なし。