2021-01-01から1年間の記事一覧

JRA海外競馬発売データを利用して日本馬の払戻率を定量的に分析する

JRAでは海外競馬発売が行われている。 原則としてJRAは自らが主催するレースの馬券を発売するのだが、日本馬が出走するレースに限って海外競馬の馬券を発売することがあるのだ。 当然、日本馬だけでなく全出走馬のうち好きな馬に賭けることができるのだが、…

最小限の労力でMacBookにDockerデータサイエンス環境を構築する

データサイエンティストの間でもDockerの人気が高まっているが、エンジニアのように使いこなすことは容易ではない。マーケター寄りのデータサイエンティストならインフラ技術を学んだことがなくても不思議ではないし、そんなところに時間をかけたくないと考…

新型コロナウイルスPCR検査から性能指標の使い分けを考える

新型コロナウイルスPCR検査の説明を読んでいると、業務(広告関係)であまり聞かない感度や特異度といった指標が出てきた。そこで、再現率や精度といった機械学習の教科書でよく出てくる性能指標と比較しながら、そもそもどのような場合にどのような指標を使…

転職活動に役立つデータサイエンティストのアウトプット・称号

最近、データサイエンティストとして転職活動をして内定をいただきました。 内定を得るのに実務経験が大事であることは言うまでもないですが、ここでは転職活動で役立つと筆者が考えている次のアウトプットや称号を整理してみました。 Kaggle 論文 特許 書籍…

交絡に対処するための因果推論の手法

因果推論の各手法について、どれをどのような場合に用いるべきなのかがわからなくなるので、交絡への対処方針という観点から自分なりに整理してみた。 交絡と因果推論 2つの変数間に因果関係を想定するとき、原因と結果の両方に影響を与える別の変数が存在す…

統計・機械学習モデリングで対数変換をする3つの目的

統計・機械学習モデリングの過程で説明変数を対数変換することがある。同じ対数変換でも目的や意味がいろいろあるのだが、計量経済学や機械学習といった各分野で別個に説明されているので、違いがわかりやすいように整理してみた。 対数変換の目的は大きく3…