Databricks Certified Data Engineer Associate合格体験記およびベンダ試験について考えたこと

先日、Databricks Certified Data Engineer Associateを受験し合格した。せっかくなので受験に際し考えたことなどを記録に残しておこうと思う。 受験の経緯・準備 昨年11月にはじめてDatabricksをさわった。その後、受験を要請されたので準備を開始し、年末…

データサイエンティストが競技プログラミングAtCoderをはじめてやってみた

きっかけ 会社の仕事関係で数理最適化を学ぶことになった。 入門書などを読んで以下のように理解した。 数理最適化は連続最適化と組合せ最適化に大きく分かれる 会社の業務レベルで設計や実装に工夫が求められるのは組合せ最適化のほう(連続最適化は問題の…

阪神タイガースの優勝(アレ)をデータから紐解く

阪神タイガースが18年ぶりにセ・リーグ優勝(以下アレとする)した。データに関するブログなので、今回は阪神のアレをデータから考えてみたい。プロ野球を観ていた方なら、今年の阪神はとにかく投手力が充実していたという話を何度も聞いたはずだ。 一方で、…

誤解しやすい統計・機械学習・データサイエンス用語10選

AIやDXが広まるにつれ、ビジネスの現場で統計や機械学習の用語を耳にすることが増えている。一方、字面からの類推によるものか誤った用語の意味がひとり歩きすることも少なくない。多少意味が間違っていても意思の疎通に問題がなければまだよいが、ときに不…

データ加工スニペットを書いて公開したがよい名前を思いつかない

最近、とあるデータ加工の実装にけっこう頭を悩ませたので、せっかくだからと実装内容を整理してGitHubに公開した。github.comしかし、処理内容を端的に説明するよい名前を思いつかない。実際、最初はChatGPTにやってもらおうと思ったがよい聞き方が思いつか…

データ分析向けのGitHubの使い方について考えて、ChatGPTにも聞いてみた

チーム開発と同様に、チームでデータ分析を進める場合にもGitHubによるソースコードの管理を求められることが多い。目的がデータ分析であれプログラムを作成しているのだからとGitHubを使うことが当たり前に受け入れられがちだが、実際に作業を進めるとGitHu…

元データサイエンティスト採用担当者が未経験からデータサイエンティストになる方法について考える

自分程度の実力・実績のわりに私この業界わかってますよ感が出る気がして、この手の記事を書くつもりはなかったのだが、学生時代の同級生から未経験からデータサイエンティストになるにはどうすればいいのかと聞かれたので、この機会に自らの経験と考えの棚…

イチローの安打数とサッカー1試合あたり得点数とポアソン分布

イチローの1試合あたり安打数はポアソン分布に従いそうに思われるが従わないという記事が少し前に話題になったようだ。 rikei-logistics.com これに対し、ポアソン分布に従わないのは当たり前と指摘する記事も出ていた。 www.anlyznews.com 安打数の分布に関…

会社員をやりながら英国の大学のオンライン修士課程を修了した

昨年の11月にエディンバラ大学の以下のコースを修了した。専攻はデータサイエンス系である。 関心がある人向けの情報共有を兼ねて、個人的な体験から大変だったことや学んだことをまとめておく。www.ed.ac.uk 事務とのやりとり 大学の事務は冷淡でお役所仕事…

Pythonでスクレイピングを並列処理する

並列処理について調べていたら、スクレイピングはサーバのレスポンス待ちなどでデータ受信に時間がかかるので、並列処理すると効率がよいという話を読んだ。 確かに納得感のある説明だが、実際のところどのくらいの効果があるのか気になり簡単な実験をしてみ…

null判定を含むSQLのcaseの書き方

SQLのcaseは列の値によって結果を出し分けたいときに便利な書き方である。 列名がwhenの外側かにくるか内側にくるかで大きく分けて2つの書き方があり、前者をcase式、後者をcase文と呼ぶ向きもある。*1 case <列名> when <条件1(「= 特定の値」など)> the…

Jupyter Notebookでローカルモジュールの更新を反映するときの注意点

ローカルモジュールを更新したとき、Jupyter Notebookを再起動しなければ更新内容が挙動に反映されない。以下のリンク先にもそのような説明がある。qiita.comtm23forest.comここで気をつけたいのは、更新内容が出力セルには反映される点だ。たとえばJupyter …

(随時更新)2022年に読んだ本のメモ

2月 www.shoeisha.co.jpwww.kspub.co.jpwww.msz.co.jpwww.chuko.co.jpwww.chikumashobo.co.jp 1月 データサイエンス関連 www.kspub.co.jp ベイズ統計の本をまともに読んだことがなかったのでざっと通読した。ソースコードが多くを占める本としては、理論的な…

相関係数と正規性

最近、相関係数における2変数の正規性の必要性について考えることがあり、そのときに調べたことをまとめた。確証の持てる結論は得られず、ややお気持ち的なまとめになっている。 推測統計の文脈で相関係数を使う場合 相関係数の検定や区間推定をする場合、事…

JRA海外競馬発売データを利用して日本馬の払戻率を定量的に分析する

JRAでは海外競馬発売が行われている。 原則としてJRAは自らが主催するレースの馬券を発売するのだが、日本馬が出走するレースに限って海外競馬の馬券を発売することがあるのだ。 当然、日本馬だけでなく全出走馬のうち好きな馬に賭けることができるのだが、…

最小限の労力でMacBookにDockerデータサイエンス環境を構築する

データサイエンティストの間でもDockerの人気が高まっているが、エンジニアのように使いこなすことは容易ではない。マーケター寄りのデータサイエンティストならインフラ技術を学んだことがなくても不思議ではないし、そんなところに時間をかけたくないと考…

新型コロナウイルスPCR検査から性能指標の使い分けを考える

新型コロナウイルスPCR検査の説明を読んでいると、業務(広告関係)であまり聞かない感度や特異度といった指標が出てきた。そこで、再現率や精度といった機械学習の教科書でよく出てくる性能指標と比較しながら、そもそもどのような場合にどのような指標を使…

転職活動に役立つデータサイエンティストのアウトプット・称号

最近、データサイエンティストとして転職活動をして内定をいただきました。 内定を得るのに実務経験が大事であることは言うまでもないですが、ここでは転職活動で役立つと筆者が考えている次のアウトプットや称号を整理してみました。 Kaggle 論文 特許 書籍…

交絡に対処するための因果推論の手法

因果推論の各手法について、どれをどのような場合に用いるべきなのかがわからなくなるので、交絡への対処方針という観点から自分なりに整理してみた。 交絡と因果推論 2つの変数間に因果関係を想定するとき、原因と結果の両方に影響を与える別の変数が存在す…

統計・機械学習モデリングで対数変換をする3つの目的

統計・機械学習モデリングの過程で説明変数を対数変換することがある。同じ対数変換でも目的や意味がいろいろあるのだが、計量経済学や機械学習といった各分野で別個に説明されているので、違いがわかりやすいように整理してみた。 対数変換の目的は大きく3…