誤解しやすい統計・機械学習・データサイエンス用語10選

AIやDXが広まるにつれ、ビジネスの現場で統計や機械学習の用語を耳にすることが増えている。

一方、字面からの類推によるものか誤った用語の意味がひとり歩きすることも少なくない。

多少意味が間違っていても意思の疎通に問題がなければまだよいが、ときに不幸な認識の齟齬を生むこともあり、そのような事態は避けたい。

今回は、とくに誤解されることが多いと筆者が感じた10語について解説する。

個人的には、ビジネスの場面であらゆる誤用をいちいち正す必要はないものの、誤用による認識の齟齬は避けるべきと考えている。そのために誤用のパターンを頭の中で整理しておくことは意味があるかなと思う。

なお、偉そうに書きながら筆者が間違っている可能性もあるので、その際はコメントなどで優しくご指摘をいただけるとありがたいです。

1 母数

「母数警察」を入れてTwitterで検索すれば数多のツイートが引っかかる、誤解されている統計用語界のスターといっていい。
おおかた、「分母」のような意味で誤用されることが多いと感じる。
「母数が少なすぎてこのアンケートの結果は信頼できない」といった形で使われる。
正しい意味は英語にすると簡単で、「パラメータ」である。
世論調査から内閣支持率を知りたいとき、母数は質問に答えた人数ではなく、全国民に聞いたときの内閣支持率である。
筆者の観測する範囲ではパラメータのことを母数ということをむしろ聞いたことがないので、意外と名前の衝突が起きておらず無害な誤用のではと思っている。

2 サンプル数

誤解しやすいと指摘しながら、自分でも誤用してしまうことがある。
サンプルというのはひとまとまりのデータを指すので、世論調査を1回実施すれば、回答人数が100人だろうと1,000人だろうとサンプル数は1である。
そうではなく100人や1,000人を指す用語を使いたい場合のほうが多いと思われるが、これは「サンプルサイズ」という。
サンプル数が1以外になるのはどういう場合かというと、たとえば東京と大阪での内閣支持率の違いを調査し、各々からまとまった数の回答を得たとすると、サンプル数は2になる。

3 見かけの相関

相関関係と因果関係は違いまぁす!とデータサイエンティストが口うるさくいっているのを聞いたことがある方もいるかもしれない。
ところで見かけの相関があるとは、相関関係がないのではなく、むしろ相関関係はあるが因果関係がないことを意味する。
ならば見かけの因果というべきなのではという指摘はもっともだと思う。
個人的に、見かけの因果とあえていって無用な誤解を避けようとしている。「見かけ」という一般的な語と「因果」という用語を組み合わせて使っているだけで、何も間違った言い方はしていないし。

4 精度

機械学習モデルを改良した結果、異常検出の精度が10ポイントも上昇しました!」というとき、いったい何が10ポイント上昇したのだろうか。
(余談だが、たとえば精度が40%から50%になったときは10ポイント上昇したと表現することが好ましいらしい。10%上昇したというと、40%から44%になったと受け取られかねないからだとか)

何らかの異常を検出する場合、異常を異常と判定することの裏返しとして正常を正常と予測している。
異常を陽性、正常を陰性を定義すると、精度は異常と判定した対象が本当に異常である率、すなわち陽性の的中率を指す。陰性を含めた全体の的中率は「正解率」と呼ぶ。
実用上これらの使い分けはけっこう重要であり、たとえば1万個に1個程度発生する不良品を検出するシステムの正解率が99%以上といわれても、それだけですごいシステムと信じる理由にはならない。全部に対して問題なし!ヨシ!と判定しても、正解率は99.99%くらいになるからだ。
逆に新型コロナウィルスの検査のように、陰性のケースが大半であっても陰性の人を正しく陰性と判定することが社会的に有益である場面もある。
(このあたりは感度(これは精度と同じ)と特異度を使われることが多いらしく、以前に記事を書いた)

なお、日常的な用法と紛らわしいことを避けるためか、精度の代わりに適合率という向きもあるらしい。

5 信頼区間

調査会社によるある番組の視聴率の95%信頼区間が10%から11%であったとき、「真の視聴率は95%の確率で10%から11%の間に入っている」と理解されることが非常に多いが、信頼区間が仮説検定の用語であることを踏まえるとこれは間違いである。
95%信頼区間とは「95%の確率で真の値が含まれるような幅のとり方をした区間」であり、10%から11%という幅はあるサンプルから信頼区間を算出して得られた結果に過ぎない。
そもそも仮説検定の考え方に従えば、真の視聴率は観測できないだけで特定の値に決まっているのだから、区間が10%から11%だろうとそれ以外だろうと、真の値を含む確率は0か1にしかならない。

一方、「真の視聴率は95%の確率で10%から11%の間に入っている」という理解のされ方の背景には、得られたデータをもとに知りたい値に対してあたりをつけられる(確率分布を作れる)という考え方があり、これはベイズ統計の「信用区間」で理論化されている。
ざっくりいえば、仮説検定(が依拠する頻度論)の用語が使われているのに、ベイズの文脈で理解されているということになるのだろうか。
そういうわけで、直感的でないわりに実用上とくに有用でもない仮説検定の用語を極力使わなければいいように思う。

6 有意な結果

これも仮説検定をはじめ頻度論で出てくる用語である。ある分析の結果が統計的に有意であることが、「ビジネス上意味がある」と解釈されることがあるが、そんなことはない。

インターネット広告の画像を変更した結果クリック率が1.0%から1.1%になり、統計的に有意という結果が出たとして、ビジネス上有意かどうかは統計の枠組みの外で決まることである。
0.1ポイントの上昇がビジネスにもたらす利益は画像の変更にかかるもろもろの費用を差し引いても大きいかもしれないし、むしろマイナスかもしれないが、仮説検定は何の答えも提供してくれない。

7 検証データ

機械学習モデリングでは訓練データに加え検証データとテストデータが使われる。
モデルを「検証」するのも「テスト」するのも同じように思われるが、両者の使い道は異なる。
テストデータが文字どおりモデルの性能をテストするために使うデータであるのに対し、検証データはハイパーパラメータの更新のために使う。
講義の訓練フェーズで用いられるデータという意味で、検証データはむしろ訓練データに近い立ち位置くらいに思ったほうがいいかもしれない。

8 ロジスティック回帰

「回帰」とついているのに、「分類」問題を解くために使う手法である。
なんで回帰とつくのかはよく知らないのだが、一般化線形モデルの文脈でそう呼ばれるようになったとかなのだろうか。
なお、そもそも「回帰」が「連続値の予測」という意味だと知られていない場合もあるようだ。
「予測か分類のどちらかで〜」などという言い方を聞くことがあるが、分類も予測の一種である。連続値の予測が回帰で、カテゴリ(離散値)の予測が分類。

9 トレンド

時系列分析で出てくる用語である。
「アイスの売上予測モデルでは、毎年夏になると売れるトレンドが反映されるように〜」などと言われたりするが、そういった傾向は時系列分析の世界では「周期性」という。
トレンドとは、ここ5年くらいアイスの売上が平均的に上がっているといった、まとまった期間の変化の傾向のことをいう。

10 パラメータ

これはデータサイエンティストがモデリングしているときに聞くものだが、グリッドサーチなどを使ってチューニングするとき「パラメータをチューニングする」ということがある。
ここでチューニングするのは正しくは「ハイパーパラメータ」である。
本当に混同している場合と、「ハイパーパラメータ」というのが長く面倒なので、文脈的に誤解がない範囲であえてパラメータといっている場合があるような気がする。