新型コロナウイルスPCR検査から性能指標の使い分けを考える

新型コロナウイルスPCR検査の説明を読んでいると、業務(広告関係)であまり聞かない感度や特異度といった指標が出てきた。そこで、再現率や精度といった機械学習の教科書でよく出てくる性能指標と比較しながら、そもそもどのような場合にどのような指標を使って性能を評価すべきかを考えてみた。

用語の定義

データがあるカテゴリに属するかどうかの二値分類について、分類されたカテゴリと実際のカテゴリの組み合わせは混同行列と呼ばれる表に整理される。PCR検査の判定を例にとると次のようになる。

f:id:wubaijin:20210515144745p:plain

分類モデルの一般的な性能指標

機械学習の教科書では再現率と精度が代表的な評価指標として紹介されることが多い。各々次のように定義される。

再現率 = 真陽性 / (真陽性 + 偽陰性)

精度 = 真陽性 / (真陽性 + 偽陽性)

医療分野における性能指標

一方、新型コロナウイルスPCR検査など医療分野では、検査の性能指標に感度と特異度が使われることが多いようだ。

感度= 真陽性/(真陽性+偽陰性)

特異度 = 真陰性/(真陰性+偽陽性)

定義を見ればわかるように、感度と再現率は同じ指標である。医療分野では精度を使わず、代わりに特異度を使っているということになる。

なぜ医療分野で感度と特異度が使われるのか

ここで、新型コロナウイルスPCR検査を例にとって、医療分野で感度と特異度が使われる理由を考えてみたい。

自治体は毎日PCR検査の陽性者数を発表しているが、同時に日ごとの陽性率も公表している。陽性率とは検査を受けた人のうち陽性と判定された人の割合である。流行状況によって陽性率は高くなったり低くなったりするが、陽性率が高いほど真の感染者が検査対象者に占める割合も高くなる傾向がある。下の2つの表は同じ検査を異なる検査対象者グループへ実施した結果だが、右のほうが左より陽性率も感染者の割合も高い。

f:id:wubaijin:20210515145821p:plain

PCR検査の対象者のように、カテゴリ構成比が変動するデータに対しては精度を性能指標に用いることが難しい。あるカテゴリの比率が上がると、閾値を変えなくてもそのカテゴリに対する精度が上がってしまうからだ。先の表では右のほうが左より精度が高いが、右のほうが性能がよいとはいえない。どちらも同じ検査だから、性能は同じである。

一方で閾値が一定である限り、カテゴリ構成比にかかわらず感度と特異度は一定である。偽陽性偽陰性のバランスを見ながら閾値は設定される。偽陽性は少ないが偽陰性は多い閾値では、感染していないのに感染していると判定されている人は少ないが、感染しているのに感染していないと判定される人は多い。逆に偽陽性は多いが偽陰性は少ない閾値では、感染していないのに感染していると判定されている人は多いが、感染しているのに感染していないと判定される人は少ない。

性能指標をどのように使い分けるべきか

以上から、医療分野でなくても、データのカテゴリ構成比が時間とともに変化する可能性がある場合には、精度の変化を額面通り受け止めてはならないと言える。カテゴリ構成比が異なると、同じ精度でも同等の性能を示しているわけではないからだ。また、モデルの精度が低下している場合、データに対するモデルの当てはまりが悪くなっていることやそもそもモデルの汎化性能が低かったことが一般に考えられるが、カテゴリ構成比の変化から精度の低下が生じているならいずれも起きていないことになる。

感度と特異度はカテゴリ構成比の影響を受けないので、精度を性能指標に入れたい場合でも感度と特異度を合わせて確認すれば、精度の変化がカテゴリ構成比によるかどうかを切り分けやすくなる。

データに対するモデルの当てはまりが悪くなる可能性がある分野なら、精度のモニタリングは重要である。医療分野においては、当てはまりが悪くなるとはある検査に対する人体の反応の仕方が変わることを意味する。このようなことは数日どころか数年経ってもまず起きない。

参考

はじめてのパターン認識

はじめてのパターン認識

  • 作者:平井 有三
  • 発売日: 2012/07/31
  • メディア: 単行本(ソフトカバー)
 

 

jeaweb.jp