野良データサイエンティスト

統計・機械学習モデリングで対数変換をする3つの目的

統計・機械学習モデリングの過程で説明変数を対数変換することがある。同じ対数変換でも目的や意味がいろいろあるのだが、計量経済学や機械学習といった各分野で別個に説明されているので、違いがわかりやすいように整理してみた。

対数変換の目的は大きく3つに分かれる。

変化率を表現する
分散不均一性に対応する
予測性能を高める

1は解釈、2はモデルの信頼性、3は予測の問題に関わる。

1. 変化率を表現する

関数 $ln\ x$ は $\overline{x}$ の十分近くで以下のように近似できる。

$\displaystyle ln\ x \approx ln\ \overline{x}+\frac{1}{x}(x-\overline{x})$

この式を以下のように変形すると、対数の差は $x$ の変化率を近似的に表すことがわかる。

$\displaystyle\frac{x-\overline{x}}{\overline{x}} \approx ln\ x-ln\ \overline{x}$

ここで次の3つの線形回帰モデルを考える。

$ln\ y= \alpha_1+\beta_1 ln\ x$
$ln\ y= \alpha_2+\beta_2 x$
$y= \alpha_3+\beta_3 ln\ x$

$\beta_1$ は $x$ が1%変化したときの $y$ の変化率を、 $\beta_2$ は $x$ が1単位変化したときの $y$ の変化率を、 $\beta_3$ は $x$ が1%変化したときの $y$ の変化量を表す。なお、ある変数の1%変化に対するほかの変数の変化率を弾力性という。

2. 分散不均一性に対応する

線形回帰モデルでは誤差の分散が均一であることが仮定される。もし分散が不均一ならば、係数の仮説検定に信頼が置けなくなる。

たとえば説明変数の値が大きくなるにつれて誤差が大きい場合、説明変数を対数変換することで不均一を是正できることがある。

3. 予測性能を高める

対数変換が特徴量エンジニアリングの一種としてなされることもある。特徴量エンジニアリングとは、特徴量を変換したり組み合わせたり集約したりすることで新しい特徴量を作成することであり、モデルの予測性能を高めるために使われる。

対数変換は対数正規分布のように裾が延びた分布の偏りを弱める働きをする。分布を正規分布へ近づける変換にBox-Cox変換があり、対数変換はBox-Cox変換の特殊な場合である。

なお、対数変換は決定木系（ランダムフォレスト、勾配ブースティングなど）のモデルでは使う意味がない。決定木のルールは説明変数の大小関係から作成され、対数変換は大小関係に影響を与えないからだ。

参考

改訂版経済学で出る数学: 高校数学からきちんと攻める

改訂版経済学で出る数学: 高校数学からきちんと攻める

作者:尾山大輔,安田洋祐
発売日: 2013/03/01
メディア: 単行本

計量経済学 New Liberal Arts Selection

計量経済学 New Liberal Arts Selection

作者:西山慶彦,新谷元嗣,川口大司,奥井亮
発売日: 2019/09/27
メディア: Kindle版

人文・社会科学の統計学 (基礎統計学)

人文・社会科学の統計学 (基礎統計学)

発売日: 1994/07/01
メディア: 単行本

Kaggleで勝つデータ分析の技術

Kaggleで勝つデータ分析の技術

作者:門脇大輔,阪田隆司,保坂桂佑,平松雄司
発売日: 2019/10/09
メディア: 単行本（ソフトカバー）

現場のプロが伝える前処理技術 (Compass Booksシリーズ)

現場のプロが伝える前処理技術 (Compass Booksシリーズ)

作者:石井大輔（Team AI 代表）,漆畑充（株式会社Crosstab）,及川大智,大下健史（BCI）,オング優也
発売日: 2020/08/31
メディア: Kindle版