自己成就的悪と先読み割引

機械学習、超大量データ、単純アルゴリズム、ベイズ推定、計算機の高速化と低価格化、の組み合わせでゴリ押しでなんとかする手法はこれからどんどん増えそうだ。もっとカジュアルにもなるだろう。数年後から数十年後には、現在の学部一年生が統計学の初歩を学ぶのと同じ具合に機械学習を学ぶというのもありえなくはないのだろう。

気になるのは、これらの研究や技術の適応を総当たり的に試していくと、やがて政治的、人倫的によくない結果が検証されてしまうのではないか、ということだ。

例えばリスク細分型保険では、車の走行距離とか病歴によって保険料が高低する。これらの変数は社会的に深刻なものではないし、意志によってある程度左右できるのでまあ良い。しかし例えば個人向け金融商品に関する信用リスクの研究がやけに発展し、人種や性別など変えようの無い変数によってデフォルト率がかなり異なるといった結果が出てしまったとする。

10000歩譲って金融機関がバレないようにひっそりとこのモデルを使うのは許すとしても、このモデルをみんなが一斉にやりだすのはかなりまずい。こういう変えようのない変数による社会的選別が行われれば単に悪質な差別であるだけではなく、自己成就的に変えようのない変数による差をますます拡大することになる。このような場合には、年々モデルの説明力が高まっていくが、モデルの説明力が高まること自体が社会的な悪を意味することになる。

こういう世の中では、モデルの自己成就力をあらかじめ見越して、その分をあらかじめ割り引いておくことが必要になるのかもしれない。

というようなことを時々考えるが、ゴリ押しによる予測や推定はどれくらい使い物になるのか、さっぱり見当がつかない。googleが10年前に登場したときは神そのものだったが、10年たってもウェブ検索は何一つ革新的に進歩しているようには見えない。googleでさえそうなのだから、という人と、google程度のしょぼい会社に期待する方が間違いだ、という人が同じくらいの割合でいてどちらも説得力がある。10年後はどうなるかなあ。