えめばら園

Philosophier' Er nicht, Herr Schatz, und komm' Er her. Jetzt wird gefrühstückt. Jedes Ding hat seine Zeit.

統計的な予測規則とその成功 Bishop & Trout (2005) 

Epistemology and the Psychology of Human Judgement

Epistemology and the Psychology of Human Judgement

  • Bishop,M. and Trout, J. (2005) *Epistemology and the psychology of human judgment* (Oxford University Press)

1. 手札を見せる
2. 統計的予測規則の驚くべき成功 ←いまここ
3. 向上心理学から認識上の教訓を汲み取る
4. 戦略信頼性主義:ロバストな信頼性
5. 戦略信頼性主義:卓越した判断のコストと利益
6. 戦略信頼性主義:認識的な重要性
7. 標準的な分析的認識論の問題点
8. 認識論を実践へ:心理学における規範性論争
9. 認識論を実践へ:積極的なアドバイス
10. 結論
補遺

・重要な決定にあたっては、出来るだけ多くの関連する証拠を集めて慎重に重みづけし、全証拠が支持する判断を採用すべきである。このことを誰が否定するだろうか? 私だ。向上心理学によれば、証拠の多くを無視し、長い経験にも頼らないで、むしろ、簡単な「統計的予測規則」(SPRs)に従った方が上手くいく場面が結構ある。

1.SPRsの成功

1.1固有線形モデル

・SPRsの中でも特に成功を収めたのが「固有線形モデル」(Dawes 1982)である

  • P = w1c1 + w2c2 + w3c3 + w4c4 

(cnはn番目の手掛かりの値、wnはその値に割り当てられる重みづけを指す)
・例えばワインの質を予測したい場合、c1に年齢、c2-4に生産地の気候を入れ、こうした手掛かりと問題の性質との相関を示す十分大規模なデータを使って重みづけを調整してやる(Pと問題の性質の間の関係が最適化されるのが「固有」の所以である)。
・固有線形モデルの成功には次のような説明が自然である:「固有線形モデルは〔あらかじめ〕大規模データに合うように構築されていた。一方人間側にはそのデータはなかったし、あってもうまく扱えない」。しかし、「非固有」の線形モデルも成功するため、この説明は誤りである。

1.2 ブートストラッピングモデル(BSモデル):専門家 vs メカ専門家

・多くの臨床家は、ミネソタ多面人格目録により患者を精神病か神経症に分ける訓練を積んでいる。Goldberg (1970) は、専門家29人に患者を判定させ、「その心理学者の判断に」最適に合致する固有線形モデル(BSモデル)を29個構築した(問題の性質には非固有)。しかし驚くべきことに、BSモデルは多くの場合、その元となった専門家よりも信頼できる診断を出すことが分かった(cf. Wiggins and Kohen 1971, Dawes 1971)。
・なぜなのか。 初期の仮説は、推論の運用上のエラーをモデルなら避けられるというものだった(Bowman 1963, Goldberg, 1970)。ところが……

1.3 ランダム線形モデル

・Dawrs and Corrigan (1974) は、BS実験を5つ取り上げ、それぞれに関して、重みづけをランダムに振った「ランダム線形モデル」を構築した。すると、このモデルは固有線形モデルとは同じくらい、そして専門家より信頼可能な予測を出した。
・これは流石に驚かれた。「人間は脳内で準最適な式を「計算する」が、最適な重み付けに達する事は難しいので、固有線形モデルは人間を凌駕する」、これがまず自然な考え方だった。BSモデルの成功も、BSモデルは人間の準最適モデルに近く、しかも運用エラーがない、という形で説明できそうだった。しかし、専門家が何らかの準最適な計算を行っているならば、どうしてランダム線形モデルに負けることがありうるのか? 

1.4 単位重みづけモデル

・成功する非固有線形モデルの中には、全ての手掛かりに一律に重み付ける「単位重みづけモデル」がある(例:「セックスしてる割合から喧嘩してる割合を引く」ことでカップルの幸福度を高い信頼性で予測する「F 引くF規則」;Howard and Dawes 1976)。
・単位重みづけモデルには、(1)「注意を払うべき証拠の量」が少ない、(2)重み付けいらないという「使いやすさ」(3)「高い信頼性」の3つの利点がある。
・単位重みづけモデルの成功を踏まえると、実践的な場面で重要なのは、少数の「大きな」変項をただ加えることである(Meehl quated from Dawes and Corrigan 1974)。

1.5 SPRs 対 人間:不公平なテスト?

・SPRsと人間の予測の比較によく投げかけられる反論は、「専門家が使える情報が、式に入るような客観的な情報に制限されているのは不公平だ。現実世界の幅広い質的証拠を使えば、専門家はSPRsに勝てる」というもの。これには3つ問題がある。
・(i)証拠がない、(ii)多くの質的証拠は定量化でき、それをSPRが用いれば更によい予測が出来る、(iii)質的証拠を足すと予測がむしろ下手になるという知見がある。例えば職業紹介所や入試当局は、候補者のデータの他に非構造化インタビューを行って判断を下すと、悪い判断を下しがちになる(インタビュー効果;Bloom and Brundage 1947)。

2.SPRsはなぜうまくいくのか

・SPRsの成功は奇跡っぽいが、たとえ説明がないにせよ、パフォーマンスのみを基礎に我々はSPRsの方を好むべきである。実際、人間の高次認知プロセスの成功に関する説明もやはり無く、人間の判断をSPRsに置き換えるのは神秘を神秘に置き換えるに過ぎない。

2.1 フラットマキシマム原理

・固有線形モデルの成功に適切な説明が与えられたとしよう。一見すると、非固有線形モデル・ランダム線形モデルには別の説明が必要なように見える。ところが、実は後者の成功は前者の成功におぶさっている。というのも、統計学にはフラットマキシマム原理という原理がある(Lovie and Lovie 1986)。これは、以下のような条件を満たす予測問題に関しては、どのモデルも同じような予測を出すことを教える。

(1)問題が難しい(一つのモデルが突出して良い回答を与えるようなものではない)。
(2)証拠となる各々の手掛かりがちゃんと予測的なものになっている
(3)証拠となる各々の手掛かりがいくらか重複的である。(例えば、高いGPA取得者は筆記試験の点数も高くなる傾向がある。)

・そして、仕事の成功、再犯傾向、野球チームの勝利などの社会的な判断の多くはこうした特徴を持つ傾向があるため、非固有線形モデルは成功するのである。

2.2 コンドルセは助けてくれるか

・ではなぜ固有線形モデルは成功するのか。コンドルセの陪審定理によると、各々の陪審員が二択の問題に際して互いに独立に判断するとき、各々がチャンスレベルより僅かでも良い選択が出来るなら、陪審の多数決は正しい選択になる傾向がある。この傾向は陪審員の数が多いほど確かになる。今、成功する線形モデルを、各々の陪審員(手掛かり)からなる陪審団と類似したものだと考えると、予測が上手くいくことは理解できる。
・ただしこの説明には、(1)成功するモデルの用いる手掛かりは少ない点、(2)さらに、より多くの手掛かりを用いる専門家より成功する、という疑問点がある。

2.3 別の仮説:我々が関心を持っている世界は単調な相互作用で構成されている

・Hastie & Dawes (2001) の説明は3段階に分かれる。(3段階目は次節の論点)

  • 【1】固有線形モデルは単調な相互作用を精確に表象しうる

(単調な相互作用とは例えばこうである。食事Dと運動Eが減量に寄与するとして、減量の総量が両者の寄与の加算になっている。一方、両者の寄与に「何か」(「相互作用効果」)が付け加わっている場合には、相互作用は単調ではない。固有線形モデルは重みづけられた諸手掛かりを単純に加算するものなので、単調な相互作用を精確に表象できる)

  • 【2】(線形モデルが成功する)社会的場面では、相互作用は(だいたい)単調である。

・この説明はつまり、固有線形モデルは現象の原因と影響力をうまく表象できているので成功すると言うものである。ただし、これではSPRsのロバストな成功は説明できない。
・というのも例えば、学部時代のGPAや筆記試験成績は大学院の学業成績の第一の原因ではない。GPAや筆記試験に関わる複雑な諸要因が、大学院の学業成績にも深く関係していると言うのが実情だろう。すなわち、世界の因果的構造をSPRsの中に〔直接〕「読み込め」ない場合でも、やはりSPRsは信頼可能で使うに値する。

3.人間の予測の欠点

・もしかすると正しい問いは、「我々は何故悪く予測するのか」なのかもしれない。

3.1 相関の幻想

・人間は何もないところに相関を見出したり、実際ある相関を見落としがちである。
・患者に人の全体像を描かせるDAPテストは、1960年中頃までにはその絵の特徴と患者の症状との間の相関はないことがわかっていた(例:分裂病→目が大きい)。しかしChapman & Chapman (1967) が心理学を学び始めの生徒に対し、患者の症状と絵をランダムにペアにして示したところ、被験者は相関を発見したと主張した。しかもそれは、かつて心理学者が見つけたと主張したのと同じものだった。この想定上の相関をネガティヴなものにしてさえ、やはり被験者はそこに相関があると主張した。 
・ロールシャッハテストに関しても、かつて想定された相関は実際は殆ど無い。男性の同性愛者はカード4に怪物を見る傾向にあるといった相関はあるのだが、これは、例えば「女性の服に見る」といったものと比べ「一見して妥当な」相関ではない。Chapman & Chapman (1969) はこの「一見して妥当ではないが実際は妥当な」サインと同性愛との相関を100%にしたが、被験者はこの相関を見つけることが出来なかった。

3.2 記憶・注意・計算の限界

〔省略〕

3.3 信頼可能なフィードバックの欠如

・複雑な社会的判断を信頼可能な形で始められなくても、正確なフィードバックがあれば改善が見込める。しかし、我々の受け取るフィードバックはふつう3点で不完全である。
(1)まず、多くの人は推論戦略の効果をテストするための統制群を持たない。入試担当者は受験生にインタビューを行い、結果として良い生徒が集まるかもしれないが、そこからただちに彼の「インタビュー力が」信頼可能だということにはならない。
(2)特に社会的なことが問題となる場合、得られるフィードバックは代表的ではない。
(3)フィードバックは先入見を確証する形で解釈されがちである。ポジティヴな証拠はポジティヴに、ネガティヴな証拠は「運が悪かった」と解釈されてしまう(Gilovich 1991)。

3.4 認識的例外主義の基礎:過剰確証フィードバックループ

・それでも、社会的予測を生業とする専門家たちはSPRsを受け入れない。彼らは典型的には、自分の推論能力は例外的なものであるとする「認識的例外主義」を採用している。この反応は、我々が自分の予測能力のどこが間違っているのか知らないことに由来する、(1)自分の判断への過信と(2)自分の判断能力への過信の過信フィードバックループによるものだと考えられる。
・(1)自分の判断への過信の有名な例として、自分は知性や公平性や専門性が平均以上だと、圧倒的大多数の人が考えているという事がある(Gilovich 1991)。こうしたバイアスは全く自己吟味にかからない、Fischhoff, Slovic & Lichtenstein (1977) は、「アメリカでもっとも多い死因」を被験者に判断させ、さらに「それにどのくらいのオッズで賭けられるか」というかたちで判断の信頼性をもたずねた。すると、100:1のオッズに乗る場合でも正答率はせいぜい73%で、10,000:1、100,000:1 でも85-90%程度であった(※問題が超簡単な場合は除く)。こうした〔判断が課題の難しさを反映しないというバイアス〕は、「困難-容易効果」 として知られている。
・(2)自己の推論能力への過信の良い例には、既に挙げたインタビュー効果がある。

4 折れた足の魅惑

・戦略そのものが信頼可能でも、推論者はその戦略を、適切な問題に対して、正しい仕方で遂行しなくてはいけない。しかし、個別の事例でどの個別の戦略を採用するのが適切かを知ることは常に容易なわけではない。これは「折れた足問題」として知られている。

4.1 折れた足問題を診断する

・折れた足問題は、ある被験者クラス対して信頼可能だと示された戦略を、そのクラス外にあると思われる人々に適用する時に生じる。これは向上心理学の知見を包括しようとする理論にとって深刻な問題である。SPRsから絶対に逸れるな、と言うのは不条理だが、SPRsから逸れるのは長期的に信頼性を下げる事であり、実際SPRsに従うか自分で判断するか自由に選択する戦略を取ると、予測成績は概ね悪くなるからだ(Goldberg 1968)。
・そこで、認識論はただ信頼出来るSPRsに従えと言うだけでなく、我々は卓越した推論からどう逸れがちなのかを予測し、それを防ぐ方法を提供することが求められる。

4.2 根拠ある/ないSPRs

・ここでSPRsを、その成功に理論的な説明があるかという認識論的見地から、「根拠あるSPRs」と「根拠ないSPRs」にわける(ただし後者についても、手がかりと性質の相関が、その基礎にある安定した因果的ネットワークによって維持されていると仮定するのは理にかなっており、占いとかとは全く異なる)。根拠あるSPRsは医学の領域に多い。
・SPRsに従うかどうか自由に選択する戦略は概ね失敗すると上述したが、根拠あるSPRを用いる場合は例外である。専門家は、問題に対してよい理論的知識を適用できるので、自由選択戦略を使うことでSPRsの信頼性を上回ることができる(Swets, Dawes and Monahan 2000)。人が理論を持っており、その理論がSPRsから逸れることを示唆する場合には、自由選択戦略は卓越した戦略であり得る。
・一方、「F引くF規則」のような根拠ないSPRsに関しては、信頼性を説明する良い理論が無いため、新しい問題への拡張はためらわれるのが自然である。しかしここで問題を明確化したい。問題なのは、「新しいセッティングでのSPRsが、元のセッティングSPRsと同じくらい信頼可能か」ではない。問題は、「新しいセッティングでのSPRsが、人々の独力の判断より良いか」である。
・新奇な状況で判断を下そうとする場合、SPRsよりも人間の判断を使うほうが理にかなっているように強く思われる。しかし、この仮定の根拠は何なのか。似た様々な状況ではSPRsのほうが専門家よりも優れていることを考えなら、SPRsがうまくいく方に賭けるのが最善である。SPRsから逸れてしまう我々の傾向性は、我々が非常に弱い証拠やステレオタイプから、因果に関する物語を膨らましてしまう傾向と関係している。
・新しい手がかりが、問題の性質の予測因子になっていない事の良い理由がある場合は、(根拠ない)SPRsでもそこから逸れるべきである。しかしそれ以外で逸れるべきな状況は「非常に、非常に、少ない」(Meehl 1957)。

4.3 逸れに関する三つの注意

・SPRsから逸れる方が良いのは僅かな状況ででしかない。ただし以下の点に注意。

(1)新しい領域に極めて重大な問題がある、と言ったリスクの高い状況では、判断の前にSPRsをちゃんと専門家の判断にぶつけてテストしたほうが良い。それが無理なら、(特に根拠ある)SPRsからはそれない方が良い。
(2)特にリスクの高い状況では、SPRsを最新の状態に保っておくことが重要である。
(3)SPRsから逸れても、次回はSPRsに戻るのが懸命である。SPRsからの逸れは長期的に見れば信頼性の低下を意味するからである。理想的には、証拠によって支えられた例外を採用し、それをSPRsに組み込んでよりよいものを作れるとよい。

5.結論

〔省略〕