心理学研究における実験的方法の意義と限界（２）

インデックスへ

心理学研究における実験的方法の意義と限界（２）

長谷川芳典
岡山大学文学部紀要, 1998, 30, 87-102.
1999年5月25日掲載

1.　はじめに

　本稿は、前編（長谷川, 1998）の続編として、最近の実験論文を具体的な内容まで立ち入ってとりあげ、この側面から心理学研究における実験的方法の意義と限界について考察することを目的とする。

　前編（長谷川, 1998）では、実験操作の段階から結論を導く段階に至るまでのさまざまな点で、心理学の実験が物理や化学や生物などの実験と本質的に異なっていることを、次のような面から指摘した。

①文脈によって変わる刺激

②多数の要因の同時関与

③定義のあいまいさ

④極度の単純化、人工化への警鐘

⑤標本の無作為抽出のさいの困難

⑥無作為な割付に絡む問題

⑦個体内比較法における研究対象自体の変化

　これらの違いを自覚せずに、高校までの理科の延長として心理学の実験をすすめてしまうと、とんでもない落とし穴に陥る恐れがある。本稿では、日本心理学会発行の『心理学研究』の最新巻（第68巻）に掲載された原著実験論文を対象として、これらの問題点の有無を検討する。なお実際の論文では①～⑦の問題点が個別的に現れるわけではないことと紙数制約上の都合から、本稿では、これらを、「現実場面との隔たり（現実場面への一般化の困難）」と「実験操作上の諸問題（実験変数以外の要因の関与の可能性）」の2つに絞って捉えていくこととしたい。

　念のためおことわりしておくが、本稿は原著論文の評論ではない。各論文は、あくまで、実験的方法の意義と限界を考察するための「データ」として扱われている。各論文が、それぞれの分野でどのような貢献をもたらしているかとか、どのようなオリジナリティがあるかといったことは一切考慮していない。また、それぞれの箇所で引用する論文は、本稿の論点をより明確にするための一例として選択されたものである。引用されていない論文は同種の問題を含まないものであるとか、引用した論文が最も重大な問題を含むものであるということは決して意味していない点にも御留意いただきたい。

2.　対象論文の概要

　さて、今回は、1997年から1998年にかけて日本心理学会より刊行された『心理学研究』誌68巻を対象とする。全6号からなるこの学術誌には、32編の原著論文があり、このうち実験的方法を用いたものは22編であった。その一覧を表1に示す。観察研究、調査研究の原著論文については、著者名のみ記した。

表1.対象論文の著者名、タイトル、被験者（体）、及び用いられた主たる統計解析法一覧.

　　＊印の論文は、観察研究・調査研究を示す。

著者名	タイトル	被験者（体）	主な統計解析法
68巻1号
水野りか	漢字表記後の音韻処理.自動化仮説の検証..	大学生	分散分析
柿井俊昭	双方向TVを用いたマルチメディア・カウンセリングの基礎的研究	社会人	ノンパラメトリック（フリードマン検定）
谷上亜紀・阿部純一	漢字想起の自己評価－－－失語症患者と健常者の比較.	55歳の失語症患者1名と健常な成人6名.	分散分析
筒井美加	自己関連語における気分一致効果.	大学生および大学院生	因子分析
68巻2号
南学	判断者のとる役割が確率判断に与える影響	文系女子短大生／国立大の文系学生	対数線形モデル分析、飽和モデル
関口理久子	ラットの空間探索行動に及ぼすNMDAアンタゴニスト, MK-801の効果	ラット	分散分析
大野和男	＊	＊	＊
岩木信喜・今塩屋隼男	事象関連電位による認知的葛藤の情報処理過程に関する研究	健常成人、右利き	分散分析
塚本伸一	子どもの自己感情とその自己統制の認知に関する発達的研究.	5歳児～9歳児	対数線形モデル分析
久保田健市	社会的カテゴリー化により導入された少数派, 多数派および第三者の集団差別行動と認知	筑波大学学生	t検定、分散分析
68巻第3号
岡林秀樹ほか	＊	＊	＊
大渕憲一・福島治	＊	＊	＊
篠塚寛美	愛他主義は内集団の枠を超えられるか？－－社会的動機からのアプローチ－－	大学1年・心理学受講生	ｔ検定、重回帰分析
斎藤聖子・繁桝算男	サポート理論の一般化による主観的確率評価の説明と予測	大学生	相関、 Wilcoxonnの符号順位検定
桜井茂男・大谷佳子	＊	＊	＊
藤井美保子	語彙検索における自己接触行動の役割	お茶の水大学学生	ｔ検定、分散分析
68巻第4号
谷内通	ラットにおける強化系列の習得と消去に及ぼす項目配列の効果	ラット	分散分析
野波寛ほか	＊	＊	＊
田爪宏二	ストループ様線画命名課題遂行における幼児の情報処理過程の検討	保育所の年長児と大学生、正常な視力・聴力	分散分析
興津真理子・浜治世	母親による子供の賞罰に及ぼす父方祖母・母方祖母の影響	三世代家族の母親・祖母・子ども（幼稚園・小学1年）	分散分析
68巻第5号
神谷俊次	エピソード場面刺激による感情喚起が記憶に及ぼす影響	大学生	φ係数ｔ検定分散分析
宮本邦雄	離乳後の未成体期ラットにおける情動反応性の一時的低下現象－－ランウェイ・テストを指標とした検討	ラット	因子分析分散分析
早矢仕彩子	＊	＊	＊
恒松伸	ハトのキイつつき行動における需要曲線コストと滞在時間が及ぼす効果－－FR, VI, FIスケジュールの比較	デンショバト	単一被験体法
鈴木浩明	全身振動の強度評価に影響する振動特性	20-40歳代の成人男女	分散分析
森津太子・坂元章	特性関連語の閾下・閾上呈示が対人知覚に及ぼす効果	埼玉大学学生	分散分析
越良子	＊	＊	＊
遠藤由美	＊	＊	＊
68巻第6号
江尻桂子	＊	＊	＊
藤井義久	＊	＊	＊
下村満子・横澤一彦	高速提示された刺激の時間的結合錯誤－－ターゲットの複雑性操作による効果－－	正常な視覚をもつ高専学生	分散分析
宮下敏恵・門前進	軽催眠状態における感情・行動に及ぼす否定形暗示文の影響	大学生、大学院生	分散分析

3.被験者（体）及び、用いられた主たる統計解析法

　22編の実験論文がどのような被験者（体）を対象としていたのだろうか。表1からその内訳をさぐると、大学生、大学院生、短大生、高専生など学生を主体としたものが11編、その他が成人が4編、子供を対象としたものが1編、複数の年齢層を対象としたものが2編、ラットやハトなどの動物を被験体としたものが4編となっていた。

　被験者選びは、上記1.の⑤に関係した「標本の無作為抽出」の問題を含むものであるが、実際には、自らが本務あるいは非常勤講師として担当している心理学関連授業の受講生、もしくは自らが所属する教室の学生を対象としているケースが多い。

　主として用いた統計解析方法については、同じく表1を見ると、22編中12編で分散分析が用いられ、過半数を占めている。但し、統計解析法の内容を云々することは本稿の目的から外れるので差し控えることとしたい。

4.現実場面との隔たり

　前編（長谷川, 1998）で指摘したように、心理学の実験では、実験がきわめて人工的な状況や課題で行われ、扱う要因と反応が極度に単純化されている場合がある。いっぱんに、そのような実験は「基礎心理学」的な実験と言われる。物理学であれ生理学であれ、ほんらい「基礎」というものは何らかの形でその成果が現実に還元される可能性を秘めたものであるはずだ。ところが、あまりにも特殊な実験状況のみで理論を組み立てていると、実験室という閉じた空間の中でしか通用しないモデルの改廃に終始し、その空間内の思考ゲームとしての価値しか見出せないような研究に終わってしまう恐れがある。

　本稿では、特に次の2点に注目して、実際の諸論文の具体的な内容に検討を加えていくことにしたい。

・実験操作があまりにも人工化・単純化されることによる隔たり

・被験者（体）に固有の行動特性が反映することによる隔たり

4.1. 実験操作があまりにも人工化・単純化されることによる隔たり

　まず、篠塚氏の「愛他主義は内集団の枠を超えられるか？...」というタイトルの論文（篠塚, 1997）を引用しながら、この問題を考えていきたい。この論文は、本文の冒頭に

　世界各地における民族紛争の頻発が示すように, 東西冷戦終結後の国際社会では, 民族紛争の解決と予防が最重要課題のひとつである. 紛争の解決には, 対立する集団が自集団（民族）の利害にのみこだわることをやめ, 集団の枠を超えた視点を持って, 共存の可能性を理解することが必要である. なぜ, それが困難なのか.【以下省略】

と記されていることから分かるように、現実の社会的問題に目的意識をもった研究である。

　我々が素朴に考えると、愛他主義的な人が増えれば、自分ばかりでなく国全体のことや世界平和のこともちゃんと考えるので、戦争は起こりにくくなると予想される。ところが、実際には、世界各地では米ソ冷戦時代以上に民族紛争が頻発している。では、愛他主義的な教育をすれば、民族紛争の抑止につながるのだろうか。上記論文は、この素朴な考えには否定的であった。一口で言えば愛他主義は集団の枠を超えないということ、つまり、自・他の利益を同時に考慮するとか言っても、考慮されるのは集団の内部の他者どまりで、集団の外には向かないというのが上記論文の主張内容の1つとなっている。

　しかしながら、実際にはどういう実験的検討が行われたのだろうか。実はその内容は、大学1年の心理学受講生を対象とし、実験者から与えられた100円を資金として、社会的ジレンマ状況(SD)と、ダブル・ジレンマ状況(DD)の2条件を被験者内比較するものであった。そこでは各被験者は、その実験期間だけ4人集団を形成する。メンバーは、独立して、0～100円までの10円刻みの額を決定。ここからグループ全体の提供額合計Gが算出される。SD条件では、基準額Kと、DD条件では相手グループの提供額G'とが比較され、GがKまたはG'よち大きい場合はボーナス300円が、GがKまたはG'と等しいときは150円、GがKまたはG'より小さい時はボーナス無し、というような設定になっていた。その一方で、各状況ごとに提供額を決定した直後に、仲間意識、自・他集団区別意識等、計22の項目について質問、さらに、両状況終了後に、集団規範意識や自集団優先意識などに関する質問紙調査を実施。実験の2日後から1週間以内に再来した被験者に、自己利益尺度、他者利益尺度を含む社会的動機を測定し、その内容から愛他的な行動が集団の外にまで及ぶかどうかを検討したものである。

　民族紛争までを念頭に置いた意気込みには敬意を表するものであるが、実際に行われたのは、実験室内で、100円というごくわずかな資金を出資するだけの反応を求めるものであり、「集団」というのも、心理学受講生をランダムに分割してその実験のためだけに殆ど瞬間的に組織したグループにすぎない。それゆえ、そこでどのように巧妙に実験操作が行われようとも、いかにクリアな結果が得られようとも、果たして、文化・風土を土台に何世代にもわたって形成された民族の問題のシミュレーションになりうるかどうかは疑わしい。

　この実験ではまた、「愛他主義」的傾向とか、協力行動というものがきわめて普遍的・固定的なものであることを前提としているが、果たして、複数かつ目的の異なるさまざまな集団に属する一個人が、集団の違いや状況の違い、また協力行動の質的・量的な違いを乗り越えて、常に同じ傾向を示すとはにわかには信じがたい。

　次に、久保田氏の「社会的カテゴリー化により導入された少数派, 多数派および第三者の集団差別行動と認知」（久保田, 1997）をとりあげよう。この論文も冒頭に「集団間の差別や偏見の問題は, 古くから社会心理学が関心を寄せてきた問題領域の１つである.」と記されていることから分かるように、差別やいじめなどの現実的な諸問題との関連を示唆する書き出しとなっている。

　しかし、ここで行われた実験1は、大学生に社会的態度調査という名目で回答をさせ、その回答内容が多数派(58%)、少数派(12%)、どちらにも当てはまらない第三者(30%)に分かれたというように虚偽のフィードバックを行い、さらに分配課題を実施、最後に集団性の意識化と集団イメージに関する質問紙を実施するという構成。これらの結果から、例えば、「少数派は、内集団をひいきし、外集団を差別するだろう」といった仮説を検討する内容となっている（実験2は、実験1の終了後に同一の被験者に行われたもの）。この実験の場合にも、果たして集団成員性を告知する程度の情報で、民族間、あるいは同一民族内における階層間の差別や偏見のシミュレーションが可能であるか、現実を類推するだけの資料しか得られないのではないか、といった疑問が出てくる。

　もうひとつ、南氏の「判断者のとる役割が確率判断に与える影響」（南, 1997)という論文に言及させていただこう。この研究は、確率判断の実験としてよく知られている以下の「タクシー問題」から出発したものである。

これは、

ある町では、緑のタクシーが85％、青のタクシーが15％走っている。ある夜この町でタクシーによる引き逃げ事件が起きた。一人の目撃者が見つかり、“青いタクシーが犯人である”と証言した。ところが、この目撃者の証言がどのくらい正確かを検査したところ、事故当時と同じような状況下では80％の確率で正しく色を見分けるが、20％の確率で間違えてもう一方の色を答えてしまうことが分かった。

　　さて、この目撃者のいう通り、本当に青のタクシーが犯人になる確率は大体いくらだろうか

というかたちで、被験者に確率の大きさを数値で答えさせる問題であるが、この材料自体、かなり人工性の強い内容を含んでいる。たとえば、この問題中には「事故当時と同じような状況」という表現があるが、目撃者自身のコンディションを含めて全く同じような状況を再現することは殆ど不可能であろう。また、「色の弁別ができないほど暗い場所が町中であるだろうか」、「色が分からない状態でタクシーであることはどうして分かるのか」、「タクシーが本当にひき逃げをするだろうか」など、不自然な状況設定も目につく。さらに、「20％の確率で間違える」というのは、数学的には、「青を緑」、「緑を青」と間違える頻度を、タクシー目撃総数で割った比率を示すものと考えられるが、単に、青のタクシーを緑と間違える確率であると受け取られる恐れもある。加えて、「青を緑」、「緑を青」と間違える確率は、色覚の特性上同じとは思えないが、これらをいっしょくたにして20％と表現することが、実生活に確率を適用するにあたって、どの程度有用であるか不明である。

　南論文はまた、責任性を強調した裁判官群と中立性を強調した裁判官群を設けて、回答される確率の大きさの数値を比較検討している。ここでの実験操作は、単に教示に頼るものであり、責任性強調群（「判決によって被告の人生が左右される」）では「あなたは以下に出てくる事件を担当した裁判官であると想像してください」、中立性強調群（「裁判には影響はなく、勘を鍛える」）では「あなたの意見がこの裁判に影響を与えることは許されませんが、裁判官としての勘を鍛えるには格好の事件です」という内容の文章を判断を求める前に呈示するだけなのであるが、役割教示文を読ませるだけで、回答者は本当にその役割に成りきって回答するのかという疑問が出てくる。これらの教示が回答内容に影響を及ぼすことが真であったとしても、役割教示文のちょっとした文面の違いで、その程度が有意差が出るほどに顕著になる場合も、他の諸要因の中に埋もれる場合もあるだろう。

　もうひとつ、現実の裁判では、確率の大きさ程度のあやふやな推量によって判決が下されることはない。裁判官の本来の役割は、真実の追求ではなく、疑わしさをもった被告について、無罪であるとの仮説を覆すのに足る確実な証拠があるかどうかを判断することにあるからだ。裁判官は冤罪は厳しく咎められるが、真実としては犯罪を犯していた被告を証拠不十分で無罪としても咎められることはない。これらの点でも、現実とかけ離れた実験操作が行われいる点は否定できない。

　以上指摘した点は、現実場面から乖離した実験場面の設定をしてはいけないという主張するものでは決してない。「もし自由に空を飛べたら」とか「もしあなたが神様になったら」という非現実的な仮定のもとで回答を求めることにもそれなりの意義はあるだろう。但し、言語教示による操作は、常に言外の諸要因をも同時に動かしてしまう危険を伴うものだ。教示内容が非現実的であればあるほど、言外の諸要因も経験的に予見することは難しくなる恐れがある。それゆえ、事後的に回答理由を分析して言語的教示が妥当な実験操作を含むことを確認したとしても、実験場面で生じた変化が、実験者が計画した要因操作を原因として生じたものであるのか、それとも想定外の諸要因の1つによって生じた変化であるのか、直ちに判別することはできないことに留意する必要がある（5.1.を参照されたい）。

4.2. 被験者（体）に固有の行動特性が反映することによる隔たり

　このタイプの隔たりは、被験者（体）として、人間一般の行動を問題としながら実験では学生のみを対象とした場合、あるいは動物を被験体として用いた場合に顕著に現れると思われる。

　3.に指摘したように、成人を被験者とした実験は大部分が学生であり、それも一般教育科目の「心理学」の受講生や、心理学教室所属の学生が対象となっている。感覚などの基礎的な生理機構を研究する場合には被験者の職業や現在の生活環境が影響を及ぼすことは少ないと思われるが、社会的行動（たとえば援助行動）とか、一定の知識によって左右される場合（確率判断など）には、それなりの注意が必要であろう。

　ここではまず人間を対象とした実験として、谷上・阿部両氏の研究（谷上・阿部,　1997）に言及させていただこう。この研究は、失語症患者と健常者の漢字想起の自己評価をテーマにしたものであるが、失語症の被験者は、脳梗塞による失語症発症後1年を経過した55歳の高校卒の男性1名のみであり、この男性の想起可能性の評定値や想起成績の結果を、22～26歳の短大卒業の健常者男女6名と比較検討したものであった。そこでは、分散分析が行われ、1名の失語症患者と6名の健常者に対して評定課題などを実施し、その平均値について分散分析を実施、各種の評定値や正答数などについて、被験者間で有意差が見られた云々の議論を行っている。しかし、刺激材料に対する評定値の独立性もさることながら、もともと失語症者も健常者も無作為抽出された者ではなく、失語症者の特徴はもちろん、健常者間の個体差などは、被験者の選び方によってどのようにも変わりうるものである。失語症患者の評定と健常者の評定がそれほど大きく異ならないという消極的根拠にはなりうるとしても、このような比較で、失語症患者の一般性のある特徴をどこまで引き出せるのか疑問である。

　次に、上に引用した南(1997)の実験をもういちど取り上げよう。この研究の実験1では、文系短期大学の心理学の受講者集団が対象、実験2では国立大学生に対して個別に実験を実施しているが、同じ役割教示文を使用した場合でも、やる気のない学生が多数含まれている可能性のある心理学の授業中で回答を求めた場合と、自分の教室の大学院生を対象に個別的に実験した場合では、受け止め方は違ってくるはずである。実験1では

.....の説明に基づくならば, 両裁判官は同一の役割表象であるので, 両裁判官群の回答は異ならないと予想される. .....

とあるが、受講生が煩わしさを感じながら役割教示文をいい加減に読んだとしても回答は異ならないはずだ。回答理由を分析することでその危惧は薄れるとしても、講義時間中に何らかの実験や調査を行う場合には、受講生に教示に従った回答行動態度をさせるための再現可能性な何らかの方策を明示しておく必要があるだろう。

　次に、被験体として動物を用いることについて。動物を被験体とした実験は、パヴロフの条件反射の実験や、スキナーらによる強化スケジュールを用いた実験など、過去において現実に結びつく貴重な業績の蓄積がある。また、人間の脳機能が進化のプロセスで高度化していったことを考慮するならば、ラットやハトやサルの脳機能の分析で得られる知見が人間の種々の認知機能の解明に大きく貢献することも間違いなかろう。

　とはいえ、いくら厳密に統制され筋道のたった論理が展開されていたとしても、人間とは無関係で、実験装置内部の動物の行動だけに通用する思考ゲームに終わってしまうようなことがあってはならない。

　宮本氏の「離乳後の未成体期ラットにおける情動反応性の一時的低下現象－－ランウェイ・テストを指標とした検討」（宮本, 1997）を例にこの問題を考えてみよう。ここでは、ランウェイ・テストを用いて、離乳後の未成体期ラットの情動反応性の発達が記録された。この研究は、ウィスター系ラットを対象としたものであるが、影響を及ぼすと考えられる離乳などの諸要因、あるいはその後の餌を求める行動は、いずれもラットという種の枠内で意味をもつものである。それゆえ、用語として「情動」という言葉を用いていたとしても、人間の発達過程における情動反応性の変化の研究には結びつきにくい。同じ情動研究でも、情動に影響を及ぼすと考えられる新薬の薬理作用を検討するならば発展の可能性は期待できるが、離乳期の行動変化についての資料を細かく収集することが人間行動の発達理解に役立つかどうかは不明である。

　もうひとつ、谷内氏の「ラットにおける強化系列の習得と消去に及ぼす項目配列の効果」（谷内,　1997）は、ラットを被験体として単一交代系列の習得における遠隔連合の形成とその消去への関与を明らかにすることを目的としている。そこでは、実験1では遠隔連合の形成と消去への関与を検討し、実験2において、遠隔連合を仮定した記憶弁別理論と法則弁別仮説が比較されている。この研究については、次節で改めて取り上げさせていただくが、被験体固有の特徴という点に限って言えば、「法則構造の符号化」とか「遠隔連合の形成」の関与の量的な度合いが、ラットと人間で同一であるのかどうか、言いかえれば、ラット固有の系列学習の特徴を分析しているにすぎないという可能性がある。

　なお、心理学における動物実験の役割については、佐藤(1993)が次のように指摘している点にも注目したい。

.....種を越えて普遍的な行動の基本的諸原理の探求の段階はすでに終ったというはっきりとした自覚はかならずしももたなかったにせよ、多くの行動分析家が究極的にはもっとも興味を抱いている種であるヒトを対象とする研究へと歩を進めたように思われる。.....［p. 217］

5. 実験操作上の問題

　本稿では実験研究のもう1つの問題として、実験操作の固有性と、変数外の多数の要因の関与の問題をとりあげることにしたい。

5.1 実験操作固有の特性

　実験研究では、いっぱんに、研究対象とする実験変数の効果をみるためにその値をいろいろに変えて影響の大きさの違いを調べることが多い。しかし、変数を操作する過程では、別の諸要因が同時に関与したり、操作内容の固有性が大きく影響する場合がありうる。そのような場合は、結果に違いが出たからといって、その原因を操作した変数に帰着することはできない。

　柿井氏の「双方向型TVを用いたマルチメディア・カウンセリングの基礎的研究」（柿井,　1997）を例にこの問題を考えてみよう。この実験では、音声方式、双方向TV方式、対面方式という3条件のカウンセリングを被験者1名あたり4分ずつ合計12分実施し、コミュニケーション評価得点を比較している。4分間程度の接触で果たしてカウンセリングが実現できるのかといった疑問は別として、そこで生じた評価得点の差が、果たして、一般的な双方向TV方式のカウンセリングの特性を捉えているかどうか、はなはだ疑問が多い。

　例えば、このTV条件では14型のTVモニターが用いられているが、筆者自身が記しているように、もっと大きな画面のモニターを使えば結果が変わった可能性がある。さらに、この実験では経験30年以上の女性のベテランカウンセラー1人が実験に加わったと記されているが、このカウンセラーがどういう流派のカウンセリングを行ったのか、たとえば、話を聞くことを重視する立場なのか、クライエントが望ましい発言をした時に微笑むとか相づちをうつといった動作をするのかどうか、などによって、いくらでも結果に違いを及ぼす恐れがある。

　塚本氏の「子どもの自己感情とその自己統制の認知に関する発達的研究」（塚本, 1997）にも同様の問題が含まれている。ここでは、「...ボール遊びをしているときに石につまづいて転んでしまい、足から血が出て痛い」とか「おじさんからプレゼントをもらい、...」といった例話が実験操作として重要な意味をもっているが、そこで示された「表出を統制すべき感情とその場面に関する知識」、「自己統制の理由」、「自己統制の可能性の認知」、「自己統制の方略」についての5歳から9歳に至るまでの変化において、例話に含まれる固有の特性がどのような影響を及ぼしたのかは特定できない。

5.2. 実験変数以外の多数の要因の同時関与

　実験研究ではまた、あらかじめ複数の仮説を提起した上で、特定の実験操作の結果がどの仮説の予測によく一致するかという形で検討を行っているものが多い。この場合、実験結果が、種々の実験状況の違いを越えて一般的に特定仮説の予測を支持しているのか、それともその状況に限って特定仮説を支持しているのかを見極める必要がある。

　心理学実験から離れて、ある目的地に到達するためのルートがAとBの2つあり、その選択比率を検討する場合を考えてみよう。Ａは舗装されているが道のりが長い。Ｂは近道だが舗装されていない。そして、Ａの選択率が高いと予測する仮説αと、Ｂの選択率が高いと予測する仮説βがあったとする。ある晴れの日に、実験したところＢのほうが選択率が高かった場合、仮説βが支持されたと言えるだろうか。

　確かにこの状況に限定すれば仮説βは正しいが、もし雨の日に実験をした場合には、ルートＡの選択比率が高まる可能性が残っている。この実験は、天候という別の要因によって異なった結果をもたらすので、2つの仮説いずれが正しいのかという検証実験にはなりえない。正しい結論は、「仮説Ａが成り立つ場合もあるし、仮説Bが成り立つ場合もある」、あるいは「仮説は2つとも妥当であるが、その関与の度合いは状況によって異なる」ということになるだろう。

　心理学に戻って、谷内氏のラットの実験（谷内, 1997）を例にこの問題を考えてみよう。 4.2.にも述べたように谷内氏の実験（谷内,　1997）は、ラットを被験体として単一交代系列の習得における遠隔連合の形成とその消去への関与を明らかにすることを目的としている。実験1では遠隔連合の形成と消去への関与を検討し、実験2において、遠隔連合を仮定した記憶弁別理論と法則弁別仮説のどちらが系列学習の習得や消去に見られる条件差をよりよく説明するかという問題の立て方をしている。しかし、この2つの仮説は排他的なものではない。筆者自身が全体的考察の最後の段落でも認めているように、両仮説とも真であって加算的にはたらく可能性もある。逆に、いずれも偽であるという可能性もあるだろう。例えば、いくら系列に規則性があるといっても、あまりにも系列が長すぎたり、計算式を必要とするような複雑な系列であった場合には、法則弁別などできるわけがない。こういう場面では、記憶弁別仮説が提唱するプロセス、もしくは第3のプロセスが大きく関与する可能性もある。要するに、「2つの仮説のどちらが正しいか」という現象ではなく、「ある場合には仮説Ａが、別の場合には仮説Ｂが成り立つ」というだけのことかもしれない。

　藤井氏の「語彙検索における自己接触行動の役割」（藤井, 1997）の研究では、視線の動きの影響が統制されていなかった。こうした把握できない干渉要因がある問題については、当該論文の「今後の課題」に反省点として記されているので、ここでは重複は避けたい。

　もう1つ、水野氏による「漢字表記語の音韻処理自動化仮説の検証」（水野, 1997）という研究を例に、実験操作に別の要因が絡んでいる可能性を考えてみたい。

　この研究は、日本語では漢字表記語の場合だけ音韻処理が介在しない、あるいは優位性が低いとする従来の説の不自然さ不合理さを指摘し、漢字の場合でも音韻処理が介在するが、それは自動化（特定の処理を無意識かつ迅速に行えるようになること）されているとする統一モデルを提唱、その実験的検証をめざしたものである。

　この実験では、2拍～4拍の仮名表記語や漢字表記語の穴埋め課題を遂行させ、あわせて行う「同時構音課題（“あいうえお”を定間隔でつぶやく課題）」の妨害効果の度合いから、漢字表記語が呈示された場合にも自動化された音韻処理が関与していることを示すものであった。

　しかし、この実験では、「同時構音課題」が音韻処理以外の認知行動を妨害している可能性を否定しきれていない。例えば単に「他のことに気をとられる」ような効果、つまり異なる作業を同時に遂行することによる競合的な妨害効果があるかもしれない。音韻処理妨害の効果と同時にそれらが働いていたとしても、仮名表記語を刺激とした実験1の結果は同じような結果になるはずである。とすると、漢字表記語の穴埋め課題において「同時構音課題」が妨害効果をもたらしたからといって、それが音韻処理を妨害したのか、それとも、音韻処理と無関係でありかつ課題遂行に必要な別の行動要素を妨害したのかは、この実験からは確認することができない。じっさい、実験2では、統制条件や音韻処理と無関係の妨害操作（タッピング）を加えた条件において、拍数の長さに依存した反応時間の遅れは検出されなかった。したがって、実験2の結果だけからは、漢字表記語を用いた穴埋め課題において、音韻処理が介在しているとの実証はできないのである。

　なお、著者が考察で述べているように、水野(1997)の実験には、ほんらい漢字表記語と仮名表記語の頻度や文字数、形態的複雑さ、形態的具象性、表記の親近性などを一致させて初めて成り立つ前提が含まれている。しかし、これらを統制することは実質的に不可能であり、5.1に述べた「操作固有の特性」の問題がクリアされていない点にも留意する必要がある。

6. 全体的考察

　以上、本稿でとりあげた種々の実験論文の具体的内容をみる限りにおいては、研究の成果は必ずしも現実の人間行動の理解に発展する方向に向かっていないように思われる。また、実験のロジックとして複数の仮説を比較検討する論理の立て方になっていながら、結局は、特定の実験状況に固有の結果しか導けずに終わっている論文のあることも示唆された。

　では、それぞれの論文は、以上にかかげたような問題点についてどのような総括をしているのだろうか。以下に、全実験論文の中から、結論の一般性や、実験操作に含まれない種々の要因の影響について総括していると考えられる記述を抜き書きしてみよう。

....これらの結果は、...........支持的証拠を得ることができた。................こうした実験的限界を超えるためには、ある程度の実験的証拠に基づいて構成したモデルの妥当性を、まったく別の視点から検討することも必要となる....(水野, 1997)

今後は、テレビ方式と対面方式の比較という視点ではなく、テレビ方式の特質（遠隔地性、マルチメディア性）を積極的に生かした活用方法の研究がより重要になってくると考えられる。(柿井, 1997)

本結果が手続き上あるいは刺激材料上の固有性に由来したものであるという可能性を棄却することはできない。よって、本研究で得られた知見が他の課題に対しても拡張しうるのかどうかについては、今後も検討を続けていく必要があると思われる。（南, 1997）。

しかし本研究の結果は、3種の感情と2種の例話という極めて限られた条件に関するものであり、また被験者数も十分とはいえないことから、これらを広く一般化できるかは否かに関しては、さらに慎重な検討が必要であろう。（塚本, 1997）

今後、遠隔連合を含めた項目連合過程と法則符号化過程の性質を明らかにするとともに、各過程間の関係についても検討する必要がある。（谷内, 1997）。

もちろん本研究では実験的方法を用いたため、この結果が日常の祖母-母親関係を必ずしも反映しているとは限らない。しかし、本研究は、実験場面というある程度統一された状況を設定して日常の家庭ごとの差異を除くことによって、一般的な傾向を見いだすことを目的とするものであった。本研究の結果がどのように日常場面に反映されるのかは、観察などによる研究によって明らかにされねばならない。（興津・浜, 1997）。

実験室研究では、快感情を喚起することが難しいことが挙げられる。そのため、実験室的研究で生態学的妥当性を考慮した研究では、感情喚起が容易な暴力シーンや事故場面などの不快な刺激が用いられてきた。しかし、実験操作の便宜以上という理由で不快感情のみに焦点を当てるのは不適当であり、ある程度の実験的制御を行いつつ、快感情から不快感情までの幅広い感情を喚起するような課題を考案し、今後、.....記憶に与える影響について検討する必要があろう。（神谷, 1997）。

従来、CA効果研究では、特定のターゲット記述文が繰り返し用いられる傾向にあったが、そこで得られた結果が一般性をもつものかどうかは、今後さまざまな刺激を用いて検討していく必要があるだろう。（森・坂元, 1997）。

　このように、22編中7編は、何らかの形で結論一般化の問題点や、実験的方法以外の研究を進めることの必要性に言及していた。ただし、一般化への具体的な道筋は示さず、「一般化のために、今後さらに慎重に検討をすすめる必要がある」程度の記述に終わっているものも多い。またこれ以外の論文の中には、この種の総括を全く行っていないものもある。

　個々の実験研究が直ちに一般性のある結論を導く必要は無いし、応用性を意識する必要はない。ただ、基礎的研究と応用研究、あるいは実験研究と現実の観察研究という分類は研究する側の都合から分けられたものであって、人間行動自体には、基礎的な行動とか応用的な行動といった区分は一切ないことに目を向けなければならない。実験室空間という人工的な環境の中だけで成り立つようなモデル、そのモデルの改訂だけをめざした研究、尽きることの無い刺激の組み合わせを変えただけの実験研究は、方法がいかに厳密であったとしても、仮説から結論に至る論理の筋道がいかにしっかりしたものであったとしても、それだけでは心理学の研究としては不十分である。実験室内での実験をいかにして現実の人間行動の理解につなげる方向で発展させるのか、ということは常に考えなければならない。

　なお、今回は、日本心理学会発行の『心理学研究』を検討対象としたが、海外の一流学術誌や、各種概論書などで紹介されることの多い古典的な実験研究についても、同一の検討を加えていく必要がある（長谷川, 1994参照）。

7.より建設的な方向をめざして

　最後に、今回指摘した問題点をもとに、実験研究の今後についてより建設的な方向を提唱することにしたい。

　まず、以上に引用した実験研究のうちのいくつかについて具体的な方向を示してみる。

柿井(1997)：音声方式や対面方式との比較研究には限界がある。筆者自身も考察で述べられているように、テレビ方式の特質（遠隔地性、マルチメディア性）を積極的に生かした活用方法の研究にエネルギーを注ぐべきである。特定の流派のカウンセラーの利用可能性を探るのではなく、テレビ方式に最も適したカウンセリング技法の確立、その活用範囲の特定をめざすことが重要。

篠塚(1997)：愛他行動は、愛他的傾向の強さを原因として生じるのはなく、該当する場面において、その行動がどれだけ強化されるかによって決まるものと考えられる。愛他的行動は、あらゆる状況を越えて生じるのではなく、それが強化されるか否かによって、対象や場面に依存して生じたり生じなかったりするはずである。実験室内で「普遍的な愛他行動」のシミュレーションを行うより、現実の具体的場面で、個々の愛他的行動がどのように強化されているのか、集団を越えた愛他的行動はどのような形で強化可能かといって検討を行うほうが生産的であろう。

南(1997)：紙に記された問題に対して被験者が数字で確率の大きさを答えるという実験は、問題そのものの不自然さ、問題文への理解度、回答するという行動に対する動機づけなど、種々の点で副次的な影響を受ける恐れをかかえている。もともと、確率判断は、選択行動の1つの手がかりとして身につけられてきたものであるから、紙の上での回答に頼るのではなく、現実の選択行動の場面での偏りとして捉えていったほうが生産性のある研究が期待できる。「～になってみてください」という役割教示に実験操作を委ねるのではなく、その役割を演じるほど強化されるような随伴性が設定された場面で確率判断を求めることも必要だろう。

谷上・阿部(1997)：もともと母集団が不確定であることを考慮し、健常者との群（？）間比較ではなく、失語症患者自身についてさまざまな回復訓練を行い、単一被験体法に基づいて、その特性を明らかにすべきであろう。

水野(1997)：筆者自身も「こうした実験的限界を超えるためには、ある程度の実験的証拠に基づいて構成したモデルの妥当性を、全く別の視点から検討することも必要となる」と認めていることから、今後は各種の難読症や失読症の患者に対して、音韻処理をスムーズに行うためにどういう訓練を行ったらよいのか、あるいは音韻処理を介さずに意味処理を可能にするようなステップは無いものか、といった、改善を目的とした個別的検討を積み重ねていくことのほうがより生産的な結論を生み出せるように思われる。ある種の音韻処理訓練によって漢字表記語に対する難読症が改善されたとすれば、それは結果的に音韻処理の介在を実証したことになるはずであろう。

　これらに示したように、今後の実験研究では、人工的な実験状況の中で抽象化・一般化されたモデルの改廃を行う研究よりも、より現実に即した場面で、対象とする行動への働きかけの過程を追っていく研究のほうが、はるかに生産的ではないだろうか。つまり、ある仮説を「実証」するために特定の行動を手段として利用するのではなく、現実場面で意味のある行動自体をターゲットとして、それに関与する諸要因を実験的に分析するという方向性である。「援助行動」を例にとるならば、実験室内でサクラの演技に対する援助行動を分析して抽象理論を構築するよりも、神戸の大震災とか高齢者の介護といった現実場面で生じる具体的な援助行動について、それを維持・強化する要因をさぐっていくというものである。震災時の援助行動と高齢者介護場面での援助行動から一般的な法則性が見出されるかどうかは分からない。見出されるか見出されないかというのは結果論であって、そのことで研究の価値が失われるわけではない。

　次に、実験研究を推進するにあたっては、ただ新しさを求めるばかりでなく、10年前、20年前、....50年前というように過去に行われた実験研究の成果がその後どう発展したのか、あるいは発展せずに廃れていったのかということを、分野を超えた方法論の立場から追究する取り組みが必要であろう。実験研究は、その性質上、常に過渡的な研究成果として公表されるものであり、その多くは、考察「今後さらに慎重に検討をすすめる必要がある」というような形で結んでいる。その時点での個人の業績の1つとしてはそこまでで評価されてよいとしても、研究全体の流れの中では、「今後の検討」なるものが実際にどのように行われたのか、それとも行き詰まって方向転換していったのか、単なる流行現象で終わってしまったのか、過去の研究を洗いざらい調べ、その総括にたって実験的方法の意義と限界を検討していく必要がある。

　最後に、実験研究の結論は特定の閉じた分野に収束することなく、よりグローバルな方向に向かって開かれていくものでなくてはならない。このことに関連して佐藤(1993)は、行動分析学における動物実験の役割を総括する中で、

強化随伴性という概念的枠組みを用いて人間行動についての実験的および理論的に分析の範囲を従来よりさらに広げ、発達心理学、知能心理学、性格心理学、異常心理学、社会心理学といった心理学の諸分野のみならず、文化人類学、社会学、政治学、法学、経済学、教育学、言語学、歴史学などを広義の行動諸科学の領域すべてを射程に入れて、行動分析学的な人間行動学の体系を確立する

という方向性を提唱している。この主張は、行動分析学だけにあてはまるものではない。どのような枠組みを用いるにせよ、今後の心理学の研究では、このようなより広範囲の分野を総合的に射程に入れた研究が強く求められる。近年、博士の学位取得要件や大学院博士課程への進学要件、さらには研究費の獲得や教官採用人事などにおいて、研究業績の量的評価を重んじる傾向が強まっている。こうした風潮の中では、ともすれば、方法上の厳密さだけを追求し狭い領域のみに目を向けた実験論文が大量生産されてしまう恐れがある。よりグローバルな視点にたった統合的研究をいかに育てていくのかということにももっと目を向ける必要がある。

　
本稿作成前にインターネット上で公開した論文別のリビューについて、執筆者のお一人である南学氏と谷上亜紀氏からご意見をいただき、その一部を本稿の修正に反映させた。深く感謝いたします。

引用文献

藤井美保子 (1997). 語彙検索における自己接触行動の役割. 心理学研究, 68, 9-16.

長谷川芳典 (1994). スキナー以後の行動分析学:(4)よく知られた心理学実験を再考する（その１）. 岡山大学文学部紀要, 22, 21-38.

長谷川芳典 (1998). 心理学研究における実験的方法の意義と限界(1). 岡山大学文学部紀要, 29, 61-72.

柿井俊昭 (1997). 双方向TVを用いたマルチメディア・カウンセリングの基礎的研究. 心理学研究, 68,9-16.

神谷俊次 (1997). エピソード場面刺激による感情喚起が記憶に及ぼす影響. 心理学研究,68, 290-297.

久保田健市 (1997). 社会的カテゴリー化により導入された少数派, 多数派および第三者の集団差別行動と認知. 心理学研究,68,120-128.

南学 (1997). 判断者のとる役割が確率判断に与える影響. 心理学研究,68, 79-87.

宮本邦雄 (1997). 離乳後の未成体期ラットにおける情動反応性の一時的低下現象－－ランウェイ・テストを指標とした検討. 心理学研究, 68,339-345.

森津太子・坂元章 (1997). 特性関連語の閾下・閾上呈示が対人知覚に及ぼす効果,心理学研究,68, 371-378.

興津真理子・浜治世 (1997).母親による子供の賞罰に及ぼす父方祖母・母方祖母の影響.心理学研究, 68,281-289.

佐藤方哉 (1993). 行動分析学における動物実験の役割--＜理論＞の敗退と反復実験の勝利. 心理学評論, 36, 209-225.

篠塚寛美 (1997). 愛他主義は内集団の枠を超えられるか？－－社会的動機からのアプローチ－－.心理学研究, 68, 163-172.

谷上亜紀・阿部純一 (1997). 漢字想起の自己評価－－－失語症患者と健常者の比較., 心理学研究,68,17-24.

谷内通. (1997). ラットにおける強化系列の習得と消去に及ぼす項目配列の効果.心理学研究, 68, 255-263.

塚本伸一 (1997). 子どもの自己感情とその自己統制の認知に関する発達的研究. 心理学研究, 68, 111-119.