大田友一, 金谷健一, 上田博唯, 松山隆司,「AIマップ---ビジョン研究から見た統合アーキテクチャ」へのコメントと回答, 人工知能学会誌, Vol. 11, No. 2 (1996), pp. 216--227の一部分に相当

ビジョン研究におけるパラダイムシフトとその幻想
Illusion of Paradigm Shift in Computer Vision
金谷健一
群馬大学工学部情報工学科

1. パラダイムシフトの原動力

松山氏はビジョン研究の方法論の変遷を整理した上で、人工知能研究に最近よく引用される哲学議論をビジョン研究にも適用して『「もの」の科学から「こと」の科学へという情報処理研究のパラダイムシフト』を提唱し、その枠組みとして『情報統合』を主張している*。

* 以下、松山氏を引用するのに『...』を用いる。

よく知られているように「パラダイムシフト」はThomas Kuhn [Kuhn 62]が科学の歴史を特徴づけるために導入したことばである。自然界の法則性を追及する自然科学においては、既存の認識の枠組み(パラダイム)に適合しない実験・観測事実が得られると、例外処置を施すなどして最小限の修正で対処しようとするが、そのような事実がしだいに多くなると、ついには修正がきかなくなり、まったく新しい認識に移行して安定する。しかし、やがてそれにも適合しない事実が発見され、また別の認識に移行し、これが繰り返される。このような認識の移行がパラダイムシフトであり、代表的な例は天動説から地動説への移行である。したがって、パラダイムシフトの原動力は「予想されなかった実験・観測事実」である。

「パラダイム」という用語は計算機によって知的システムを実現しようとする研究にもよく用いられ、中でもビジョン研究は最も乱用される分野の代表である。しかし、そこにおける「パラダイムシフト」の原動力は「予想されなかった実験・観測事実」ではない。それでは何であろうか。

松山氏は、『...考案されたアルゴリズムの限界や問題点が次第に明らかになり、...』、『...様々な観点からの問題点や限界が指摘され、...』、『...そこには限界があり、...』、『こうした研究の進め方の限界が次第に明らかになっており、...』のように『限界』という用語を繰り返していることから判断すると、ある方法論が試みられ、その「限界」が明らかになり、別の方法論に移行する(べきである)と考えているようである。しかし、特定の方法論が限界をもっていることを``証明''することはできないので、これは研究者が「このような方法では望ましい物やシステムが得られない``だろう''」と「予測」して、その方法論を放棄し、新たな可能性を探索することを意味する。その「予測」の背景は何であろうか。

2. ビジョン研究の単純信仰

コンピュータの誕生とともに、その限りない潜在的能力は多くの研究者を引きつけた。コンピュータは万能チューリング機械であり、人間の脳も究極的にはコンピュータと同じであるから、人間の知的活動もコンピュータで実現できるであろうと思われた。実際、if ... then ... else ...のような簡単なルールで言語や画像や音声を認識するシステムが試作された。それらはほんの数個のデータに対するおもちゃに過ぎなかったが、将来のハードウェアの進歩による計算能力の向上によってデータ数の限界はなくなる、したがって研究課題は単に``巧妙なルール''を思いつくことであるように思われた。ここから「知的システムは単純な方法で実現できる」という信仰が起こった。

この傾向は特にビジョン研究に著しく、``理論研究''と称するものにも数学や光学でよく知られていたことを当てはめただけのものが多かったことは松山氏の指摘通りである。おもしろいのは、高度な専門性をもつ数学や光学をビジョン研究に転用するには、その内容が単純でもよかった、というより、``単純でなければならなかった''ことである。単純な理論は数学や光学を専門としないビジョン研究者への啓蒙の意味もあり、また「ビジョンシステムは単純な方法で実現できる」という信仰を補強するものでもあり、大いに歓迎された。それに対して、高度に専門的な内容に深入りすると、「これは数学、光学の研究であってビジョン研究ではない、現実の課題を解決してはいない」という拒否反応とともに排斥される傾向にあった。

これは松山氏のいうように、『ビジョン研究を学問分野として確立するには、光学や数学の応用分野ではなく、視覚認識の問題に正面から立ち向かっていく姿勢が必要』があるという理由からであるが、半面これがビジョン研究を急速に広めた理由の一つでもある。なぜなら、深い専門知識を必要とせず、簡単な工夫をするだけでビジョン研究という``先端的分野''の研究ができるのであるから、学位取得、助成金獲得、業績蓄積に最適であり、世界中の大学と(なぜか日本の)企業がわれもわれもと手を出した。

3. ビジョン研究のパラダイムシフト

もちろん単純な手法でビジョンシステムが実現できるはずがない。一つの方法論を試みて望ましい結果が得られないとき、研究者は次の選択を迫られる。

1. 問題に含まれる要因を徹底的に解明する。これには高度の専門知識を要するので、その結果として松山氏のいうように必然的に『研究が進み専門性が深まるにつれ、それぞれ独自の研究分野を形成する』ようになる。

2. ビジョンシステムは単純な方法で実現できるはずだから、その方法は単純な実現ができないという意味で「限界」があると判断し、``正しい''方法論を模索する。

前者はビジョン研究以外の多くの工学の諸分野がたどった道である。一方、後者はビジョン研究によく見られ、例えば単純な特徴から３次元復元ができると思われたshape from ...も試みるとそれほど単純ではないことがわかり、「正しい方法論に従えば単純になるはずである」という理由で「アクティブビジョン」とか「クオリタティブビジョン」とか「パーパシブビジョン」とか、次々と``正しい''パラダイム探しが続けられた。

松山氏は『人間と同等な能力をもったビジョンシステムを実現するには attentiveな視覚を実現するための注意の集中やトップダウン画像解析などのメカニズムが不可欠である』が、過去の数理解析の成果は『ビジョンシステムにおいて必要となる機能の一部に関するもの』でしかないから、それらの方法論には『限界』があり、したがって『新たな研究パラダイムが望まれている』と主張する。松山氏の提唱する『情報統合』はビジョンシステムをいわば「生命体」にせよということである。「生命体」を特徴づけるのは、それが孤立した『もの』(reality)ではなく、内部世界が外部世界に反応するとともに外部世界に作用して適応や成長するという『こと』(actuality)である。この『sensing & action』の『有機的結合』を模倣すればビジョンシステムは人間と同等な能力をもつというわけである。

4. ビジョンシステムはなぜ困難か

松山氏の楽観的なパラダイムは研究者の夢をかき立てはするが、計算機が出現した当時の単純信仰に通じる空想である。飛行機が小鳥のようにすばやく飛び回れないように、ビジョンシステムが人間と同等な能力をもつことはできない。これは「ビジョンシステムの実現」という``問題そのものに内在する本質的な困難''のためであり、その難しさは地震予知や癌治療や核融合炉研究にも匹敵する。筆者の見解では、ビジョンシステムの困難さは、対象が力学や光学の法則に支配される``物理現象''であり、それをカメラという光学系から入力し、電気電子系によって変換、処理され計算機という情報処理系に到達して「画像」となることにある。これらの複雑な要素を考慮しなければビジョンシステムは実現できない。

ビジョンシステムの目的は松山氏のいうように『画像を解析し、システムに蓄えられた知識に基づいた推論を行なうことにより、画像が表す元のシーンの記述を作成』し、``物理世界の物体の認識や識別''を行なうことである*。例えば困難な処理の例として「領域分割」がよく取り上げられるが、領域に分割すること自体に困難はない。問題は、分割した領域の境界が物理世界の物体の境界に必ずしも一致しないことである。これに対して、松山氏のいう『画像中の領域や認識された対象物といった物理的実体(身体性)をもつ対象がそれぞれ独立したエージェントとみなされ、それらの協調作用によって画像の領域分割やシーンの構造記述の作成』を行ったとしても、出てきた結果は「この処理ではこの結果が出た」としかいえない。それ以上のことをいうには、「処理している画像は物理世界の物体が照明を受けて光学系に撮像され、電気電子系に通して確率的な誤差や系統的な変形を受けて画像上に写像されたものである」という事実を細かく解析しなければならない。

* これに対して``パタン認識''は物理世界との対応は考えず、画像の世界だけ
  で認識や識別を行なうものである。

ビジョン研究の特異性はこのように物理現象、光学現象、電気電子現象を直接の対象としている点である。文字や音声や図面や言語の認識においては入力は人間が伝達したい意味を一定のルールで生成した信号であるが、ビジョンにおいてはシーンは``自然現象''である。このため考慮すべき要因が飛躍的に多い。これらを一つ一つ取り上げなければビジョンシステムが実現できない。それには松山氏の排斥する『還元主義』によって『「もの」を構成する根源的要素の追及を論理的、客観的に行なうことを基本原理』とするしかない*1。部分に還元せずに『情報統合』によってエージェントが手品のようにどこからともなく解決策をひねり出そうというのは幻想である*2。ビジョン研究は必然的に専門化、細分化せざるを得ない。なぜならそれだけの困難を内在しているからである。

*1 人工知能の議論は『こと』(actuality)の世界で果てしなくぐるぐる回りを
   している。これを『もの』(reality)の世界に投影して始めて(個別の)科学
   技術となる。

*2 ``正則化''と呼ばれる技法も同様である。``事前の知識''と統合して主観
   的にもっともらしそうな解を作り出しても、誤差や誤りをもたらす『根源
   的要素』とそのメカニズムを『論理的、客観的に』解明していないのでは、
   その例でうまくいってもそれ以外の例でうまくいく保証がない。

5. 数理解析手法に限界はあるか

ビジョンシステムの対象とする実世界は物理、光学法則によって支配され、それらは数学によって記述される。カメラ系、電気電子系の確率的ノイズや系統的歪みも数学的に記述される。したがって「画像は物理世界の物体を光学、電気電子系に通して得られたものである」という事実は数理解析によってのみ正しく記述できる。このため、『ビジョン研究を学問分野として確立するには、光学や数学の応用分野として』、『精密な光学モデルと高度な解析幾何学の知識を利用し、処理・計算には多様な数理的最適化手法や統計的推定法を駆使する』必要がある。

もちろん、考慮すべき要因は無数にあるので、それらをすべて厳密に解析することはできない。それに対処するには次のような専門化、細分化が必要である。

・人間と同等な能力をもつ汎用ビジョンシステムを追及するのではなく、限定した環境で特定の目的をもつ個別システムを開発する。

・複雑な解析を簡単化する近似手法を開発する。そして数理解析によってその近似の精度、意味、適用範囲、限界を明らかにする。

この両者は不可分である。近似が正当化できるためには環境が限定されていなければならない*。

* その意味でのすぐれた研究の例に[Wada 95]がある。

松山氏の統合パラダイムの底にあるのは「個々のエージェント*の能力は小さくても互いの協調作用によって高度の機能が実現できる」という思想であるが、これは方向が逆である。松山氏は数理解析の問題点として次のように述べている。

* 当然「数理解析エージェント」も含まれるのであろう。

『数理的解析手法でよく用いられる雑音モデルに基づく統計的推定は精度の向上には役立つが、頑健性を実現するにはそれに加えて誤ったデータ(outlier) の検出・認識機能が必要となる。また、柔軟性を持たせるには、アルゴリズムで用いられているモデルが解析対象のデータのモデルとして本当に妥当であるかどうかを判断するための基準や、適切なモデルに基づいたアルゴリズムの選択機能およびデータの特性にあったパラメータ値の設定機能が必要となる。』

松山氏は言外に

・これらの問題は数理解析では解決できない、

・これらの問題は情報統合で解決できる、

といおうとしているようであるが、両方とも誤りである。

1. アウトライア検出(というより、実際はインライア検出)は最近研究が進み、インライアの候補を選択しては、それが数理モデルに従うインライアであるかどうかを確率・統計的に検定する手法が研究されている[Torr 93]。それには複雑な数理解析と多量の計算量を要するが、これは問題がそれだけ複雑なのであるから当然であって、ヒューリステックスやエージェントの協調作用では解決できない。

2. 観測データを解釈するための数理的モデルが複数ある場合に、確率・統計的理論に基づいた``情報量基準''(AIC)を用いる研究が行われている[金谷 95a,95b,95c]。これによると判定のためのしきい値を何ら設定する必要がない。従来は``その実験''がうまくいくようにしきい値を調節するような例を見かけることもあったが、ヒューリステックスやエージェントの協調作用のような非数理的な方法では恣意的なしきい値を導入せざるをえない。それを理論的に定めるには誤差の数理的な性質に関する深い考察が必要になる。実際、情報量基準の解析には相当高度な数理解析が必要であるが、これは問題がそれだけ複雑なのであるから当然である。

3. ３次元解析がしやすいようにカメラの運動を制御する「アクティブビジョン」でも、ある制御で得られた画像がロバストな３次元解析に妥当か、あるいは新たな制御が必要かを判断する基準が必要になる。これは画像の誤差を考慮した情報量基準や解析の信頼性評価から得られるものであり、他のエージェントとのやりとりからは得られない。

この種の解析が過去に存在しなかったからといって、それが数理解析の方法論としての「限界」であるというのは誤りである。単にしていなかっただけである。また解析が複雑になることを方法論の「限界」とみなすのも正しくない。複雑になるのはビジョンシステムの本質から当然である。

6. 結論

ビジョンシステムの実現は困難な問題である。それは考慮すべき要因が極めて多いからであり、パラダイムの責任ではない。パラダイムシフトに右往左往するのは渋滞から逃れるために「抜け道ガイドマップ」を買いあさるようなものである。しかし安易な道は存在しない。要因を一つ一つ解明して初めて道が開ける。数理解析はそのための最も基本的な手段である。これによってビジョン研究は空想から科学となる。

参考文献

1.［金谷 95a］金谷健一:幾何学的モデルの選択基準について,情報処理学会数理モデル化と問題解決研究会資料, 95-MPS-2, pp. 27--32 (1995).

2.［金谷 95b］金谷健一:幾何学的モデル選択の情報量基準,電子情報通信学会情報理論研究会資料, IT95-16, pp. 19--24 (1995).

3.［金谷 95c］金谷健一:情報量基準による幾何学的推論,情報処理学会人工知能研究会資料, 95-AI-101, pp. 1--6 (1995).

4.［Kuhn 62］] Kuhn, T.: ``The Structure of Scientific Revolutions'', University of Chicago Press (1962).

5.［Torr 93］Torr, P. H. S., and Murray, W.: Statisitcal detection of independent movement from a moving camera, ``Image and Vision Computing'', Vol. 11, No. 4, pp. 180--187 (1993).

6.［Wada 95］Wada, T., Ukida, H. and Matsuyama, T.: Shape from shading with interreflections under proximal light source: 3D shape reconstruction of unfolded book surface from a scanner image, ``Proceedings of the 5th International Conference on Computer Vision'', June 1995, Cambridge, MA, U.S.A., pp. 66--71.

ビジョン研究におけるパラダイムシフトとその幻想 Illusion of Paradigm Shift in Computer Vision 金谷健一 群馬大学工学部情報工学科