大田友一, 金谷健一, 上田博唯, 松山隆司,「AIマップ---ビジョン研究から見 た統合アーキテクチャ」へのコメントと回答, 人工知能学会誌, Vol. 11, No. 2 (1996), pp. 216--227の一部分に相当

ビジョン研究におけるパラダイムシフトとその幻想
Illusion of Paradigm Shift in Computer Vision
金谷健一
群馬大学工学部情報工学科

1. パラダイムシフトの原動力

松山氏はビジョン研究の方法論の変遷を整理した上で、人工知能研究に最近よ く引用される哲学議論をビジョン研究にも適用して『「もの」の科学から「こ と」の科学へという情報処理研究のパラダイムシフト』を提唱し、その枠組み として『情報統合』を主張している*。

* 以下、松山氏を引用するのに『...』を用いる。
よく知られているように「パラダイムシフト」はThomas Kuhn [Kuhn 62]が科 学の歴史を特徴づけるために導入したことばである。自然界の法則性を追及す る自然科学においては、既存の認識の枠組み(パラダイム)に適合しない実験・ 観測事実が得られると、例外処置を施すなどして最小限の修正で対処しようと するが、そのような事実がしだいに多くなると、ついには修正がきかなくなり、 まったく新しい認識に移行して安定する。しかし、やがてそれにも適合しない 事実が発見され、また別の認識に移行し、これが繰り返される。このような認 識の移行がパラダイムシフトであり、代表的な例は天動説から地動説への移行 である。したがって、パラダイムシフトの原動力は「予想されなかった実験・ 観測事実」である。

「パラダイム」という用語は計算機によって知的システムを実現しようとする 研究にもよく用いられ、中でもビジョン研究は最も乱用される分野の代表であ る。しかし、そこにおける「パラダイムシフト」の原動力は「予想されなかっ た実験・観測事実」ではない。それでは何であろうか。

松山氏は、『...考案されたアルゴリズムの限界や問題点が次第に明らかにな り、...』、『...様々な観点からの問題点や限界が指摘され、...』、『...そ こには限界があり、...』、『こうした研究の進め方の限界が次第に明らかに なっており、...』のように『限界』という用語を繰り返していることから判 断すると、ある方法論が試みられ、その「限界」が明らかになり、別の方法論 に移行する(べきである)と考えているようである。しかし、特定の方法論が限 界をもっていることを``証明''することはできないので、これは研究者が「こ のような方法では望ましい物やシステムが得られない``だろう''」と「予測」 して、その方法論を放棄し、新たな可能性を探索することを意味する。その 「予測」の背景は何であろうか。

2. ビジョン研究の単純信仰

コンピュータの誕生とともに、その限りない潜在的能力は多くの研究者を引き つけた。コンピュータは万能チューリング機械であり、人間の脳も究極的には コンピュータと同じであるから、人間の知的活動もコンピュータで実現できる であろうと思われた。実際、if ... then ... else ...のような簡単なルール で言語や画像や音声を認識するシステムが試作された。それらはほんの数個の データに対するおもちゃに過ぎなかったが、将来のハードウェアの進歩による 計算能力の向上によってデータ数の限界はなくなる、したがって研究課題は単 に``巧妙なルール''を思いつくことであるように思われた。ここから「知的シ ステムは単純な方法で実現できる」という信仰が起こった。

この傾向は特にビジョン研究に著しく、``理論研究''と称するものにも数学や 光学でよく知られていたことを当てはめただけのものが多かったことは松山氏 の指摘通りである。おもしろいのは、高度な専門性をもつ数学や光学をビジョ ン研究に転用するには、その内容が単純でもよかった、というより、``単純で なければならなかった''ことである。単純な理論は数学や光学を専門としない ビジョン研究者への啓蒙の意味もあり、また「ビジョンシステムは単純な方法 で実現できる」という信仰を補強するものでもあり、大いに歓迎された。それ に対して、高度に専門的な内容に深入りすると、「これは数学、光学の研究で あってビジョン研究ではない、現実の課題を解決してはいない」という拒否反 応とともに排斥される傾向にあった。

これは松山氏のいうように、『ビジョン研究を学問分野として確立するには、 光学や数学の応用分野ではなく、視覚認識の問題に正面から立ち向かっていく 姿勢が必要』があるという理由からであるが、半面これがビジョン研究を急速 に広めた理由の一つでもある。なぜなら、深い専門知識を必要とせず、簡単な 工夫をするだけでビジョン研究という``先端的分野''の研究ができるのである から、学位取得、助成金獲得、業績蓄積に最適であり、世界中の大学と(なぜ か日本の)企業がわれもわれもと手を出した。

3. ビジョン研究のパラダイムシフト

もちろん単純な手法でビジョンシステムが実現できるはずがない。一つの方法 論を試みて望ましい結果が得られないとき、研究者は次の選択を迫られる。

1. 問題に含まれる要因を徹底的に解明する。これには高度の専門知識を要す るので、その結果として松山氏のいうように必然的に『研究が進み専門性が深 まるにつれ、それぞれ独自の研究分野を形成する』ようになる。

2. ビジョンシステムは単純な方法で実現できるはずだから、その方法は単純 な実現ができないという意味で「限界」があると判断し、``正しい''方法論を 模索する。

前者はビジョン研究以外の多くの工学の諸分野がたどった道である。一方、後 者はビジョン研究によく見られ、例えば単純な特徴から3次元復元ができると 思われたshape from ...も試みるとそれほど単純ではないことがわかり、「正 しい方法論に従えば単純になるはずである」という理由で「アクティブビジョ ン」とか「クオリタティブビジョン」とか「パーパシブビジョン」とか、次々 と``正しい''パラダイム探しが続けられた。

松山氏は『人間と同等な能力をもったビジョンシステムを実現するには attentiveな視覚を実現するための注意の集中やトップダウン画像解析などの メカニズムが不可欠である』が、過去の数理解析の成果は『ビジョンシステム において必要となる機能の一部に関するもの』でしかないから、それらの方法 論には『限界』があり、したがって『新たな研究パラダイムが望まれている』 と主張する。松山氏の提唱する『情報統合』はビジョンシステムをいわば「生 命体」にせよということである。「生命体」を特徴づけるのは、それが孤立し た『もの』(reality)ではなく、内部世界が外部世界に反応するとともに外部 世界に作用して適応や成長するという『こと』(actuality)である。この 『sensing & action』の『有機的結合』を模倣すればビジョンシステムは人 間と同等な能力をもつというわけである。

4. ビジョンシステムはなぜ困難か

松山氏の楽観的なパラダイムは研究者の夢をかき立てはするが、計算機が出現 した当時の単純信仰に通じる空想である。飛行機が小鳥のようにすばやく飛び 回れないように、ビジョンシステムが人間と同等な能力をもつことはできない。 これは「ビジョンシステムの実現」という``問題そのものに内在する本質 的な困難''のためであり、その難しさは地震予知や癌治療や核融合炉研究にも 匹敵する。筆者の見解では、ビジョンシステムの困難さは、対象が力学や光学 の法則に支配される``物理現象''であり、それをカメラという光学系から入 力し、電気電子系によって変換、処理され計算機という情報処理系に到達して 「画像」となることにある。これらの複雑な要素を考慮しなければビジョンシ ステムは実現できない。

ビジョンシステムの目的は松山氏のいうように『画像を解析し、システムに蓄 えられた知識に基づいた推論を行なうことにより、画像が表す元のシーンの記 述を作成』し、``物理世界の物体の認識や識別''を行なうことである*。例え ば困難な処理の例として「領域分割」がよく取り上げられるが、領域に分割す ること自体に困難はない。問題は、分割した領域の境界が物理世界の物体の境 界に必ずしも一致しないことである。これに対して、松山氏のいう『画像中の 領域や認識された対象物といった物理的実体(身体性)をもつ対象がそれぞれ独 立したエージェントとみなされ、それらの協調作用によって画像の領域分割や シーンの構造記述の作成』を行ったとしても、出てきた結果は「この処理では この結果が出た」としかいえない。それ以上のことをいうには、「処理してい る画像は物理世界の物体が照明を受けて光学系に撮像され、電気電子系に通し て確率的な誤差や系統的な変形を受けて画像上に写像されたものである」とい う事実を細かく解析しなければならない。

* これに対して``パタン認識''は物理世界との対応は考えず、画像の世界だけ
  で認識や識別を行なうものである。
ビジョン研究の特異性はこのように物理現象、光学現象、電気電子現象を直接 の対象としている点である。文字や音声や図面や言語の認識においては入力は 人間が伝達したい意味を一定のルールで生成した信号であるが、ビジョンにお いてはシーンは``自然現象''である。このため考慮すべき要因が飛躍的に多い。 これらを一つ一つ取り上げなければビジョンシステムが実現できない。それに は松山氏の排斥する『還元主義』によって『「もの」を構成する根源的要素の 追及を論理的、客観的に行なうことを基本原理』とするしかない*1。部分に還 元せずに『情報統合』によってエージェントが手品のようにどこからともなく 解決策をひねり出そうというのは幻想である*2。ビジョン研究は必然的に専門 化、細分化せざるを得ない。なぜならそれだけの困難を内在しているからであ る。

*1 人工知能の議論は『こと』(actuality)の世界で果てしなくぐるぐる回りを
   している。これを『もの』(reality)の世界に投影して始めて(個別の)科学
   技術となる。

*2 ``正則化''と呼ばれる技法も同様である。``事前の知識''と統合して主観
   的にもっともらしそうな解を作り出しても、誤差や誤りをもたらす『根源
   的要素』とそのメカニズムを『論理的、客観的に』解明していないのでは、
   その例でうまくいってもそれ以外の例でうまくいく保証がない。

5. 数理解析手法に限界はあるか

ビジョンシステムの対象とする実世界は物理、光学法則によって支配され、そ れらは数学によって記述される。カメラ系、電気電子系の確率的ノイズや系統 的歪みも数学的に記述される。したがって「画像は物理世界の物体を光学、電 気電子系に通して得られたものである」という事実は数理解析によってのみ正 しく記述できる。このため、『ビジョン研究を学問分野として確立するには、 光学や数学の応用分野として』、『精密な光学モデルと高度な解析幾何学の知 識を利用し、処理・計算には多様な数理的最適化手法や統計的推定法を駆使す る』必要がある。

もちろん、考慮すべき要因は無数にあるので、それらをすべて厳密に解析する ことはできない。それに対処するには次のような専門化、細分化が必要である。

・人間と同等な能力をもつ汎用ビジョンシステムを追及するのではなく、限定 した環境で特定の目的をもつ個別システムを開発する。

・複雑な解析を簡単化する近似手法を開発する。そして数理解析によってその 近似の精度、意味、適用範囲、限界を明らかにする。

この両者は不可分である。近似が正当化できるためには環境が限定されていな ければならない*。

* その意味でのすぐれた研究の例に[Wada 95]がある。
松山氏の統合パラダイムの底にあるのは「個々のエージェント*の能力は小さ くても互いの協調作用によって高度の機能が実現できる」という思想であるが、 これは方向が逆である。松山氏は数理解析の問題点として次のように述べてい る。

* 当然「数理解析エージェント」も含まれるのであろう。
『数理的解析手法でよく用いられる雑音モデルに基づく統計的推定は精度の向 上には役立つが、頑健性を実現するにはそれに加えて誤ったデータ(outlier) の検出・認識機能が必要となる。また、柔軟性を持たせるには、アルゴリズム で用いられているモデルが解析対象のデータのモデルとして本当に妥当である かどうかを判断するための基準や、適切なモデルに基づいたアルゴリズムの選 択機能およびデータの特性にあったパラメータ値の設定機能が必要となる。』

松山氏は言外に

・これらの問題は数理解析では解決できない、

・これらの問題は情報統合で解決できる、

といおうとしているようであるが、両方とも誤りである。

1. アウトライア検出(というより、実際はインライア検出)は最近研究が進み、 インライアの候補を選択しては、それが数理モデルに従うインライアであるか どうかを確率・統計的に検定する手法が研究されている[Torr 93]。それには 複雑な数理解析と多量の計算量を要するが、これは問題がそれだけ複雑なので あるから当然であって、ヒューリステックスやエージェントの協調作用では解 決できない。

2. 観測データを解釈するための数理的モデルが複数ある場合に、確率・統計 的理論に基づいた``情報量基準''(AIC)を用いる研究が行われている[金谷 95a,95b,95c]。これによると判定のためのしきい値を何ら設定する必要がない。 従来は``その実験''がうまくいくようにしきい値を調節するような例を見かけ ることもあったが、ヒューリステックスやエージェントの協調作用のような非 数理的な方法では恣意的なしきい値を導入せざるをえない。それを理論的に定 めるには誤差の数理的な性質に関する深い考察が必要になる。実際、情報量基 準の解析には相当高度な数理解析が必要であるが、これは問題がそれだけ複雑 なのであるから当然である。

3. 3次元解析がしやすいようにカメラの運動を制御する「アクティブビジョ ン」でも、ある制御で得られた画像がロバストな3次元解析に妥当か、あるい は新たな制御が必要かを判断する基準が必要になる。これは画像の誤差を考慮 した情報量基準や解析の信頼性評価から得られるものであり、他のエージェン トとのやりとりからは得られない。

この種の解析が過去に存在しなかったからといって、それが数理解析の方法論 としての「限界」であるというのは誤りである。単にしていなかっただけであ る。また解析が複雑になることを方法論の「限界」とみなすのも正しくない。 複雑になるのはビジョンシステムの本質から当然である。

6. 結論

ビジョンシステムの実現は困難な問題である。それは考慮すべき要因が極めて 多いからであり、パラダイムの責任ではない。パラダイムシフトに右往左往す るのは渋滞から逃れるために「抜け道ガイドマップ」を買いあさるようなもの である。しかし安易な道は存在しない。要因を一つ一つ解明して初めて道が開 ける。数理解析はそのための最も基本的な手段である。これによってビジョン 研究は空想から科学となる。

参考文献

1.[金谷 95a]金谷健一:幾何学的モデルの選択基準について,情報処理学会 数理モデル化と問題解決研究会資料, 95-MPS-2, pp. 27--32 (1995).

2.[金谷 95b]金谷健一:幾何学的モデル選択の情報量基準,電子情報通信学 会情報理論研究会資料, IT95-16, pp. 19--24 (1995).

3.[金谷 95c]金谷健一:情報量基準による幾何学的推論,情報処理学会人工 知能研究会資料, 95-AI-101, pp. 1--6 (1995).

4.[Kuhn 62]] Kuhn, T.: ``The Structure of Scientific Revolutions'', University of Chicago Press (1962).

5.[Torr 93]Torr, P. H. S., and Murray, W.: Statisitcal detection of independent movement from a moving camera, ``Image and Vision Computing'', Vol. 11, No. 4, pp. 180--187 (1993).

6.[Wada 95]Wada, T., Ukida, H. and Matsuyama, T.: Shape from shading with interreflections under proximal light source: 3D shape reconstruction of unfolded book surface from a scanner image, ``Proceedings of the 5th International Conference on Computer Vision'', June 1995, Cambridge, MA, U.S.A., pp. 66--71.