「第10回回路とシステム軽井沢ワークショップ講演論文集」(1997年7月, 軽井 沢, pp. 145--150)に掲載

画像理解の方法と課題
Tasks and Methods of Image Understanding
金谷健一
群馬大学工学部情報工学科

1. 研究の閉領域と開域領

画像理解と画像処理とは密接な関係があり、画像処理は信号処理の一種である。 しかし、画像処理や信号処理と画像理解との間には質的な乖離がある。それは 研究対象が特定されているか特定されていないかの違いである。この違いを仮 に「閉領域」と「開領域」という言葉で区別しよう。

情報工学の核となる学問の一つにオートマトン、形式言語、アルゴリズムなど を対象とする形式論理体系がある。これは記号世界の学問であり、複雑な記号 体系を少数の規則の適用に帰着させて記述するという方法論をとっている。こ れは論理学や数学基礎論と共通点をもつとともに計算機による計算の原理とも 適合し、正に情報工学の核と呼ぶのにふさわしい。そして、この方法論によっ て効率のよいコンパイラや効率的なアルゴリズムが得られてきた。

しかし、記号世界を一歩でも踏み出そうとすると質的に異なる困難に遭遇する。 例えばコンパイラ技術が役立つのはコンパイルすべきプログラミング言語が与 えらた場合である。どういうプログラミング言語を与えるかまで考えようとす ると、考慮要素としてユーザにとって理解しやすさ、使いやすさ、保守管理し やすさから始まり、それを用いてどういう現実の問題を解決しようとするのか から最終的には社会に対する影響にまで及ぶ。効率的なアルゴリズムの研究も どういうアルゴリズムを効率化するかまで考えようとすると同様な問題を引き 起こす。したがって外部は所与であると仮定して考慮しないことによって初め て閉じた学問領域となり、一つの学問の「分野」が形成される。

記号と対比される数値でも同様である。情報工学の一分野として「数値解析」 という学問が意味をもつのはどういう問題を数値計算で解くかということは所 与として考慮しない場合である。考慮しようとするとたちまち物理学、化学、 電気工学、機械工学、流体力学、土木工学、建築工学などすべての応用分野を 包含してしまう。

このような閉領域をもつ学問において何を所与とみなすかは、その時点で普遍 的に価値をもつであろうと思われるものを一般化、抽象化するのが普通である。 したがってこれは時とともに変化する。例えば初めは特殊な手法と思われたも のが広く利用されるようになると、その効率的なあるいは精度の高い計算法を 工夫することがアルゴリズム理論や数値解析の研究対象となる。このように閉 領域をもつ学問はその領域の境界線を絶えずアメーバのように変化させながら 生き残る(そうでないと想定した対象に対する技術の完成とともに消滅してし まう)。

2. 画像理解の困難

画像処理の対象も閉領域であり、数値データの集まりとしての画像に対して一 般的と思われる操作(雑音除去、2値化、境界追跡、ラベリング、エッジ検出、...) を組織的、効率的に計算する手法が研究されてきた。そして、その結果が画像 処理ツールとして確立されるにつれて、研究対象が領域分割やオプティカルフ ロー検出などの画像理解向けの手法に移行してきた。

それに対して``画像に写っている内容''を問うのが画像理解である。カメラを 向けさえすれば、ありとありゆるものが画像となり得るので、画像理解の対象 は無制限な開領域となっている。画像理解はそもそも初めから収拾のつかない 泥沼に足を踏み込んでいるともいえる。

最大の問題は「認識の原理」がわからないことである。例えば手書き文字読み 取りなら、特定の続け文字がなぜ二つの文字に分離されるべきかという原理が 判然としないので、あれこれ試行錯誤するしかない。犬を認識しようとすれば、 犬らしいということは何か、猫とどう区別するのかなどの動物学的知識がなけ ればならない。人物であれば、人物か非人物かを区別する原理が必要である。 顔画像認識なら人間の顔の特徴と個性とはどこに現われるのかを知らなければ ならない。例えばそれが目であるということになったとすると、画像から目を 検出するには、目はどういう特徴に着目すると目以外のものと識別する原理 (楕円形領域、同心円上領域、ハイライトの存在、等)が必要となる。医用応用 では、例えばX線画像解析ではどういう病気はどういう疾患となりどういう器 管にどのような異変が起きるのか、正常細胞と以上細胞はどこが違うのか、な どの医学知識が必要である。農業で画像による自動除草システムを作ろうとす れば、作物と雑草とをどこで見分けるのかという農学知識が必要となる。

もちろんドメインによらない普遍的な手法を探求する研究もある。例えば認識 の原理をデータ空間のクラスタリングや主成分分析で自動的に算出しようとす る試みや、ニューラルネットワークなどを用いて事例から自動的に学習させよ うとする試みもある。また光の反射や剛体運動のように比較的ドメインによら ないと考えられる要素から3次元形状を復元する研究もある。しかし、画像理 解は本質的に「実世界」の研究であり、一般に応用のドメインごとに原理も手 法も異なる。ドメイン独立な手法を用いるとしても、その適用範囲は極めて限 定される。結局はその場その場の工夫で何とかするしかないのが実情である。

3. コミュニケーションギャップ

画像理解のような開領域の研究者と特定の(特に理論的な)対象を閉領域にもつ 研究者とには絶えずコミュニケーションギャップが生じる。例えば学位審査な どで他人の研究を評価する場合に次のような会話も生じ得る。

「これは工学研究であるということだが、どういう工学的応用を目指したもの か。」

「この分野で未解決とされている問題に解決の糸口を与えたものであり、学会 でも高く評価された大変よい研究である。」

「しかし、その問題を解決することは工学にどうに寄与するのか。」

「これはこの分野の研究の進歩に大いに貢献するものであり、学問的にも大き な成果である。」

「序論で応用について触れているが、研究の仕方があまりにも形式的で非現実 的ではないか。」

「このような形式的な問題を研究するのがこの分野の目的である。」

「その分野といっても、そもそもそのような分野を研究することが工学にとっ てどういう意味をもつのかと聞いているのです。」

「それぞれの分野にはそれぞれの考え方があるのです。あなたは別の分野の人 でしょう。自分の分野の考え方を押しつけないで下さい。この分野の先生方が 皆よいといっているのだからよいでしょう。」

「......」

4. 脱工業の課題

画像理解の研究は1960年代に米国で始まった。対象が画像という信号ではなく それに写った実世界であるから、その困難さは当初から認識されていたはずで ある。しかし、1970年代、1980年代を通してどちらかというと楽観的、希望的 な観測が大勢を占めていた。それは、まず研究しやすい部分から研究を始めた ということもあるが、研究者が暗黙に工業と軍事を応用ドメインとして想定し ていたからではないかと思われる。すなわち、工業ではロボットによる製品の 自動検査、自動組立、工場敷地内の自律移動などを、軍事では自動偵察、自動 監視などを知らず知らずのうちに想定していたように見える。そのために工業 の場にありそうな平面や多面体に対する研究、エッジに基づくステレオ視、照 明やカメラの制御方式などが盛んに研究された。

工業応用と軍事応用は研究者の常識としてまず思いつくことであるのに加え、 研究費を調達する近道であったという側面もある。特に軍事応用は米国の研究 者のDARPAからの研究費調達の方便であることが多かった。日本では産業界が 工学研究を支えているという側面があり、米国でも日本の工業に対抗するとい う名目は通りがよい。

しかし軍事はさておき、工業応用では結局のところ精度とコストの問題がネッ クとなり、大量生産を基礎とする工業生産の場では画像理解はそれほど必要が ないという実体が次第に明らかになった。研究者は、将来は少量多品種生産の 時代が来るから画像理解のような柔軟な処理が必ず必要になると主張していた が、その傾向は見えてこない。

そのため近年では応用対象が非工業に移行しつつあるように見える。最も歴史 があるのは医用応用であるが、農業、商業、教育、医療、看護、娯楽などを想 定した研究が急速に増えている。これは画像理解だけでなく、コンピュータグ ラフィクスでも同様である。工業応用(CAD)は規格化、統一化を経てほとんど 行き着くところまでいったようであり、最近は映画やゲームや娯楽を目指して いるようである。

20世紀は工業中心の時代であったが、来る21世紀はより人間の生活中心の 非工業的な課題が中心となると思われる。このため最近新しい学会や研究会が 次々と誕生し、既存の学会や研究会も次々と改称して対象を変えようとしてい る。しかし、脱工業化して多様な生活応用を目指そうとすると、たちまち画像 理解のもつ(忘れかけていた)本質的な困難に改めて直面することになる。

5. 画像理解の方法

最近の論文誌から画像理解関係のものを拾い出してみると、おおまかに次の3 タイプに分類できる。

タイプ1:特定目的のシステム試作。既存の種々の手法を組み合わせて実現し、 実環境で作動させ、性能を評価する。例:手話認識システム、通行人監視シス テム。

タイプ2:特定目的のシステムの部分となる手法の開発や改良。例:人物検出、 顔部分の切り出し。

タイプ3:目的を特定せず、将来いろいろな応用で必要になるであろうと思わ れる基礎技術。例:高速マッチング手法、動画像からの3次元復元。

タイプ1は意義が明確であるが、実現法がその目的の特殊性に大きく依存して いるので、その場しのぎの解決策をとることが多く、いわば発明工夫展のよう な観がある。したがって他の問題へも波及するような技術の蓄積とはなりにく い。タイプ2は目標が明確なので研究しやすいが、同じ手法でもある目的には 有効で、別の目的には有効でないなど評価が難しい。タイプ3は何が``将来必 要になる''と考えるかで研究者のイマジネーションが要求される。そして特定 の応用に依存しない分だけ、厳密な理論構造に立脚させ、その前提と限界とを 明確にする必要がある。そのようにして初めて技術の蓄積となる。

基礎技術は本質的に``将来の''応用を目指すものであるが、論文投稿すると現 実の応用を示さなければ受理されないことが多い。そして何かに応用したデモ をつけることが要求されるのが普通である。そのため無理にこれこれに応用す るとしてデモらしいものをつけても、それが現実に役立たないという理由でリ ジェクトされることが多い。逆に、いかにも応用されそうな基礎技術であって デモもみごとでも一向に応用の場が出てこないものもある。

例えば1970年代にオプティカルフローからの3次元復元は精度と計算能力など から非現実であると思われることが多かったが、今日では画像圧縮やさまざま の認識技術と組み合わされ、重要さが増している。一方、テクスチャからの3 次元復元は印象的な例がいろいろ作られたが、10年以上たっても特に応用され たということを聞かない。

またタイプ1, 2, 3のどれにおいても、より基礎的な概念や手法がさまざまに 組合せられている(例: ランダムマルコフ場、シミュレーテッドアニーリング、 動的輪郭、カルマンフィルタ、ウェーブレット、超2次曲面、遺伝アルゴリズ ム、正則化、MDL、隠れマルコフモデル等)。その中には画像理解の研究か ら生まれたものと、それ以外の分野で生まれたものとがあるが、ほとんどが外 国の研究者によって提案されたり画像理解に導入されたもので、日本人の創案 によるものは皆無に近い。日本の研究はいわば技術の「吸収型」であり、基礎 技術を他へ波及させるような「発信型」の研究は少ない。基礎概念は``役立ち そうもない''、``理論家の空論に過ぎない''と見られることが多く、外国でも 論文として採録されるのがなかなか困難であるが、日本では不可能に近い。

6. 画像理解の課題

画像理解研究のこれからの課題は二つある。一つは新しい応用の可能性を開拓 することである。工業応用は行き詰まりの感があるが、工業を離れた生活のさ まざまの場で画像理解が果たす役割はまだまだあると思われる。これを考える には21世紀の人々の生活では何が重要となるか、どういう社会問題が生じる であろうか、などの今後の人間社会の在り方に対する洞察が必要である。

もう一つは基礎技術の蓄積である。これも目先の応用可能性にとらわれると失 敗する。研究者の将来このような技術が必ず必要となるであろうという予感能 力に支えられなければならない。そして絶えず将来の技術の発展の方向と新し い応用の可能性に目を向ける必要がある。同時に表面的な技巧に満足せずその 理論的な基盤を深めようとする努力が必要である。そうして初めて世界に発信 できる研究が生まれるであろう。

応用研究と基礎研究のどちらも一方の進歩が他方の進歩を促すという補完関係 にあるが、どちらにしても最も必要となるのは結局は研究者の将来性に対する イマジネーションとその確固たる信念であろう。

7. まとめ

画像理解の対象は画像を通した実世界であり、このため本質的な困難を抱えて いる。それゆえ画像理解のための一般的な方法は存在せず、応用目的ごとに着 実に技術を積み重ねていくしかない。

最後に、ここに述べた画像理解に対する見解は恐らく多くの画像理解研究者の 共通の意見ではあろうが、これと異なる意見をもつ研究者も少なくないことを 一言指摘しておきたい*注)。


*注) ある人達は、応用ドメインや対象の知識から離れた「夢の方法」があり、
それがわかれば、人間が外界を目で見てその内容が理解できるのと同様にロボッ
トが外界を認識でき、人間と同じように視覚により知的な行動、知的な処理が
できると考えている。具体的には、入力ビデオ画像に巧妙な画像処理演算をほ
どこし、巧妙な手順で計算処理を行うことによって画像の内容の理解を自動的
に引き出す一般的、普遍的なシステムが得られるというものである。

現在このようなシステムが得られていない理由はこれまでの``パラダイム''が
誤っていためであるとされ、次々に``正しい''パラダイムが提唱された。それ
でも一向に形が見えてこないので、これは2000年以上続いた分析的な西欧科学
の方法論の限界であり、今後は東洋思想による総合的な直観力によって科学を
越える必要があると主張する人もいる。

今日はやっているパラダイムは、単に入力画像を解析するのではなく、外界に
働きかけて学習し、知覚と行動を循環、統合することによってロボットに生物
の視覚と同様な認識機能が実現できるとするものである。このような知的シス
テムを高度な並列分散協調処理によって実現するのが画像理解であるとされる。

このような主張は、そのように主張することによって(のみ?)多くの研究費を
獲得し、企業やマスコミの注目も集め、画像理解の研究を活性化したというメ
リットがあった。実際、そのような夢のシナリオに引かれて画像理解の研究を
始めた研究者も少なくない。しかし、主張と実体との間の隔断があまりに大き
いのでに、画像理解全体が次第に怪しげなものとみられ信用を失う心配もある。

参考文献

1. 松山隆司、AIマップ---ビジョン研究から見た統合アーキテクチャ、人工知
   能学会誌、Vol. 10, No. 6 (1995), pp. 888--894. 

2. 大田友一、金谷健一、上田博唯、松山隆司、「AIマップ---ビジョン研究か
   ら見た統合アーキテクチャ」へのコメントと回答、人工知能学会誌、Vol.
   11, No. 2 (1996), pp. 216--227. 

3. 久野義徳、大田友一、金谷健一、上田博唯、松山隆司、激論:これからの
   CV、情報処理学会コンピュータビジョンとイメージメディア研究会、
   96-CVIM-100-3, 1996年5月.