CV=(画像)+(プログラミング)+(数理解析)
ここでいう「画像」とは入力装置(ビデオカメラ)や出力装置(ディスプレー)を 始め、変換、伝送、記憶、その他すべての画像信号や画像データの処理を含め たものを意味する。「プログラミング」とは数値や記号の処理アルゴリズムだ けでなく、参照するデータベースやシステムアーキテクチャまで含んでいる。 「数理解析」とは2次元・3次元の幾何学的関係、物理法則、光学的関係、濃 淡・色、誤差、精度・信頼性を初め、現象のモデル化とその解析であり、正に CVの核心である。
「画像」と「数理解析」を除いて「プログラミング」の部分を独立させたもの が「人工知能」であるともいえる。初期のCVはこの人工知能的プログラミング 技術を画像と結合させたものであり、設計者の直観と思い付きからさまざまな ルールやストラテジーを試行錯誤的に導入し、システムを試作してはその性能 を実験的に確認していた。
その後、実世界の複雑な現象を基本要因に分解し、それぞれを厳密に解析する という科学の方法論が取り入れられるようになり、ようやくCVは思い付きの発 明工夫から客観的な科学技術となろうとしている。
今後望まれることは「要素技術の体系化」である。ともすると目的ごとに都合 がよさそうに思える技法を工夫してシステムを組み立てることが多いが、目的 の異なるシステムでも要素技術として共通するものが多い。それらを取り出し、 前提を明確にし、効率、性能、最適性などを理論的に解明することが必要であ る。
これは従来から行なわれてはいたが、過去のCVの研究では各種の処理を効率的 に実効するアルゴリズムやデータ構造の工夫が大きな部分を占めていた。これ は利用できる計算機の能力が限られていて、資源を最大限に活用する必要があっ たからであるが、ともすると効率に目を奪われて、その処理が実世界と画像と の関係においてどういう「客観的な意味」を持つのかを十分に考慮しないこと が多かった。
例えば「エッジ検出」を「画像の濃淡値から``人間が目で見て物体境界だと思 う曲線''を抽出する方法」と主観的にとらえると、脱出不可能な迷路に落ち込 む。主観を排し、どういう濃淡パタンに対してどういう曲線を抽出するのかを 客観的に定式化しなければならない。そもその「実世界のあるもの(たとえば 人物)を検出する手法」などは存在しない。どんな検出手法でも、その手法で 検出できない場合がある。追及すべきものは「これこれの条件のもとではこれ これの性質を満たすものを抽出する」というように客観的に定義された手法で ある。
従来は存在しないまぼろしの手法を追い求めてさまざまな処理を考案しては実 験を行ない、主観評価により「``多くの場合''に有効である」などと主張する ことがよくあった。しかし、たまたま試した実験例に対して80%有効な手法よ り、30%しか有効でなくても有効である条件とその性質が明示されている手法 のほうが科学技術として意味がある。その条件が満たされる場合に使用すれば よいし、逆にその条件が満たされるようにコントロールを加えることもできる。
例えば「領域分割」をニューロや分散協調処理を組み合わせた「統合処理」で 実現して``多くの場合''に有効であっても、それがどういう条件のもとでどう いう性質をもつ領域を出力しているのかを客観的に明示できないものは科学技 術と呼ぶことはできない。そのような、実世界と画像との関係に対する客観的 な定式化なしに試行錯誤するという「主観主義」を排することが、今後の科学 技術としてのCVの発展のためには必要である。