本書は、コンピュータビジョンの幾何学的なアプローチの数理的な解析の本で あり、1994年に1年間続いた東京大学計数工学科での特別講義のレクチャーノー トを発展させたものである。
第1章で著者のコンピュータビジョンに対する姿勢、哲学が述べられ、続いて 線形代数と統計学の基礎的なおさらいが終わると、その後は、最適性にこだわっ た、一切の妥協を許さない、極めて精緻な数理的な解析が続く。ビジョンシス テム開発に直面している人は、本書を眺めると、難解な数学の本にしか見えな いかもしれない。また、こんなことをして何の役にたつのかと疑問をもたれる かもしれない。しかし、しばらくは、コンピュータビジョンを応用数学という 面から捉えて、本書を読んでみて欲しい。
コンピュータビジョンのなかで、数理的な解析ができるのは、3次元空間と画 像との間の幾何学的な関係を利用した問題だけであるといってよい。ステレオ 視と呼ばれる三角測量がその基本である。これらの問題の定式化は剛体運動と 透視変換という単純な原理に基づいているが、いざ解こうとすると大きな困難 が待ち受けている。画像から抽出した観測データのわずかなノイズが結果を大 きく狂わせ、解が安定して得られない、俗に言うill-posedな問題なのである。 そのため、幾何学的な手法は多くの研究者によって「ノイズに弱い」、「点や 線、積木の世界に閉じている」という批判を受けてきた。ある面では正しいが、 誰も、どのくらいノイズに弱いのかといった定量的な評価について言及してこ なかった。個々の問題で採用する画像処理や画像認識のアルゴリズムに依存す ると思われていたからである。本書では、特定のアルゴリズムに依存しない、 最適な解とその精度の導出が解説されている。
本書の問題設定は、観測データ a と推定するパラメータ u が 方程式 f (a,u) = 0 を満たすという条件のもと、観測 データ a にノイズが入った場合に、u を最適に推定するとい うものである。特に、u に拘束条件(|| u || = 1 や、 u の特定の成分が1であるなど)がついた場合の推定方法が中心となっ ている。本書の前半では、このような推定問題を「幾何学的補正問題」、「パ ラメトリックな当てはめ問題」と分類し、統計学を援用して、独自の解析を展 開している。u を最適に推定するためにはどのような評価関数を最小 化する必要があるのか、また、それが統計学的にどういう意味をもっているの かが理論的に導出されている。さらに、最小化の過程で、最適な推定値とその 精度が同時に得られることも明らかになり、この推定値が統計学におけるクラ メル-ラオの下界に相当する真の最適解であることが証明される。一般に、こ の評価関数を最小化するのは難しいが、コンピュータビジョンでよくでてくる 問題に対しては、著者が開発した「くり込み法」と呼ばれるアルゴリズムを使 うと、簡単な反復計算だけで、最適な推定値とその精度が同時に得られる。実 験的に最適性を述べた研究もあるが、理論的に導いたのは本書が初めてであろ う。適当に推定するのはたやすい。しかし、最適に推定しようとすると本書の 理論のお世話にならなくてはならない。この最適な推定法の適用例として、画 像上の点群に直線を当てはめるという基本的な問題をはじめ、コンピュータビ ジョンにおける様々な問題がとりあげられている。
後半は、この理論を、ステレオ視、3次元運動解析、オプティカルフロー解析 などのより具体的な問題に適用している。現実から遊離しているかのように見 えていた数々の定理が、現実の問題を解くために必要な準備だったことがわか る。複雑な数式が躍る本書で、図やグラフ、実画像による実験結果は砂漠のオ アシスである。ほっとすると同時に、少しは理解の助けとなる。休まず読み通 そう。具体例に引き続いて、従来の AIC (赤池の情報量基準) を拡張した「幾 何学的 AIC」と呼ばれる評価基準を用いたモデル選択方法が述べられた後、前 半の理論を、正規分布以外のノイズ分布に対して一般化して本書は締めくくら れている。
本書の理論は、最適な推定値が得られるのはもちろん、その推定値の精度まで 得られるというのが特長である。ビジョンシステム構築の際に大いに利用でき そうである。また、コンピュータビジョンと多くの問題を共有しているロボティ クスの分野にも応用可能なのは言うまでもない。
何事もとことんやり尽くさないと前には進まない。本書は、コンピュータビジョ ンにおける幾何学的アプローチの総仕上げと言えるものである。しかし、早まっ てはいけない。もし、あなたが初心者なら、いきなり本書を読みはじめるのは お勧めしない。砂漠を水なしでさ迷うようなものである。まず、同じ著者によ る文献 1) を読んでから本書に臨むのが最適である。
最後に、本書の理論をプログラムの形で公開して欲しいというのは、甘え過ぎ であろうか。