視覚情報処理

 人間が外界から得る情報の8割は視覚情報といわれています。人工知能の構築において、視覚情報処理は極めて重要な要素です。

 画像工学やコンピュータビジョンなどの工学的な分野で、いわゆるパターン認識の研究が盛んにおこなわれてきました。しかしながら人間の視覚機能のように、状況の変化や明るさの変化、回転や移動などに対しても有効なパターン認識技術はまだ発展の途上段階です。なぜでしょうか? 私たちは、人間の優れた視覚機能にもっと学ぶべきと考えています。これまでのパターン認識は、例えばリンゴの写真を入力すると、「リンゴ」という認識結果が与えられるだけでした。これでは単なる

画像情報 ⇒ 文字情報

の変換にすぎません。

 萩原研究室では、脳での情報処理を学び、それを工学的に応用する方向で研究を行っています。脳では資格情報が入力されると、「色」「形」「動き」などの要素に分けた処理が行われます。同時に対象物体のみならず、周囲からの情報を用いて認識や理解を行います。さらに脳に蓄積されている知識、経験、言語、そして感性を用いて様々な高度な処理が行われます。

 萩原研究室の視覚情報処理は、特徴点の抽出といったコンピュータビジョン分野の古典的手法だけでなく、畳み込みニューラルネットワーク(CNN; Convolutional Neural Network)や自己符号化器(Autoencoder)といった近年主流のディープラーニングの手法も積極的に導入しています。このようにして、画像認識から画像理解、画像解釈を目指した研究を行っています。そして最終的には、言語情報処理と感性情報処理との融合によるロボット頭脳の実現を目指しています。

deepNN

研究内容

情緒豊かな画像解釈文生成

画像に対してその内容を説明する文章を生成するという研究は広く行われています。本研究では解釈文を生成する際により情緒豊かな表現をするようにニューラルネットワークについて工夫を行いました。

sagawa_02

画像生成システム

GAN(Generative Adversarial Network:敵対的生成ネットワーク)は、生成器と識別器の2つのネットワークが競い合いながら、全体としての性能が高まっていくというニューラルネットワークモデルです。

ここでは、右のような画像変換の研究を行いました。現在、さらにおもしろいアプリケーションへ向けた研究と、基礎研究を行っています。

sagawa_02

劣化した画像のニューラルネットワーク認識システム

 深層学習は各種画像処理に用いられ、優れた性能を示しています。例えば2015年には画像認識において、人間の能力を上回る結果が得られています。来るべき自動運転においても、キーとなる重要技術です。

ところが多くの場合、ひずみやノイズが含まれないきれいな画像が用いられています。実際の運用においてはこのような事はまれであり、撮影時におけるピントぼけや動きによるぼけ、画像伝送時でのノイズなど、多様な画像劣化を考慮する必要があります。

 本研究では、このように大きく劣化した画像に対応することのできる新しいニューラルネットワークを提案しています。具体的には、歪んだ画像から画質を回復し、これを分類器入力として使用して画像の識別精度を改善する画質回復ネットワーク(QRNet:Quality Recovery Network)を提案しています。画像処理の分野で広く用いられている複数のデータセットを利用した詳細な評価実験を行い、非常に優れた特性が得られています。

画像変換ニューラルネットワーク

画像のスタイル変換は近年研究が盛んに行われています。これは、コンテツ画像に描かれた物体の配置をそのままにして、参照するスタイル画像の画風を反映させる技術です。

本研究では、ニューラルネットワーク中での損失関数に工夫を加えることにより、画風変換の精度の向上を行いました。

sagawa_02

過去の研究

過去の研究はこちら