視覚情報処理

 人間が外界から得る情報の8割は視覚情報といわれています。人工知能の構築において、視覚情報処理は極めて重要な要素です。

 画像工学やコンピュータビジョンなどの工学的な分野で、いわゆるパターン認識の研究が盛んにおこなわれてきました。しかしながら人間の視覚機能のように、状況の変化や明るさの変化、回転や移動などに対しても有効なパターン認識技術はまだ発展の途上段階です。なぜでしょうか? 私たちは、人間の優れた視覚機能にもっと学ぶべきと考えています。これまでのパターン認識は、例えばリンゴの写真を入力すると、「リンゴ」という認識結果が与えられるだけでした。これでは単なる

画像情報 ⇒ 文字情報

の変換にすぎません。

 萩原研究室では、脳での情報処理を学び、それを工学的に応用する方向で研究を行っています。脳では資格情報が入力されると、「色」「形」「動き」などの要素に分けた処理が行われます。同時に対象物体のみならず、周囲からの情報を用いて認識や理解を行います。さらに脳に蓄積されている知識、経験、言語、そして感性を用いて様々な高度な処理が行われます。

 萩原研究室の視覚情報処理は、特徴点の抽出といったコンピュータビジョン分野の古典的手法だけでなく、畳み込みニューラルネットワーク(CNN; Convolutional Neural Network)や自己符号化器(Autoencoder)といった近年主流のディープラーニングの手法も積極的に導入しています。このようにして、画像認識から画像理解、画像解釈を目指した研究を行っています。そして最終的には、言語情報処理と感性情報処理との融合によるロボット頭脳の実現を目指しています。

deepNN

研究内容

属性情報を付与した顔画像の生成

 

コンピュータで一から画像を生成できることで、デザインを考える際の発想支援が可能になります。

この研究では、GAN(Generative Adversarial Network)というディープラーニングのモデルを使って顔画像を生成します。

この研究のユニークな点として、ある画像に対して例えば「笑顔」などの属性情報を与えてあげることで、与えた顔画像を笑顔にした画像を生成することができます。

sagawa_02

遮蔽物体のある画像の物体認識

物体認識は視覚情報処理の分野においてよく研究された分野で、2015年には人間の認識率をも上回る結果が報告されました。

しかし、遮蔽物体が画像にあると途端に認識率が悪くなってしまいます。

そこで、この研究ではRBM(Restricted Boltzamann Machine) と呼ばれるネットワークを中に組み込み、遮蔽物体で失われた情報を復元することで認識精度の向上を目指します。

表情認識システム

人間とロボットとのコミュニケーションにおいて、表情認識を通して人間の感情を読み取ることが重要となります。

この研究では、人間の顔の左半分により強く感情が表れるという心理学の知見を活用し、顔画像から感情を推定するシステムを畳み込みニューラルネットワーク(CNN)を使って構築します。

物体の大きさ情報の自動獲得

人間は無意識に物体の「大きさ」についての常識を用いて推論を行っています。

例えば「ポケットにサーフボードを入れる」という文は大きさの常識から不自然な文であると私たちは感じます。

そこで、この研究では画像に映っている物体の大きさを、CNNを用いて物体検出と奥行き情報を推定することで自動で獲得します。

過去の研究

過去の研究はこちら