視覚情報処理

 人間が外界から得る情報の8割は視覚情報といわれています。人工知能の構築において、視覚情報処理は極めて重要な要素です。

 画像工学やコンピュータビジョンなどの工学的な分野で、いわゆるパターン認識の研究が盛んにおこなわれてきました。しかしながら人間の視覚機能のように、状況の変化や明るさの変化、回転や移動などに対しても有効なパターン認識技術はまだ発展の途上段階です。なぜでしょうか? 私たちは、人間の優れた視覚機能にもっと学ぶべきと考えています。これまでのパターン認識は、例えばリンゴの写真を入力すると、「リンゴ」という認識結果が与えられるだけでした。これでは単なる

画像情報 ⇒ 文字情報

の変換にすぎません。

 萩原研究室では、脳での情報処理を学び、それを工学的に応用する方向で研究を行っています。脳では資格情報が入力されると、「色」「形」「動き」などの要素に分けた処理が行われます。同時に対象物体のみならず、周囲からの情報を用いて認識や理解を行います。さらに脳に蓄積されている知識、経験、言語、そして感性を用いて様々な高度な処理が行われます。

 萩原研究室の視覚情報処理は、特徴点の抽出といったコンピュータビジョン分野の古典的手法だけでなく、畳み込みニューラルネットワーク(CNN; Convolutional Neural Network)や自己符号化器(Autoencoder)といった近年主流のディープラーニングの手法も積極的に導入しています。このようにして、画像認識から画像理解、画像解釈を目指した研究を行っています。そして最終的には、言語情報処理と感性情報処理との融合によるロボット頭脳の実現を目指しています。

deepNN

研究内容

画像生成システム

GAN(Generative Adversarial Network:敵対的生成ネットワーク)は、生成器と識別器の2つのネットワークが競い合いながら、全体としての性能が高まっていくというニューラルネットワークモデルです。

ここでは、右のような画像変換の研究を行いました。現在、さらにおもしろいアプリケーションへ向けた研究と、基礎研究を行っています。

sagawa_02

画像変換ニューラルネットワーク

画像のスタイル変換は近年研究が盛んに行われています。これは、コンテツ画像に描かれた物体の配置をそのままにして、参照するスタイル画像の画風を反映させる技術です。

本研究では、ニューラルネットワーク中での損失関数に工夫を加えることにより、画風変換の精度の向上を行いました。

sagawa_02

情緒豊かな画像解釈文生成

画像に対してその内容を説明する文章を生成するという研究は広く行われています。本研究では解釈文を生成する際により情緒豊かな表現をするようにニューラルネットワークについて工夫を行いました。

sagawa_02

遮蔽物体のある画像の物体認識

物体認識は視覚情報処理の分野においてよく研究された分野で、2015年には人間の認識率をも上回る結果が報告されました。

しかし、遮蔽物体が画像にあると途端に認識率が悪くなってしまいます。

そこで、この研究ではRBM(Restricted Boltzamann Machine) と呼ばれるネットワークを中に組み込み、遮蔽物体で失われた情報を復元することで認識精度の向上を目指します。

表情認識システム

人間とロボットとのコミュニケーションにおいて、表情認識を通して人間の感情を読み取ることが重要となります。

この研究では、人間の顔の左半分により強く感情が表れるという心理学の知見を活用し、顔画像から感情を推定するシステムを畳み込みニューラルネットワーク(CNN)を使って構築します。

物体の大きさ情報の自動獲得

人間は無意識に物体の「大きさ」についての常識を用いて推論を行っています。

例えば「ポケットにサーフボードを入れる」という文は大きさの常識から不自然な文であると私たちは感じます。

そこで、この研究では画像に映っている物体の大きさを、CNNを用いて物体検出と奥行き情報を推定することで自動で獲得します。

過去の研究

過去の研究はこちら