言語情報処理

萩原研究室では 会話のできるロボット頭脳 を目指しています。人間が他の動物に比べて大きく優れている点として、言語の使用があげられます。例えば「山」は、わずか3本の縦線と、1本の横線からなっています。でも「山」から、多くの山や峰、その風景などをイメージすることができます。

つまり、文字とはとても高いレベルで抽象化されたものと考えることができます。そして私たちは、この文字を組み合わせて言語として使用し、さらに抽象レベルの高い情報処理を行なっています。このような処理を人工頭脳に行なわせるにはどうしたらよいでしょうか?

例えば「春」を広辞苑で調べると、四季の最初の季節、正月、勢いの盛んな時、青年期などと解説されています。しかし、暖かく眠気を誘う、桜の季節、入学式、木々や草花の芽が出る、新緑、など、私たちが「春」に対して持つイメージはあまり出てきません。

萩原研究室では、ディジタル化されたさまざまな言語資源(*)とニューラルネットワークWebなどを組み合わせたロボット頭脳の構築をめざしています。

(*)言語資源:さまざまな電子化辞書やコーパス(文例集)など

右図は萩原研にある言語資源

1) ディジタル化された言語資源の
統合

人間が持つ膨大かつ常識的な知識ベースを構築します。これは大脳皮質での長期記憶部に、記憶の分類では、宣言的知識の記憶意味記憶に対応します。(将来的にはこの部分もニューラルネットワーク化を行ないます。)

2) ニューラルネットワーク
人間の短期記憶前頭葉での思考に対応します。入力言語情報をニューラルネットワーク形式に展開し、長期記憶部へのアクセスを行なう事により、物事の概念やより深い意味の理解が可能となります。例えば、「リンゴ」に対しては、甘酸っぱい、果物、赤、青森でよくとれる、ジュースにもなる、などなどです。このように入力文章に答えが含まれていないような場合でも、長期記憶部へのアクセスを行なう事により正しい解答を出力したり、あるいはさらにレベルの高い推論あるいは創造などを可能とします。

3) Web Intelligence、視覚情報処理、感性情報処理との統合

  時々刻々変化する現在の状況への対応、さらに広範囲な知識を求めて、言語資源のみならずWebへのアクセスも同時に行ないWeb Intelligenceのアプローチも用います。

Webは、電子化辞書などの言語資源とは異なり、ミスや誤りなども多く含まれています。そこではWebから得られる相異なる情報から、機械学習などより正しい情報を選択抽出する方法などの研究も必要になってきます。さらに視覚情報処理、感性情報処理との融合もめざしてロボット頭脳の構築をめざします。

具体的な研究テーマには以下のものがあります。

研究内容

ニューラル言語モデルの内部分析と話者性の変換への応用

近年の対話システムには人間らしい応答をすることが求められています。

また現在の対話システムは応答文の構造をあらかじめ設定しておくルールベースのものではなく、ニューラルネットワークを用いたものが使われるようになってきています。

そこでこの研究ではニューラル言語モデルに話者性が変わるような単語の変換(私、俺といった一人称の変換など)を与えることで、どのように内部の特徴量が変化するかを分析しています。

さらにその特徴量を利用して意図した話者性の変換も行っています。

 

類語を考慮した単語分散表現の段階的学習

自然言語処理において、どのように言語の意味を表現するかという課題があります。

現在単語の意味表現としてword2vecという低次元ベクトルを用いた分布モデルが広く使われています。

この研究ではword2vecの改良として人間の学習を参考に2つの要素を加えています。

1つ目は簡単なものから順に学習するというカリキュラムラーニングで、少しずつ単語を与えて学習を行っています。

2つ目は類語の考慮です。追加で学習していく単語に対して類語の特徴を加えて学習を行っています。

 

過去の研究

過去の研究はこちら