サーベイミーティング0713

本日は磯島(M1)と佐々木(M1)の両名が発表を行い、またその後には内藤(M1)からGPUサーバーの使い方について解説がありました。

NLP×CNN

磯島の発表はCNNを用いた自然言語処理(NLP)についてでした。NLPというとLSTMなどの再帰型ニューラルネットワークがよく用いられるように思いますが、特に分類タスクにおいてはCNNも遜色ない結果を示すそうです。NLP特有の性質に対して適切に対処するべく、LSTMのようなoutput gateを導入する、またプーリングにおいてMaxだけではなく上位いくらかの特徴を選択するなどの工夫が紹介されました。

CNNではありませんが翻訳タスクにおけるTransformerという例もあるように、NLPにおけるDeepLearningにもまだまだ研究の余地は大きいのではないかと思います。

今後のDeep Learningについて

佐々木の発表は新しいDeepLearningの枠組みについてでした。まずハイパーパラメータの自動選択として、かつてはランダムサーチやベイジアン最適化が用いられてきたところに、遺伝的アルゴリズムの亜種のようなものを適用した論文についての紹介がありました。これはモデルの学習と同時にハイパーパラメータ等も選択や淘汰、突然変異などを用いて行うという手法になっており、学習が進んだ段階における最適なハイパーパラメータなどを求められるのではないかという可能性が示されていました。

またグラフ構造を明示的に扱うニューラルネットワークであるGraph networkも紹介され、帰納的なバイアスを学習に反映させることが可能であるとのことでした。一風変わったニューラルネットワークというのは萩原研究室でもよく扱われる研究対象であり、注目したいところです。

GPUサーバー導入記念Dockerの使い方説明

萩原研究室には来週からGPUサーバが導入されるため、そこで主に用いることとなる予定のDockerについての説明が内藤から行われました。今まで全く触ったことのない技術ですが、非常に便利そうなのでぜひともしっかりと勉強してGPUサーバーを使い倒したいところです。

[文責:迫田(B4)]

サーベイミーティング0711

本日は斎藤(M1)と井上(M1)の二名が発表を行いました。

Dropoutの知見を応用した深層学習の新手法

斎藤の発表はDropoutの知見を応用した深層学習の新手法についてでした。Dropoutは深層学習でよく用いられる学習方法の一つであり、単純ながら高い性能を示してきました。これは疑似的にアンサンブル学習を行っているためだという解釈が一般的となっています。

このDropoutを逆伝播のみに適用したものがBackdrop: Stochastic Backpropagationとのことです。これはミニバッチSGDの拡張に近いものだとも考えられ、学習のランダム性をデータの選別により生んでいるという視点から統一的に眺めることができます。

またGradient Acceleration in Activation FunctionsではDropoutが確率的な活性をもたらし、勾配を上手く取れる場合を生み出す点に着目し、新しい活性化関数を提案しています。

個人的には深層学習のこうした理論的な側面は全く理解が及んでおらず、各手法が有効であるという報告を不思議な気持ちで聞いています。知見がまとまっていき納得度の高い理論が打ち出されることを期待しています。

クローリング&スクレイピングいろいろ

井上の発表は機械学習に必要なデータをWebから収集する手法についてでした。このような研究の肝ではないが効率に大きく影響する知見について共有されることは望ましいことだと思います。特に私はWeb系の技術には疎く、ほとんどクローリングなどはしたことがないため参考になりました。

[文責:迫田(B4)]

サーベイミーティング0704

本日は上島(B4)と増田(M1)が発表を行いました。

PathNetについて

上島の発表はPathNet: Evolution Channels Gradient Descent in Super Neural Networksについてでした。これは2つのタスクを連続的に学習する際に、1つ目のタスクに対する精度を低下させないように学習させる手法の1種となります。2つ目のタスクの学習におけるCatastrophic forgettingを防ぐ方法はいくらかありますが、この論文ではアンサンブルを利用した手法を提案しています。各層のユニットそれぞれが畳み込み層であり、それらのうち部分的なものを利用してネットワークとします。タスクに応じて遺伝的アルゴリズムにより利用する部分を決定することによりCatastrophic forgettingを防ぐようです。

強化学習との組み合わせ方も提案されており非常に刺激的でした。

Sentencepieceによる日本語の分かり書き

増田の発表は日本語を分かち書きするツールについてでした。日本語の分かち書きツールはMeCabが有名ですが、低頻度語により対応するために異なるアルゴリズムによる分かち書きツールもあるようです。今回はそのうちSentencepieceというサブワードのような考え方を用いた分かち書きツールが紹介され、これは表現としてよく使われる塊を上手く抽出することができるので対話データに強いようです。一方で固有名詞には弱いという問題もあり、適用する対象に応じて使い分けることが重要となりそうです。

ニューラルネットワークを用いた自然言語処理においても分かち書きはよく使われるため、その精度というのはシステム全体の精度にも大きく関わってくるものと思います。派手ではないかもしれませんが着眼点が良く面白い内容だと思いました。

[文責:迫田(B4)]

サーベイミーティング0629

本日は千速(B4)と酒井(B4)の2名が発表を行いました。

AIによるプログラミングの学習

千速の発表はAIによる自動プログラミングに関するDeepCoder: Learning to Write Programsという論文についてでした。これは簡単な競技プログラミングの問題を解けるように作られたものであり、ニューラルネットワークにより使用する関数を予測し探索により順番を決定するというものでした。入力と出力の関係からプログラムを推測するような形式になっており、出力がプログラムという順番のあるものなのでRNNを用いるのが自然な発想かとも思いましたが、学習が難しいそうです。

プログラムの自動生成は自然言語処理と絡めて意味論を捉えようとしなければあまり意味のある成果は出ないのではないかと思ってしまいますが、競技プログラミングのように形式がはっきり決まったものではこのような方法も有効なのかもしれません。

転移学習を用いた対話応答のスタイル制御

酒井の発表は対話システムにおいて語尾や口調などを個性的にする試みの一種であるスタイル制御についてでした。転移学習を用いて少ないデータからスタイルの部分だけを効率的に学ばせることが目標のようです。評価者やデータセットなどが十分ではないように思えるところもありますが、おおむね成功しているようで興味深いと思いました。スタイル変換は武内(M2)も近い研究を行っており、萩原研究室としても知見の多い方の分野であると感じます。

[文責:迫田(B4)]

サーベイミーティング0627

本日は金(B4)と迫田(B4)の2名が発表を行いました。

アテンション機構を用いたゲート付きマルチモーダルセンチメント分析

金の発表は「商品や事物に対しての批評動画を入力として話者の感情を分類するタスク」への新手法についてでした。入力が動画であるので動画像、音声、また音声を書き起こしたテキストデータというマルチモーダルな入力を上手く扱うことが求められます。紹介された論文の提案手法では、入力としてある3種類のデータのうち音声ベクトルと映像ベクトルがノイズになるような状況に対応するため、まずゲートに相当するニューラルネットを学習させ不要な情報を除去するものとなっています。その後LSTMに入力データを流しこんだのちに、注意機構を用いて性能を向上させたとのことでした。最近は注意機構が各分野で多用されており、また性能向上が見られたという報告も多いため、目が離せない手法となっています。

Thinking Fast and Slow with Deep Learning and Tree Search

迫田の発表は強化学習とゲーム木探索を組み合わせる手法についてでした。この分野ではDeepMindが発表したAlphaGo,AlphaGoZeroなどが有名ですが、ほぼ同時期に行われた類似研究である本論文を紹介しました。これもまたニューラルネットワークにより方策及び状態価値関数を近似し、モンテカルロ木探索を用いてゲーム木探索を行うというものになっています。教師情報としてモンテカルロ木探索から得られる方策を直接用いることでより良い学習が行えたとのことです。

発表が行われたタイミングも数か月しか変わらず、この分野の競争の激しさがうかがえます。強化学習は大きく流行している分野ですが、中でも環境が既知であるような強化学習としてボードゲームは非常に興味深い題材であると思っています。

[文責:迫田(B4)]

サーベイミーティング0622

本日は金田(M2)と山本(D3)の2名が発表を行いました。

Squeeze-and-Exitation Networks

金田の発表はILSVRC2017という画像認識の分野で有名なコンテス手において最高精度を記録したネットワークの論文についてでした。これは既存のネットワークに改良を加えた形のものであり、畳み込み後にチャンネル間の相関を考えてチャンネルレベルでの重みづけを行うというようなものになります。
具体的には、まず畳み込みで得られたH×W×Cの特徴量を、各チャンネルごとに平均値を取ることで1×1×Cに変形します。そしてこのベクトルをAutoEncoderのような形で一度次元削減してから復元することにより、各チャンネルの相互依存関係を考慮した重みを生成します。最終的にこの重みを各チャンネルの特徴量に掛け合わせることで、重要なチャンネルに重みづけされた特徴量が得られることを期待します。
こうした特徴量をより良いものに改良するという工夫は、層を増やすような改良に比べて比較的計算時間もかからないような改良になることが多いと思われます。計算資源では大企業にかなわない一研究室としてはこのような方針を目指すべきなのかもしれません。

NLP分野におけるAdversarial Training

山本の発表はAdversarial Trainingについてでした。機械学習において学習済みモデルが正しく分類できるデータに対して、微小なノイズを加えることで誤判断するようになる場合があります。このようなデータをAdversarial Exampleと言い、Adversarial Exampleを用いた学習をAdversarial Trainingと言います。GANとは違い、モデル自体には特に手を加えていないことが特徴となります。
このAdversarial TrainingはNLPの分野にも応用されており、分散表現にノイズを加える形や単語に誤字を加える形で行われているようです。
Adversarial Trainingはデータ拡張の一種とも見なすことができ、この分野の発展も期待されます。
[文責:迫田(B4)]

サーベイミーティング0620

本日は小畑(M2)と山田(M2)の2名が発表を行いました。

Semantic Compositional Networks for Visual Captioning

小畑の発表はキャプション生成についての論文に関するものでした。昨今のキャプション生成は基本的に
1.画像特徴量をCNNで抽出
2.抽出した特徴量に基づいてLSTMでキャプション生成
という手順を踏むことになりますが、今回の紹介された論文は
1.画像からCNNによりタグを検出
2.検出されたタグをLSTMで混合しつつキャプション生成
のように変更したものだと私は理解しました。RNNにおける重みがテンソルになるためパラメータ数が増大してしまうという欠点があるようですが、タグを手動で設定することにより画像がなくともキャプション生成が可能であるという点は興味深く思えました。

PCAS: Pruning Channels with Attention Statistics

山田の発表はネットワークのモデルを圧縮する手法についてでした。モデル圧縮の方法は重みを削減するものから層の削減するものまであるようですが、今回はその中間ほどの削減具合であるチャネルの削減を目指すものとのことでした。学習済みモデルに対してAttentionモジュールを追加し、その出力が小さいものを削減していくというのが基本的な方針となるようです。
手法的な面白さだけでなく実験結果の項目では統計的な可視化を丁寧に行っており、示唆に富む内容となっていました。
個人的にはソフトマックス関数の出力では小さくなりすぎるという点を緩和する係数が導入されている点が面白いと感じました。こういった部分的な工夫は自分の研究にも活かせるかもしれないと思います。
[文責:迫田(B4)]

サーベイミーティング0615

本日は米倉(M2)が発表を行いました。

Poincare空間でのAttentionモデル

米倉の発表はAttentionモデルにPoincare空間への埋め込みを適用するという論文についてでした。Poincare空間への埋め込みは階層構造を表現しやすいという利点があり、これをTransformerのモデルに適用することで僅かながら性能が改善されたとのことです。埋め込みのやり方も単純な形ではなく、Attentionの仕組みの中において適切に行うような構造になっており、一読した程度ではなかなか理解の及ぶものではありませんでした。階層構造が適切に表現できたとしてそれが翻訳タスクに対してどれだけ効果的なのか門外漢の自分にはわかりませんが、グラフを扱うようなタスクに対して有効かもしれないというのは面白い点だと思います。双曲空間についてはほとんど学んだことがないため、この論文についてしっかり理解しようとしたら幅広い勉強が必要となりそうです。

[文責:迫田(B4)]

サーベイミーティング0613

本日は武内(M2)と佐川(M2)の両名が発表を行いました。

Unsupervised Learning of Style sensitive Word Vectors

 武内の発表は、教師なしで文体(個人的な印象だと”口調”?)に注目した単語ベクトルを学習する論文についてでした。これはWord2Vecにおいて、ある単語を近傍の単語から予測すると得られる表現は意味に近いものであり、遠い単語から予測すると得られる表現は文体(口調)に近いものになるということだと理解しました。口調というのは文全体で共通するものであり、一方で意味は近傍のみに効くということなのだと考えると納得できるような気もします。
 実験結果からは近傍、全体、遠い領域からの予想によって奇麗に意味の精度は単調減少、口調の精度は単調増加していることが見て取れる点が面白いと思いました。
 基本がWord2Vecのモデルなので教師なしで学習できているという点も大きく、応用範囲も広そうです。

Graph Convolutionとその使用例

 佐川の発表はGraph Convolutionについてでした。これはニューラルネットワークにグラフを入力として与える手法であり、化学・生物学分野で特に流行しているとのことです。今回はその中でも画像生成に応用した例が紹介されました。これはグラフを入力としてGraph Convolutionを行い、レイアウト予測と画像生成を行うというものになります。基本的に今までは単一物体の画像生成のみが可能であったのに対して、これによって複数物体が関係を持っている画像を生成できるようになるとのことです。
 これだけのことがend-to-endで成されるというのが驚きです。私はGraph Convolutionという概念を知ったのも今日が初めてであり、グラフの構造をニューラルネットワークが扱えるように上手く計算対象を考える点が面白いと思いました。グラフ構造はとても便利であり、知識グラフのようなものまで扱えることを考えると、Graph Convolutionの手法は重要であると感じます。
[文責:迫田(B4)]

サーベイミーティング0608

本日は井上(M1)と和田(M2)が発表を行いました。

Neural Joking Machine

井上の発表はNeural Joking Machineについてでした。これはデータセットとして「ボケてbokete」から画像と(面白い)キャプションの対を収集し、それを用いてキャプション生成を行うというものです。ニューラルネットワークのアーキテクチャはほぼ既存のものを使用しており、学習させるデータだけが異なるという状況でも明らかに性能の差が出るそうです。

着眼点が変わっていて面白い研究だといえますが、一方で教師データの重要性を物語る結果ともなっており、良い知見を含むものだとも感じます。

表記揺れ検出への挑戦

和田の発表は独自に実装したものについてでした。基本的には「Encoder-Decoderでレシピの材料名を正規化する」といったクックパッド開発者ブログを下敷きにしたものであり、文字ベースのLSTMを用いたseq2seqによって表記揺れを解消しようとするものとなります。

和田の実験では辞書などから得られたひらがなと漢字表現のペア(「みつけだす」と「見つけ出す」)などを大量に用意し学習させていましたが、ペア間で出力が変わってしまったり、同じものが出力されても違う言葉になっていたりと、なかなか一筋縄ではいかないようでした。

簡単な表記揺れならば形態素解析などを行う方が良い精度が出ると考えられるため、seq2seqはより複雑な表記揺れに対する性能が良くなってほしいところであり、そのためにはもう一つ、二つ大きな工夫が必要そうかなと感じました。

[文責:迫田(B4)]