サーベイミーティング0620

本日は小畑(M2)と山田(M2)の2名が発表を行いました。

Semantic Compositional Networks for Visual Captioning

小畑の発表はキャプション生成についての論文に関するものでした。昨今のキャプション生成は基本的に
1.画像特徴量をCNNで抽出
2.抽出した特徴量に基づいてLSTMでキャプション生成
という手順を踏むことになりますが、今回の紹介された論文は
1.画像からCNNによりタグを検出
2.検出されたタグをLSTMで混合しつつキャプション生成
のように変更したものだと私は理解しました。RNNにおける重みがテンソルになるためパラメータ数が増大してしまうという欠点があるようですが、タグを手動で設定することにより画像がなくともキャプション生成が可能であるという点は興味深く思えました。

PCAS: Pruning Channels with Attention Statistics

山田の発表はネットワークのモデルを圧縮する手法についてでした。モデル圧縮の方法は重みを削減するものから層の削減するものまであるようですが、今回はその中間ほどの削減具合であるチャネルの削減を目指すものとのことでした。学習済みモデルに対してAttentionモジュールを追加し、その出力が小さいものを削減していくというのが基本的な方針となるようです。
手法的な面白さだけでなく実験結果の項目では統計的な可視化を丁寧に行っており、示唆に富む内容となっていました。
個人的にはソフトマックス関数の出力では小さくなりすぎるという点を緩和する係数が導入されている点が面白いと感じました。こういった部分的な工夫は自分の研究にも活かせるかもしれないと思います。
[文責:迫田(B4)]