こんにちは。DSOC R&Dグループの高橋寛治です。
今回は、「R&D論文読み会」について紹介します。
「R&D論文読み会」とは
この勉強会は、R&Dグループの有志が集まり、それぞれが読んだ論文について情報共有する場です。
R&Dグループは、画像処理、言語処理、ネットワーク解析、アドテクノロジーなどさまざまなバックグラウンドを持った人が集まっているため、各々の分野についての知見を共有することでお互いの知識を高め合おうと、 京都ラボの小林幸司さんの発案により始められました。
各自が読んだ論文についての知識共有が主な目的であるため、発表者は論文の概要を発表するだけでも良く、発表の内容は特に定められていません。
私は言語処理が専門なので、画像処理やネットワーク解析に関する知識が共有されることは非常に新鮮で、この場が思いがけないアイデアを与えてくれることもあります。
では、実際にどのような発表がされているのかを、いくつか簡単に紹介したいと思います。
論文紹介を聞くメンバー。目をギラギラさせています。
共有された論文 その1
『Network Diversity and Economic Development』
Nathan Eagle, Michael Macy, Rob Claxton, Science, Vol. 328, Issue 5981, 21 May 2010
自身が属する集団の外と接することは、経済的な機会を増大させるといわれています。そのネットワークの多様性と経済状態の関係性を定量評価した論文です。
対象としたのは、イギリスの電話ネットワークデータです。ネットワークの多様性を表す指標に、シャノンの情報量を用いています。経済の指標には、イギリス政府が出した重複剥奪度合いのランクを用いています。
それらの分析を行った結果、ネットワークの多様性はコミュニティの経済指標となることが分かったという内容の文献です。
感想:経済系の論文は初めてでした。「ネットワークの多様性がコミュニティの経済指標になり得るという結論が興味深かったです。
共有された論文 その2
『CannyLines: A parameter-free line segment detector』
Xiaohu Lu, Jian Yao, Kai Li, Li Li, 2015 IEEE International Conference on Image Processing (ICIP), pp.507-511, Sep 2015
画像処理において、線を検出することは重要です。その線検出において、ノンパラメトリックな手法を提案した論文です。
一般的な線検出手法であるCanny法によるエッジ検出は、パラメータ調整が必要となり、これは自動化する際の1つの障壁となります。
本論文で提案されているParameter-Free Canny Operatorは、確率的に偶然線とはなり得ないオブジェクトのみが抽出されるような閾値を求める手法です。 この線の有効性を測る指標をデータから与えることにより、ノンパラメトリックに線検出を行っています。
感想:言語処理でもパラメータ調整は大変になるため、自らの業務に応用できないかと考えを巡らせながら発表を聞いていました。
自身が読んで共有した論文
『Data Augmentation for Low-Resource Neural Machine Translation』
Marzieh Fadaee, Arianna Bisazza, Christof Monz, Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics(Short Papers), pp.567-573, 2017
最後に私が紹介した文献について紹介します。
概要を簡単に説明しますと、対訳コーパスのサイズに強く依存するニューラル機械翻訳の品質を向上させるべく、Data augmentationを提案している論文です。
そもそも「Data augmentationとはなんぞや」という方もいると思いますが、機械学習で用いる学習データを増強することです。ディープラーニングを用いた画像処理で成功しているようです。画像処理分野でのData augmentationは、水平方向の反転や一部切り抜き・拡大などにより、同じ画像から別の画像データの作成を試みています。
画像であれば、回転や切り抜きをされても、なんとなく同じ画像と分かります。しかし、言語で似たようなことをやろうと思うと、違う発想を持たなければなりません。
この著者らは、低頻度語に対し文法的に正しい置換をすることで、Data augmentationを行っています。
実験の結果、著者らの手法はBLEU値(機械翻訳システムの評価尺度で、システム出力と参照訳のnグラム一致度合いを測る方法)で2.9ポイント向上しています。
感想:実験条件はコーパスが少ない場合を仮定して実験しています。ドメイン適用のためにコーパスを増やすのは大変ですので、応用可能な手法であると感じました。
おわりに
今回はR&Dグループで自主的に取り組んでいる「R&D論文読み会勉強会」について紹介しました。
前回の実装とは異なり、数式や説明を読む「R&D論文読み会勉強会」は、事例と手法を知るということにつながり、自分の手札を増やす良い機会だと感じます。
少しでも参考になれば幸いです。
それでは、次回をお楽しみに!
執筆者プロフィール
過去記事
▼第1回
言語処理100本ノック勉強会
text:DSOC R&Dグループ 高橋寛治