「言語処理学会（NLP2018）」に参加しました - Sansan株式会社

こんにちは。DSOCの奥田です。最近は、Wikipediaで作った辞書の表記揺れを直すコードを書いて泣きそうになりました。

NLP2018に参加

2018年3月12日から3月16日にかけて岡山で行われた言語処理学会第24回年次大会（NLP2018）にスポンサーとして参加してきました。今回はその報告に加えて、Sansanという会社がどのようにしてプロダクトに自然言語処理を活用しているのかを簡単に紹介したいと思います。

DSOCからは研究員の奥田と高橋が参加しました。また、Sansanはスポンサーとしてブースの出展、スポンサーイブニングなどで企業紹介も行いました。

ブースの様子です。

Sansanのブースにお越しいただいた皆さま、ありがとうございました。そこで、Sansanという会社についてなど、私たちのことを少し知っていただけたかと思いますが、改めてこの場で「名刺と自然言語処理」についてお伝えできればと思います。

Sansan×自然言語処理

Sansanは「ビジネスの出会いを資産に変え、働き方を革新する」というミッションを掲げ、法人向けクラウド名刺管理サービス「Sansan」や個人向け名刺アプリ「Eight」を提供しています。

皆さんは学会でもらった名刺をどうしていますか？　机の中に束ねて置いたままにしている人も多いかと思います。Eightでは、そういった名刺を取り込んで、名刺交換した相手とビジネスSNSでつながることができるんですよ（宣伝）！

Sansanが各サービスを提供する上で重要になってくるのが、紙の名刺に記載された情報を早く、正確に、そして低コストでデジタルに変換する技術です。そのため、名刺のデータ化を担う部門でもあるDSOCでは、OCRなどの画像処理技術をはじめとした、さまざまな技術や自然言語処理を活用しながら、日々、改善を繰り返しています。

ここで、いくつか具体的な活用事例を紹介したいと思います。

分かりやすい活用事例としては、名刺から得られた情報の修正や名寄せです。名刺をデータ化する過程では、どうしてもOCRの読み取り間違いや表記揺れが生じてしまいます。たとえ、読み取り精度が99%であったとしても、大量の名刺をデータ化してサービスを提供していくに当たっては不十分であることがあります。

こうした問題に対しては、文字列間の編集距離や類似度を利用したり、社内に蓄積されたデータと組み合わせて修正したりする手法を採用して対応をしています。古典的な手法によって解決していると思われるかもしれませんが、それも精度を限りなく上げるために必要な手段なのです。機械学習を用いて賢く解く方法もありますが、サービスとして提供していくに当たっては、いかに安定した精度を出せるか、メンテナンスが容易か、5年・10年と動き続けるプロダクトを作れるかといった観点が重要になってきます。

また、ニュース記事に掲載されている会社情報を自動で抜き出すという情報抽出も行っています。「業界の最新動向はどうなっているだろうか？」「自分の仕事に関連する話題はないだろうか？」など、ユーザーの興味に合わせたニュースフィードを提供できるようなロジックを作成し、Eightをより便利に利用していただけるように努めています。

その他にも、「営業部」といった部署名や「部長」といった役職名など、名刺に書かれた文字列が何を表しているかを判別するなど、さまざまな場面で自然言語処理の技術は活用されています。

Sansanのノベルティーとしてラムネを配布しました。食べていただけましたか？

気になった発表

さて、ここからは私が個人的に気になった発表やポスターをいくつかピックアップして紹介したいと思います。

関連記事判定のためのニュース記事キーフレーズ抽出（pdf）

ニュース記事に出てくるキーフレーズを抽出する手法とその評価尺度を検討した研究で、複数の類似記事を元にしてキーフレーズを抽出しています。こういった問題で課題になるのは、程よい粒度のキーフレーズであるということです。単語や文節単位での抽出とはまた違った形での抽象化が必要になり、最終的には人間の持つ抽象化とは何なのかということにつながる重要な課題だと思います。

採点項目に基づく国語記述式答案の自動採点（pdf）

筆記試験の採点自動化に向けた研究です。ただ機械が正確に採点するということだけを目的としておらず、機械がなぜそのように予測したのかという解釈も出力できるような問題として解いている研究です。こうした解釈性は、ディープラーニングの急激な進歩と「それでなぜ上手くいくのか？」といったモデルを理解したいという流れがある一方で、NIPS2017ではInterpretable Machine Learningというシンポジウムが開かれるなど、機械学習全般として注目されている領域です。

本研究でも自然言語処理の観点から、予測の際に解答のどこに注目しているのかをアテンション機構を用いて解釈しています。また、多くの筆記試験の問題は部分点による採点や減点方式といった複数の軸で採点されています。そういった正解・不正解では扱い切れない部分点ごとの採点を、複数のアテンション機構を利用することで同時に解決しようとしている点がとてもスマートだと思いました。

ニューラルネットを用いた多方言の翻訳と類型分析（pdf）

日本各地の方言を標準語に変換するニューラルネットを構築した研究です。ニューラル機械翻訳としての研究もさることながら、複数の方言を表す地域を表現する埋め込み表現を可視化して解釈する部分がとてもユニークで、興味深い内容でした。本来ならば言語学的な目的でクラスタリングなどを行うことにより見えてくる発見なのかもしれませんが、タスクを解く中で何らかの洞察が得られて解釈することができる研究というのは、やはり面白いです。

Wikipedia構造化データ「森羅」構築に向けて（pdf）

Wikipediaを用いた拡張固有表現の辞書作成をプロジェクトとして行うという発表です。ニューラルネットを用いたEnd2Endが全盛な時代ですが、辞書整備の大切さはSansanでの日々の業務でも特に感じているところです。特に、固有名詞や特定の専門用語などはいくらコーパスがあっても低頻度であることには変わりなく、そういった特定の知識をしっかりと扱えるようになることが、今後重要になってくるのではないかと思います。同じような課題を抱える一企業の立場としても、Sansanの強みを生かすという意味でも、このプロジェクトにコミットしていきたいと思っています。

全体を通して

私は、今回初めて言語処理学会に参加しましたが、一個人としても、企業の人間としても、とても有意義で刺激的な時間を過ごすことができました。研究発表で多くのアイデアや知見を得ることができたと感じたと同時に、言語処理学会は企業と学生や研究者がつながる場としてとても機能していると感じました。Sansanとしても、学会に参加される皆さんの出会いを資産に変えられるように、こういった取り組みのサポートを引き続きしていきたいと考えています。

最後に

Sansan株式会社では、自然言語処理の課題にチャレンジしてくれるエンジニア・研究者を募集しています！　ちょっと話を聞いてみたいという方も大歓迎ですので、奥田（@yag_ays）まで気軽に声を掛けていただければと思います。

未来の働き方に資するサービスを創り上げるAI技術者を募集

執筆者プロフィール

text：DSOC R&Dグループ奥田裕樹