こんにちは。Ctrlキーの押しすぎによる小指の痛みに悩んでいる、DSOC R&Dグループの高橋寛治です。
今回は、「第11回テキストアナリティクス・シンポジウム」に参加してきましたので、当日の様子を報告したいと思います。
テキストアナリティクス・シンポジウムとは?
「テキストアナリティクス」とは、テキストを解析することで、有益な知識や知見を見出そうとする一連の技術のことです。
このシンポジウムでは、毎回、テキストアナリティクス手法の研究やテキストアナリティクスを用いた実応用について、学術・産業など関係なくさまざまな登壇者による発表や講演が行われています。
また、実応用を重視したシンポジウムであるため、さまざまな解析技術や教科書には載らない泥臭い手法が共有される貴重な機会でもあります。
シンポジウムの概要
2017年9月7日~8日の2日間にわたって開催されました。
発表はテーマごとに分かれており、全てで22件(うち筆頭著者の所属に大学名を含むものは13件)の講演がありました。
特別企画の講演内容は、「ウェブサービスにおけるテキストアナリティクス」と「国際会議参加報告」で、どちらも非常に刺激的な内容でした。
また、初日の夜には懇親会も催されました。産学で共同研究する際の注意点や企業での研究を論文にしていくための心得など、講演とは一味違う話も聞けて勉強になりました。
立派な樹木と美しい建物が印象的な成蹊大学が会場でした。
特に得るものが多かった3つの発表
たくさんの発表や講演が行われましたが、その中でも個人的に勉強になった発表をいくつか紹介したいと思います。
実テキストの情報分析のための頑健な言語処理基盤
ブログやツイートなど現実の世界で人々が発信している実テキストを解析するための言語処理基盤に関する発表でした。
例えば、商品の評判に関して分析する際には、商品名や評判を抽出します。既存の解析器は、一般的な単語の抽出においては申し分ない精度を発揮しますが、実テキストとなると、未知語や表記ゆれによる解析誤りなど、あと一歩及ばない点があります。
この発表では、頑健に形態素解析を行う「JUMAN++」や語彙知識に基づく形態素・構文統合解析「KNP++」についての紹介がなされました。
構文解析の地道な精度向上は、手掛かり語や構造情報を用いた実テキスト分析において、重要な要素技術だと思います。
特別企画「ウェブサービスにおけるテキストアナリティクス」
ウェブサービスを提供している4企業による、事業におけるテキストアナリティクスについての講演でした。 Sansanからは、取締役CISOでDSOCセンター長でもある常樂が登壇し、Sansanにおける名刺のデータ化と活用の可能性について講演をしました。
Sansanの名刺データ化の特徴である高精度を維持するマルチソーシングと機械学習の掛け合わせや、データが生み出す価値についての説明を行いました。
高精度を維持するマルチソーシングについてなど、参加者から質問も寄せられました。
常樂による講演の様子。
不満を買い取り、データ分析を行っている不満買取センターさんは、産学連携をする上での有用な知見として、うまくいっている例といかない例を紹介されていました。私も産学連携を行う際には、今回聞いたことを参考にしてみたいと思いました。
ニュースアプリ「Gunosy」で有名なGunosyさんは、徹底的なデータドリブンによる意思決定の取り組みについて説明されていました。また、ニュース固有の問題やクリックベイト対策の話など、いずれの話題も非常に興味深かったです。
フリマアプリのメルカリさんは、機械学習・言語処理をサービスに適用してうまくいった事例を紹介されていました。学習データの集め方や機械学習で解ける問題に落とし込む方法が、非常にスマートだと感じました。
決算短信からの業績要因文の抽出
「~の製造が伸びた」のような業績要因文を決算短信から抽出する方法についての提案でした。
従来は手掛かり表現を利用してエントロピーなどを利用し、業績要因文を抽出していました。今回の提案では深層学習が利用されており、従来手法よりも抽出精度・再現率ともに向上したそうです。
会社キーワードで会社に関するキーワードの抽出を試みているため、業績要因文を用いることで「キーワード抽出処理を向上させられるのではないか」と、目論みながら聴講しました。
技術小話
特徴量選択における「PMI」と「SOA」
特徴量選択において、自己相互情報量(PMI:Pointwise Mutual Information)もいいですが、SOA(Strength of association)もいいという話を聞いたので、少し調べてみました。
PMI
自己相互情報量は、情報理論に基づいて2つの事象間の関連度合いを表す尺度です。
以下の式で表されます。
PMI(x, y)=log( P(x, y) / ( P(x) P(y) ) )
P(x,y)はある単語xとyの同時確率を、P(x)P(y)は単語xと単語yそれぞれが出現する確率を表します。
従って、単語xとyが共起しない場合は、PMIは0となります。また、単語xとyが共起しやすい場合(P(x,y)>P(x)P(y))は、PMI(x, y)は正となります。逆の場合は、PMI(x, y)は負となります。
この特徴を利用して、テキスト分類の特徴量を始めとした何らかの処理のための尺度として用いられます。
SOA
SOAは、単語wとラベルlのペアが与えられる場合に、ラベルの非関連度を考慮して自己相互情報量を求めます。
以下の式で表されます。
SOA(w, l)=PMI(w, l)-PMI(w, ¬l)
いくつか例を考えてみると、あるラベルでしかほとんど出現しない単語は、PMI(w, ¬l)が0となるため、PMI(w, l)がほとんどSOA(w, l)となります。いろいろなラベルで出現する単語は、PMI(w, l)が大きくなるため、SOA(w, l)が小さくなります。
今回は数式を追っただけですので、何か分類などのタスクに取り組む際に適用してみて感覚を掴んでみたいと思っています。
参考文献
- 言語処理のための機械学習入門
- 自然言語処理における自己相互情報量
- Advances in Knowledge Discovery and Data Mining:21st Pacific-Asia Conference
- テキストデータで特徴量選択をする
実際の現場の話がたくさん聞けました
実際のテキストデータに向き合っている人の話を聞けたことは、大きな収穫でした。
名刺データを活用して価値あるものを提供していくために、今回キャッチアップできたことを何らかの研究開発につなげていければと思っています。
成蹊大学名物の油淋鶏定食はとても美味しかったです。
執筆者プロフィール
過去記事
▼第2回
R&D論文読み会勉強会
▼第1回
言語処理100本ノック勉強会
text:DSOC R&Dグループ 高橋寛治