DSOC R&Dグループの小林幸司です。実は、京都には「Sansan京都ラボ」という開発拠点があり、私はそこで研究開発を行っています。
Sansanは、先日に日本で開催された国際会議「ICDAR2017」にスポンサーとして参加しました。今回のICDARは、京都開催だったこともあり、この機を逃してはいけないと講演をフルタイムで聴講し、Sansanのブース出展も担当しました。
今回は、当日の様子などを記事にして紹介したいと思います。
ICDARについて
ICDAR(International Conference on Document Analysis and Recognition)は、隔年で開催される文字認識やドキュメント解析の国際会議です。この分野の研究者が集う学会としては、おそらく最大規模であり、講演内容などの質も非常に高いです。今回は、約500名が参加したそうです。
ドキュメント解析というと、光学文字認識(OCR)技術としてひとくくりにされがちですが、そこで使われている技術は多種多様です。ICDARは、Page Segmentation、Layout Analysis、Character Recognition、Binarizationなど、これらのさまざまな領域を全て網羅しています。また、そのターゲットについては、カメラ、手書き文章から古代文章まで、何でもありです。さまざまな技術や領域が横断的に取り上げるセッションは、どれもためになるものばかりです。
今回は、本開催前のプレイベントも含めて、11月9日から11月16日まで開催されました。開催時期に寒さがちょうど強くなったおかげで、京都は例年以上に紅葉が早く、海外からの参加者にとっては最高のロケーションでの開催となったと思います。
ちなみに、2019年に予定されている次回の開催地は、シドニー。その次は、おそらくスイスになるかと思います。参加者が「学会以外も楽しむぞ」と思っていることが伝わってきます。
聴講の感想
ワークショップやチュートリアルが行われるプレイベントが計4日間、ICDARとしてメインカンファレンスが3日間開催されました。プレイベントも盛況で、その内容は多岐にわたっていました。
どれだけ内容が多岐にわたっていたかは、この詰め込まれたTimetableをご覧ください。
DeepLeaningとOCR
一文字を認識するならCNN、文字列をシーケンスで処理するならRNNという手法選択が出来上がっており、その上で性能を上げるためのチューニングを仕上げてきた発表が多かったと感じました。
-
中国語手書き文字の一文字識別器は、認識率97%オーバー
-
モバイルプラットフォームでCNNを用いた識別器を採用するための工夫
-
page segmentationや文字の二値化にもCNNによる切り出しを用いる
-
アラビア文字等、文字切り出しが難しい問題にはRNN-LSTMで攻める
-
poolingは、細かい構造が消えやすいので嫌う人が多い
などなど・・・・・・
ディープラーニングの波はとっくに収まっていて、それらをどう使って実用的な性能向上につなげるかが課題になっています。今回は、スマホアプリなどで実績のある開発者の発表も多く、実用的なディープラーニングという視点が重要になっていたように感じました。
ソースコード、モデルの公開
それぞれの発表を聞いていて、非常に目立ったのはソースコードなどの公開でした。「githubのここに今回のソースやモデルを公開していますよー」と発表スライドの最終ページで紹介する発表者が多く、そのURLやQRコードが表示されるとみんな一斉にカメラを向けて、パシャっと写真を撮っている様子が多く見受けられました。
数年前ならば、ぜひ試したいと思うアイデアであっても実装しなければ性能のほどが分からないというハードルがありましたが、これでとりあえず試してみることができるようになり、ハードルがいい意味で明らかに下がりました。これは、今回のICDAR2017で最も印象に残った場面でした。
チュートリアルのプレゼン資料やデモプログラムなども公開されているものが多く、勉強したい方には非常にためになるものがそろっているのでお勧めです。特に、word spottingという単語画像探索のチュートリアルである「Word Spotting: From Bag-of-Features to Deep Learning」は、その技術進化の説明だけでなく、一般的なディープラーニングの解説としても秀逸な講義でした。
Competition
毎回、結構な数のコンペが開催されています。この一覧を見ることで、いま研究者たちは何を解決したがっているのかを知ることができます。また、ここへのアプローチから今の研究が見えてきます。二値化やアラビア文字など毎回おなじみのものもあれば、スマホ撮影の動画からの文字認識という、いまでこそ需要がありそうな課題もありました。私もここで良い成績を出せるような開発がしたいです。かなり触発されました。
日本における文字認識技術開発
ICDARは、国際学会なのですが、開催地が京都とあって、たくさんの日本人が参加することを期待していたようです。しかし、参加した日本人は少なく、私には残念に思えました。一方で、中国からの参加者が非常に多かったのが印象的でした。これは中国語の手書き文字データベースが提供されているために、文字認識技術で課題となり続けている多クラス識別の実質的なベンチマークとなっていることが、大きく寄与しているように思います。少なくとも日本は、この分野で先導的な役目を果たしているとは言えなくなっています。
「データがあれば研究したい」という需要はあるのだから、ここに寄与できるようなデータの提供をSansanができれば、日本人研究者に刺激を与えられるんじゃないかと、今後に向けたひそかな野望を抱きました。
ブース
興味深い内容が多く、聴講することばかりに気を取られていたこともあり、最初に東京から送られてきた大量の荷物を見たときには、しばしがくぜんとしましたが、何とか設置を完了することができました。
私としては、特に日本人の学生へアピールしたかったのですが、参加人数自体が非常に少なかったこともあり、つたない英語ながら海外の研究者に一生懸命説明をしました。EightのSNS的な要素やSansanの使用感など、意外とアプリ寄りの関心が強く、もっとデモを用意していけば良かったと思いました。
このブースは、ポスターセッション会場の一角に構えました。今回は、ポスターだけでもざっと100以上が展示されており、たいへん盛況でした。また、開催期間中は常時飲食物が提供されており、大変人気がありました。そこで、私は日本製のドーナツがいかに世界レベルであったかを思い知らされました。
たくさんの刺激を受けました
これまで参加した学会と比較しても、全体的に最も質が高かったと感じました。このような学会が、家から電車で通える場所で開催されたことは、とてつもなくラッキーだったと思えるほどに、ICDAR2017への参加は勉強になり、刺激を受けました。
次回は、スポンサー側や聴講する側の立場として参加するだけでなく、発表やコンペに参加して、ここで実のある成果を見せられるようになろうと強く思いました。
text: DSOC 小林幸司