2017.06.01

NII (国立情報学研究所)にデータを提供した背景について

こんにちは。DSOC大木です。

数ヶ月かけて調整してきた NII (国立情報学研究所)さんへのデータ提供が、ついに形になりました。

すでに NII さんからも弊社からもプレスリリースは出ているので
こちらではデータ提供に至った背景と DSOC としての思いをお伝えしたいと思います!

NIIさんからのリリース

Sansanからのリリース

今回 Sansan が提供したデータは以下のような名刺画像 3841 枚分です。

20170601162410 8d9b0686154e47c6811098127b8708de4caf4052 thumb 800xauto 18401 - NII (国立情報学研究所)にデータを提供した背景について

「え!名刺情報渡しちゃうの!?」って思われますよね。

もちろん、本当の名刺ではありません。
弊社のデザイナー達がいかにも本物らしく作成した「架空の名刺」です。

なぜ、わざわざ偽の名刺を作り、そのスキャンデータを提供するに至ったのか。
そこには、わたしたち DSOC の思いがあります。

 
Sansan のサービスの特徴のひとつは、
オペレーション部門である DSOC (Data Strategy & Operation Center) が独自開発した名刺データ化システムと人力オペレーションを組み合わせた正確なデータベース構築にあります。
これらのシステムの効率化は事業成長を支える根幹となります。

DSOC には画像処理・機械学習のスペシャリストやデータサイエンティストなど十数名が在籍しており、
名刺をもとにした人脈データベースの活用という新たな価値の創出に挑んでいます。

名刺は、通常のドキュメントに比べて非定型で、
フォントやフォントサイズ、レイアウト等、フォーマットが決まっていません。
年間数億枚に及ぶ名刺を正確にデータ化するためには、専門性の高い研究が求められ、画像処理や機械学習のテクノロジーの進化が必要不可欠です。

一方で、名刺画像は個人情報に関わる情報でもあることから、
データソースが限られており、名刺画像解析の研究は活発化しにくいのが現状です。

そのような背景から、昨年データサイエンティスト向け分析コンテスト(※)を開催し、
社外の優秀なデータサイエンティストの知見を取り入れるなど、オープンイノベーションを積極的に進めてきました。
今回 NIIさんを通じてサンプル名刺データを広く提供することにより、
画像処理、機械学習の研究の発展に貢献することを強く期待しています。

ご興味のある方は、ぜひデータをダウンロードして研究に活かしてください^^

Sansanが提供するデータセット

_________________________________________________________________________
※ データサイエンティスト向け分析コンテスト:「人工知能は名刺をどこまで解読できるのか

Pickup