NII (国立情報学研究所)にデータを提供した背景について - Sansan株式会社

こんにちは。DSOC大木です。

数ヶ月かけて調整してきた NII (国立情報学研究所)さんへのデータ提供が、ついに形になりました。

すでに NII さんからも弊社からもプレスリリースは出ているので
こちらではデータ提供に至った背景と DSOC としての思いをお伝えしたいと思います！

NIIさんからのリリース

Sansanからのリリース

今回 Sansan が提供したデータは以下のような名刺画像 3841 枚分です。

「え！名刺情報渡しちゃうの！？」って思われますよね。

もちろん、本当の名刺ではありません。弊社のデザイナー達がいかにも本物らしく作成した「架空の名刺」です。

なぜ、わざわざ偽の名刺を作り、そのスキャンデータを提供するに至ったのか。そこには、わたしたち DSOC の思いがあります。

Sansan のサービスの特徴のひとつは、オペレーション部門である DSOC (Data Strategy & Operation Center) が独自開発した名刺データ化システムと人力オペレーションを組み合わせた正確なデータベース構築にあります。これらのシステムの効率化は事業成長を支える根幹となります。

DSOC には画像処理・機械学習のスペシャリストやデータサイエンティストなど十数名が在籍しており、名刺をもとにした人脈データベースの活用という新たな価値の創出に挑んでいます。

名刺は、通常のドキュメントに比べて非定型で、フォントやフォントサイズ、レイアウト等、フォーマットが決まっていません。年間数億枚に及ぶ名刺を正確にデータ化するためには、専門性の高い研究が求められ、画像処理や機械学習のテクノロジーの進化が必要不可欠です。

一方で、名刺画像は個人情報に関わる情報でもあることから、データソースが限られており、名刺画像解析の研究は活発化しにくいのが現状です。

そのような背景から、昨年データサイエンティスト向け分析コンテスト(※)を開催し、社外の優秀なデータサイエンティストの知見を取り入れるなど、オープンイノベーションを積極的に進めてきました。今回 NIIさんを通じてサンプル名刺データを広く提供することにより、画像処理、機械学習の研究の発展に貢献することを強く期待しています。

ご興味のある方は、ぜひデータをダウンロードして研究に活かしてください＾＾

Sansanが提供するデータセット

※ データサイエンティスト向け分析コンテスト：「人工知能は名刺をどこまで解読できるのか」