mimi

Sansanの
人・組織・カルチャーを
伝えるメディア

NII (国立情報学研究所)にデータを提供した背景について

こんにちは。DSOC大木です。

数ヶ月かけて調整してきた NII (国立情報学研究所)さんへのデータ提供が、ついに形になりました。

すでに NII さんからも弊社からもプレスリリースは出ているので
こちらではデータ提供に至った背景と DSOC としての思いをお伝えしたいと思います!

NIIさんからのリリース

Sansanからのリリース

今回 Sansan が提供したデータは以下のような名刺画像 3841 枚分です。

「え!名刺情報渡しちゃうの!?」って思われますよね。

もちろん、本当の名刺ではありません。 弊社のデザイナー達がいかにも本物らしく作成した「架空の名刺」です。

なぜ、わざわざ偽の名刺を作り、そのスキャンデータを提供するに至ったのか。 そこには、わたしたち DSOC の思いがあります。

Sansan のサービスの特徴のひとつは、オペレーション部門である DSOC (Data Strategy & Operation Center) が独自開発した名刺データ化システムと人力オペレーションを組み合わせた正確なデータベース構築にあります。これらのシステムの効率化は事業成長を支える根幹となります。

DSOC には画像処理・機械学習のスペシャリストやデータサイエンティストなど十数名が在籍しており、名刺をもとにした人脈データベースの活用という新たな価値の創出に挑んでいます。

名刺は、通常のドキュメントに比べて非定型で、フォントやフォントサイズ、レイアウト等、フォーマットが決まっていません。年間数億枚に及ぶ名刺を正確にデータ化するためには、専門性の高い研究が求められ、画像処理や機械学習のテクノロジーの進化が必要不可欠です。

一方で、名刺画像は個人情報に関わる情報でもあることから、データソースが限られており、名刺画像解析の研究は活発化しにくいのが現状です。

そのような背景から、昨年データサイエンティスト向け分析コンテスト(※)を開催し、社外の優秀なデータサイエンティストの知見を取り入れるなど、オープンイノベーションを積極的に進めてきました。今回 NIIさんを通じてサンプル名刺データを広く提供することにより、画像処理、機械学習の研究の発展に貢献することを強く期待しています。

ご興味のある方は、ぜひデータをダウンロードして研究に活かしてください^^

Sansanが提供するデータセット

※ データサイエンティスト向け分析コンテスト:「人工知能は名刺をどこまで解読できるのか