こんにちは。DSOC大木です。
数ヶ月かけて調整してきた NII (国立情報学研究所)さんへのデータ提供が、ついに形になりました。
すでに NII さんからも弊社からもプレスリリースは出ているので
こちらではデータ提供に至った背景と DSOC としての思いをお伝えしたいと思います!
今回 Sansan が提供したデータは以下のような名刺画像 3841 枚分です。
「え!名刺情報渡しちゃうの!?」って思われますよね。
もちろん、本当の名刺ではありません。 弊社のデザイナー達がいかにも本物らしく作成した「架空の名刺」です。
なぜ、わざわざ偽の名刺を作り、そのスキャンデータを提供するに至ったのか。 そこには、わたしたち DSOC の思いがあります。
Sansan のサービスの特徴のひとつは、オペレーション部門である DSOC (Data Strategy & Operation Center) が独自開発した名刺データ化システムと人力オペレーションを組み合わせた正確なデータベース構築にあります。これらのシステムの効率化は事業成長を支える根幹となります。
DSOC には画像処理・機械学習のスペシャリストやデータサイエンティストなど十数名が在籍しており、名刺をもとにした人脈データベースの活用という新たな価値の創出に挑んでいます。
名刺は、通常のドキュメントに比べて非定型で、フォントやフォントサイズ、レイアウト等、フォーマットが決まっていません。年間数億枚に及ぶ名刺を正確にデータ化するためには、専門性の高い研究が求められ、画像処理や機械学習のテクノロジーの進化が必要不可欠です。
一方で、名刺画像は個人情報に関わる情報でもあることから、データソースが限られており、名刺画像解析の研究は活発化しにくいのが現状です。
そのような背景から、昨年データサイエンティスト向け分析コンテスト(※)を開催し、社外の優秀なデータサイエンティストの知見を取り入れるなど、オープンイノベーションを積極的に進めてきました。今回 NIIさんを通じてサンプル名刺データを広く提供することにより、画像処理、機械学習の研究の発展に貢献することを強く期待しています。
ご興味のある方は、ぜひデータをダウンロードして研究に活かしてください^^
※ データサイエンティスト向け分析コンテスト:「人工知能は名刺をどこまで解読できるのか」