2017.06.22

【R&Dアーキテクト通信】 第17回 オペレーターさんに手伝ってもらう

こんにちは。DSOC R&D Groupの糟谷です。

一般的なR&Dでは学習データや評価などは「自分で行う」か、「外注して行う」かの2択だと思いますが、Sansanは自社で名刺入力のオペレーターさんを雇用しているので、その方々にそういった作業をお願いすることができます。

実際、機械学習を行う際には、データの作成が全体に対してかなりの時間を占めますが、その時間を大幅に短縮することができます。
とは言え、効率的にタグを付けしたりするツールは自分たちで作ります。
UIは.Netで作ったり、htmlで作ったりします。

近年、deep learningの活用やbig data化等で大量の学習データが必要になるので、それらの作成を手助けしてもらえるというのはかなり恵まれた環境かなと思います。
外注する場合と異なり、コンテキストが共有されているので、コミュニケーションも楽です。
また、普段から名刺を見慣れている人たちなので、自分たちで見るよりも作業の精度が高いこともあります。

もちろん、学習してみてうまくいかないデータや境界線上にあるデータについては、メンバーが自分たちで再チェックしてタグを付け直します。
これは学習の邪魔になるとか、このデータを除外するとうまく線引きができるとか、そのような判断はメンバーでしかできないので、全部をお願いすることはできませんが、それでもかなり効率的に行うことができています。