お久しぶりです。R&D糟谷です。 人工知能学会に参加したり、会社の期末に合わせたリリースに注力していて、 少し期間が空いてしまいました。
今回はリリース後の性能評価についてお伝えします。
R&DではリリースしたAPIの性能評価の一部も自分たちで担当します。 (毎週チェックしなければいけないものや量が多いものはオペレーターさんに依頼できます)
例えば、文字認識の性能等、 一人1日200件×10人×5日くらいでチェックします。 評価は基本全員参加です。
チェックのためのツールも自分たちで作成しています。 簡単なツールの作成は Visual Studio + .NET Framework で割と早くできるので重宝しています。
例えば画像と文字を並べて表示して、 文字認識が正しいかを目視で判定し、キーボード操作で判定結果を記録できるツールがあります。
自分たちで作ったものを自分たちで評価することで、 弱点を理解し、新しいアイデアにつなげようという狙いです。
全員で評価をしていれば、全員がどういうAPIがどの程度の性能なのか 理解することになり、新しいアイデアを議論するにもスムーズです。