2017.12.14

【R&D beans】Sansan Kaggler事情

こんにちは! DSOCの大木です。

最近、社内のレイアウト変更があり、DSOCの占有面積が大きくなりました。広々しているのってきもちいいです! 心なしか効率的に仕事ができている気がします。

さて、SansanのR&DグループにはKaggler(Kaggleに参加している人)が多く、Grandmasterも2名在籍しています(関連記事)。

R&Dメンバーに、最近のKaggle周辺のtopicsを聞いてみたところ、Grandmasterの一人である高際が、しれっとコンペで11位になっていたことが分かりました。

早速上位にランクインした理由を聞いてみましたが、回答は一言「運」とのことでした。

参考になるのかならないのか分かりません。

20171212112126 21eb9348bb15075243f5a4f4cfd30da4f3b6812b - 【R&D beans】Sansan Kaggler事情

高際は京都ラボでの勤務なので、コミュニケーションはもっぱらslackです。

もうちょっと詳しく聞きたいとお願いしてみました。


高 際 :kaggleのお題には、バリエーションがいろいろあって(例えば画像認識、テキスト認識、リコメンデーションみたいな人の行動予測問題など)、得意・不得意もあるんですが、合う・合わないみたいなのもあるんですよね。 特徴量が割と謎で、feature engineeringしにくいほうが、私にとっては上位になりやすい。データの素性が明らかなコンペだと、特徴量職人みたいな人が強い。私は苦手。 食品の売り上げを予測する問題を例に挙げると、「気温、日時等々意味がわかった特徴量が与えられる場合」「測定データX、 測定データY、みたいに値の意味が謎の場合」があったとして、「特徴量が割と謎でfeature engineeringしにくい」というのは後者、「データの素性が明らか」なのが前者。

大 木 :高際さんが得意である後者の場合、XとYが何かを自分で推測するんですか?

高 際 :意味を考えずに、機械にお任せ。何かは分からなくても、統計的に処理できる。統計的な処理=機械学習を、いかにうまく使うかというテクニックの問題になると得意。 実はkaggleに参加したのが2年半ぶりで、前回に出たコンペも今回とデータの感じが似ているんですよね。対象は全く違うけど。

大 木 :前回も今回と同じ11位だったんですね!

高 際 :目立たない程度に上位でちょうどいい。

大 木 :(笑)! 高際さんらしいです!


読んでくださっているKagglerの皆さんには、参考になりましたでしょうか?

社内でKaggle部なるものも内々に発足しているので、また別の機会に紹介したいと思います。

ちなみに、来年、早めのタイミングでまたKaggle関係のイベントの開催を考えています(前回のイベントレポート)。次は、社会人の方にもお越しいただけるかも? 開催が近くなったらお知らせさせていただきますので、ご興味のある方は続報をお待ちくださいませ!

それでは、また!

text: DSOC 大木由香