【R&D beans】Sansan Kaggler事情 - Sansan株式会社

こんにちは！ DSOCの大木です。

最近、社内のレイアウト変更があり、DSOCの占有面積が大きくなりました。広々しているのってきもちいいです！　心なしか効率的に仕事ができている気がします。

さて、SansanのR＆DグループにはKaggler(Kaggleに参加している人)が多く、Grandmasterも2名在籍しています。

R&Dメンバーに、最近のKaggle周辺のtopicsを聞いてみたところ、Grandmasterの一人である高際が、しれっとコンペで11位になっていたことが分かりました。

早速上位にランクインした理由を聞いてみましたが、回答は一言「運」とのことでした。

参考になるのかならないのか分かりません。

高際は京都ラボでの勤務なので、コミュニケーションはもっぱらslackです。

もうちょっと詳しく聞きたいとお願いしてみました。

高際：kaggleのお題には、バリエーションがいろいろあって（例えば画像認識、テキスト認識、リコメンデーションみたいな人の行動予測問題など）、得意・不得意もあるんですが、合う・合わないみたいなのもあるんですよね。特徴量が割と謎で、feature engineeringしにくいほうが、私にとっては上位になりやすい。データの素性が明らかなコンペだと、特徴量職人みたいな人が強い。私は苦手。食品の売り上げを予測する問題を例に挙げると、「気温、日時等々意味がわかった特徴量が与えられる場合」「測定データX、測定データY、みたいに値の意味が謎の場合」があったとして、「特徴量が割と謎でfeature engineeringしにくい」というのは後者、「データの素性が明らか」なのが前者。
大木：高際さんが得意である後者の場合、XとYが何かを自分で推測するんですか？
高際：意味を考えずに、機械にお任せ。何かは分からなくても、統計的に処理できる。統計的な処理＝機械学習を、いかにうまく使うかというテクニックの問題になると得意。実はkaggleに参加したのが2年半ぶりで、前回に出たコンペも今回とデータの感じが似ているんですよね。対象は全く違うけど。
大木：前回も今回と同じ11位だったんですね！
高際：目立たない程度に上位でちょうどいい。
大木：（笑）！　高際さんらしいです！

読んでくださっているKagglerの皆さんには、参考になりましたでしょうか？

社内でKaggle部なるものも内々に発足しているので、また別の機会に紹介したいと思います。

ちなみに、来年、早めのタイミングでまたKaggle関係のイベントの開催を考えています（前回のイベントレポート）。次は、社会人の方にもお越しいただけるかも？　開催が近くなったらお知らせさせていただきますので、ご興味のある方は続報をお待ちくださいませ！

それでは、また！

text: DSOC 大木由香