こんにちは! DSOCの大木です。
最近、社内のレイアウト変更があり、DSOCの占有面積が大きくなりました。広々しているのってきもちいいです! 心なしか効率的に仕事ができている気がします。
さて、SansanのR&DグループにはKaggler(Kaggleに参加している人)が多く、Grandmasterも2名在籍しています。
R&Dメンバーに、最近のKaggle周辺のtopicsを聞いてみたところ、Grandmasterの一人である高際が、しれっとコンペで11位になっていたことが分かりました。
早速上位にランクインした理由を聞いてみましたが、回答は一言「運」とのことでした。
参考になるのかならないのか分かりません。
高際は京都ラボでの勤務なので、コミュニケーションはもっぱらslackです。
もうちょっと詳しく聞きたいとお願いしてみました。
高際:kaggleのお題には、バリエーションがいろいろあって(例えば画像認識、テキスト認識、リコメンデーションみたいな人の行動予測問題など)、得意・不得意もあるんですが、合う・合わないみたいなのもあるんですよね。 特徴量が割と謎で、feature engineeringしにくいほうが、私にとっては上位になりやすい。データの素性が明らかなコンペだと、特徴量職人みたいな人が強い。私は苦手。 食品の売り上げを予測する問題を例に挙げると、「気温、日時等々意味がわかった特徴量が与えられる場合」「測定データX、 測定データY、みたいに値の意味が謎の場合」があったとして、「特徴量が割と謎でfeature engineeringしにくい」というのは後者、「データの素性が明らか」なのが前者。
大木:高際さんが得意である後者の場合、XとYが何かを自分で推測するんですか?
高際:意味を考えずに、機械にお任せ。何かは分からなくても、統計的に処理できる。統計的な処理=機械学習を、いかにうまく使うかというテクニックの問題になると得意。 実はkaggleに参加したのが2年半ぶりで、前回に出たコンペも今回とデータの感じが似ているんですよね。対象は全く違うけど。
大木:前回も今回と同じ11位だったんですね!
高際:目立たない程度に上位でちょうどいい。
大木:(笑)! 高際さんらしいです!
大木:高際さんが得意である後者の場合、XとYが何かを自分で推測するんですか?
高際:意味を考えずに、機械にお任せ。何かは分からなくても、統計的に処理できる。統計的な処理=機械学習を、いかにうまく使うかというテクニックの問題になると得意。 実はkaggleに参加したのが2年半ぶりで、前回に出たコンペも今回とデータの感じが似ているんですよね。対象は全く違うけど。
大木:前回も今回と同じ11位だったんですね!
高際:目立たない程度に上位でちょうどいい。
大木:(笑)! 高際さんらしいです!
読んでくださっているKagglerの皆さんには、参考になりましたでしょうか?
社内でKaggle部なるものも内々に発足しているので、また別の機会に紹介したいと思います。
ちなみに、来年、早めのタイミングでまたKaggle関係のイベントの開催を考えています(前回のイベントレポート)。次は、社会人の方にもお越しいただけるかも? 開催が近くなったらお知らせさせていただきますので、ご興味のある方は続報をお待ちくださいませ!
それでは、また!
text: DSOC 大木由香