はじめまして。DSOC R&Dグループの中野良則と申します。
大学時代は金融工学を研究しており、社会人となってからは銀行関係のデータ分析に携わっていたのですが、2017年5月よりSansan DSOCにて名刺のやり取りからビジネスに役立つ計数を取り出すための研究開発に取り組んでいます。
さて、Sansanは10月17日・18日に開催された「データ解析&シミュレーション ハッカソン」に協賛しており、私もアドバイザーとして参加していました。タスクの詳細など一部ここでは公開できない情報を除いて、当日の様子をお伝えしたいと思います。
「データ解析&シミュレーション ハッカソン」について
このハッカソンは、10月19日から10月21日に開催された国際会議「IEEE DSAA 2017」に連動して開催されたイベントで、実務に近い形式のデータ分析を学生の方へ体験してもらうことを狙いにしたものです。スポンサーからはデータ提供だけでなくアドバイザーも派遣され、ビジネスの現場でデータ分析をしている担当者と学生の交流も図られます。
たくさんのノベルティーが用意されていました。
ちなみにSansanはIEEE DSAA 2017でもスポンサーとしてブースを出しました。そこでは、韓国の方から「面白いビジネスやっているね」とお褒めの言葉を頂いたり、名刺なんて見たこともないという米国の方に名刺交換の文化を説明したりしました。
「DSOC Tシャツ」でお迎えしました。
タスク
今回のハッカソンでは、3社から株式市場に関するデータ、不動産取引に関するデータが提供されていました。テーマには緩い縛りがありましたが、基本的には、与えられたデータと外部データを用いてデータ提供元やその他の経済主体にとって役に立つような分析をすることになりました。今回は、学生4名前後とアドバイザー1名以上がチームとなって課題に取り組みました。
学生の方に対しては事前課題が与えられており、提供されるデータの中身についてあらかじめ確認した上でイベントに参加していたようです。提供されたデータはどれも一癖も二癖もあるものばかりで、データ提供3社の担当者に対して質問する時間も設けられましたが、2日という短い期間で取り組まなければなりませんので「このデータは、本当はAを表していないけれども、『Aを示している』と仮定したときに何か面白い結果が導けるか」といった判断をすることも学生の方は要求されていたように思いました
テーマ設定
事前課題の発表会や提供データへの質問会の後は、テーマ設定の時間です。手戻りが許されないので、昼過ぎから夕食前頃まで時間を使い、どのチームも慎重に分析の方針を相談していました。
私が入ったチームでは、提供された不動産データに加えてカーシェアリング会社についての外部データを使って分析することとなりました。進め方は学生の方にお任せしましたが、自分が不動産関係のプロジェクトを手掛けたときの経験から必要になるデータが無料であるか、現実的な時間で取得できるかについては助言できたと思っています。
分析作業
分析作業は、事前課題からクラウド環境で行っていました。コミュニケーションツールはSlackを使っていたそうです。アドバイザーにはアカウントが与えられていなかったので、分析の細かい部分の相談に乗ったり、外部データを取得する際のAPIの使用方法を調査したりといったサポートをしました。
学生の方が作業しているのを近くで見ていて、スクレイピングや可視化を難なくこなせている方が多かったことに感心しました。最近は、学生の方が長期インターンシップへ参加することが一般的になってきていますが、そこで実践的なスキルを獲得しているのでしょうか。
優秀な学生の方と交流することで刺激をもらいました。
学生の方々は、東京から参加している方も含めて、全員が同じホテルに宿泊したそうです。ホテルに着いてからも、寝る時間まで盛んに議論が交わされていたと聞きました。
2日目は発表資料を作成しながらの追い込みとなりました。私のチームは、分析で思わしい結果が出なかったこともあり、どのように着地すれば分析の価値があったように見えるか、学生の方と議論を交わしました。
成果発表
2日目のお昼過ぎには作業を終了して、成果発表となりました。
発表資料の内容も含めて、高い完成度の分析結果を報告したグループもありましたが、我々のグループのように時間が足りず内容がまとまり切らなかったグループが全体的に多かった印象でした。それでも各チームの分析にそれぞれ工夫があって、それを聞いているのは楽しかったです。
他社さんの審査員・アドバイザーには著名な方も多くいて、質疑応答の際の指摘を聞いて、私自身も勉強になることが多かったです。私も存在感を出そうと張り切って、いくつかのグループに対してコメントしました。決定木系の手法を使って不動産価格分析をしていたチームに対して、類似した案件の平均価格との差を特徴量に加えた方がモデルの精度や変数重要度の解釈が良いものになったのではないか、といった内容です。短い作業時間の中なので大変ですが、線形モデルを使う場合と決定木系のモデルを使う場合では必要な前処理が異なってくることを意識しておくことは大切だと思います。
私がアドバイザーで入ったグループは、残念ながら優勝・準優勝を逃してしまいましたが、審査員特別賞を頂くことができました。分析の煮詰まらなかった部分は大きかったものの、スクレイピングによって外部データを取得した点などがハッカソンらしいと評価されました。
まとめ
先日、DSOCでもR&Dインターンシップを実施しましたが、そのときとはまた違った距離感で学生の方と一緒になって、自分が知見を持っていない分野のデータに取り組むことができて、非常に刺激を受けた2日間でした。来年も開催されるならば、ぜひまた参加したいというのが個人的な感想です。
最後になりますが、SansanはIEEE DSAA 2017の他にもさまざまなイベントのスポンサーをしています。直近では「ICDAR 2017」にも協賛しています。
すでに会期の真っ最中ではありますが、参加される予定がある方はSansanのブースまでぜひ遊びに来てくださいね。
text: DSOC R&Dグループ研究員 中野良則