こんにちは! 最近、暑くて困りますね! DSOCの西田です!
今回は、ビッグデータ分析に取り組むことになったきっかけについてお話します。
ビッグデータ分析との出会い
<運命の人との出会い>
大学院では「因果推論」の分析手法を学び、非正規労働者への教育訓練の効果について研究に励んでいました。大学院生活も残り半年となったときに、石川善樹さんがゲストスピーカーの講義が開かれると連絡がきました。
当時、石川善樹さんについては全く知りませんでしたが(笑)、少し調べてみると疫学・予防医学を専門とされていることが分かりました。疫学・予防医学では、因果推論の枠組みで分析することも多いため、「これはもしかしたら話が合うかもしれない!」と思い、その講義に参加することにしました。
講義では、因果推論や統計解析の話は出てきませんでしたが、講義後に挨拶させていただき、因果推論の話を聞いてみようと決心しました。
(名刺をもらうや否や)
「プロペンシティ・スコア・マッチングを使って、非正規労働者の教育訓練について研究しています!」と、超マニアックな自己紹介をしてみました(笑)。
そうすると・・・「ぐお(><)! それめちゃくちゃ面白いね! うちのインターンに来てよ!」という返答が!!!
そんなやりとりから、石川善樹さんの下でインターンシップをすることになりました。そして、この出会いは「人生を変える大きなインパクト」を私に与えることになります!
<インターンシップから学んだこと>
石川善樹さんが率いる株式会社ハビテックでは、主にビッグデータ分析を通したコンサルティング、研究・開発を行っています。石川さんは、アカデミックで培った知識を社会に最大限還元することに重きを置いていらっしゃるため、あの超マニアックな自己紹介で互いに全てを分かり合えたのです(笑)!
インターンシップでは、これまで触ったこともない何万、何十万というサンプルサイズのデータを解析することが当たり前でした。また、テキストや画像データも扱うため、Pythonの知識も必要になりました。「Pythonなんて名前を聞いたことあるくらいだし、ましてやプログラミングなんてできる気がしない・・・」と、ものすごい不安でした。しかし、いざやってみると経済学分野の解析でも使われるStataなどの統計ソフトと似たようなもので、ことにデータ解析に関わるプログラミングについて学ぶことは、苦になりませんでした(それどころか初めてPythonを教えていただいた日には、面白すぎて朝の4時まで画風変換のアルゴリズムで遊んでしまいました(笑)!)。なので、文系だからといって、プログラミングを諦める必要はないのです。
さらに、経済学でデータ解析というとアンケートや政府統計等のデータを使うことがほとんどでしたが、インターンシップでは初めてテキストデータの分析にも携わらせていただきました。それまで解析できるものはアンケートデータのみだと思い込んでいた私は、テキストや画像もデータになり、面白い分析結果を導けるということに驚き、データ分析に対する考え方・見方が変わりました。
インターンシップを通じて、自分の専門分野を一つに絞る必要はないということに気付きました。データ分析において、何よりも重要なことは「良き問い」を立てることです。「良き問い」とは何かと考えると、実務では「ビジネスの課題に応え得る問い」となりますし、研究では「意外な発見につながる問い」となるかと思います。そのような「良き問い」を立てるためには、さまざまな問いの「解き方」を知ることが必要になります。
したがって、経済学に関する領域だけでなく、さまざまな学問分野の手法を知ることが「良きデータサイエンティスト」になるための第一歩だと考え、ビッグデータ解析において主流である機械学習に関する知識の習得など、まだまだ修行が必要だと痛感しました。
今回はここまでです!
次回は、ついに「Sansanとの出会い」についてご紹介します! 乞うご期待ください!
過去記事
▼第1回
データ分析との出会い
text:西田貴紀 photo: byabya