2018年06月の記事一覧

前の月  ||  次の月

プログラミング未経験でも問題なし! 社内制度「TechDojo」

こんにちは。人事部新卒採用担当の濱坂です。

Sansanにはユニークな制度やイベントが多数あり、面接に来られる応募者の関心を強く引いています。

そこで! 今回は、2018年4月に開催されたユニークな企画(社内制度)の1つ、社員にも好評な「TechDojo」について迫ってみようと思います!

社内のエンジニアが教えるプログラミング教室

IMG 2133 1 - プログラミング未経験でも問題なし! 社内制度「TechDojo」

エンジニアリング未経験でも果敢に参加する勇者たち(?)。

TechDojoは、シンプルに言うと「社内のエンジニアが教えるプログラミング教室」です。

自社サービスの裏側の仕組みや技術・開発に対する理解を向上させることを目的としています。エンジニアの社員が非エンジニアの社員に対して、その技術や知識を共有し、体験できる場を提供するイベントを社内制度として開いています。

TechDojoは毎回盛況で、今回の開催でなんと13回目!

私自身も何度か参加しているのですが、最近はご無沙汰気味です。

折しも私の可愛い後輩、採用担当の田中達也が潜入してきたということで、最近のTechDojoでは何が行われているのか!? 後輩達也はしっかり学んで来たのか!? 聞いてみたいと思います。

採用担当として、エンジニアリングも理解したい

DSC 6135 1 - プログラミング未経験でも問題なし! 社内制度「TechDojo」

採用担当の田中。採用活動の話になると、熱が入ります。

濱 坂 :TechDojoはなんで参加しようと思ったの?

田 中 :エンジニアの学生と日々面談することが多いんですけど、キャリアや会社の話だけじゃなくて、もっと技術の話題で盛り上がれたらいいなーと思ってました。そんなとき、TechDojoの話を聞いて「まさに!」と思い、飛び付いた感じですね。

濱 坂 :そうなんだ。事前に宿題とかやっていくことはあるの?

田 中 :特にありません! 時間になったら、Garden(表参道本社13階にあるスペース)に行くだけでOKです。ご飯や飲み物もあって、楽しくできましたよ。

濱 坂 :ご飯と飲み物が出るんだ! 人事だけでなく、営業とか、いろんな部署の人が来ていたみたいだけど、今回のテーマは?

田 中 :GitHubっす!!!!

濱 坂 :よく聞くやつですね。どんな内容だったの?

田 中 :GitHubって、エンジニア界隈では、ソースコード管理プラットフォームとして欠かせない存在ですが、総合職だとまず触れる機会がないんですよね。名前は聞いたことがあるけど、それが一体どういった役割を持ったものなのか分からない。どういうときに使って、どういったメリットがあるのか、その辺りについて学びつつ、参加した社員それぞれとディスカッションするという内容でした。

濱 坂 :へえー! 特に印象に残ってることはあった?

田 中 :なんといっても、「オクトキャット」ですね。このキャラクターがGitHubを支えてると言っても過言ではないという、一種のカルチャーに刺激を受けました! 終了後、エンジニアにおねだりし続け、シールを獲得することができたので、大満足です!!

濱 坂 :確かにパソコンの背面が……。

田 中 :そうなんです。これがお気に入りのオクトキャットちゃんです。

DSC 6128 1 - プログラミング未経験でも問題なし! 社内制度「TechDojo」

パソコンの左下にあるのが、オクトキャットちゃん。

濱 坂 :……。ハンズオンで何か実際にやってみたりはした?

田 中 :Markdownという記法を使って、テーマに沿ってプルリクエストからレビューまでチャレンジしました。難しかったですけど、エンジニアさんが手取り足取り教えてくれたので、なんとか最後までいけました!

濱 坂 :なるほどねー。次があったらまた参加したい?

田 中 :同じテーブルには、関西支店から出張で来ていた営業のメンバー、カスタマーサクセス部のメンバーがいて、普段なかなか話すことのできない方々と交流する機会にもなりました。ご飯もおいしかったですし、ぜひ次回も参加したいですね。

イベントも大切な社内コミュニケーション

難しそうと思ってしまいがちなプログラミングも、このような機会があるとずっと身近に感じられますね!

このように、Sansanでは社内で開催されるイベントを通じて、普段業務では関わらない社員を知る機会や馴染みのない仕事内容について学べる場がたくさんあります。

そのおかげもあってか、社内でのコミュニケーションが円滑になり、より一体感が生まれてるな、ととても感じます。

「次はどんな楽しいイベントを企画しようか」、そんなことを考えながら日々働いている濱坂でした。

過去のTechDojoについて(第6回から)

▼第11回
【社内制度紹介】職種を超えた学びの場!「TechDojo」

▼第10回
TechDojo第10回を開催しました

▼第9回
TechDojo第9回を開催しました

▼第8回
TechDojo第8回を開催しました

▼第7回
TechDojo第7回を開催しました

▼第6回
TechDojo第6回を開催しました!

text: 人事部 濱坂愛音 photo: 安藤早紀
2018/06/28

R&D社会科学班の論文読み会 vol. 2

こんにちは。DSOC R&Dグループの真鍋です。

「社会科学班の論文読み会」第2回目の報告です。なんとかやっていきたいと思います。

第2回目の参加者は、スプラトゥーンで全S+を目指して日々腕を磨いている前嶋、子どもが4カ月になって育児でヘトヘトになっている戸田、ハウスダストアレルギーで慢性鼻炎の私、真鍋です。

前回に引き続き、それぞれ1本ずつ論文を紹介しました。

1本目は私が紹介しました。Nicholas A Christakisが肥満感染の論文の翌年にパブリッシュしたもので、今度は肥満ではなく、「幸福の伝播」に関する論文です。

Dynamic spread of happiness in a large social network: longitudinal analysis over 20 years in the Framingham Heart Study
著者:James H Fowler, Nicholas A Christakis
発行年:2008年
雑誌:BMJ, 337

論文のまとめ

  • データは肥満の研究と同様に、Framingham Heart Studyのコホート研究データ。Framingham Heart Studyは1948年からFraminghamで開始された研究で、5209人の人たちの調査データから始まり、二世代 (5124人)、三世代 (4095人) にわたって調査が継続されている。
  • 調査項目中の「幸福度」調査を用い、社会ネットワーク(家族や友人関係のネットワーク)上での分布を調べると「幸福な集団」と「不幸な集団」が存在していた()。
  • 縦型の統計モデルを分析した結果、「ネットワーク上で幸福な人たちとつながっている人は、将来幸福になる確率が高まる」ということが分かった。肥満の論文と同様に、友人認識の方向性を組み込んだり、地理的要因(同ブロックに住んでいる)も変数とすることで、環境要因を統制している。
  • 近くに住んでいる友人、一緒に住んでいる配偶者、兄弟など、近接している人の影響をより受ける。逆に、友人でも近くに住んでいない場合は影響が見られない。考察で著者らは、「この結果は感情が伝播するという過去の知見と一致する」と述べている。例えば、笑顔は周囲の人々をリラックスさせる。

所感

「周囲が幸福だと自分も幸福になる」という結果は、幸福が他者依存的であるようにも捉えられますが、逆に自分がポジティブな感情を振りまくことで、周囲を幸福にする力があるかもしれないということでもあります。そのような相互作用で集団の幸福度が決まり、それが自分にフィードバックされている、ということなのかもしれません。

論文へのリンク

https://www.bmj.com/content/bmj/337/bmj.a2338.full.pdf

2本目の論文は、戸田が紹介しました。

Collaboration and Creativity: The Small World Problem
著者:Brian Uzzi, Jarrett Spiro
発行年:2005年
雑誌:American Journal of Sociology, 111(2), 447-504

論文のまとめ

  • ブロードウェイの作曲家や演出家間のネットワークと演劇のパフォーマンスの関係を調べている。
  • 関係者のネットワークのスモールワールド性Q(高いクラスター性と短いパス長が同時に保たれている状態)と彼らのミュージカルの成功は、逆U字の関係にあり、Qが大きくになるに従いパフォーマンスは上がっていくが、ある閾値を超えるとその効果は逆転する。
  • スモールワールド性が強い(いつも同じようなメンバーでミュージカルをやっている)と新しく異質な情報が入ってこないので、パフォーマンスは上がらない。
  • 一方で、スモールワールド指数が低く、常にメンバーが入れ替わっているような状態だと、情報やノウハウが定着しなので、パフォーマンスが上がらない。
  • すなわち、パフォーマンスを最大化させるようなネットワーク構造は、中庸なスモールワールド指数を持つネットワークであり、結び付きは低すぎても高すぎてもいけないということ。

所感

前回に引き続きUzziの論文ですが、前回の結論と類似していて、イノベーションのためには同質性と異質性、強い結び付きと弱い結び付きの両方が大事ということを示していました。新規性のあるアイデアを十分に生かすには、培ったノウハウでリスクテイクする必要があるからではないかとのことです。

それにしてもこの論文で示された、関係者の単なるネットワークの構造が、パフォーマンスに影響を与えているという結果には驚きでした。

論文へのリンク

https://www.journals.uchicago.edu/doi/abs/10.1086/432782

3本目は、前嶋が論文を紹介しました。

Network Duality of Social Capital
著者:Burt, R. S., Bartkus, V. O., & Davis, J. H.
発行年:2009年
書籍:Social Capital: Reaching Out, Reaching In, 39-65

論文のまとめ

  • 社会ネットワークの2つの基本的メカニズムである仲介(brokerage)と閉鎖(closure)がもたらす利益とそのバランスについての論文。
  • 構造的空隙は集団に内在する知識を仲介するバッファーとなる。この媒介によって、集団内部では専門性を深めることが可能になる。集団外部から新たな慣習や意見を取り込むことで、成長の源泉もなる。
  • 投資銀行での報酬は、その大部分が拘束度(構造的空隙の指標)で説明可能。電機会社などの官僚的な組織では、拘束度それ自体での説明力は低く、役職が大部分を説明。しかし、早期に高い役職に就くかどうかが、拘束度によってほとんど説明される。
  • 評判(reputation)は、同僚がお互いによく知っている関係のとき、長い間持続する。
    評判の安定性に対する2つの説明
    人的資本からの説明:その人物が持続的に優れた能力を持つから
    社会関係資本からの説明:社会的ネットワークが閉鎖的で安定的だから
  • 2つのマネジメント戦略
    一つは、仲介手続によって提供された良いアイデアから具体的なものが得られることを確実にするために十分な仲介を実施し、閉鎖からの早期合意を防ぐために十分な仲介を実施すること。もうひとつは、より極端なアプローチで、上級指導者が、社員が会社の他の場所の共同作業者を探してアイデアをスケッチする物理的または仮想的な「共通」スペースを作成すること。

所感

レビュー論文でした。異なる専門集団を結び付ける媒介者の存在が組織に成長をもたらし、評価もされやすいとのことです。とはいえ、媒介が可能なのは閉鎖性強い専門集団が形成されているからで、どちらがより良い、という問題でもないのですが、同質的な専門家集団と媒介者は時折対立しがちなので、生産性を下げる対立を生まないためのコミュニケーションとマネジメントが必要なのだろう、ということを話し合いました。

論文へのリンク

https://faculty.chicagobooth.edu/ronald.Burt/research/files/NDSC.pdf

徐々に(本当に徐々に)、社会ネットワーク系の著名な研究者や、その仕事の歴史を分かってきたような気がします。まだ 2 回目。梅雨なので、雨の日は論文を読みましょう。

執筆者プロフィール

過去の記事

▼第1回
R&D社会科学班の論文読み会 vol. 1

text: DSOC R&Dグループ 真鍋友則
2018/06/26

「Slush Tokyo 2018」に行ってきました(後編)

お元気ですか? ICE企画室長のHanakoです。

北欧最大級のスタートアップイベント「Slush」。その日本版となる「Slush Tokyo 2018」のイベントレポートです。

後編となる今回は、会場の様子を別の角度からお伝えしたいと思います。

前回の記事

【レポート】「Slush Tokyo 2018」に行ってきました(前編)

バラエティーに富んだ展示の数々:ふんどしマンから昆虫食まで

エキサイティングなオープニングから、ブロックチェーンなど仮想通貨の未来的な世界に触れていると、気分は最先端を行くアントレプレナー(起業家)でした。

そんな気分をさらに盛り上げてくれたのが、バラエティーに富んだブースや、出展者とのコミュニケーションでした。

7 - 「Slush Tokyo 2018」に行ってきました(後編)

その中でも目を引いたのが、100 BANCHの出展。日本人のアイデンティティーを追求した新たな試みとして、コンセプトはさておき、ふんどしマンがいたり……。

3 - 「Slush Tokyo 2018」に行ってきました(後編)

Future Insect Eatingのリーダー、高橋祐亮さんによる昆虫食を研究するプロジェクトでは、細かな虫の筋肉などを丁寧にまとめ、昆虫バーガーを開発したり……。

もともとこの方の記事を読んで非常に興味を持っていたので、今回お会いできて嬉しかったです。

納豆とご飯さえあれば十分に生きていける筆者ですので、このようなジャンルを開拓する気持ちはまったくなかったのですが……。

2 - 「Slush Tokyo 2018」に行ってきました(後編)

3、4年前、地球少年こと篠原祐太くんとの出会いから、昆虫食を知り、興味を持ちました。

コオロギラーメンの生みの親でもある彼が、その当時、筆者の友人宅で、生き生きと動いている昆虫を愛おしそうに食べるパフォーマンスをしてくれた時に、衝撃を受けた記憶があります。

1 - 「Slush Tokyo 2018」に行ってきました(後編)

彼は、人間が構築したイメージによって邪魔者扱いされ、嫌われてしまっている昆虫をもっと身近に感じてほしいという思いがあるようでした。

脱線してしまいましたが、3、4年前は珍しいと感じていた昆虫食も、いよいよこういうイベントで取り扱われることになってきたことに驚いています。

実は、昆虫食の研究開発は世界的にも進んでいるようで、その中で、日本人特有の繊細さやユニークな発想力をもってして、面白いアウトプットにつながることを期待したいですね。

指がスマホになる「ORII(オリー)」

そのように、少し風変わりな出展もあれば、クリエイティブ&テクノロジーの融合から生まれた未来のプロダクトにも注目が集まっていました。

14 - 「Slush Tokyo 2018」に行ってきました(後編)

特に私たちが注目したのが、指をスマートフォンに変身させるボイスコントロール/骨伝導スマートリング「ORII(オリー)」です。

15 - 「Slush Tokyo 2018」に行ってきました(後編)

指輪型ウェアラブルとも言われているORIIは、耳に指を当てるだけでスマートフォンの操作や通話を可能にしてくれるスマートリングです。機能性はもちろん、指輪のデザインとしても美しさを兼ね備えたORII。Art×Technologyのバランスが素敵でした。

時代を先取りしているものにしては手頃な価格設定(2018年6月時点で約$150)になっており、どこかで自慢げに使ってみたいアイテムです。きっと、これから注目の的になることでしょう。

ダイバーシティーを体現

さて、いろいろな角度からSlush Tokyo 2018を振り返って来ましたが、総じてテックイベントらしく、良い意味で、日本では感じられない海外独特のユルさや、ダイバーシティーを体現していました。

16 - 「Slush Tokyo 2018」に行ってきました(後編)

例えば、通常の日本の展示会を見て回ると、左絵のように、1mmのスキもない完璧さで装飾されているものです。

一方、Slushでは、スタッフが破れたジーンズという軽装で、かつ、ブースの装飾も部分的にはこだわるものの、全体的には雑然とした空気感でした。それが逆にフレンドリーな対応や雰囲気につながっているようにも感じられ、完成されていないところから、想像をかきたてるクリエイティビティーが息づいていました。

日本は、統一された中でいかに緻密に、完全に発揮できるか、ということに注力している印象で、形式美が際立って、それが閉じられたイメージにつながっていくのではないかと思います。

どちらが良いかという話ではなく、世界を知ることで、日本という国や日本人の特性を理解できる貴重な機会となったと、個人的に感じました。

 

17 - 「Slush Tokyo 2018」に行ってきました(後編)

各企業ブースの横にあるピッチコンテストでは、今後、世界がどのようになっていくのか、といった非常に興味深い内容がそろっていました。

その多くは、AIなど技術的なアイデアを利用した新サービスの提案でしたが、審査員による辛口のコメントがあったり、時間になるとピッチの途中で強制退場させられたりと、見ている方にもなかなかの緊張感が伝わりました。

単に便利なサービスというものだけでなく、私たちの行動様式を変え得るようなものなどもあり、もしかしたら忘れたころに、このピッチコンテストで発表されていた技術やサービスが世の中に浸透し、それを無意識に活用している日が来るかもしれませんね。

世界の新しい技術やサービスを目の当たりにして、とてもエキサイティングで、大いなる刺激を受けることができました。

Slush Tokyo 2018で発表されていた新たなアイデアが、すぐに次のプロジェクトにつながるとは思いませんが、こういった場での積み重ねこそが、将来の大きな資産になるだろうなと実感しました。

また来年も、ICEのメンバーたちと参加したいと思います。

関連記事

【レポート】「Slush Tokyo 2018」に行ってきました(前編)

text&illustration: Hanako
2018/06/20

2018年度 人工知能学会全国大会に協賛しました

こんにちは。DSOC R&Dグループ研究員の吉村です。

最近は、社内で深層学習を数式から勉強し直そうということになり、深層学習に関する書籍の輪読勉強会をしています。

JSAI2018に参加

2018年6月5日から6月8日にかけて鹿児島県鹿児島市で行われた 2018年度 人工知能学会全国大会(JSAI2018)に、Sansanは昨年(2017年のレポート)と同様にプラチナスポンサーとして参加しました。

本記事では、その模様とそもそもSansanと人工知能(AI)がどのように関係しているのかをお伝えします。

JSAI 2018は、鹿児島市の市内から山を登った先にある城山ホテル鹿児島で行われました。会場が山の上にあるホテルだったこともあり、会場から桜島や鹿児島市内が一望できました。

とても広い会場であったにもかかわらず、どの発表会場も多くの人で賑わっていました。近年、急速に参加者数が増加しているJSAIですが、今年も大盛況だったようです。

速報によると、参加者数が2572人に登ったそうで、これは過去最多人数だったようです。昨今の人工知能ブームの熱が感じられます。

DSC 0054 - 2018年度 人工知能学会全国大会に協賛しました

セッションの様子。大盛況です。

Sansanからは、DSOCの所長である常樂と研究員の糟谷中野真鍋、私の4人に加えて、R&D戦略室の田中という計6人で参加し、企業ブースを出展して展示も行いました。

また、中野はインダストリアルセッションで「ビジネスの出会いを変えるAI技術応用事例の紹介」と題した発表も行いました。

ブース出展

DSC 0031 - 2018年度 人工知能学会全国大会に協賛しました

Sansanの企業ブース前で撮影。左から、中野、田中、吉村。

企業ブースでは、法人向けクラウド名刺管理サービス「Sansan」内で展開している「Sansan Labs」や「スマートレコメンデーション」を紹介する展示や、研究員の西田戸田が著した『DSOC Data Science Report』の冊子版も配布しました。

Sansanのブースには、中野のインダストリアルセッションでの話を聞いて興味を持ってくださった学生の方や企業の方々、そして大学の先生方が話を聞きにきてくださいました。

改めて、Sansanのブースへ足を運んでいただいた皆さま、ありがとうございました。

DSC 0055 - 2018年度 人工知能学会全国大会に協賛しました

会場では、鹿児島名物の白くまが振る舞われていました。

Sansanと人工知能(AI)

さて、多くの方が「Sansanが人工知能とどういう関係が?」と思われているのではないでしょうか。簡単にSansanと人工知能技術との関係を説明したいと思います。

Sansanでは、すでにいくつかの人工知能技術を大きく分けて2つの場面でプロダクトに導入しています。そのひとつが名刺をデータ化する場面、もうひとつがデータ化された名刺情報を活用する場面です。

名刺をデータ化する場面では、例えばスキャンされた名刺に書かれている文字列が何を表すのか(名前なのか、住所なのか、会社名なのか、など)を推定するために深層学習を利用しています。この処理を項目判定と呼んでおり、創業から現在まで蓄積してきた名刺の画像データと項目と位置の情報を用いて学習することで、高精度に文字列の項目を予測・判定します。

データ化された名刺情報を活用する場面としては、前述のSansan Labsやスマートレコンメンデーションが挙げられます。

Sansan Labsでは、ビジネスを後押しするための新たな価値を創造するために、これまでにデータ化された名刺の情報を分析することで、さまざまな機能を開発しており、それぞれの機能を実現するために人工知能技術が応用されています。また、スマートレコメンデーションとは、名刺の交換情報からユーザーが次に名刺を交換するべき人を推薦する機能です。こちらでは、人工知能技術の1つであるレコメンドアルゴリズムが用いられています。

ここに示したものは一例ですが、Sansanではいろいろな場面で人工知能技術を活用しています。

研究発表・講演の聴講

学会といえば、メインとなるのは研究発表です。2018年のJSAIでも幅広い分野の研究発表がありました。ここでは、特に興味深かった発表をいくつか紹介します。

こちらは題目の通り、Stacked RNNで桜島の噴火予測を行なった研究です。発表者の方によりますと、先行研究はほとんどなく、他の火山の研究結果においてもSVMを使ったものしかないとのことで、今後の発展性を感じました。おそらく火山ごとに独自の予測関数があるのではと考え、それらをデータサイエンティストが競い合って高精度にしていく未来もあるのかなと感じました。

特定の組織内で蓄積されたテキストデータを、利用しやすくするためのシステムを構築する研究です。この研究で提案されているシステムは、インプットとして質問文とカテゴリーを受け取り、アウトプットとして要約済みの回答を返します。この研究で特に工夫されているところは回答を検索する部分で、質問文中の類似語も利用する点です。これにより、類似語を利用しない場合に比べて検索ヒット数が5割程度増加しているようです。この研究では評価実験を定量的に行うことが難しそうで、ビジネスにおけるAI活用の課題を表していると感じました。

クックパッドさんでは、フィーチャーフォン時代の画像を超解像するに当たり、パンの画像に対してはパンの画像で学習したモデル、肉の画像に対しては肉の画像で学習したモデルを用いることで、適切なテクスチャーを生成できるようになったそうです。Sansanが展開する、個人向け名刺アプリ「Eight」はインドでもサービス展開をしているのですが、日本と比べて携帯端末のカメラ性能が低いことが多く、データ化精度向上のために超解像技術にも注目しています。名刺画像を超解像する場合でもアルファベットの多い項目と漢字の多い項目では、別のモデルを準備するべきかもしれません。

  • JSAI Cup報告会

ここでは、学会に先立ち実施されたJSAI Cup 2018の上位入賞者のソリューションが発表されていました。入賞者のほとんどが、Random ErasingやMixupといった比較的新しいData Augmentationを利用していたのが印象的でした。画像分類というタスクについては、学習データが少なく学習済みモデルの利用できないシビアな状況にあっても適切なData Augmentationによってビジネス上問題ない精度のモデルが獲得できるようになったと講評されていました。

一方で、優勝者にはTeacher CNNを利用した工夫が見られ、精度を突き詰めたい状況においては、通常のアプローチと異なったものも必要になってきそうです。また、このコンペティションはアンサンブルを禁止したことでも話題になっていたのですが、多くの入賞者の方は推論時に画像を100倍以上水増しすることで予測を安定させており、計算負荷がビジネス的な要件を満たしているか、疑問もあります(コンペティションのモデルをそのまま本番環境に載せる訳ではないのですが、アンサンブル禁止との整合性が気になりました)。Sansanでも社員向けに画像認識コンペティションの開催を計画していますが、今回の事例を参考にルールの設計をしたいと思います。

  • 画像・映像認識(チュートリアル講演7)

Mask R-CNNという深層学習のフレームワークを例に取って、画像認識における分類、物体検出、セグメンテーションと、それぞれのタスクについて分かりやすい解説がなされました。また、画像セグメンテーションや映像認識の学習用データを自前で用意することは通常困難であり、公開されているデータセットについて紹介があったことも興味深かったです。

  • ヒューマンコンピュテーションとクラウドソーシング(チュートリアル講演8)

人間と人工知能を組み合わせることにより、どちらか片方だけでは解決できないような難しい問題の解決を図るヒューマンコンピュテーションの事例から、その事例の一つであるクラウドソーシングに関する最新の研究まで、紹介がありました。Sansanでも名刺のデータ化にクラウドソーシングを利用しているため、活用できるところを探しながら聴講しました。

交流会

私は、2018年に新卒社員として入社し、DSOCのR&Dグループに配属されたため、同じように研究職に就いている方々と交友を深めたいと思い、交流会にも参加しました。

  • AI若手の会

「AI若手の会」には、学生や企業の研究者の方、大学の先生方など、さまざまなバックグラウンドを持つ方々が参加されていました。昼の部、夜の部と二部制で開催され、私は両方に参加しました。

昼の部では、それぞれが行っている研究や、最近気になった研究、尊敬する研究者などについてお互いに話をしました。その中で新たな気付きを得られる部分などが多くあり、たくさん学ばせていただきました。

夜の部では、各人の研究内容についてより深い話を聞き、各々が自分の意見を言い合うような和気あいあいとした雰囲気の会となりました。やはり、皆さん、研究者の先輩ということもあって、鋭い観点から意見をおっしゃっていて、見習うべきところがたくさんありました。それに加えて、Sansanがお世話になっている先生からは、いま行っていらっしゃる研究についてのお話を直接伺うこともでき、非常に充実した会となりました。

今回は学ぶことばかりでしたが、次回はこちらから情報を出していけるように大きく成長していこうと心に刻みました。

  • 参加者交流会

参加者交流会では、鹿児島名物の黒豚のしゃぶしゃぶ、さつま揚げ、キビナゴの天ぷらなどが振る舞われました。さまざまな学生の方々と話をさせていただき、現在行われている研究についての話をお聞かせいただいたり、自身の研究についてのお話をさせていただきました。

DSC 0071 - 2018年度 人工知能学会全国大会に協賛しました

参加者交流会の様子。多くの方が参加されていました。

JSAI 2018の4日間を通して

この4日間で、多様な方々と交流することができ、さまざまな研究に関する知見を広げることができたと感じました。また、鹿児島という土地についても、さまざまな学びを得ることができ、非常に充実した学会参加となりました。

今回の学会参加で得られた知見を積極的に生かして、東京の表参道本社でビジネスにおける新たな価値の創造にまい進していきたいと思います。

また、Sansanでは新卒・中途問わず、機械学習、自然言語処理、データマイニング、ネットワーク分析、画像処理など、人工知能に関する技術を持ったエンジニアや研究者の方々を募集しています!

少しでも興味を持たれた方、具体的な話を聞いてみたいという方がいらっしゃいましたら、吉村までお気軽にメッセージをいただければと思います!

text: DSOC R&Dグループ 吉村皐亮
2018/06/19

RubyKaigi2018に協賛しました

こんにちは! ブランドコミュニケーション部の鈴木(ゆ)です。

少し前に「Eightアイマスクを使ってみた。」という記事でも触れましたが、5月31日から6月2日に仙台で開催された「RubyKaigi 2018」に、今年も名刺アプリ「Eight」として協賛し、Rubyエンジニア10名、人事部から1名、ブランドコミュニケーション部から3名と、総勢14名で参加してきました。

今回は、RubyKaigi 2018の参加レポートをお届けします!

RubyKaigi

Sansanの技術顧問を務める、まつもとゆきひろ氏が開発したプログラミング言語「Ruby」のエンジニアたちが世界中から集まる、年に一度のイベントです。

DSC 5625 1 - RubyKaigi2018に協賛しました

会場は仙台国際センター。

Name Badge Sponsor

DSC 5600 1 - RubyKaigi2018に協賛しました

スポンサーの一覧。

Eightは3年連続で「Name Badge Sponsor」として協賛しています。Name Badge Sponsorとは、来場者やスタッフが付けるネックストラップとネームカードを提供するスポンサーのことです。RubyKaigiをより楽しんでもらうために、ネームカードに「当たり」を付ける仕掛けをしました。

01 2 - RubyKaigi2018に協賛しました

波をイメージした柄のストラップと、内側にくじが付いたネームカード。

当たりが出た方には、RubyKaigiとEightがコラボレーションして制作したTシャツをプレゼントしました!

DSC 5792 1 - RubyKaigi2018に協賛しました

Tシャツは、グレー、ブラック、サックスの3色を用意。

また、ブースに足を運んでもらった方には、Eightアイマスクや「この出会いをタイセツにしタイ。」というメッセージ付きの小鯛焼きなどを渡し、好評をいただきました。

DSC 5926 1 - RubyKaigi2018に協賛しました

大好評だった「Eightアイマスク」やステッカーなどのノベルティー。

02 2 - RubyKaigi2018に協賛しました

「この出会いをタイセツにしタイ。」

RubyKaigi 2018に参加したメンバーの中から、初参加となるEight事業部の木田と4回目の参加となるDSOCの石畑にそれぞれ感想を寄せてもらいました。

Eight事業部エンジニア 木田悠一郎

初参加で感じたRubyKaigiの魅力

DSC 5870 1 - RubyKaigi2018に協賛しました

参加した所感

私はRubyKaigiに今回初めて参加しましたが、ものすごく楽しかったです。

来年も参加したいと思いますし、参加を迷っている人がいたら、絶対に参加した方が良いと勧めると思います。

ここでは、RubyKaigiにまだ行ったことがないRubyistに向けて、参加するとどのような楽しいことがあるかをお伝えしす。

楽しかったこと

DSC 5695 1 - RubyKaigi2018に協賛しました

賑わうブース。

セッションも面白かったですが、何よりもお祭りのような雰囲気が楽しかったです。

普段は人見知りな私でも、ノリと勢いでコミュニケーションができました。

話せないはずの英語もなぜか勢いで通じました(簡単な会話だけですが……)。 おそらく、相手も同じようなテンションだったのではないでしょうか。

DSC 5933 1 - RubyKaigi2018に協賛しました

初めて日本に来たという海外からの参加者も多数。

セッションについて

DSC 5736 1 - RubyKaigi2018に協賛しました

満席のメイン会場。

私が参加した範囲では、RubyやGem、ツールなどの内部実装の話など、深めの話が多かった気がします。アプリケーション寄りのことしかやっていない人には難しいと思います(正直、私も分からなかったことが多かったです……。)

ただ、コミッターやスターエンジニアを生で見ることができるので、それだけでもテンションが上がります。 「自分も頑張らねば」と強く思いました。

また、最終日の一番最後に行われた、TRICKには圧倒されました。

内容としては、プログラムの見た目や出力結果も含め、メタプログラミングを駆使して超絶技巧を競い合う、という感じでしょうか。もはやアートでした。エンジニアもクリエイターだと思いますし、可能性を感じました。

夜の部も含めてRubyKaigi

DSC 5772 1 - RubyKaigi2018に協賛しました

夜の仙台駅。

前日にインして、最終日も宿泊しましたが、毎晩飲みました。

1日目はオフィシャルパーティーの後に、初対面の方たちばかりが10人くらい集まった飲み会に飛び込みました(その後は、Sansanメンバーの締めラーメンに参加しました……。意外と食べれるもんだ……)。

DSC 5744 1 - RubyKaigi2018に協賛しました

オフィシャルパーティーを楽しむ、Sansanメンバー。

2日目はSansanメンバーで飲んだのですが、たまたま同じお店に有名な方がいらっしゃったので、ご一緒することになりました。私はビックリしてテンションが上がり、その方の隣に移動してお話させていただきました。とても話しやすい方で、地方のエンジニア事情なども伺うことができ、とても良い時間でした。

DSC 5580 1 - RubyKaigi2018に協賛しました

メンバーの親睦も深まる。

その後、例によって締めラーメンに向かう途中、日本で唯一RubyとRailsの両方のコミッターを務める方にお会いし、そのまま一緒にラーメンを食べに行くことになりました。有名な Rubyistたちと直接交流できるのは、RubyKaigiの魅力ではないでしょうか。

ノベルティーがもらえる

DSC 5838 1 - RubyKaigi2018に協賛しました

各社の凝ったノベルティー。

Tシャツやトートバッグ、ステッカーなど、さまざまなノベルティーをもらえます。私はTシャツを早速着ていますし、ステッカーもPCに貼りました。

Sansanの社員として参加したことの意味

DSC 5664 1 - RubyKaigi2018に協賛しました

会期中は、メンバーでおそろいのEightのTシャツを着用。

RubyKaigiに参加した時点で入社後3カ月くらいでしたが、Eightブースのスタッフとして参加することができました。

Sansanの社員としてRubyKaigiに参加したことは、大きなことだったと思います。Eightのブースにいるだけでいろいろな方とお話ができましたし、Sanasanメンバーといるだけで、他の方とつながれたりしました。

Rubyコミュニティーへの入口を用意していただいたという感じでしょうか。個人として参加していたら、ここまで深く入っていけなかったと思います。

DSC 5632 1 - RubyKaigi2018に協賛しました

協賛企業同士の交流も盛んに行われました。

「RubyKaigi 5k」にも参加しました

RubyKaigi 5k」とは、Eightエンジニアの南谷が主催しているイベントで、RubyKaigi最終日の翌朝に有志のRubyKaigi参加者が集まって、5km走るというイベントです。

南谷に誘われて参加しましたが、本当に良かったです。普段はあまり走りませんし、長距離も得意ではないのですが、Rubyistたちと会話しながら一緒に走るのは楽しかったです。また、参加者はかなりグローバルで、拙い英語でやり取りしたりもしました。

楽しかった!

完全に風邪をひきました

DSC 5922 1 - RubyKaigi2018に協賛しました

RubyKaigiの前夜祭から始まり、最終日まで4日連続で飲みました。締めのラーメンも行きました。そのような4泊5日の不摂生がたたり、風邪をひきました。来年は、身体を作っていきます。翌日の有給も申請しておきます。

まとめ

RubyKaigiのオーガナイザーやスタッフの皆さま、スポンサー企業様など、関係者の皆さま、本当にありがとうございました。

冒頭でも書きましたが、参加を迷っている方がいましたら、絶対に参加した方がいいです。 来年のRubyKaigiは、福岡で4月18日〜4月20日に開催されます。福岡で会いましょう!

また、個人ブログではRubyist向けにより詳しいレポートを書きましたので、そちらもぜひご覧ください。

Data Strategy & Operation Center Development Group 石畑翔平

ここがたのしかったよ、RubyKaigi

DSC 5757 1 - RubyKaigi2018に協賛しました

私は、今回の仙台でRubyKaigiへの参加は4 回目になるのですが、今回のRubyKaigi は自分史上で最高に楽しいRubyKaigiでした。

あーなんでこんなに楽しかったんだろう……ということで、振り返ってみました。

レベルの高いRubyistたちのお話

DSC 5732 1 - RubyKaigi2018に協賛しました

多くのスターエンジニアたちが登壇。

言わずもがなRubyKaigiの最大の目的である数々のセッション。

今年は3会場で同時に発表しており、どれも興味深いテーマばかりだったので、どれに行こうか、事前にスケジュールを見ているだけでも楽しかったです。

こんなトップレベルの人たちのお話が日本語で聞けるのはRubyKaigiの、ひいてはRubyの最大の魅力の1つですね(いや、まあ英語くらいできるべきなんですが……)。

特に須藤さんのKeynoteには圧倒されましたし、すごく刺激になりました。あれを聞いてやる気にならないプログラマーはいないんじゃないでしょうか。GMOペパボさんが全セッションの録画・公開をされているので、まだ見られていない方はぜひ見ていただきたいです。スライドも公開されています(My way with Ruby)。

スポンサーブースが楽しい

DSC 5640 1 - RubyKaigi2018に協賛しました

特色が出る企業ブース。

RubyKaigiは毎年いろいろなスポンサーがブースを出しており、さまざまなノベルティーがもらえるのですが、今年は量・質ともに一番だったと思います。

かわいいシールがいっぱいあるし、なぜか7企業もノベルティーでどら焼きを配っていたのでどら焼き食べ比べができるし、一万円分のAmazonギフト券という太っ腹なノベルティーまでありました。

個人的には、JetBrainsさんのヨーヨーが楽しすぎて仙台にいる間、ずっと遊んでいました。

Eightブースでも、小鯛焼きやEightアイマスクを配っていたんですが、皆さんに喜んでもらえたので、すごく嬉しかったです。来年はさらに楽しいノベルティーを作るので、楽しみにしていてください!

たくさんのRubyistたちでお祭り騒ぎ

DSC 5693 1 - RubyKaigi2018に協賛しました

過去最多の来場者を記録。

最後に「仙台で千台に乗った」という主催者の方からの渾身のギャグが飛び出しましたが、過去最高の1017人がRubyKaigiに来場されていたそうです。

実際に参加した身としても「Ruby盛り上がってるなあ!」という印象で、Rubyが大好きな人間としては、それだけで楽しかったです。セッション終了後は、毎夜Partyが開催されていて、美味しいお酒とRubyの話で大いに盛り上がりました! 来年の福岡も楽しみだなあ!

牛タンの日々。

いやー結局ここですよね。おいしかったなあ……..。仙台のRubyKaigi、最大の魅力。

初日も、その次の日も、そのまた次の日も牛タンを食べました。牛タンの後は、お寿司にラーメン。毎日、ビールに日本酒も飲んでいたので、すごく苦しかったんですが、うれしい悲鳴ってやつですよね。いやー来年の福岡も楽しみだなあ!!

DSC 5904 1 - RubyKaigi2018に協賛しました

各種牛タン料理を堪能。

ということで、史上最高に楽しいRubyKaigiでした。

そして、こんなに素晴らしいプログラマーたちと、こんなに楽しいカンファレンスが身近にあるRubyは素晴らしいなあと改めて実感しました。もっとRubyを書いて、もっともっと詳しくなりたい、と強く思いました。

DSC 5859 1 - RubyKaigi2018に協賛しました

来年もRubyKaigiで会いましょう!

RubyKaigiの熱気や参加メンバーたちが感銘を受けた様子が伝わったでしょうか? 来年も協賛やブース展示の企画などでRubyKaigiを盛り上げたいと思いますので、楽しみにしていてくださいね!

03 1 - RubyKaigi2018に協賛しました

text: 鈴木由香、Eight事業部 木田悠一郎、Data Strategy & Opetation Center Development Group 石畑翔平 photo: realhanako
2018/06/13

エンジニア志望の学生必見! Sansanの伝統イベント「寿司パーティー」とは

こんにちは。人事部で新卒採用を担当しています、田中達也です。

今回は、Sansanが新卒採用の一環として定期的に開催しているイベント「寿司パーティー」について紹介したいと思います。

技術をつまみに、Sansanのエンジニアとゆっくりお寿司でも食べませんか?

寿司パーティーは、Sansanの開発責任者はもちろんのこと、Sansanの開発に関わるエンジニアたちが多数参加する少人数限定のクローズドイベントです。

技術、エンジニアリング環境、就職活動についてなど、Sansanで働くエンジニアたちとお酒も交えながらフランクに話してもらうことを目的にしたイベントになっています。

新卒採用においては、Sansanが開催しているイベントの中でもかなり高い人気を誇っています。少人数に限定して開催しているものの、毎回定員に達してしまうほどにたくさん学生の方々に申し込みいただいています。

今や、寿司パーティーはSansanの伝統と言っても過言ではないイベントになりつつあります。

DSC 3853 1 - エンジニア志望の学生必見! Sansanの伝統イベント「寿司パーティー」とは

乾杯! 寿司を食べながら、技術トークに花を咲かせます。

開発責任者が語る「Sansanのエンジニアリング」

寿司ぱでは、新卒採用担当が会社説明をするだけでなく、Sansanの開発責任者から「Sansanのエンジニアリング」について話す時間を設けています。参加者の皆さんには、寿司以外でもお腹いっぱいになってもらえること間違いなしです!

DSC 3844 2 - エンジニア志望の学生必見! Sansanの伝統イベント「寿司パーティー」とは

2018年6月1日にCTO(最高技術責任者)に就任した藤倉成太。シリコンバレーで開発に携わった際の経験談を交えながら、Sansanのエンジニアリングについて話します。

過去には「生魚は食べられないですが、大丈夫ですか?」と言いながらも参加いただいた学生の方もいましたが、当日は玉子をほおばりながら現場で働くエンジニアたちと楽しく話をされていました。寿司が苦手な学生の方も、ぜひ気軽に参加いただければと思います!

DSC 3869 1 - エンジニア志望の学生必見! Sansanの伝統イベント「寿司パーティー」とは

話は尽きることなく、あっという間に時間が過ぎていきます。

現場で活躍するエンジニアと話せる寿司パーティーでは、話のネタが尽きることはありません。

気になった方は、ぜひ一度参加してみてください! お待ちしております!

text: 人事部 田中達也 photo: 安藤早紀
2018/06/07

【Techの道も一歩から】第10回「言語処理でのちょっとしたデータ確認やクレンジング」

こんにちは。DSOC R&Dグループの高橋寛治です。

最近は、前処理大全を読んでAwesomeなコードに感動しています(素晴らしい本です!)。
この本でも言及されていますが、文字の前処理は本当に奥が深く、多岐にわたるライブラリーやコマンドを用いて実現されます。
しかし、実際には形態素解析やストップワードの削除といった前処理以前に、データクレンジングやちょっとしたデータ確認を行うことが多く、意外とハマってしまって時間を取られてしまいがちです。

そこで、今回は私がよく利用しているデータ確認方法やクレンジングについて紹介します。

文字列に対するデータ確認とクレンジング

テキストを処理する自然言語処理システムを大ざっぱに言うと、文字列を入力し、機械学習器やルールに適した形式に変換された上で処理されて、文やラベルといった所望する処理結果が出力されるものです。

この文字列が意外とくせ者で、文字コードの問題や半角・全角といったちょっとした段差につまずいてしまいがちです。 データをあらかじめ確認して、簡単な変換やクレンジングを行うことで、この問題は多くの場合で回避できます。そして、データを整えた後に、システムに入力するための前処理である形態素解析や統計情報の取得を行います。

データの確認やデータクレンジングはLinuxコマンドを、前処理や詳細の統計情報の取得はPythonで行うと、効率良く作業できることが多いです。 コマンドとコードの組み合わせとなり、習得までの道のりは長いですが、一通り勉強する方法としては、言語処理100本ノックがおすすめです。

データの確認やクレンジングについて、Linuxコマンドを用いた例を挙げながら紹介します。

基本的には文字コードはUTF-8を利用

日本語を対象として文字列を加工する際に、一番つまづくポイントは文字コードでしょう。

おさらいすると、文字コードとは、文字をコンピュータ上で表現するために、文字に対して割り当てられるバイト表現の符号化方式のことです。
日本語で利用する主な文字コードには、ASCII、EUC-JP、SHIFT-JIS、UTF-8があります。 UTF-8に移行しつつありますが、WindowsはSHIFT-JIS(CP932)、古いLinuxで作成されたファイルはEUC-JPで作成されたファイルであることが多いです。
文字コードの確認方法ですが、 file コマンドか nkf コマンドをよく利用します。
あまりに短いファイルの場合は、判定に失敗するかもしれません(内部処理的にはパターンマッチであるため)。

$ file -b README.md
UTF-8 Unicode text, with CRLF line terminators
$ nkf --guess README.md
UTF-8 (CRLF)

上記コマンドで得られた結果は、文字コードUTF-8を利用していて、改行コードがCRLFであることを示しています。

おすすめは、文字コードにはUTF-8、改行コードはプロジェクト単位でそろえることです。
UTF-8はASCIIコードと相性が良く、標準的に利用される文字コードであるため、UTF-8にそろえるのがいいでしょう(ダメ文字をはじめとした問題を回避できます)。
改行コードは難しい問題ですが、Unix系主体だとLF、Windows主体だとCRLFでいいように思います。

文字コードの変換ですが、iconv コマンドもしくは nkf コマンドを利用します。
さまざまな種類の文字コードのファイルを取り扱う場合には、オリジナルの文字コードをファイルの拡張子に追記しておくと、見たときに分かりやすいです。

$ cat hoge.txt.sjis | iconv -f SHIFT_JIS -t UTF-8
# UTF-8に変換されたhoge.txt.sjisが標準出力される
$ cat hoge.txt.sjis | nkf -w
# UTF-8に変換されたhoge.txt.sjisが標準出力される

cp932からUTF-8に変換する場面が多いですが、一部変換できない文字列があることを頭の片隅に置いておいた方がいいでしょう。
機種依存文字や記号回りは、変換できない・失敗することがありますので、変換後にファイルを少し目視で確認するのがいいと思います。 ただ、言語処理で対象とする文字列にはならない場合が多いため、無視するというのも1つの手段です。
Pythonだとバイト列をデコードする bytes.decodeがありますが、errorsオプション引数で、変換できない文字列の対処法を変更することができます。

万能なUTF-8ですが、BOM(Byte Order Mark)の有無が問題になることがしばしばあります。
0xEF 0xBB 0xBF<U+FEFF> といった左記のバイト列が冒頭にあれば、BOM付きです。
WindowsのExcelで保存されたcsvファイル、tsvファイルは、BOM付きになっています。

簡単なBOMの除去方法は、uconv コマンドか nkf コマンドを利用する方法です。

$ cat hoge.txt.utf_8_with_bom | uconv --remove-signature
# BOMが削除された文字列が標準出力される
$ cat hoge.txt.utf_8_with_bom | nkf -w
# BOMが削除された文字列が標準出力される

less で閲覧しても <U+FEFF> が表示されなくなります。

Unicode正規化を適用する

Unicodeには等価性という概念があり、一つの文字を表現するために、いくつかの符号を結合した結合文字、もしくは単一の符号で表現される合成済み文字があります。
Unicode正規化は、文字列のバイト列表現方法を統一する方式で、㍍:メートル、ハンカク:ハンカクのように統一します。
言語処理では基本的に適用していいと思いますが、旧字体を明確に区別したい場合や、㍍のような機種依存文字、半角全角を素性として利用する場合は、利用しないほうがいいでしょう。
また、一度正規化すると復元することができない、すなわち非可逆であるという点にも注意します。

uconv コマンドで正規化を適用することができます。

$ echo '㍍' | uconv -x nfkc
メートル

Pythonでは、 unicodedata モジュールの normalize メソッドで適用できます。
あえてワンライナーで表現すると、以下のように記述できます。

$ echo ‘㍍’ | python -c 'import sys,unicodedata; [print(unicodedata.normalize("NFKC", _),end="") for _ in sys.stdin]'
メートル

不可視文字や見た目が同じ文字に注意する

ゼロ幅スペース(U+200B)は不可視文字、ノーブレークスペース(U+00A0)はスペースと見た目が同じですが、バイト列が異なります。
それぞれ目的のあるバイト列ですが、日本語を対象にした処理の場合は不要なことが多いです。
そして、こういった文字列は、Webから取得したHTMLに含まれていることが多く、後段の処理でエラーや想定外の挙動を引き起こします。

前節のUnicode正規化で、ゼロ幅スペースもノーブレークスペースも、半角スペース(U+0020)「 」に変換されます。
正規化しない場合は、ファイル内に含まれていないか確認したほうがいいかもしれません。
Google IMEの場合、Unicodeを日本語で入力すると変換候補に対応する文字が出てきます。
例えば、「U+0020」と入力すると半角スペース「 」が変換候補となります。

ファイルを閲覧する

moreとless

more はテキストを1画面ずつ表示するコマンドです。

$ more hoge.txt
# hoge.txtファイルを表示

対して lessopposite of more と説明されていて(man lessで確認)、 more コマンドと違い、いくつかの特徴があります。
例えば、ファイルを全て読み込んでから表示するのではなく、読み込んだものから表示されます。
他にも検索機能や行番号表示などあり、多機能で非常に出番の多いコマンドです。
less のマニュアルを一読されることをおすすめします。

$ less hoge.txt
# hoge.txtファイルを表示

catとtac

cat はファイル群を読み込んで連結したものを標準出力します。

$ cat hoge.txt fuga.txta
# hoge.txtファイルを表示し、続いてfuga.txtファイルを表示

対して tac はファイルの最終行から表示されます。
すなわち cat の逆で tac となります(笑)。

$ tac hoge.txt
# hoge.txtファイルをファイル末尾から表示

圧縮ファイルをそのまま閲覧するzcat、zless、bzcat、bzless

gz 形式のファイルを catless と同等の操作性で扱えるコマンドに zcatzless があります。
bz2 形式のファイルは bzcatbzless となります。
ちなみに zmorebzmore もありますが、 more コマンドの出番は少ないです。

$ zcat hoge.txt.gz
# hobe.txt.gzファイルを表示
$ zless hoge.txt.gz
# hobe.txt.gzファイルを表示
$ bzcat fuga.txt.bz2
# fuga.txt.bz2ファイルを表示
$ bzless fuga.txt.bz2
# fuga.txt.bz2ファイルを表示

ファイルの冒頭や末尾を少し確認するheadとtail

less コマンドでファイルを閲覧し、ファイルの冒頭や末尾を確認するのもいいですが、便利なコマンドがあります。
head コマンドはファイルの先頭を、tail コマンドはファイルの末尾を表示します。
行数を指定するオプションは、両方同じです。

$ head -15 hoge.txt
# 15行先頭から表示
$ tail -15 fuga.txt
# 15行末尾から表示

wcで行数を確認

ファイルの行数やスペースで区切られた単語数などをファイル単位で表示します。
前処理前後でファイルの行数や単語数が変化していないかを確認するときや、処理量の見積もりでよく利用します。

wc hoge.txt
# nの数 単語数 バイト数 ファイル名 を表示

行数だけ計上する際は、 -l オプションを利用します。

快適な前処理のために

言語処理システムを作るための素性抽出をはじめとした前処理は、データを確認してクレンジングした上で、快適に取り組むことができます。
地味な作業ですが、後々の工程に響いてくることでしょう。 次回は、私がよく利用する前処理について紹介したいと思います。

執筆者プロフィール

過去記事

▼第9回
「API GatewayとAWS Lambda PythonでAPI開発」 Vol. 4:デプロイ

▼第8回
「API GatewayとAWS Lambda PythonでAPI開発」Vol. 3:エラー処理

▼第7回
「API GatewayとAWS Lambda PythonでAPI開発」Vol. 2:ローカルでの開発環境構築

▼第6回
「API GatewayとAWS Lambda PythonでAPI開発」Vol. 1:API GatewayとAWS Lambdaを知る

▼第5回
快適なシェル環境の再構築を自動化する

▼第4回
第16回情報科学技術フォーラム(FIT2017)で登壇

▼第3回
第11回テキストアナリティクス・シンポジウム

▼第2回
R&D論文読み会勉強会

▼第1回
言語処理100本ノック勉強会

text: DSOC R&Dグループ 高橋寛治
2018/06/05