- 活動レポート
- 2019.05.30
【締切済】2019年 データサイエンティスト インターンシップ募集
2019夏のインターンのお申込みは締め切りました。
たくさんのご応募ありがとうございました。
不満買取センターを運営しているInsight Techでは、機械学習 / 自然言語処理に特化したインターンを募集しています。
- Insight Techのインターンシップの特徴
-
スタートアップ企業の生の雰囲気を体験できる!
- Insight Techは社員数が20人規模の小さい企業です。
-
実務レベルの自然言語処理技術を体験できる。
- Insight Techは実務の至るところで自然言語処理を導入しています。
- 「ビジネス価値がある自然言語処理」を知ることができます。
- インターン期間の結果次第では、論文執筆をしたり、OSSとして公開が可能。
不満データ
Insight Techでは、不満買取センターを通じて、2019年5月現在、1100万件以上の不満データを収集しています。
ユーザの不満だけを収集したデータは、他にはないものであり、非常に面白いデータです。
また、各ユーザの性年代や居住都道府県などの属性情報も付与されています。
期間
2019年8月はじめ頃 ~ 2019年9月末頃
※ 参加者の予定、希望により調整が可能です。
※ これ以外の期間におけるインターンシップも可能ですので、希望があればご相談ください。
勤務場所
〒163-1333 東京都新宿区西新宿6-5-1 新宿アイランドタワー
待遇
時給: 1,300円
勤務時間: 原則として1日8時間・週5日(土日祝日を除く)
交通費: 新幹線等の往復交通費を支給
※ 参加者の予定を考慮してスケジュールの調整が可能です。
※ 遠方から参加の場合は、宿はご自身で確保してください。ただし、質問があれば、東京近郊の宿泊施設をいくつか紹介します。
応募方法
data-service@insight-tech.co.jp宛に、下記、フォームの情報を記入して送ってください。
応募フォームのテキスト文面をメール文面に直接、記述いただいて構いません。
送信いただいた情報はインターンの選考にのみ利用し、その他の目的には一切利用しません。
インターンシップに関する質問も、このメールアドレスで受け付けています。
- Insight Techインターンシップ応募フォーム
- 氏名:
- 連絡先:
- 大学名 [研究室名]:
- 研究テーマ:(研究テーマ等、決まっている場合のみ)
- インターンでどういったテーマに取り組みたいか:
- (もしあれば)自身のスキル等をアピールする情報等:
- 応募フォーム記入例
- 氏名: 印西 都
- 連絡先: hoge_hoge@insight-tech.co.jp
- 大学名 [研究室名]: 不満買取大学[不満情報学部]
- 研究テーマ: 不満投稿文面に含まれる情報の分類
-
インターンでどういったテーマに取り組みたいか:
研究テーマとの親和性も高いため、投稿カテゴリの分類システムの構築に取り組みたい。 -
(もしあれば)自身のスキル等をアピールする情報等:
“不満投稿に言及される内容の自動分類”, 第10回不満情報研究会
http://insight-tech.co.jp/
応募資格 / 実施テーマ
Insight Techでは複数のインターンシップテーマを用意しています。
この他のテーマも相談に応じますので、お気軽にお問い合わせください。
不満データを使うことで、こういうことができるんじゃないか、こういうことをやりたい、といった提案も歓迎します。
テーマによって、求めるスキル・応募資格は若干異なりますが、共通する応募資格は次の通りです。
-
作業に使うPCを自分で用意できること。
- Windows, Mac, Unix問いません。
-
UNIX系システムの利用経験があること。
- ログイン、ファイル操作等で十分です。
-
Python利用に親しみがあること。
- 「言語処理100本ノック」4章あたりまでの課題をPythonで記述できる程度。
- テーマ例
-
極性分類・感情分類のための機械学習モデル構築
- 不満投稿文とは一言で言っても中にはポジティブな内容が言及されていたり、ネガティブなことが言及されていたりと様々です。また、怒りが強いことなのか、そこまで怒るほどでもないのか、といったように、ネガティブなことの中でも幅があります。このため、Insight Techではポジティブ/ネガティブの極性分類、ネガティブの中をさらに細分する感情分類のタスクに積極的に取り組んでいます。
- このテーマでは不満投稿に対する分類モデルの性能向上を目指した実験を実施します。
-
固有表現獲得システムの開発
- 不満買取センターに投稿される文面から「企業名」「製品名」を獲得し、集計するシステムの開発を目指します。
- 辞書システム的なアプローチや機械学習的なアプローチなど、複数のアプローチを検討するプロセスから実開発までを体験できます。
-
文体に着目したユーザー分類試行
- 文体に着目してユーザーの分類を試行します。具体的には1人称の表現(「私」、「おれ」)や語末の表現(「〜である」、「〜です」)に着目します。
- このテーマではユーザーの分類実験を実施します。時間に余裕があればシステム化までを見込んでいます。
-
因果関係可視化ツールの開発
- 不満投稿文から獲得した因果関係を集約し、可視化するシステムのプロトタイプを作成します。システムを使うであろうユーザーの意図を考え、可視化の工夫が求められます。
- このテーマではプロトタイプ構築までを目標としていますが、時間に余裕があればシステム化までを見込んでいます。
-
優先課題図作成ツールの開発
- 不満投稿群をもとに、どういった課題に優先して取り組むべきかをあぶり出す、優先課題図を作成します。イメージとしては、不満の量を横軸、不満度を縦軸として各不満をプロットします。
- 不満度をどうやって決定するかの議論、検討からはじめ、最終的には優先課題図を自動生成するシステムの構築を目指します。
-
投稿カテゴリ分類器の開発
- 不満買取センターでは、ユーザーが不満を投稿する際に、どういったカテゴリの不満なのかをユーザー自身が選択してから投稿する仕組みになっています。この投稿カテゴリを、過去の不満投稿群から自動で分類する分類器を構築し、その性能の検証を行います。
- 最終的には、APIとして利用できる形式にするまでを見込んでいます。
-
不満買取査定システムの高度化
- 不満買取センターでは、投稿された不満を自動で査定し、価格付けを行っています。現在の査定ロジックは完全なものとは言えないため、より納得感の高い査定システムの構築を目指します。
- どのような不満が価値が高いかの議論、検討からはじめ、最終的には入力されたテキストを査定するAPIの構築までを見込んでいます。
-
不満間の類似度算出システム・クラスタリングシステムの開発
- 任意の不満投稿を指定し、その不満投稿と類似する不満投稿を抽出するシステムを開発します。類似度尺度としては、文字ベースの手法、単語ベースの手法、分散表現による手法等、複数のアプローチを試行、検討し、システムとして実装します。
- 時間に余裕があれば、それら類似度を利用した、不満投稿のクラスタリングシステムの開発までを見込んでいます。