• 活動レポート
  • 2021.06.30

【締切済】2021年 データサイエンティスト 夏期インターンシップ募集


ITAS

自然言語処理

データ解析

産学連携

エンジニアリング

2021夏のインターンのお申込みは締め切りました。
たくさんのご応募ありがとうございました。

Insight Techインターン募集

不満買取センターを運営しているInsight Techでは、機械学習 / 自然言語処理に特化したインターンを募集しています。

Insight Techのインターンシップの特徴

不満データ

Insight Techでは、不満買取センター https://fumankaitori.com/ を通じて、2021年6月現在、2,300万件以上の不満データを収集しています。
ユーザの不満だけを収集したデータは、他にはないものであり、非常に面白いデータです。
また、各ユーザの性年代や居住都道府県などの属性情報も付与されています。

期間

2021年8月〜9月
※ 参加者の予定、希望により調整が可能です。
※ これ以外の期間におけるインターンシップも可能ですので、希望があればご相談ください。

勤務場所

特別な希望がない限りはオンラインでの実施を想定しています。

待遇

時給: 1,300円
勤務時間: 原則として1日8時間・週5日(土日祝日を除く)

※ 参加者の予定を考慮してスケジュールの調整が可能です。

応募方法

data-service@insight-tech.co.jp 宛に下記フォームの情報を記入して送ってください。
応募フォームのテキスト文面をメール文面に直接記述いただいて構いません。
送信いただいた情報はインターンの選考にのみ利用し、その他の目的には一切利用しません。
インターンシップに関する質問もこのメールアドレスで受け付けています。

※ 7月末まで応募を受け付ける予定ですが、充足次第応募を締め切る場合もありますのでご了承ください。

Insight Techインターンシップ応募フォーム

  1. 氏名:
  2. 連絡先:
  3. 大学名 [研究室名]:
  4. 研究テーマ:(研究テーマ等、決まっている場合のみ)
  5. インターンでどういったタスクに取り組みたいか:
  6. (もしあれば)自身のスキル等をアピールする情報等:

応募フォーム記入例

  1. 氏名: 印西 都
  2. 連絡先: hoge_hoge@insight-tech.co.jp
  3. 大学名 [研究室名]: 不満買取大学[不満情報学部]
  4. 研究テーマ: 不満投稿文面に含まれる情報の分類
  5. インターンでどういったタスクに取り組みたいか:
    研究テーマとの親和性も高いため、不満投稿内容のクラスタリングシステムの構築に取り組みたい
  6. (もしあれば)自身のスキル等をアピールする情報等:
    “不満投稿に言及される内容の自動分類”, 第10回不満情報研究会
    https://insight-tech.co.jp/

 応募資格 / 実施テーマ

Insight Techでは複数のインターンシップテーマを用意しています。
この他のテーマも相談に応じますので、お気軽にお問い合わせください。
不満データを使うことで、こういうことができるんじゃないか、こういうことをやりたい、といった提案も歓迎します。

テーマによって、求めるスキル・応募資格は若干異なりますが、共通する応募資格は次の通りです。

  • 作業に使うPCを自分で用意できること

    • Windows, Mac, Unix問いません
  • UNIX系システムの利用経験があること

    • ログイン、ファイル操作等で十分です
  • Python利用に親しみがあること

    • 「言語処理100本ノック 2020」の課題をPythonで記述できる程度
    • 4章までは必須で、5章以降の記述経験もあるとよりよいです

テーマ例

新奇性が高い意見を抽出するロジックの探索、高度化

  • 不満投稿文の中には多くの人が似たようなことを投稿している場合があります。それらを俯瞰的に分析するのも重要な一方で、少数の人のみが言っている面白い意見も存在し、そこから新しいアイディアにつながる可能性もあります。Insight Techではそんな新奇性が高いレアな意見を抽出するロジックの構築に取り組んでいます。
  • このテーマでは、新奇性が高い意見の抽出ロジックの高度化に向けてその方法の探索、実験を行います。最終的にはその度合を判定できるパッケージ化に取り組むことを想定しています。
極性分類・感情分類のための機械学習モデル性能改善

  • 不満投稿文とは一言で言っても中にはポジティブな内容が言及されていたり、ネガティブなことが言及されていたりと様々です。また、怒りが強いことなのか、そこまで怒るほどでもないのか、といったように、ネガティブなことの中でも幅があります。このため、Insight Techではポジティブ/ネガティブの極性分類、ネガティブの中をさらに細分する感情分類のタスクに積極的に取り組んでいます。
  • このテーマでは不満投稿に対する分類モデルの性能向上を目指した実験とそのパッケージ化を実施します。
日本語のフレーズ間のクラスタリング方法の探索、高度化

  • 不満買取センターには現在2,300万件ほどの不満投稿が集まっています。大量の不満投稿の中でどういったことが言及されているかを俯瞰的に分析するために、Insight Techでは意見タグ* と呼ばれるフレーズ単位でどういった意見の集合があるのかをクラスタリング、可視化しています。
  • このテーマでは、意見タグベースでの意見のクラスタリングロジックの高度化に向けてその方法の探索、実験を行います。最終的にはクラスタリングを行うパッケージ化に取り組むことを想定しています。
  • * 意見タグについては以下の論文を参照ください。
    https://www.anlp.jp/proceedings/annual_meeting/2017/pdf_dir/P18-2.pdf
文体に着目したユーザー分類試行

  • 文体に着目してユーザーの分類を試行し、その分類の中で不満の投稿傾向にどういった差があるかを分析します。具体的には1人称の表現(「私」、「おれ」)や語末の表現(「〜である」、「〜です」)に着目した分類を想定しています。
  • このテーマではユーザーの分類実験を実施します。時間に余裕があれば、不満投稿の差異の検証やユーザ分類のシステム化までを見込んでいます。

ITAS

自然言語処理

データ解析

産学連携

エンジニアリング