• 活動レポート
  • 2021.02.02

京都大学 黒橋研究室から「不満調査データタグ付きコーパス」が公開されました


自然言語処理

活用事例

産学連携

エンジニアリング

Insight Techでは、学術研究への貢献を目的として「不満買取センター」で収集した不満データの一部を研究コミュニティに提供しています。そのデータを活用した取り組みの1つとして、京都大学 黒橋研究室から「不満調査データタグ付きコーパス」が公開されました。

Insight Techにおける学術研究向けの取り組みについて

Insight Techでは、企業や自治体の事業における新しい商品やサービスの開発、改善活動の支援を目的として、「不満買取センター」を通じた生活者の不満意見を収集しています。日々たくさんの不満の声が寄せられ、2021年2月現在では累計2,000万件を超える不満が集まっています。

そんな不満の声のみに特化して収集したデータは、学術研究においても非常に利用価値が高いデータセットであると考えています。そこで弊社では産学連携の一環として、研究コミュニティに対して一部のデータを無償で提供しています。2021年2月現在では、国立情報学研究所 情報学研究データリポジトリを通じて、以下の情報を公開しています。

  • 不満調査データ(大学研究室・公的研究機関のみ)
    • 不満投稿のテキスト情報やユーザの属性情報を収録したデータセット
    • およそ10万人からの不満投稿525万件を収録
  • カテゴリ別不満特徴語辞書(営利団体も含め利用可能)
    • 約120のトピックカテゴリごとに特徴的な単語(+特徴スコア)を公開
    • 自動獲得で約190万語を収録

※ 本データに含まれるのは「不満買取センター」で会員が閲覧できる情報であり、特定の個人につながる情報や投稿者を特定できるような個人情報は一切含んでいません。

公開された「不満調査データタグ付きコーパス」について

研究コミュニティ向けに提供している「不満調査データ」を活用した取り組みの1つとして、今回、京都大学 黒橋研究室より「不満調査データタグ付きコーパス」が公開されました。このコーパスは「不満調査データ」の一部に対して様々な言語アノテーションが付与されたデータです。家庭用電化製品、病院、情報技術(IT)、スーパーマーケット、旅行、交通といった様々なジャンルの不満文書が含まれており、654文書(1,282文)で構成されています。データはGitHub上でも公開されていますが、いずれにしても学術研究を目的とした利用に限られています。
言語アノテーションとしては、形態素、固有表現、係り受け、ゼロ照応を含む述語項構造、及び共参照と、さまざまなレイヤーの情報が付与されています。これらの言語情報が付与されることで、生の不満投稿だけでは難しかった種々の言語解析に対しての活用が可能になります。
今回新たに公開されたデータを活用していただくことで、人工知能および自然言語処理研究のさらなる発展への一助となれば幸いです。

Insight Tech代表取締役社長 伊藤友博のコメント

私たちは「声が届く世の中を創る」ことを目指しています。声を届ける手段として自然言語処理技術を中心としたデータサイエンスの力が欠かせません。つまり、よりよい生活・社会を実現するためには自然言語処理研究の更なる進展が不可欠だと考えます。今回公開された「不満調査データタグ付きコーパス」が人工知能および自然言語処理研究の発展につながることを祈念いたします。

Insight Techは引き続き学術研究の社会展開に向けて貢献できるよう取り組みを進めていきます。

自然言語処理

活用事例

産学連携

エンジニアリング