2019年度実施計画

対象データ

KIT LSE Corpusの対象となるのは、2018年度に京都工芸繊維大学の1年次生全員(約600名)を対象に実施されたKIT Speaking Testの回答音声データである。テストは3バージョン行われ(Ver. 12、13、14)、各学生はそのうちの1バージョンを受験した。

KIT Speaking Testは、45秒で回答する問題が5問、60秒で回答する問題が4問の計9問からなっており、受験者1名あたり7分45秒の回答音声が得られる。

2019年度は約600名分の回答音声データのうち、335名(19時間16分)分の書き起こしおよびタグ付けを行う(全体の約55%)。

作業プロセス

作業は以下のプロセスで行う。

①Video Indexerによる音声→テキスト変換
手作業での書き起こしに先立って、Microsoftが提供するVideo Indexerを用いて、音声→テキストの変換を行う。

②書き起こし・タグ付け
作業者は回答音声を聞き、①で得られたテキストデータを手作業で修正し、必要なタグ情報を付与する。タグ付与に際しては、The NICT JLE Corpusの書き起こし・タグ付けで使用された『The NICT JLE Corpus 書き起こし・基本タグ付与ガイドラインver.2.1.3』(情報通信研究機構 (NICT))に基づき作成したマニュアル(後日公開予定)を用いる。

③ファーストチェック
②のデータを別の作業者がチェックし、必要があれば修正する。

④セカンドチェック
研究代表者(神澤)および作業に熟練した研究協力者(田中、井上)が③のデータをランダムでチェックし、必要があれば修正を行うとともに、同様のミスが起こらないよう、作業者に指示を出す。

分担と作業期間

分担および作業期間は以下の表の通り。作業者1人につき95名分の回答音声データの書き起こし・タグ付けを行う。

作業の質を担保するための工夫

作業者ミーティングの開催

作業に先立って、作業者を対象とするミーティングを開催する。ミーティングでは、作業内容を説明した上で、実際の回答音声を用いてトレーニングを実施し、一定の水準に達した者から作業を開始する。

メンバー間での情報共有

  • 作業の際に疑問が生じた場合には、その都度研究代表者に確認する。このときのQ&Aのやり取りは、メンバー全員で共有する。
  • 最初の10名分の書き起こし・タグ付け、およびファーストチェックが終わった段階(10月初頃を予定)で再度ミーティングを開き、作業の際に気になったことなどについてメンバー間で情報共有する。

作業者間の一致率の検証

作業者1人につき95名分の回答音声の書き起こし・タグ付けを行うが、そのうち15名分については、同一の回答音声に対して全員が書き起こし・タグ付けを行う。そして、作業者間の一致率を検証することで作業の質を評価し、一致率が低い場合は対応策を検討する。

作業の進捗状況は、随時HPで公表する。