データの書き起こしとタグ付け

対象データ

KIT LSE Corpusの対象となるのは、2018年度に京都工芸繊維大学の1年次生全員を対象に実施されたKIT Speaking Test(外部リンク)の回答音声データである。

テストは3バージョン行われ(Ver. 12, 13, 14)、各学生はそのうちの1バージョンを受験した。

KIT Speaking Testは、3パート、合計9問から構成される(下表を参照)。Part 1は提示される写真に基づいて回答する問題、Part 2は会話を聞き、自らの意見を述べる問題、Part 3はplanning timeを用いて自らの考え・意見を整理し、理論立てて論じる問題である(実際の問題は、コーパスの公開に合わせて公開予定)。


回答時間は、45秒のものが5問、60秒のものが4問あり、受験者1名あたり7分45秒の回答音声が得られる。2018年度は576名がテストを受験したので、書き起こしの対象となる回答音声は合計74時間24分(7分45秒×576名)となる。

対象となる受験者のTOEICとKIT Speaking Testのスコアは以下の通りである。

TOEIC(990点満点):平均563.6、最高985、最低195
KIT Speaking Test(100点満点):平均48.0、最高90、最低21

下図は縦軸にTOEICスコア、横軸にKIT Speaking Testのスコアをプロットしたものである。両者の相関係数は0.59である。

ヘッダ情報

書き起こし・タグ付けのためのテキストファイルには、以下のヘッダ情報を付与した。これによって、下記の情報と回答音声の関連性を分析することが可能となる。

学生番号(非公開)、課程、年次、国籍、生年月日(非公開)、テストVer.、スピーキングテスト実施日、スピーキングテストスコア、スピーキングテスト評価観点別ランク(Task Achievement, Task Delivery)、スピーキングテスト項目別素点(Q1-9)、TOEIC実施日、TOEICスコア(全体、Listening、Reading)、TOEIC項目別正答率(L1-5, R1-5)、英語学習経験(TOEIC受験時アンケート)

タグ情報

書き起こしたデータには、以下の17種類のタグを付与する。

作業プロセス

書き起こし・タグ付け作業は以下のプロセスで行う。

①Video Indexerによる音声→テキスト変換
手作業での書き起こしに先立って、Microsoftが提供するVideo Indexer(外部リンク)を用いて、音声→テキストの変換を行う。

②書き起こし・タグ付け
作業者は回答音声を聞き、①で得られたテキストデータを手作業で修正し、必要なタグ情報を付与する。作業に際しては、The NICT JLE Corpus(外部リンク)の書き起こし・タグ付けで使用された『The NICT JLE Corpus 書き起こし・基本タグ付与ガイドラインver.2.1.3(外部リンク)』(情報通信研究機構 (NICT))に基づき作成した書き起こし・タグ付与ガイドライン(後日公開予定)を用いる。

③ファーストチェック
②のデータを別の作業者がチェックし、必要があれば修正する。

④セカンドチェック
研究代表者(神澤)もしくは作業に熟練した研究協力者(田中、井上)が③のデータをランダムでチェックし、必要があれば修正を行うとともに、同様のミスが起こらないよう、作業者に指示を出す。

作業の質を担保するための工夫

作業者ミーティングの開催

作業に先立って、作業者ミーティングを開催する。ミーティングでは、作業内容を説明した上で、実際の回答音声を用いたトレーニングを実施し、一定の水準に達した者から作業を開始する。

メンバー間での情報共有

  • 作業の際に疑問が生じた場合には、その都度研究代表者に確認する。このときのQ&Aのやり取りは、メンバー全員で共有する。
  • 最初の10名分の書き起こし・タグ付け、およびファーストチェックが終わった段階(10月初頃を予定)で再度ミーティングを開き、作業の際に気になったことなどについてメンバー間で情報共有する。

作業者間の一致率の検証

一部の回答音声(全体の10〜20%)については、同一の回答音声に対して全員が書き起こし・タグ付けを行う。そして、作業者間の一致率を検証することで作業の質を評価し、一致率が低い場合には対応策を検討する。