flags Reid Pryzant

JESC

Japanese-English Subtitle Corpus
English | 日本語

About
JESCは、機械翻訳、情報抽出及びその他の言語処理技術の研究開発をサポートするために構築されました。JESCは、320万の日英対訳文から構成されています。

JESCは、スタンフォード大学、グーグルブレイン、RITの共同研究開発による成果であり 、インターネット上からクロールされた映画とTV番組の字幕データを日英対応させることで構築されています。JESCは、自由に利用できる日英対訳コーパスの中で最大規模のコーパスであり、既存のコーパスではあまり扱われてこなかった口語の対訳も対象しています。

このデータセットを作るために使われたスクリプト、ツール、及びクローラーは、ここからダウンロードすることができます。

このデータはクリエイティブ・コモンズ (CC) ライセンスの下で提供されています。

Contents
  • 320万文以上から構成される大規模対訳コーパス。
  • 俗語、口語、説明文、物語解説の対訳。これらは既存のコーパスではあまり扱われてこなかった分野です。
  • 前処理済みの、トークン化された訓練/開発/評価データ。
  • 自作クローラの作成用のコードと、MTデータを処理するためのツール。


 
内容 対訳文
全データ 3,243,887
訓練データ 3,239,888
開発データ 2000
評価データ 3001

Download

引用
@ARTICLE{pryzant_jesc_2017,
   author = {{Pryzant}, R. and {Chung}, Y. and {Jurafsky}, D. and {Britz}, D.},
    title = "{JESC: Japanese-English Subtitle Corpus}",
  journal = {ArXiv e-prints},
archivePrefix = "arXiv",
   eprint = {1710.10639},
 keywords = {Computer Science - Computation and Language},
     year = 2017,
    month = oct,
}