MTソリューションセッション 講演1 「統計的自動翻訳の実用化」
2014年度第3回JTF関西セミナー報告
MTソリューションセッション 講演1
「統計的自動翻訳の実用化」
(独)情報通信研究機構ユニバーサルコミュニケーション研究所多言語翻訳研究室主任研究員として、統計的自動翻訳の研究に従事。自動翻訳に関わる全てを研究対象としている。詳細はこちらを参照。
2014年度第3回JTF関西セミナー
日時●2015年1月30日(金)10:30~17:00
開催場所●大阪大学中之島センター
テーマ●機械翻訳と向き合うときが来た― MTをもっと身近に、現実的に考える ― MTソリューションセッション 講演1 「統計的自動翻訳の実用化」
講演者●内山 将夫(Uchiyama Masao) 独立行政法人情報通信研究機構 多言語翻訳研究室 主任研究員
報告者●芦田 康夫(日英実務翻訳者)
本講演は、統計的自動翻訳(「みんなの自動翻訳」)の研究・開発・運用に携わってこられた内山先生から、主としてその開発・運用の現状、仕組み、および今後の発展の方向性について、実データを基に貴重な報告をいただいた。
この実用化の根幹を担っておられるNICT様は、総務省の管轄の下で、インターネット、高速通信、自動翻訳等、ITと翻訳に関連する様々な最先端の研究を進められており、平成26年には、機械翻訳システムの実用化に貢献した個人や団体を表彰するAAMT長尾賞を受賞されている。
NICTは学術団体とインターンの派遣や研究発表を通して、また一般社会とフィードバックや技術移転を通して互いに連携し、研究と開発の双方を重視した活動を行ってこられた。
その活動の下では、自動翻訳のあらゆる側面が実施の対象であり、言語資源ノウハウの獲得、自動翻訳エンジンの構築、アプリケーションの他組織への移転等を行っている。これらの組織には特許庁を始め、様々の行政組織、企業、翻訳会社等が含まれる。
以上の全体的な背景の紹介に続き、実際のSMTの仕組みに基づいた、機能のいくつかの例を説明された。特筆すべき点としては、SMTはアルゴリズムと対訳データを機能実行の基礎としており、正しいアルゴリズムは対訳データの増加で翻訳性能が向上するが、貧弱なアルゴリズムでは実用的な翻訳が難しいということを指摘された。
続いて、実際にSMTエンジンを構築するために、どれくらいの対訳データが必要かという議論に移り、高性能な特許翻訳には3000万文、有用な汎用翻訳には1000万文、旅行会話程度の翻訳には20万文、マニュアル翻訳には10~30万文くらいの対訳データが必要であると報告された。
この後、NICTが関わるSMTの、これまでの発展の概要についてご説明があり、2000年から2005年までには英仏間の大規模対訳データが既に構築されていたが、日英間の大規模対訳は存在せず、2007年頃に初めて、日米特許対訳コーパスがNICTにより作成されたというお話があった。また2010年頃までは、SMTでは英日・日英の長文翻訳精度は低かったが、NTCIR-9,10でSMTの精度向上が確認された。
NICTでは、多言語アルゴリズムを開発し、翻訳性能の質的向上に向けて、構造に起因する困難を解決したのを始め、更なる技術展開に邁進している。
さらに、英日・中日特許翻訳の実際の訳例を吟味し、結論として、対訳データが十分に存在する分野においては、SMTの性能が実用レベルに達しており、英日・中日は最難関の翻訳言語であるので、同様のアルゴリズムが他の言語対に適用できる可能性は非常に高いと思われる。
最後に自動翻訳のNICTでの位置づけは、自動翻訳エンジンのショーケースであり、技術移転を通して、自動翻訳に関連する技術を、ここに投入していく旨の意向を述べられた。
以上のように今回、内山先生から、機械翻訳の現状と将来への発展性について、多くの示唆に富む貴重な講演を伺うことができ、極めて有益なセミナーであった。