面向漢英機器翻譯的雙語語料庫的建設及其管理_數據庫

面向漢英機器翻譯的雙語語料庫的建設及其管理

發表于：2009-09-28來源：作者：點擊數：標簽：機器翻譯語料庫漢英雙語建設

面向漢英機器翻譯的雙語語料庫的建設及其管理數據庫開發關鍵字：雙語語料語料庫的設計和語料收集一、引言近年來，在語言信息處理的研究和開發中，單語和多語語料庫（以雙語語料庫居多）的作用日益突顯出來。特別是在機器翻譯研究中，人們提出了多種基于

面向漢英機器翻譯的雙語語料庫的建設及其管理 數據庫開發

關鍵字：雙語語料語料庫的設計和語料收集一、引言
近年來，在語言信息處理的研究和開發中，單語和多語語料庫（以雙語語料庫居多）的作用日益突顯出來。特別是在機器翻譯研究中，人們提出了多種基于雙語語料庫的新方法，例如采用所謂的基于實例（Example-Based）的或基于存儲（Translation Memory）的機器翻譯方法，可以直接使用經過對齊的雙語語料改善機器譯文的質量。此外，也可以通過統計模型從雙語語料庫中獲取雙語詞典和翻譯模式，從而改進傳統的機器翻譯方法。除中文信息方面的應用之外，雙語語料庫的建設對于雙語詞典編纂、跨語言的對比研究也具有重要價值。
       目前關于雙語或多語語料庫的研究大致可分為三類：一是研究雙語語料的對齊技術（Alignment），國內外學者就此提出多種策略和方法，現在已經出現了許多對齊雙語或多語語料的程序或工具[Gale 1993]；二是研究雙語語料的各種應用，如在基于統計的機器翻譯技術[Brown 1990]、基于實例的機器翻譯技術[Nagao 1984]，雙語詞典編纂[Klavans and Tzoukermann 1990]技術中，雙語語料庫都發揮著十分重要的作用；三是雙語語料庫的設計、采集、編碼和管理問題。目前比較著名的語料庫編碼方案有TEI 文本編碼標準以及CES標準，兩者均基于SGML標記語言。就前兩類研究來說，中國國內目前做了較多的跟蹤研究工作，而對于第三類研究，即雙語語料庫尤其是涉及漢語的雙語語料庫的建設、編碼和管理研究，探索工作似乎做的相對較少。與此相關，目前?諭舛薊姑揮屑?接泄叵低車?、??疃燃庸さ?、以汉隅U?從镅緣乃?鎘锪峽獾謀ǖ饋?lt;/DIV>
北京大學計算語言學研究所、清華大學智能技術國家重點實驗室和中國科學院計算所三家單位聯合承擔了國家973課題——“面向新聞領域的漢英機器翻譯系統”的研制開發任務。系統決定采用基于多種方法的多引擎體系結構（將基于規則的方法與基于語料庫的方法相結合）。為此，需要建立一個具有一定規模的經過對齊處理的漢英雙語語料庫。本文將簡要介紹這樣一個服務于漢英機器翻譯的雙語語料庫的設計、收集、編碼和加工的情況。

二、語料庫的設計和語料收集

       語料庫建設是一項工作量極大的工作，因為一個有實際應用價值的語料庫決不是任意文本的任意集合，其文本類型、大小以及語料的構成都必須根據應用需求，經過仔細的設計，只有這樣才能保證所投入的工作是值得的。我們認為，設計一個雙語語料庫，首先應該考慮語料庫的應用目標。語料的收集、語料的構成以及對語料的加工應該緊緊圍繞語料庫的應用目標進行。作為服務于一個面向新聞領域的漢英機器翻譯系統的雙語語料庫而言，在語料的收集、加工等方面，應該跟服務于其他目的（比如語言研究）的語料庫有所區別。服務于漢英機器翻譯的語料庫是一個專用的語料庫，而不是一個通用的語料庫。在這個前提下，我們不強調語料庫中的語料對漢語文本的覆蓋性。在對語料的內容、語料庫中的文本類型、文本的創作時間、語料庫的結構進行選擇時，應以是否有助于面向新聞領域的漢英機器翻譯為準則進行。最為理想的情況是，語料庫中的語料能夠形成全部新聞語料的一個統計樣本。然而構造一個這樣的語料庫并非易事，這需要有足夠的機器可讀的新聞語料作為取樣基礎。結合上述理論思考以及現實條件下的電子文本的實際情況，我們確定了下面的語料收集原則：
1)     收入語料庫的文本最好是報道類型，不過也可以包含一些具有良好英語譯文的同新聞報道在內容和結構上具有相似性的語言材料。因此除了新聞報道類型，我們也收集了一些新聞發布會文告、政府白皮書和一些雜文以及它們的英語譯文。
2)     雙語材料最好以漢語作為源語言，因為語料庫的服務對象是漢英機器翻譯系統，但也酌情收集了一些具有非常流暢自然的中文翻譯的英語材料。
3)     文本應以全文形式收入語料庫，這將有益于篇章知識的獲取和學習，一個實用的機器翻譯系統最終必須面對全文的翻譯。
4)     就創作時間而言，所有收入的文本應當是最近幾年的文本，這樣才能夠反映當下語言的實際使用情況。

在上述原則的指導下，我們收集了大約100萬字的漢語全文語料及其英語譯文。這些語料基本來源于國際互聯網。大致可分為四類：新聞報道、新聞發布會文稿、白皮書以及雜文。其構成比例如圖1所示：
圖 1. 雙語語料庫的語料組成

三、語料庫的編碼

管理這些平行語料的理想方式是設計一個專用管理系統。語料庫中所有語料均需按照同樣的方式編碼或標記。這可以使得語料庫能夠獨立于軟件平臺和具體的應用程序，具有教強的數據可交換性。目前國際上有兩個著名的語料庫標記標準建議方案，一個是正處在開發之中的語料庫編碼標準(CES)，另外一個是文本編碼標準TEI。TEI已為一些著名語料庫所采用，例如英國國家語料庫(BNC)。這兩個標準都是基于SGML標記語言而制定的?？紤]到我們的語料的主要來源是國際互聯網，大部分語料是以超文本標記語言(HTML)形式存在的。因此，如何對語料庫進行編碼存在三種選擇：(1)采用國際上業已制定的標準方案；(2)直接采用互聯網上廣泛使用的超文本標記語言（HTML），這樣似乎可以有效減少工作量；(3)制定一個新的標記方案。
       方案（2）盡管可以減少工作量，但并不可行。首先，超文本標記語言是目前世界上最為流行的網頁標記語言，不同的支持公司都對其作了不同的擴充，語法要求并不嚴格，常?？梢杂貌煌臉擞浶问絹順擞洸煌膬热?，因而不適合用來標記我們的語料庫。其次，超文本標記語言不做內容和顯示的區分，其中既包含用于內容的標記元素，也包含用于顯示的標記元素。因而很多情況下，網頁作者因為顯示效果而放棄使用內容標記元素。例如在我們收集的語料中，文本標題很少使用標記，而更多使用、等標記。
       再看方案（1），盡管CES和TEI是專為標記語料庫而設計的國際標準方案，但二者均面向通用目的，即使選擇一個由較少的必要元素組成的子集，也會因過于復雜而難以掌握。并且其中許多元素對于我們的應用意義不大，同時對一些我們需要詳細標記的信息，如新聞報道的特有結構，卻又沒有合適的標記可以使用（即有“大炮打蚊子”之嫌）。另外，作為二者基礎的SGML標記語言，也一直因為過于復雜而難以得到信息處理界（包括IT產業界）的廣泛使用，開發一個全面的SGML分析器也不是一個短時期內可以完成的工作。
       經過上述分析，為了獲得一個簡單的但能滿足我們需要的編碼方案，我們選擇了方案（3），即參照CES開發一個新的標記系統。這個標記體系不力求覆蓋所有文檔類型，但要求對于我們所關心的文檔類型有足夠的支持，對其他文檔類型僅僅要求有一般性支持。這個標記體系基于目前正日益流行的標記語言XML，從而保證我們的標記系統有廣泛的軟件支持。
       按照我們的標記系統，整個語料庫由一組相互鏈接的文檔組成，整個雙語語料庫的邏輯結構如圖2所示。
圖2.  雙語語料庫的邏輯結構

       各種文件的含義如下：
(1)   中文基本標記文件和英文基本標記文件：
在這個文件中，主要標記中英文文本的結構信息，例如新聞報道的標題、子標題、新聞導言、訊頭以及文檔的一般結構信息。此外，在這個文件中還要標記命名實體，例如人名、地名以及機構名等。
(2)   中文文本語言學標記文件和英文文本語言學標記文件;
主要標記中英文文本中有關詞語的詞性信息、短語的結構信息、分句的組成關系信息、句子結構成分信息等。
(3)   中文英文對齊信息文件
標記中文文本和英語譯文文本之間在各個級別上的對齊關系，包括段落級對齊、句子級對齊、詞一級的對齊、短語結構級的對齊信息，等等。

原文轉自：http://www.anti-gravitydesign.com

軟件測試 > 測試開發技術 > 軟件測試開發語言 > 數據庫 >