面向漢英機器翻譯的雙語語料庫的建設及其管理

發表于:2007-04-28來源:作者:點擊數: 標簽:語料機器翻譯漢英雙語建設
一、引言 近年來,在語言信息處理的研究和 開發 中,單語和多語語料庫(以雙語語料庫居多)的作用日益突顯出來。特別是在機器翻譯研究中,人們提出了多種基于雙語語料庫的新方法,例如采用所謂的基于實例(Example-Based)的或基于存儲(Translation Memory
一、引言
近年來,在語言信息處理的研究和開發中,單語和多語語料庫(以雙語語料庫居多)的作用日益突顯出來。特別是在機器翻譯研究中,人們提出了多種基于雙語語料庫的新方法,例如采用所謂的基于實例(Example-Based)的或基于存儲(Translation Memory)的機器翻譯方法,可以直接使用經過對齊的雙語語料改善機器譯文的質量。此外,也可以通過統計模型從雙語語料庫中獲取雙語詞典和翻譯模式,從而改進傳統的機器翻譯方法。除中文信息方面的應用之外,雙語語料庫的建設對于雙語詞典編纂、跨語言的對比研究也具有重要價值。
       目前關于雙語或多語語料庫的研究大致可分為三類:一是研究雙語語料的對齊技術(Alignment),國內外學者就此提出多種策略和方法,現在已經出現了許多對齊雙語或多語語料的程序或工具[Gale 1993];二是研究雙語語料的各種應用,如在基于統計的機器翻譯技術[Brown 1990]、基于實例的機器翻譯技術[Nagao 1984],雙語詞典編纂[Klavans and Tzoukermann 1990]技術中,雙語語料庫都發揮著十分重要的作用;三是雙語語料庫的設計、采集、編碼和管理問題。目前比較著名的語料庫編碼方案有TEI 文本編碼標準以及CES標準,兩者均基于SGML標記語言。就前兩類研究來說,中國國內目前做了較多的跟蹤研究工作,而對于第三類研究,即雙語語料庫尤其是涉及漢語的雙語語料庫的建設、編碼和管理研究,探索工作似乎做的相對較少。與此相關,目前?諭舛薊姑揮屑?接泄叵低車?、??疃燃庸さ?、以汉隅U?從镅緣乃?鎘锪峽獾謀ǖ饋?lt;/DIV>
北京大學計算語言學研究所、清華大學智能技術國家重點實驗室和中國科學院計算所三家單位聯合承擔了國家973課題——“面向新聞領域的漢英機器翻譯系統”的研制開發任務。系統決定采用基于多種方法的多引擎體系結構(將基于規則的方法與基于語料庫的方法相結合)。為此,需要建立一個具有一定規模的經過對齊處理的漢英雙語語料庫。本文將簡要介紹這樣一個服務于漢英機器翻譯的雙語語料庫的設計、收集、編碼和加工的情況。
 
二、語料庫的設計和語料收集
 
       語料庫建設是一項工作量極大的工作,因為一個有實際應用價值的語料庫決不是任意文本的任意集合,其文本類型、大小以及語料的構成都必須根據應用需求,經過仔細的設計,只有這樣才能保證所投入的工作是值得的。我們認為,設計一個雙語語料庫,首先應該考慮語料庫的應用目標。語料的收集、語料的構成以及對語料的加工應該緊緊圍繞語料庫的應用目標進行。作為服務于一個面向新聞領域的漢英機器翻譯系統的雙語語料庫而言,在語料的收集、加工等方面,應該跟服務于其他目的(比如語言研究)的語料庫有所區別。服務于漢英機器翻譯的語料庫是一個專用的語料庫,而不是一個通用的語料庫。在這個前提下,我們不強調語料庫中的語料對漢語文本的覆蓋性。在對語料的內容、語料庫中的文本類型、文本的創作時間、語料庫的結構進行選擇時,應以是否有助于面向新聞領域的漢英機器翻譯為準則進行。最為理想的情況是,語料庫中的語料能夠形成全部新聞語料的一個統計樣本。然而構造一個這樣的語料庫并非易事,這需要有足夠的機器可讀的新聞語料作為取樣基礎。結合上述理論思考以及現實條件下的電子文本的實際情況,我們確定了下面的語料收集原則:
1)     收入語料庫的文本最好是報道類型,不過也可以包含一些具有良好英語譯文的同新聞報道在內容和結構上具有相似性的語言材料。因此除了新聞報道類型,我們也收集了一些新聞發布會文告、政府白皮書和一些雜文以及它們的英語譯文。
2)     雙語材料最好以漢語作為源語言,因為語料庫的服務對象是漢英機器翻譯系統,但也酌情收集了一些具有非常流暢自然的中文翻譯的英語材料。
3)     文本應以全文形式收入語料庫,這將有益于篇章知識的獲取和學習,一個實用的機器翻譯系統最終必須面對全文的翻譯。
4)     就創作時間而言,所有收入的文本應當是最近幾年的文本,這樣才能夠反映當下語言的實際使用情況。
 
在上述原則的指導下,我們收集了大約100萬字的漢語全文語料及其英語譯文。這些語料基本來源于國際互聯網。大致可分為四類:新聞報道、新聞發布會文稿、白皮書以及雜文。其構成比例如圖1所示:
圖 1. 雙語語料庫的語料組成
 
三、語料庫的編碼
 
管理這些平行語料的理想方式是設計一個專用管理系統。語料庫中所有語料均需按照同樣的方式編碼或標記。這可以使得語料庫能夠獨立于軟件平臺和具體的應用程序,具有教強的數據可交換性。目前國際上有兩個著名的語料庫標記標準建議方案,一個是正處在開發之中的語料庫編碼標準(CES),另外一個是文本編碼標準TEI。TEI已為一些著名語料庫所采用,例如英國國家語料庫(BNC)。這兩個標準都是基于SGML標記語言而制定的??紤]到我們的語料的主要來源是國際互聯網,大部分語料是以超文本標記語言(HTML)形式存在的。因此,如何對語料庫進行編碼存在三種選擇:(1)采用國際上業已制定的標準方案;(2)直接采用互聯網上廣泛使用的超文本標記語言(HTML),這樣似乎可以有效減少工作量;(3)制定一個新的標記方案。
       方案(2)盡管可以減少工作量,但并不可行。首先,超文本標記語言是目前世界上最為流行的網頁標記語言,不同的支持公司都對其作了不同的擴充,語法要求并不嚴格,常??梢杂貌煌臉擞浶问絹順擞洸煌膬热?,因而不適合用來標記我們的語料庫。其次,超文本標記語言不做內容和顯示的區分,其中既包含用于內容的標記元素,也包含用于顯示的標記元素。因而很多情況下,網頁作者因為顯示效果而放棄使用內容標記元素。例如在我們收集的語料中,文本標題很少使用<Hn>標記,而更多使用<center>、 <font>等標記。
       再看方案(1),盡管CES和TEI是專為標記語料庫而設計的國際標準方案,但二者均面向通用目的,即使選擇一個由較少的必要元素組成的子集,也會因過于復雜而難以掌握。并且其中許多元素對于我們的應用意義不大,同時對一些我們需要詳細標記的信息,如新聞報道的特有結構,卻又沒有合適的標記可以使用(即有“大炮打蚊子”之嫌)。另外,作為二者基礎的SGML標記語言,也一直因為過于復雜而難以得到信息處理界(包括IT產業界)的廣泛使用,開發一個全面的SGML分析器也不是一個短時期內可以完成的工作。
       經過上述分析,為了獲得一個簡單的但能滿足我們需要的編碼方案,我們選擇了方案(3),即參照CES開發一個新的標記系統。這個標記體系不力求覆蓋所有文檔類型,但要求對于我們所關心的文檔類型有足夠的支持,對其他文檔類型僅僅要求有一般性支持。這個標記體系基于目前正日益流行的標記語言XML,從而保證我們的標記系統有廣泛的軟件支持。 
       按照我們的標記系統,整個語料庫由一組相互鏈接的文檔組成,整個雙語語料庫的邏輯結構如圖2所示。
圖2.  雙語語料庫的邏輯結構
 
       各種文件的含義如下:
(1)   中文基本標記文件和英文基本標記文件:
在這個文件中,主要標記中英文文本的結構信息,例如新聞報道的標題、子標題、新聞導言、訊頭以及文檔的一般結構信息。此外,在這個文件中還要標記命名實體,例如人名、地名以及機構名等。
(2)   中文文本語言學標記文件和英文文本語言學標記文件;
主要標記中英文文本中有關詞語的詞性信息、短語的結構信息、分句的組成關系信息、句子結構成分信息等。
(3)   中文英文對齊信息文件
標記中文文本和英語譯文文本之間在各個級別上的對齊關系,包括段落級對齊、句子級對齊、詞一級的對齊、短語結構級的對齊信息,等等。
       按照XML標記語言的規定,總共為上述文檔定義了四個文檔類型定義(DTD)。分別用于描述(1)整個雙語語料庫;(2)中文基本標記文件和英文基本標記文件;(3)中文文本語言學標記文件和英文文本語言學標記文件;(4)中文英文對齊信息文件。
標記系統允許以一致和循序漸進的方式對語料進行由淺層到深層的信息標注。 
 
四、語料的標注和對齊
 
語料庫標注工作取決于語料庫將以何種方式使用。我們希望部分語料庫資源能夠直接用于改善機器譯文的質量,也希望能夠從語料庫中學習到漢語到英語的翻譯知識,例如漢英雙語詞典、翻譯模式等。為此,目前我們正在進行或計劃對語料庫進行下列標注工作:
1)     中文分詞和詞性標注;
2)     英文詞性標注;
3)     中文和英文的專名標注(中文機構名識別已作了小規模的實驗);
4)     中文、英文文本句子一級的對齊;
5)     中文專名和英文專名的對齊;
6)     中文詞語的詳細語法特征標注。這項標注將根據《現代漢語語法信息詞典規格說明書》[俞 1996]進行。在現代漢語語法信息詞典中,每類詞都可能擁有多達幾十個的語法特征信息,但在具體的上下文環境中,并非每個語法特征都有所表現,我們希望這項標注將有助于學習詞匯翻譯知識。目前對這項標注已經進行了一些小規模的實驗。
上述標注工作基本按照下面的過程進行:1)首先利用軟件工具進行自動標注;2) 人工校對標注結果。目前已有約10萬字的中文語料進行了分詞和詞性標注,對應的譯文進行了詞性標注,這部分語料的標注信息均已經過人工校對。另外,這部分語料句子對齊的校對工作也正在進行之中。
 
五、進一步的研究工作
 
在對10萬字語料的分詞和詞性標注、對齊的校對工作完成后,我們正在擴大處理語料的規模,對其余90萬字語料進行詞性標注和對齊加工。
在已有的標注信息基礎上,我們還將考慮對語料庫進行更深層次的標注工作,包括標注句子的句法結構和篇章的結構信息等。目前這方面的工作正在積極探索之中。
在應用方面,目前我們正在開發一個簡單的基于存儲的漢英機器翻譯引擎,并在兩個加工級別上使用具有不同標記深度的雙語語料。第一個級別是將沒有進行切詞、詞性標注的句子對齊結果直接作為資源用于機器翻譯,翻譯引擎根據用戶輸入的待譯句子在對齊的句對中進行檢索操作,如果命中,則直接輸出譯文;第二個級別是利用對齊的句對以及經過分詞和詞性標注的語料(其中一些特殊的詞語如數字、專有名詞等也經過對齊處理),翻譯引擎將這樣的句對視為一種框架結構,當用戶輸入待譯句子后,翻譯引擎利用輸入句子和這些框架結構進行匹配,如果匹配成功,則對其中的可以替換的詞匯進行替換,并修改相應英語譯文得到輸入句子的譯文,從而提高英語譯文的自然度。     
 
 
參考文獻
 
[Brown 1990] Brown, P., et al, A statistical approach to machine translation, Computational linguistics, V16, No.2, 1990
[CES] Corpus Encoding Standard, http://www.cs.vassar.edu/CES/
[Gale 1993] Gale W., et al, A program for aligning sentence in bilingual corpora, Computational linguistics, V19, No.1, 1993
[Klavans 1990] Klavans, J., and Tzoukermann, E., The BICORD system, In Proceedings, 15th International Conference on Computational Linguistics.
[劉1995] 劉昕,周明,黃昌寧,基于長度算法的中英雙語文本對齊的試驗,陳力為等主編《計算語言學進展與應用》,清華大學出版社,1995
[Nagao 1984] Nagao, M., A Framework of a Mechanical Translation between Japanese and English by Analogy Principle, In: A.Elithorn et al eds. Artificial and Human Intelligence, NATO Publication
[TEI] TEI Guidelines for Electronic Text Encoding and Interchange, http://etext.virginia.edu
[俞1996] 俞士汶 ,朱學鋒等,《現代漢語語法信息詞典》規格說明書,《中文信息學報》,1996年第2期
  
Bilingual Corpus Construction and its Management
for Chinese-English Machine Translation
 
Chang-Baobao  Zhan-Weidong†  Zhang-Huarui
The Institute of Computational Linguistics, Peking University, 100871
†The Department of Chinese Language and Literature, Peking University, 100871
 
Abstract: In recent years, monolingual or multilingual (primarily bilingual) corpora are viewed as key resources in language information processing and language engineering projects. To support an ongoing Chinese-English machine translation project, a Chinese English bilingual corpus is being set up. This paper gives a brief discussion on construction of the corpus. 
 
Keywords: Bilingual Corpus, Machine Translation, Corpus Markup, Corpus Annotation
 
面向漢英機器翻譯的雙語語料庫的建設及其管理
 
常寶寶 詹衛東 張華瑞
北京大學計算語言學研究所,北京,100871
北京大學中文系,北京,100871
 
摘要: 近年來,在語言信息處理的研究和開發中,單語和多語語料庫(主要是雙語語料庫)的作用日益突顯出來。為了支持一項正在進行的漢英機器翻譯系統的開發,我們建立了一個漢英雙語語料庫。本文簡要介紹了該語料庫的建設和管理情況。
 
關鍵詞: 雙語語料庫, 機器翻譯, 語料庫標記, 語料庫標注
 


* 本文工作得到了國家973項目的資助(項目編號: G1998030507-4)

原文轉自:http://www.anti-gravitydesign.com

国产97人人超碰caoprom_尤物国产在线一区手机播放_精品国产一区二区三_色天使久久综合给合久久97