VoIP的話音質量測量方法

發表于:2007-05-05來源:作者:點擊數: 標簽:質量方法話音測量voip
嚴重的呼叫質量和 性能 管理問題會影響VoIP (Voice over IP)系統的運作。 網絡 管理員等人需要理解基本的呼叫質量測量技術才能很好地監測、管理和診斷在VoIP中出現的這些問題。本文介紹了常用的幾種呼叫質量測量方法,聯系實際對這些方法進行了解釋,并描述

嚴重的呼叫質量和性能管理問題會影響VoIP (Voice over IP)系統的運作。網絡管理員等人需要理解基本的呼叫質量測量技術才能很好地監測、管理和診斷在VoIP中出現的這些問題。本文介紹了常用的幾種呼叫質量測量方法,聯系實際對這些方法進行了解釋,并描述了VoIP網絡服務中的用戶可接受的話音質量。

VoIP呼叫質量會受噪聲、畸變、信號幅度過高或過低、回聲、通話間隙和許多javascript:tagshow(event, '%C6%E4%CB%FB');" href="javascript:;" target=_self>其他問題的影響。

在測量呼叫質量時,需要研究三類基本的服務質量:

圖1:一個真正ACR測
量的收聽者投票圖。


1. 收聽質量--指用戶對呼叫過程中所聽到的聲音質量的評價。
2. 會話質量--指用戶在整個通話過程中基于收聽質量和會話能力而對呼叫作出的評價,包括回音和延遲等可能影響通話的相關問題。
3. 傳輸質量--指用于承載話音信號的網絡連接的質量。傳輸質量測量是與細節呼叫質量測量相對的一種網絡服務質量測量。

呼叫質量測量的目的是通過主觀或客觀的測量方法,即通過人為的測量項目或基于計算機的測量工具,對一種或多種以上的呼叫質量類別給出一個可信的估計。

主觀收聽質量測量

主觀測量是一種久經考驗的話音質量測量方法,但這種方法成本太高,費時也太長。有一種更廣為人知的主觀類測量方法,叫做絕對種類定級(Absolute Category Rating, ACR)測量。

在ACR測量中,收聽者按照從1到5的5級損傷指標對一系列音頻文件進行分級:
  5 非常好
  4 好
  3 可以
  2 較差
  1 差

在取得了每個收聽者給出的得分之后,計算所有音頻文件的一般或平均意見得分(Mean Opinion Score, MOS)。為了使ACR測量得到可信的測量結果,接受測量的人數至少應在16個以上,而且測量應該在一個安靜的環境下,在可控的條件下完成。

通常,ACR測量的得分隨收聽者的增加而趨向穩定。為了降低測量得分的可變性并幫助衡量測量結果,測量中通常會包括一些參考文件,這些文件中包含了“為業界接受的”MOS得分。

圖2:R因素與MOS得分之間的關系。

圖1給出了一個由16位收聽者進行的真實的ACR測量的原始投票情況,測量結果給出的MOS得分為2.4。在2分和3分這兩個意見分等級上出現的高票數與結果2.4分的MOS得分是一致的,但仍有很多收聽者把選票投向了1分和4分。

進行一項主觀測量時,必須認識到這種測量是真正由主觀因素決定的,測量結果可能會隨測量主體的不同而有很大差異。在電話產業界,廠商們通常提供與CODEC相關的MOS得分,而現實中,這些得分則是從某個主觀測量中選出的一個值。

測量實驗室中通常采用語音平衡文本源(如哈佛句,Harvard Sentences)的高質量音頻錄音作為被測VoIP系統的輸入。哈佛句是一組精心選擇的英文短語,其中包含了人們談話中常會出現的語音。哈佛句的錄音是采用高分辨率(16比特)的數字錄音系統,在安靜的條件下完成的,之后錄音被調節成具備標準的信號電平和頻譜特性。語音平衡談話材料的來源是國際電信聯盟(ITU)和開放語音庫(Open Speech Repository)。

除了ACR測量以外,惡化種類定級(Degradation Category Rating, DCR)和對照種類定級(Comparison Category Rating, CCR)也屬于主觀類測量。其中,DCR考察受損聲音文件的惡化程度,并給出一個DMOS得分。而CCR測量則比較一對文件,給出CMOS得分。

為了區別收聽得分和會話得分,國際電信聯盟(ITU)提出了帶S(主觀,Subjective)、O(可觀,Objective)和E (估計,Estimated)后綴的MOS收聽質量(MOS-LQ)和MOS會話質量(MOS-CQ)這兩個術語。一次ACR測量得到的收聽質量得分就是 MOS-LQS。

會話質量測量

會話質量測量比較復雜,因而也較少使用。在會話測量中,通常會將一群收聽者放在交互式通信的環境下,并要求他們通過一個電話或VoIP系統完成一項任務。測量人員在系統中加入延遲和回聲等效應,然后調查測量主體對連接質量看法如何。

延遲效應對會話質量的影響隨任務不同而有很大差異。對于非交互式的任務而言,幾百毫秒的單向延遲都是可以忍受的;而對交互性較強的任務,哪怕是很短的延遲都可能造成會話困難。

延遲對不同任務影響不同的這種情況就造成在會話呼叫質量的解釋上出現問題。例如,兩個相同的VoIP系統連接都會產生300毫秒的單向延遲,但一個系統用于高交互性的商業談判,而另一個系統則用于朋友間的非正式聊天。那么前一個系統中的用戶可能會覺得呼叫質量很差,而后一個系統中的用戶則可能根本注意不到這一延遲。

基于樣本的客觀測量

ITU開發了P.861(PSQM)和更新的P.862,力圖用成本更低的客觀測量法來做為主觀收聽質量測量的補充。采用這些測量技術,可以通過比較送入系統中的一個原始參考文件與輸出的受損文件之間的差異,得到由傳輸系統或CODEC引入的失真。這些技術的初衷雖然是為了CODEC的實驗室測量,但在VoIP網絡測量中也得到了廣泛使用。

P.861和P.862算法將參考信號和受損信號都分成較短的交迭樣本塊,計算每一塊的傅立葉變換系數,并比較他們的系數。P.862算法最后給出一個PESQ得分,該得分與MOS的范圍相近,但它并不是MOS的準確映射。新的PESQ-LQ得分更接近收聽質量MOS。這些算法都同時要求訪問源文件和輸出文件才能測量后者相對于前者的失真。

2004年,ITU制定了P.563標準,這是一個單端客觀測量算法,能夠只對接收到的音頻流進行操作。P.563測量得到的MOS得分比P.862更廣,要使結果更穩定,必須多次測量并對結果進行平均。這一方法并不適合測量個別呼叫,但在測量多個呼叫的服務質量時,能夠得到可信的測量結果。

圖3:R因素和用戶意見之間的關系。

這類算法對每一個樣本都要進行大量計算,在測量窄帶話音信號時每秒需處理8,000個樣本,在測量寬帶話音信號時每秒需處理16,000個樣本,處理負荷(相當于每個呼叫流需100MIPS)和對存儲器的要求都很高。因此,這類算法對很多應用而言都并不實際,這時,就應采用基于分組的測量方法。

E 模型和VQmon

VQmon是一種高效的基于E模型的VoIP呼叫質量監控技術,它能在功耗低于P.861/862/563方法的千分之一的情況下給出呼叫質量得分。E模型是歐洲電信標準協會(ETSI)開發的,本來用作電信網絡的傳輸規劃工具,但該模型也在VoIP服務質量測量中廣泛使用。

E模型(在ETSI技術報告ETR250中有對其的描述)是在幾個較早的評價模型的基礎之上發展起來的,在1998年被ITU標準化,成為G.107建議,然后每年更新并修訂。E模型中那些使它能夠用于VoIP服務質量監控的擴展性能由Telchemy公司開發,并在ETSI TS 101 329-5 Annex E中被標準化。

采用E模型是為了對傳輸質量定級,也就是說,確定包含話音通道的“由口至耳”特性的“R”因素。R因素的取值范圍為0-120,窄帶電話上R因素通常取50-94,而寬帶電話上R取值在50-110。R因素的值可以轉換為會話和收聽質量MOS得分(MOSCQ and MOS-LQ)的估計值。

E模型基于一個假定,那就是話音質量損傷的效果是加性的?;綞模型等式為:

R=Ro-Is-Id-Ie+A

其中: Ro是由噪聲電平和信號響度等決定的基礎因素;Is代表與語音同時出現的信號損傷,包括響度、量化(CODEC)失真和非優化側音電平;Id指滯后于語音的損傷,包括回聲和延遲造成的會話困難;Ie是“設備損傷因素”,指VoIP系統對傳輸信號的影響;Ai是“優勢因素”,指用戶在撥打電話時的期望因素。例如移動電話使用起來很方便,因此人們對使用時與通話質量相關的問題就比較寬容。

VQmon是E模型的擴展,其中包含了時變的IP網絡損傷效應,它能更準確地估計用戶意見。VQmon中也包含了一些能夠支持寬帶CODEC的擴展。

話音質量測量方法的比較

圖2給出了E模型和MOS所生成的R因素之間的關系。ITU G.107中所提供的“官方”映射函數規定,4.4的MOS得分對應93的R因素(在典型無損G.711連接,即常規電話連接情況下)。

近期的ACR主觀測量數據顯示,對無損G.711用4.1到4.2的MOS得分來評價更合適。

這與圖中所示“典型ACR”的映射稍有不同。在日本,TTC委員會根據日本國內進行的主觀測量結果開發了一套R因素到MOS的映射方法。他們給出的得分一直都比美國和歐洲的低,這一部分是因為他們對質量和話音傳輸的文化理解與歐美不同。因此上圖一共給出了三種可能的從R到MOS 的映射:

圖4:典型的呼叫質量水平表示。

1. ITU G.107映射;
2. ACR映射;
3. 日本TTC映射;

但當系統中使用了寬帶CODEC后,又引入另一個復雜因素。ACR測量實際上是與某些參考條件有關的,只有1-5這幾個固定的級別。而在寬帶測量中,使用的是同樣的級別,因此當一個窄帶CODEC有4.1的MOS得分時,一個聽起來遠遠優于它的寬帶CODEC可能只有3.9的MOS得分。R 因素則不同,它既涵蓋了窄帶也涵蓋了寬帶。因此一個寬帶CODEC的R因素可能有105,而窄帶CODEC的R因素通常只有93。

圖3給出了R因素和認為呼叫好或較好(GoB)、差或較差(PoW)或者早早掛機(TME)的用戶百分比之間的關系。例如,當R因素為60時,超過40%的用戶會認為呼叫質量“好”,接近20%的用戶會認為呼叫質量“差”,還有大約10%的用戶會早早掛機。

可接受的話音質量水平

圖4列出了典型的呼叫質量水平表示。通常,當R因素等于或大于80,就代表呼叫質量較好。但還有一些關鍵問題需要注意:R因素是一種會話測量方法,因此R因素大于或等于80不僅意味著收聽質量好,也意味著延遲小。而MOS(ITU規定)為4.0則不同,因為這是指MOS-LQ,其中并未涵蓋延遲。也就是說R大于等于80與MOS等于4.0這兩種說法所代表的意義并不一致。為此,Telchemy引入了符號R-LQ和 R-CQ,這樣,R-LQ等于80與MOS等于4.0就具有可比性了。

VoIP (基于因特網協議的話音通信)

廠商們針對G.729A提出的MOS通常為3.9,這就意味著G.729A無法滿足ITU所規定的MOS。但事實上,G.729A應用很廣泛,而且似乎用戶的接受度也還不錯。這一問題的產生源自MOS定標,而非CODEC。CODEC的ACR得分應該與一個ACR定標范圍進行比較。例如, “滿意”應該從3.7到4.1,那么MOS值為3.9的G.729A就應在滿意的范圍內。

本文小結

在定義呼叫質量目標時,必須用語義清晰的術語來表達,即所規定的是R Factor (R-CQ) 還是MOS-CQ,抑或是MOS-LQ和延遲的綜合質量。如果采用的是寬帶或窄帶CODEC,那么為了避免混淆,就必須解釋清楚MOS得分是“窄帶 MOS”還是“寬帶MOS”。

參考文獻:

[1] ETSI TS 101 329-5 QoS Measurement for VoIP
[2] ITU-T G.107 The E Model: A computational model for use in planningI
[3] ITU-T SG12 Contribution D103, Proposed clarification to ?°MOS?± terminology, January 2003
[4] ITU-T SG12 Contribution D105, VQmon Description, January 2003
[5] ITU-T Recommendation P.862 Perceptual Estimation of Speech Quality (PESQ)

作者:Alan Clark
CEO & President
Telchemy Incorporated
alan.clark@telchemy.com


原文轉自:http://www.anti-gravitydesign.com

国产97人人超碰caoprom_尤物国产在线一区手机播放_精品国产一区二区三_色天使久久综合给合久久97