VoIP的话音质量测量方法_移动平台测试

VoIP的话音质量测量方法

发表于：2007-05-05来源：作者：点击数：标签：质量方法话音测量 voip

严重的呼叫质量和性能管理问题会影响VoIP (Voice over IP)系统的运作。网络管理员等人需要理解基本的呼叫质量测量技术才能很好地监测、管理和诊断在VoIP中出现的这些问题。本文介绍了常用的几种呼叫质量测量方法，联系实际对这些方法进行了解释，并描述

严重的呼叫质量和性能管理问题会影响VoIP (Voice over IP)系统的运作。网络管理员等人需要理解基本的呼叫质量测量技术才能很好地监测、管理和诊断在VoIP中出现的这些问题。本文介绍了常用的几种呼叫质量测量方法，联系实际对这些方法进行了解释，并描述了VoIP网络服务中的用户可接受的话音质量。

VoIP呼叫质量会受噪声、畸变、信号幅度过高或过低、回声、通话间隙和许多 javascript:tagshow(event, '%C6%E4%CB%FB');" href="javascript:;" target=_self>其他问题的影响。

在测量呼叫质量时，需要研究三类基本的服务质量：

图1：一个真正ACR测
量的收听者投票图。

1. 收听质量--指用户对呼叫过程中所听到的声音质量的评价。
2. 会话质量--指用户在整个通话过程中基于收听质量和会话能力而对呼叫作出的评价，包括回音和延迟等可能影响通话的相关问题。
3. 传输质量--指用于承载话音信号的网络连接的质量。传输质量测量是与细节呼叫质量测量相对的一种网络服务质量测量。

呼叫质量测量的目的是通过主观或客观的测量方法，即通过人为的测量项目或基于计算机的测量工具，对一种或多种以上的呼叫质量类别给出一个可信的估计。

主观收听质量测量

主观测量是一种久经考验的话音质量测量方法，但这种方法成本太高，费时也太长。有一种更广为人知的主观类测量方法，叫做绝对种类定级(Absolute Category Rating, ACR)测量。

在ACR测量中，收听者按照从1到5的5级损伤指标对一系列音频文件进行分级：
  5 非常好
  4 好
  3 可以
  2 较差
  1 差

在取得了每个收听者给出的得分之后，计算所有音频文件的一般或平均意见得分(Mean Opinion Score, MOS)。为了使ACR测量得到可信的测量结果，接受测量的人数至少应在16个以上，而且测量应该在一个安静的环境下，在可控的条件下完成。

通常，ACR测量的得分随收听者的增加而趋向稳定。为了降低测量得分的可变性并帮助衡量测量结果，测量中通常会包括一些参考文件，这些文件中包含了“为业界接受的”MOS得分。

图2：R因素与MOS得分之间的关系。

图1给出了一个由16位收听者进行的真实的ACR测量的原始投票情况，测量结果给出的MOS得分为2.4。在2分和3分这两个意见分等级上出现的高票数与结果2.4分的MOS得分是一致的，但仍有很多收听者把选票投向了1分和4分。

进行一项主观测量时，必须认识到这种测量是真正由主观因素决定的，测量结果可能会随测量主体的不同而有很大差异。在电话产业界，厂商们通常提供与CODEC相关的MOS得分，而现实中，这些得分则是从某个主观测量中选出的一个值。

测量实验室中通常采用语音平衡文本源(如哈佛句，Harvard Sentences)的高质量音频录音作为被测VoIP系统的输入。哈佛句是一组精心选择的英文短语，其中包含了人们谈话中常会出现的语音。哈佛句的录音是采用高分辨率(16比特)的数字录音系统，在安静的条件下完成的，之后录音被调节成具备标准的信号电平和频谱特性。语音平衡谈话材料的来源是国际电信联盟(ITU)和开放语音库(Open Speech Repository)。

除了ACR测量以外，恶化种类定级(Degradation Category Rating, DCR)和对照种类定级(Comparison Category Rating, CCR)也属于主观类测量。其中，DCR考察受损声音文件的恶化程度，并给出一个DMOS得分。而CCR测量则比较一对文件，给出CMOS得分。

为了区别收听得分和会话得分，国际电信联盟(ITU)提出了带S(主观，Subjective)、O(可观，Objective)和E (估计，Estimated)后缀的MOS收听质量(MOS-LQ)和MOS会话质量(MOS-CQ)这两个术语。一次ACR测量得到的收听质量得分就是 MOS-LQS。

会话质量测量

会话质量测量比较复杂，因而也较少使用。在会话测量中，通常会将一群收听者放在交互式通信的环境下，并要求他们通过一个电话或VoIP系统完成一项任务。测量人员在系统中加入延迟和回声等效应，然后调查测量主体对连接质量看法如何。

延迟效应对会话质量的影响随任务不同而有很大差异。对于非交互式的任务而言，几百毫秒的单向延迟都是可以忍受的；而对交互性较强的任务，哪怕是很短的延迟都可能造成会话困难。

延迟对不同任务影响不同的这种情况就造成在会话呼叫质量的解释上出现问题。例如，两个相同的VoIP系统连接都会产生300毫秒的单向延迟，但一个系统用于高交互性的商业谈判，而另一个系统则用于朋友间的非正式聊天。那么前一个系统中的用户可能会觉得呼叫质量很差，而后一个系统中的用户则可能根本注意不到这一延迟。

基于样本的客观测量

ITU开发了P.861(PSQM)和更新的P.862，力图用成本更低的客观测量法来做为主观收听质量测量的补充。采用这些测量技术，可以通过比较送入系统中的一个原始参考文件与输出的受损文件之间的差异，得到由传输系统或CODEC引入的失真。这些技术的初衷虽然是为了CODEC的实验室测量，但在VoIP网络测量中也得到了广泛使用。

P.861和P.862算法将参考信号和受损信号都分成较短的交迭样本块，计算每一块的傅立叶变换系数，并比较他们的系数。P.862算法最后给出一个PESQ得分，该得分与MOS的范围相近，但它并不是MOS的准确映射。新的PESQ-LQ得分更接近收听质量MOS。这些算法都同时要求访问源文件和输出文件才能测量后者相对于前者的失真。

2004年，ITU制定了P.563标准，这是一个单端客观测量算法，能够只对接收到的音频流进行操作。P.563测量得到的MOS得分比P.862更广，要使结果更稳定，必须多次测量并对结果进行平均。这一方法并不适合测量个别呼叫，但在测量多个呼叫的服务质量时，能够得到可信的测量结果。

图3：R因素和用户意见之间的关系。

这类算法对每一个样本都要进行大量计算，在测量窄带话音信号时每秒需处理8,000个样本，在测量宽带话音信号时每秒需处理16,000个样本，处理负荷(相当于每个呼叫流需100MIPS)和对存储器的要求都很高。因此，这类算法对很多应用而言都并不实际，这时，就应采用基于分组的测量方法。

E 模型和VQmon

VQmon是一种高效的基于E模型的VoIP呼叫质量监控技术，它能在功耗低于P.861/862/563方法的千分之一的情况下给出呼叫质量得分。E模型是欧洲电信标准协会(ETSI)开发的，本来用作电信网络的传输规划工具，但该模型也在VoIP服务质量测量中广泛使用。

E模型(在ETSI技术报告ETR250中有对其的描述)是在几个较早的评价模型的基础之上发展起来的，在1998年被ITU标准化，成为G.107建议，然后每年更新并修订。E模型中那些使它能够用于VoIP服务质量监控的扩展性能由Telchemy公司开发，并在ETSI TS 101 329-5 Annex E中被标准化。

采用E模型是为了对传输质量定级，也就是说，确定包含话音通道的“由口至耳”特性的“R”因素。R因素的取值范围为0－120，窄带电话上R因素通常取50－94，而宽带电话上R取值在50－110。R因素的值可以转换为会话和收听质量MOS得分(MOSCQ and MOS-LQ)的估计值。

E模型基于一个假定，那就是话音质量损伤的效果是加性的。基本E模型等式为：

R=Ro-Is-Id-Ie+A

其中： Ro是由噪声电平和信号响度等决定的基础因素；Is代表与语音同时出现的信号损伤，包括响度、量化(CODEC)失真和非优化侧音电平；Id指滞后于语音的损伤，包括回声和延迟造成的会话困难；Ie是“设备损伤因素”，指VoIP系统对传输信号的影响；Ai是“优势因素”，指用户在拨打电话时的期望因素。例如移动电话使用起来很方便，因此人们对使用时与通话质量相关的问题就比较宽容。

VQmon是E模型的扩展，其中包含了时变的IP网络损伤效应，它能更准确地估计用户意见。VQmon中也包含了一些能够支持宽带CODEC的扩展。

话音质量测量方法的比较

图2给出了E模型和MOS所生成的R因素之间的关系。ITU G.107中所提供的“官方”映射函数规定，4.4的MOS得分对应93的R因素(在典型无损G.711连接，即常规电话连接情况下)。

近期的ACR主观测量数据显示，对无损G.711用4.1到4.2的MOS得分来评价更合适。

这与图中所示“典型ACR”的映射稍有不同。在日本，TTC委员会根据日本国内进行的主观测量结果开发了一套R因素到MOS的映射方法。他们给出的得分一直都比美国和欧洲的低，这一部分是因为他们对质量和话音传输的文化理解与欧美不同。因此上图一共给出了三种可能的从R到MOS 的映射：

图4：典型的呼叫质量水平表示。

1. ITU G.107映射；
2. ACR映射；
3. 日本TTC映射；

但当系统中使用了宽带CODEC后，又引入另一个复杂因素。ACR测量实际上是与某些参考条件有关的，只有1-5这几个固定的级别。而在宽带测量中，使用的是同样的级别，因此当一个窄带CODEC有4.1的MOS得分时，一个听起来远远优于它的宽带CODEC可能只有3.9的MOS得分。R 因素则不同，它既涵盖了窄带也涵盖了宽带。因此一个宽带CODEC的R因素可能有105，而窄带CODEC的R因素通常只有93。

图3给出了R因素和认为呼叫好或较好(GoB)、差或较差(PoW)或者早早挂机(TME)的用户百分比之间的关系。例如，当R因素为60时，超过40%的用户会认为呼叫质量“好”，接近20%的用户会认为呼叫质量“差”，还有大约10%的用户会早早挂机。

可接受的话音质量水平

图4列出了典型的呼叫质量水平表示。通常，当R因素等于或大于80，就代表呼叫质量较好。但还有一些关键问题需要注意：R因素是一种会话测量方法，因此R因素大于或等于80不仅意味着收听质量好，也意味着延迟小。而MOS(ITU规定)为4.0则不同，因为这是指MOS-LQ，其中并未涵盖延迟。也就是说R大于等于80与MOS等于4.0这两种说法所代表的意义并不一致。为此，Telchemy引入了符号R-LQ和 R-CQ，这样，R-LQ等于80与MOS等于4.0就具有可比性了。

VoIP (基于因特网协议的话音通信)

厂商们针对G.729A提出的MOS通常为3.9，这就意味着G.729A无法满足ITU所规定的MOS。但事实上，G.729A应用很广泛，而且似乎用户的接受度也还不错。这一问题的产生源自MOS定标，而非CODEC。CODEC的ACR得分应该与一个ACR定标范围进行比较。例如， “满意”应该从3.7到4.1，那么MOS值为3.9的G.729A就应在满意的范围内。

本文小结

在定义呼叫质量目标时，必须用语义清晰的术语来表达，即所规定的是R Factor (R-CQ) 还是MOS-CQ，抑或是MOS-LQ和延迟的综合质量。如果采用的是宽带或窄带CODEC，那么为了避免混淆，就必须解释清楚MOS得分是“窄带 MOS”还是“宽带MOS”。

参考文献：

[1] ETSI TS 101 329-5 QoS Measurement for VoIP
[2] ITU-T G.107 The E Model: A computational model for use in planningI
[3] ITU-T SG12 Contribution D103, Proposed clarification to ?°MOS?± terminology, January 2003
[4] ITU-T SG12 Contribution D105, VQmon Description, January 2003
[5] ITU-T Recommendation P.862 Perceptual Estimation of Speech Quality (PESQ)

作者：Alan Clark
CEO & President
Telchemy Incorporated
alan.clark@telchemy.com

原文转自：http://www.ltesting.net

软件测试 > 测试技术 > 移动平台测试 >