利用HAS掩蔽效应的变换域语音隐写算法

(整期优先)网络出版时间:2019-07-21
/ 3

摘要 基于人耳听觉掩蔽效应,本文提出了在DCT域实现信息嵌入的新算法。文中选用中低频14~16Bark中,在掩蔽阈值以下的频率分量作为嵌入点,对该嵌入点的DCT系数以一定嵌入强度作修改来实现秘密信息的嵌入。嵌入强度则由DCT系数的统计特性来确定。本文选用语音信号为宿主载体,经过仿真实验证明,带有秘密信息的载体与原始载体无听觉差异,在无攻击情况下,可以很好的提取嵌入信息;在经过滤波、加噪等攻击后,依然可以较好提取秘密信息。

关键词 隐写术;DCT;掩蔽阈值;语音信号

1 引言

信息隐藏技术有着悠久的历史,其中隐写术(Steganography)和数字水印(Digital Watermark)是目前研究比较广泛和热烈的课题。他们都是利用人类感觉器官的不敏感以及多媒体数据中存在的冗余,将秘密信息或版权信息隐藏到宿主载体信息中,以达到隐蔽通信以及版权保护的目的。而不同的是,隐写术保护的是被嵌入的秘密信息,而数字水印要保护的是载体内容。

近年来有关语音隐写技术方面的研究发展很快,很多基于HAS的方法被提出,常用的有以下几种方法:

(1)最不重要位法(LSB)。它是通过将语音信号的部分采样值的最小权值位用代表秘密数据的二进制位替换达到将秘密信息隐藏到语音中去的目的。在接收端,只需要从相应位置提取出秘密信息比特即可。LSB(Least Significant Bit)算法简单易实现,信息嵌入和提取的速度快,可以隐藏的数据量大,但是其安全性很差,攻击者只需要对信道简单地加上噪声干扰或者对数据进行重采样和压缩编码等处理都会造成整个隐秘信息的丢失。

(2)相位隐藏法。它是利用人耳听力系统对声音绝对相位不敏感的特性,用代表秘密信息的参考相位代替语音信号的绝对相位。为保证信号间的相对相位不变,所有随后信号的绝对相位也同时改变。在接收端,根据同步机制进行相位检测。相对于LSB算法,相位隐藏法所能隐藏的数据量较小,但是在抗攻击方面,尤其是在抵抗噪声攻击方面比LSB算法有明显的改善。

(3)回声隐藏法。根据人耳的听觉特性,一个音频信号中,如果弱信号在强信号后很短的时间内(一般0~200ms)出现,弱信号会变得不可听见。语音回声隐藏正是利用人耳的这一听觉特性,在离散时间信号中引入回声,来达到隐藏信息的目的。该方法具有很好的隐蔽性,在受到攻击后一般仍然能够正确地恢复出隐藏信息,尤其是在抗压缩编码方面要比LSB算法优越很多。但是在攻击者引入较大的噪声或者在受到专门的回声隐藏攻击时表现并不理想,攻击者可以通过倒谱分析和强制搜索相结合的方法,检测出回声信号进而加以删除。

(4)变换域法。它是通过将秘密信息嵌入到载体信号的某个变换域中最重要的部分,这样,只要攻击者不过分破坏隐蔽文件的可听懂度,嵌入信号中的隐秘信息就不会被删除。比较常见的变换域法有:离散傅里叶变换法(DFT)、离散余弦变换法(DCT)、小波变换法(DWT)等。这些方法将秘密信息嵌入到频域变换的系数当中,提高了隐蔽性和鲁棒性,同时还适当利用滤波技术消除信息隐藏可能引入的高频噪声,从而增加了对低频滤波攻击的抵抗力。

在本文中选择了在DCT变换域利用人耳听觉系统(HAS)的掩蔽效应,并结合嵌入点的统计特性来确定嵌入强度,完成秘密信息的隐写过程,以实现语音隐蔽通信。实验证明,该方法可以更好的抵抗各种信号处理,而且还保持了对人类听觉的不可觉察性。

2. 人类听觉系统(HAS)的感知特性

2.1 HAS的听力范围和绝对听阈

并非所有的声音都能被人耳听到,这取决于频率的感知范围和对声音强度的感知范围。正常年轻人能感知的声音频率范围为20Hz~20kHz。当声音声压级在0dB以上时,听觉系统一般能感知到声音的存在,当声压级达到120dB以上时,人耳会感觉不舒服,当声音强度达到130dB以上时,人耳会产生疼痛感觉。

绝对听阈是指:在安静环境下,一个纯音信号能被人耳感知所需要的最小能量,它与纯音信号的频率有关,如图2-1所示。绝对听阈可采用如下的一个非线性函数来逼近:

818203080.jpg

818203073.jpg

图2-1 安静环境下的绝对听阈


2.2 听觉掩蔽效应

听觉掩蔽效应是心理声学中的重要性质,它表明HAS对频率和时间分辨力的局限性。为使嵌入到宿主载体信息中的秘密信息不影响原有的听音质量,应充分利用HAS的特性,尽可能在低于掩蔽阈值的范围内对信号进行修改。

首先,要在不同频段寻求听觉掩蔽阈值。通常情况下将20Hz~16kHz的频率范围划分为24个临界频带(Critical Band),以Bark为单位。Bark与频率f(Hz)之间的关系近似为:

818216394.jpg

频域掩蔽算法的具体实现步骤如下(以一帧信号X(t)为例):

818215904.jpg

81821826.jpg

图2-2 语音信号功率谱


(2)计算Bark域各子带的能量。

8182182.jpg

其中bjh 和 bjl分别对应于各Bark的上下限频率。Bark能量谱如图2-3。

818217127.jpg

图2-3 巴克域能量谱

(3)扩展巴克谱。对bj用扩展函数进行滤波卷积:

<?xml:namespace prefix = v ns = "urn:schemas-microsoft-com:vml" />81822924.jpg

其中j'表示掩蔽信号的临界带指数。扩展巴克谱如图2-4所示。扩展函数是用来描述各个临界的信号对其他临界带信号的掩蔽特性,扩展函数为:

818226610.jpg

818222702.jpg

图2-4 扩展巴克域能量谱


(4)计算噪声掩蔽门限(NMT)。首先定义一个噪声特性因子a作音调特性的判断: 818221850.jpg,其中Gm和Am分别为信号功率谱的几何平均和算术平均。当 a=1时设定信号是完全纯音特性;而当时a=0,则信号几乎完全噪声特性。根据音调因子a的值,可以确定一个对C(j)的修正值:

818221516.jpg

然后得到Bark带的NMT:

818223059.jpg

818221181.jpg
图2-5

把得到的每个临界频带NMT与绝对听阈比较,较大的一个极为要求的听觉掩蔽阈值。

3 基于听觉阈值的信息隐写术

首先将宿主载体信息利用下式进行离散余弦(DCT)变换。

818225436.jpg

其中 818236178.jpg,N为DCT变换长度。根据上面求出的听觉掩蔽阈值,在选定帧中仅对掩蔽阈值以下的频率分量所对应的DCT系数X_choose作适当修改以嵌入秘密信息,818235306.jpg

其中embedded为嵌入的秘密信息序列,a为嵌入强度。嵌入强度由局部DCT系数的统计特征来确定。

用修改后的DCT系数替换原宿主载体信息的DCT系数,并依照下式IDCT变换,得到时域中嵌入秘密信息的信号818238241.jpg

818235352.jpg

在接收方接收到嵌入秘密信息的信号 818235642.jpg,利用已知的密钥即可得到嵌入的秘密信息,从而实现保密语音通信。

4 仿真实验及性能分析

本文采用一段长度2.716s,采样频率11025Hz,量化级16bit,内容为“苏州大学电子信息学院”的自然语音作为宿主载体信息。嵌入的秘密信息内容为“ 0-ling”的自然语音,8kHz采样,8bit量化。

4.1 无攻击情况下

按照本文的方法,将秘密信息嵌入到载体中。其中,嵌入的强度由嵌入帧的DCT系数的统计特性决定。其仿真结果如图4-1所示。

818231778.jpg

图4-1 嵌入秘密信息的效果图

从仿真结果图看,在无攻击情况下,嵌入秘密信息的语音信号在波形图上并无明显差别,并且可以很好的恢复秘密信息。在安静实验室进行放音实验表明,人耳无法分辨原宿主载体语音和带有秘密信息的载体语音之间的区别;并且可以清晰分辨嵌入的秘密信息。

4.2攻击情况下

为检测嵌入的秘密信息对各种失真处理的有效性和稳健性,对原始宿主载体语音和嵌入信息后的载体语音分别进行如下处理:

(1)低通滤波。采用长度为6阶,通带截止频率为4kHz衰减为3dB,阻带截止频率为4.8kHz衰减为30dB的巴特沃兹低通滤波器。实验证明,低通滤波器虽然对提取信息有一定的干扰,但不影响对提取信息的理解。

(2)重采样。嵌入信息后的载体语音的采样率减少到原来的1/2后再重新采样到11025Hz。实验证明,经过重采样后,提取出的信息虽然参杂噪声,但是并不影响提取信息的语意理解。

(3)噪声干扰。对信号在时域中加入高斯白噪声。实验证明,当信噪比SNR=20dB时,提取出的语音指令较为清晰;当SNR=10dB时,提取出的信号开始有杂音,但并不影响语义理解;当SNR=0dB时,提取出的语音指令中参杂大量噪音,理解模糊。SNR<0dB时,提取的语音指令被噪声完全湮没,无法分辨其语义。

5 结论

本文的密写术方案结合频域的听觉掩蔽效应,在特定信号帧的特定频段上嵌入秘密信息。实验证明,带有秘密信息的载体语音分别通过低通滤波、重采样、噪声干扰后,在某种程度上仍然可以提取出秘密信息。根据人耳听觉特性来选取信息嵌入的位置,在隐蔽性上取得了较大的成功,在稳健性上也有所提高。但是由于干扰信号经DCT变化后,DCT系数变化较大,严重干扰了秘密信息的提取,因此,如何改善这一缺陷还需要更进一步的研究。

参考文献

[1] KATZENBEISSER S, PETITCOLAS FAP.信息隐藏技术—隐写术与数字水印.人民邮电出版社,2001

[2] 王朔中,张新鹏,张开文.数字密写和密写分析—互联网时代的信息战技术.清华大学出版社,2005

[3] Johnston J D. Transform Coding of Audio Signal Using Perceptual Noise Criteria. IEEE Select Areas Communication, 1988,6(2)

[4] 俞一彪,孙兵.数字信号处理—理论与应用.东南大学出版社,2005

[5] 朱丽,沈从良.心理声学模型在数字音频中的应用.电声技术,2002(8)

[6] 江虹,韦岗.心理声学在宽带音频压缩编码中的应用.广东通信技术,2001(2)

[7] 贾骏,王朔中,张新鹏.一种基于人耳听觉特性的数字音频水印方案.西安电子科技大学学报,2004(8)

[8] 赵力.语音信号处理.机械工业出版社,2003

[9] 王炳锡,陈琦,邓峰森.数字水印技术.西安电子科技大学出版社,2003

[10]刘振华,尹萍.信息隐藏技术及其应用.科学出版社,2002

[11] Ted Pa inter, Andree Spanias. Perceptual Coding of Digital Audio. Proceedings of the IEEE, 2000, 8(4)