我想回家。

语音学概要

什么是听觉信号处理

  • 语音识别:1-13.2
  • 语音合成1-15.2
  • 语音编码1-17.2
  • 说话人识别1-19.3

语音的声学特性

1-40.5

  • 人耳对于声波频率高低的感觉与实际频率近似成对数关系
  • 声波是纵波
  • 用声压或声强来表示声音的强度1-41.5;习惯上采用相对强度

语音时频域分析办法

时域分析

短时分析:

xw(n)=x(m)w(m)x_w(n)=x(m)w(m)

  • 10-30ms内近似为平稳信号,2-5.1
  • {方窗,哈明窗,哈宁窗}
  • 短时能量En=Z[x(m)w(m)]2E_n=\sum_Z[x(m)w(m)]^2;经常是特征的一维。2-9.1
  • 短时平均幅度2-10.2
  • 短时过零率2-10.2{平均过零率,门限过零率}
  • 短时自相关函数2-14.2

频域分析

  • 滤波器组2-19.3
  • 语谱图2-20.3

卷积同态信号处理方法2-24.3

乘积性组合信号或卷积性组合信号转化为加性信号。将非线性问题转化为线性问题来处理。

  • 特征系统
  • 反特征系统
  • 复倒谱
  • 倒谱

线性预测分析2-32.4

  • 自相关法
  • 协方差法

语音编码技术

语音数据编码的原因3-3.1

  • 每秒样本数fs
  • 每个样本通道数c
  • 每个样本点的位数

为什么可以压缩?

  • 存在冗余度3-5.1
  • 人的听觉感知机理3-6.1

编码类型

  • 波形编码3-7.1
  • 参数编码3-8.1
  • 混合编码~

语音质量等级3-9.1

  • 广播质量
  • 长途电话质量
  • 通信质量
  • 合成质量

PCM

DPCM 3-13.2

  • 对相邻采样的差值编码
  • 量化噪声被累积叠加,因此编码器中包含解码器

ADPCM 3-17.2

  • 对采样值与预测值间的差值进行编码
  • 需要每帧(段)传送一次。被称之边信息

LPC 3-21.3

  • 完全基于语音信号的产生模型
  • 解码后语音波形一般都会发生改变

CELP 3-25.3

  • 是近10年来最成功的语音编码算法

语音编码的评测方法 3-34.4

  • 编码速率{可变,不变}
  • 顽健性 3-36.4
  • 时延 3-37.5
    • 算法时延
    • 计算时延
    • 复用时延
    • 传输时延
  • 计算复杂度和可扩展性 3-39.5
  • 语音质量及其评价方法 3-40.5

语音识别技术

  • 分类4-4.1

动态时间归正方法DTW

  • 特定人小词表孤立词系统
  • 使用欧氏距离作为相似度
  • 矢量序列对准(4-8.1)后的距离求和作为矢量序列距离
  • 用于非特定人识别的聚类方法(4-17.2)

HMM/Rest