¿Cómo empezar con la extracción de funciones de reconocimiento de voz?
2. Utilice una ventana triangular superpuesta para trazar la potencia espectral admitida dentro del rango Mel. Lo que hace este paso es multiplicar e integrar el espectro con cada triángulo en la imagen de abajo para encontrar la energía del espectro debajo de cada triángulo. Este paso tiene los siguientes efectos:
1) La secuencia obtenida por la transformada de Fourier es muy larga (generalmente de cientos a miles de puntos), que se convierte en cada triángulo (generalmente 40 triángulos). La energía más baja puede reducir la cantidad de datos;
2) El espectro tiene envolvente y estructura fina, que corresponden al timbre y al tono respectivamente. Para el reconocimiento de voz, el timbre es la principal información útil y el tono generalmente es inútil. Al integrarse dentro de cada triángulo, se puede eliminar la estructura fina, dejando solo información tímbrica. Por supuesto, para los lenguajes tonales, el tono también es útil, por lo que además de las funciones MFCC, también se utilizarán otras características para describir el tono.
3) El triángulo tiene bajas frecuencias densas y altas frecuencias escasas, que pueden imitar la alta resolución del oído humano en bajas frecuencias.
3. Calcula el logaritmo de la potencia de cada frecuencia Mel. Este paso consiste en tomar el logaritmo del resultado del paso anterior. En pocas palabras, se trata de un escalamiento del eje vertical, que puede amplificar más profundamente la diferencia de energía a baja energía, imitando los pasos de cálculo del cepstrum; Cepstrum es otro tema y no se discutirá aquí.
4. Realizar una transformada coseno discreta sobre la lista Mel de potencias logarítmicas como si de una señal se tratase. La transformada de Fourier todavía se utiliza en este paso para encontrar el cepstrum. La transformada discreta del coseno (DCT) utilizada para calcular MFCC es una variante de la transformada de Fourier, que tiene la ventaja de que el resultado es un número real sin parte imaginaria. Otra característica de DCT es que para señales de voz generales, los primeros coeficientes del resultado de este paso son particularmente grandes, y los coeficientes posteriores son relativamente pequeños y pueden ignorarse. Se dice que generalmente se toman 40 triángulos, por lo que el resultado de DCT también es 40 puntos, en la práctica, generalmente solo se retienen los primeros 12 ~ 20, lo que comprime aún más los datos; El resultado de todo el proceso anterior es que un cuadro de señal de voz se representa simplemente como un vector de 12 a 20 dimensiones; la señal de voz completa se representa como una serie de tales vectores; Lo siguiente que hay que hacer en el reconocimiento de voz es modelar estos vectores y sus secuencias.