¿Cuál es el principio del reconocimiento de voz HTML5? Se puede implementar fácilmente, pero ¿cuál es el principio específico?
La mayoría de los sistemas convencionales de reconocimiento de voz de gran vocabulario utilizan tecnología de reconocimiento de patrones estadísticos. Un sistema típico de reconocimiento de voz basado en métodos estadísticos de reconocimiento de patrones consta de los siguientes módulos básicos:
Módulos de procesamiento de señales y extracción de características. La tarea principal de este módulo es extraer características de la señal de entrada para el procesamiento del modelo acústico. Al mismo tiempo, generalmente incluye alguna tecnología de procesamiento de señales para minimizar el impacto del ruido ambiental, canales, parlantes y otros factores en las características.
Modelo acústico estadístico. Los sistemas típicos se modelan principalmente basándose en modelos ocultos de Markov de primer orden.
Diccionario de pronunciación. El diccionario de pronunciación contiene el conjunto de palabras y sus pronunciaciones que el sistema puede manejar. El diccionario de pronunciación en realidad proporciona un mapeo entre la unidad de modelado del modelo acústico y la unidad de modelado del modelo de lenguaje.
Modelo de lenguaje. Un modelo de lenguaje modela el lenguaje para el que está diseñado el sistema. En teoría, se pueden utilizar como modelos de lenguaje varios modelos de lenguaje, incluidos lenguajes regulares y gramáticas libres de contexto, pero actualmente los N-gramas basados en estadísticas y sus variantes se usan ampliamente en varios sistemas.
Descodificador. El decodificador es uno de los núcleos del sistema de reconocimiento de voz. Su tarea es encontrar la cadena de palabras que pueda generar la señal con la mayor probabilidad basándose en la acústica, el modelo de lenguaje y el diccionario.
Todos los anteriores son componentes del reconocimiento de voz. El reconocimiento de voz sin conexión debe basarse en los principios anteriores y tener un diccionario de voz integrado en el teléfono móvil para lograr el reconocimiento inalámbrico.
Por ejemplo:
1. Las funciones proporcionadas por los navegadores, como Chrome, no se pueden utilizar si no se proporcionan.
2. Los detalles de implementación son principalmente el motor de reconocimiento de voz sin conexión de Chrome.
3. Llame a la API del sistema. El navegador es una aplicación y puede acceder a todas las API subyacentes siempre que el sistema las proporcione.
El código relevante es el siguiente:
& lt! DOCTYPE HTML & gt& lthtml & gt& lthead & gt& lttitle & gtReconocimiento de voz simple a través de html5
& ltinput type = " text " name = " value _ 2 " x-WebKit-speech/& gt; >
& lt/cuerpo & gt; & lt/html & gt;