Colección de citas famosas - Consulta de diccionarios - ¿Cuántas personas se necesitan para desarrollar una aplicación de reconocimiento de voz para 100 millones de personas?

¿Cuántas personas se necesitan para desarrollar una aplicación de reconocimiento de voz para 100 millones de personas?

Ventajas: En primer lugar, los alumnos tienen menos presión psicológica. Es posible que muchas personas lo hayan experimentado cuando eran jóvenes. Cuando se encuentran con un extranjero en la calle, sus padres te molestan: "Ve y habla con ese extranjero. De hecho, para muchas personas, la barrera psicológica para hablar un idioma extranjero es realmente muy grande, pero usan máquinas para aprender el idioma hablado". No existe en absoluto tal presión. En segundo lugar, el tiempo fragmentado se puede utilizar para aprender de manera más eficiente, mientras que el costo de tiempo y el umbral para hablar con personas reales son relativamente altos.

Específicamente, ¿cómo ayuda la tecnología actual de reconocimiento de voz a los estudiantes a mejorar sus habilidades para hablar?

Long Qing: Hay dos formas principales. La primera forma es ayudar a los usuarios a mejorar su pronunciación: el software proporciona una oración, el usuario lee la oración y la máquina utilizará tecnología de reconocimiento de voz para determinar si su pronunciación es correcta y otorgar una puntuación.

En segundo lugar, el software de aprendizaje de idiomas actual, incluido Duolingo, no es lo suficientemente bueno: idealmente, los estudiantes y los dispositivos electrónicos deberían poder conversar libremente en escenarios creados. La tecnología de reconocimiento de voz no solo puede identificar si la pronunciación es estándar, sino que también realiza una comprensión semántica para determinar si el vocabulario y la sintaxis del alumno son correctos. Esto es similar a la tecnología de Siri, pero aún se está investigando cómo implementarla en Duolingo.

Actualmente, lo único que las páginas web de Duolingo pueden hacer es guiar a los usuarios para que primero traduzcan oraciones usando texto y luego lean el idioma extranjero traducido. La máquina calificará el nivel de traducción de texto y pronunciación hablada por separado.

Duolingo ofrece actualmente cursos en más de 40 idiomas, incluido el klingon. ¿Cuántos de estos admite la tecnología de reconocimiento de voz?

Longqing: Actualmente soporta 10 idiomas (inglés, español, francés, alemán, italiano, portugués, holandés, danés, sueco y turco), ucraniano y noruego. También en desarrollo. Duolingo invierte más en reconocimiento de voz en inglés, y los resultados y puntuaciones del reconocimiento también son los más precisos, porque el inglés es el idioma con el mayor número de estudiantes en Duolingo y representa entre el 30% y el 40% de todo el tráfico.

¿Cuántas personas hay actualmente en el equipo? ¿El reconocimiento de voz en todos los idiomas requiere que los desarrolladores comprendan el idioma?

Long Qing: Actualmente estoy a cargo del equipo de reconocimiento de voz de Duolingo. Sólo entiendo chino e inglés, así que estaba un poco nervioso cuando comencé. Finalmente, la evaluación objetiva es una medida del efecto del reconocimiento de voz, por lo que los desarrolladores realmente no necesitan dominar el idioma en sí, pero una comprensión profunda de cada idioma es muy útil para el desarrollo y serán mejores en el manejo de los detalles.

¿Puedes explicar a los lectores no técnicos cuál es la dificultad del reconocimiento de voz en varios idiomas? ¿Cuánto cuesta desarrollar un nuevo idioma en Duolingo?

Long Qing: Las dificultades provienen principalmente de tres aspectos. En primer lugar, los datos son muy complejos: la calidad de la voz de las páginas web, tabletas y teléfonos móviles es diferente; hombres, mujeres, ancianos y jóvenes, e incluso personas con diferentes niveles educativos tienen diferentes hábitos lingüísticos al leer en voz alta; diferente de los datos de voz de conversaciones naturales; grabación en interiores y grabaciones en exteriores Los datos también son diferentes... Tomar todas estas situaciones en consideración y producir resultados de reconocimiento precisos requiere una cantidad considerable de desarrollo.

En segundo lugar, diferentes idiomas tienen diferentes elementos. Por ejemplo, el chino se caracteriza por tonos planos y el alemán se caracteriza por combinar diferentes palabras para formar una nueva palabra, por lo que el vocabulario es extremadamente amplio y el desarrollo debe ajustarse de acuerdo con las características de cada idioma.

En tercer lugar, el coste de mantenimiento de una base de datos multilingüe en sí es muy alto.

En la actualidad, la tecnología que reconoce más idiomas en el mundo debería venir de Google, abarcando más de 40 idiomas, y tanto Siri como Microsoft pueden reconocer más de 20 idiomas.

En lo que respecta a Duolingo, se necesitaron de 2 a 3 meses para desarrollar el reconocimiento del inglés, y otros idiomas pequeños (español, alemán, francés, italiano) se pueden completar en 2 a 3 semanas. cuando los datos están en su lugar.

Duolingo es una empresa emprendedora y usted es la única persona responsable de la tecnología de reconocimiento de voz en toda la empresa. No tienes tantos recursos como un gigante tecnológico y tienes que desarrollar varios lenguajes.

¿Cómo afrontar esta presión?

Long Qing: Nuestro truco consiste principalmente en utilizar todos los recursos gratuitos disponibles. Por ejemplo, usaremos la API abierta de Google en la versión Chrome de Duolingo para ahorrar algunos recursos de desarrollo. También usaremos el reconocimiento de voz de Google Voice Search, pero porque nos damos cuenta de que debe servir para el aprendizaje de idiomas, no para el aprendizaje de idiomas; el propósito de la búsqueda, por lo que haremos algunos ajustes en el backend cuando lo usemos, además, también tomaremos las pronunciaciones de algunos diccionarios de código abierto y haremos algunos cortes y modificaciones de acuerdo con las necesidades de Duolingo;