¿Qué es la segmentación de palabras de Baidu? ¿Qué es la tecnología de segmentación de palabras de Baidu?
Si los resultados de la segmentación son los mismos, no hay ambigüedad y los resultados de la segmentación se generan directamente.
Si no, genera el resultado de la ruta más corta.
Si el largo es el mismo. Seleccione un conjunto de resultados de segmentación con menos palabras. Si las palabras son iguales, seleccione el resultado de la segmentación directa.
Si Baidu tiene una ventaja, su única ventaja es su gran diccionario dedicado.
Este diccionario especial registra nombres de personas (como Dae Jang Geum). Título (como anciana). Algunos nombres de lugares (como Emiratos Árabes Unidos).
Identificar continuamente palabras del corpus que no están registradas en el diccionario. Ampliar poco a poco este diccionario especializado. El corrector ortográfico (Diccionario Baidu) tiene mensajes de error ortográfico (también tiene una función de mensaje pinyin). Los mensajes de error ortográfico son una función que solo se encuentra en los motores de búsqueda. Es decir, un usuario envía una consulta a un motor de búsqueda y el motor de búsqueda comprueba si la ortografía introducida por el usuario es correcta.
Para los usuarios chinos, los errores comunes son errores causados por los métodos de entrada.
Entonces analicemos cómo Baidu implementa esta función.
Analizamos el sistema de revisión ortográfica y prestamos atención a las siguientes preguntas:
(1) ¿Cómo determina el sistema que la entrada del usuario es una consulta que puede estar incorrecta?
Entonces, ¿cómo lo hizo Baidu? Criterios de Baidu para juzgar si la entrada del usuario es incorrecta
Creo que deberíamos buscarlo en un diccionario. Si encuentra que la palabra no está en el diccionario, probablemente sea un error tipográfico. En este momento, se activa la función de aviso de error, que es fácil de juzgar.
Porque si se trata de un vocabulario normal, Baidu generalmente no mostrará ningún mensaje de error. Y usted ingresó deliberadamente palabras que el llamado diccionario no puede incluir.
En este momento, Baidu normalmente le pedirá que busque el vocabulario correcto.
¿Cómo consigue Baidu el vocabulario correcto?
Obviamente, ingresé la consulta "material púrpura" en Baidu a través de pinyin.
La palabra clave proporcionada por Baidu es "algas".
Es un homófono. Por tanto, Baidu debe mantener un diccionario de homófonos. Conserva información homófona.
Por ejemplo, puede contener las siguientes entradas: "material material púrpura",
También hay un programa de marcado pinyin,
El proceso básico que puede Lo que se ve ahora es: El usuario ingresa "material morado" y lo busca en el diccionario. Se descubre que no existe tal palabra y se inicia el programa de notación fonética. Marque "material púrpura" como el pinyin de "zhicai". Luego consulte el diccionario homófono para encontrar el homófono "algas" y luego solicite al usuario que lo deletree correctamente.
Pero todavía quedan algunos pequeños problemas. Por ejemplo, ¿se utilizan todos los homófonos del vocabulario como información rápida para los usuarios?
Por ejemplo, un pinyin tiene 10 homófonos. ¿Son todos de salida?
¿Crees que Baidu los exportará todos? Baidu no genera todos los homófonos, pero selecciona ciertos criterios de filtrado. ¿Cómo puedo probar esto seleccionando algunas salidas?
Veamos la homofonía del pinyin “Liu Li”. El método de entrada Sogou Pinyin indica que hay n homófonos como "Liu Li Liuliu".
Aquí hay una palabra que no está en el diccionario, por lo que el corrector ortográfico de Baidu comienza a funcionar. Baidu le pregunta si está buscando "pícaro". Cambiamos la entrada a "caminar".
Al observar la representación de consultas de Baidu,
no se le indica si está buscando "pícaro". Mira la diferencia que escribí dos veces. ¿Qué quiere decir esto?
Tenga en cuenta que no todos los homófonos tienen indicaciones, sino que se presentan de forma selectiva. ¿Cuáles son entonces los criterios de selección?
Mirando hacia atrás, existe una diferencia absoluta entre "caminar por mí" y "caminar por mi esposa" ingresado por primera y segunda vez.
La palabra "pícaro" ingresada por primera vez es una palabra pícaro para pícaro, por lo que Baidu da una pista sobre si está buscando un pícaro.
Ve a Baidu, si haces una cosa bien o una frase bien, Baidu te dará un pícaro.
Otra pregunta rápida: ¿El diccionario homófono contiene alguna palabra? Contiene 2 palabras y 3 palabras, entonces ¿contiene 4 palabras y entradas más largas?
Las palabras aquí son fáciles de responder. Puedes saber sin probar que definitivamente no se incluirán, porque si ingresas una palabra, ¿quién sabe si es incorrecta?
De todos modos, siempre que sea un carácter chino, se puede encontrar en el vocabulario, por lo que no hay base para juzgar.
Contiene dos palabras, con ejemplos arriba.
¿Están incluidas estas tres palabras?
Consultemos "Medicina de patente china" Mensaje de error de Baidu: "Medicina de patente china"
Cambie la consulta a "Medicina Chengchong".
Entonces echemos un vistazo a cómo lidiar con estas cuatro palabras Baidu. ¿Baidu seguirá dándonos consejos?
Entrada: Jinghua Yanyun
Entrada Silent Smoke
Entrada Jinghua Yanyun
¿Baidu también tiene indicaciones para palabras más largas?
Entramos ahora: "Hay un ejército de viento en el Reino Luohua". ¿Qué significa esta consulta? Supongo que todo el que ha leído poesía antigua lo sabe. Echa un vistazo a los consejos de Baidu.
¿Qué significa esto?
Explique que el diccionario homófono contiene información homófona de diferentes longitudes.
También muestra que la principal tecnología de procesamiento chino de Baidu es que el diccionario es realmente grande.
Hay una pregunta más importante. ¿Qué debo hacer si los caracteres chinos son polifónicos? Baidu es vago. Los caracteres polifónicos no se manejan en absoluto.
Echemos un vistazo a un error en la anotación pinyin de Baidu. Antes de ver este error, primero echemos un vistazo a cómo Baidu genera errores de polifono.
¡Baidu solicita "director"! ! "Juchang" tiene varias grafías. ¿Qué dijiste? Dos tipos de "Zhang Ju/Theater"
Puedes ver que si es un personaje polifónico, se generan varias situaciones.
Ahora veamos la situación del error. Ingresemos la consulta "longitud de distancia" y veamos los resultados.
Baidu sugiere que "director" es, por supuesto, fácil de explicar porque es un homófono.
Pero ¿por qué aparece "Director"? Esto muestra que el diccionario homófono de Baidu está equivocado.
Explicación de que la entrada "juchang" contiene el homófono incorrecto para "director".
Seguimos las huellas. ¿Qué significa este error?
Explicación de que el diccionario homófono de Baidu se genera automáticamente. Y no hay revisión manual. También muestra que cuando Baidu genera automáticamente un diccionario de homófonos, no lo hace etiquetando un artículo con pinyin y luego extrayendo el vocabulario y la información pinyin correspondiente. En cambio, las sílabas se marcan exactamente según las entradas del diccionario, de modo que no se puedan reconocer los errores causados por caracteres polifónicos.
Si el texto está anotado en Pinyin, es posible que estas anotaciones incorrectas, fáciles de encontrar, no aparezcan. Por supuesto, hay otra explicación, es decir, Baidu sugirió deliberadamente "director" como una palabra recordatoria posiblemente correcta.
Porque los sureños no pueden distinguir los sonidos nasales antes y después de "zh" y "ch".
Sigamos adelante y probemos cómo es esto.
¿Baidu tiene la culpa o es el algoritmo avanzado de Baidu?
Ingresamos la consulta "recompensa" y deliberadamente la ingresamos como "hangsang" por error.
Sin mensaje de error. Significa que esta situación realmente no se considera, ni tampoco el sonido nasal.
Con base en la inferencia anterior, podemos sacar las siguientes conclusiones:
Baidu usa el programa de anotación Pinyin para marcar cada entrada en el diccionario de segmentación de palabras como Pinyin y luego forma un diccionario. de homófonos.
Entonces, los dos diccionarios tienen el mismo tamaño y este diccionario también crece con el crecimiento del diccionario de segmentación de palabras.
En cuanto a los caracteres polifónicos en el proceso de anotación, Baidu no los consideró. Si es una palabra polifónica, se marcará como múltiples combinaciones de pronunciación.
Esto forma un diccionario de homófonos. Un diccionario de homófonos de este tipo contiene evidentemente muchos errores.
Última pregunta: ¿Baidu revisa la ortografía del inglés? Probémoslo, ingrese la consulta "China",
Todos, díganme, ¿qué está pasando?
Baidu, que busca principalmente en chino, también puede buscar en inglés.
Qué sorpresa.
Cambie la consulta "chini".
Entonces, ¿la búsqueda en pinyin y la comprobación de errores en chino utilizan el mismo diccionario homófono? Experimentemos y busquemos "Rongji".
Finalmente, resumamos el sistema de revisión ortográfica de Baidu:
Es el trabajo en segundo plano de Baidu:
(1) Como dijimos antes, la segmentación de palabras de Baidu utiliza El diccionario contiene al menos dos diccionarios, uno es un diccionario general y el otro es un diccionario especial (nombres propios, etc.).
Finalmente, resumamos el sistema de revisión ortográfica de Baidu:
Baidu utiliza un programa de anotación pinyin para escanear cada entrada en todos los diccionarios en secuencia.
Luego marque el pinyin. Si es una palabra multifonética, marque todos los sonidos, como "crecer", se marcará como "Zhang Da/crecer".
(2) Cree un diccionario homófono a través de las entradas marcadas. Por ejemplo, para "crecer" arriba, habrá dos entradas: Zhangda à crecer, Changda à crecer.
(3) Utilice la información de frecuencia de los registros de consultas de los usuarios para darle un peso a cada entrada china, ¿sabe qué es esto? Función
(4) Crear un diccionario de homófonos. Por supuesto, a medida que el diccionario de segmentación de palabras se expande gradualmente, el diccionario de palabras homófonas también se expande simultáneamente.
Revisión ortográfica:
(1) Si la consulta ingresada por el usuario tiene varias subcadenas, no se realizará la revisión ortográfica;
(2) Para el usuario Para consultar, primero verifique el diccionario de palabras. Si se encuentra la entrada de la palabra, no se verifica la ortografía;
(3) Si se descubre que el diccionario no contiene la consulta del usuario, la ortografía. comprobar que el sistema está iniciado:
Primero, los programas de anotación Pinyin se utilizan para anotar la entrada del usuario.
(4) Escanee el pinyin marcado en el diccionario de homónimos.
Si no encuentra a nadie, no dé ningún mensaje.
(5) Si hay uno; se encuentran entradas y luego genera varios resultados de solicitud con pesos relativamente grandes en secuencia;
Solicitudes de Pinyin:
(1) Escanee la entrada de pinyin realizada por el usuario en el diccionario homófono. se encuentra un pinyin incorrecto, realice cualquier solicitud;
(2) Si se encuentra una entrada, se generarán en secuencia varios resultados de solicitud con pesos relativamente grandes.
Un análisis más detallado del algoritmo de segmentación de palabras de Baidu, como se mencionó anteriormente, concluye que el sistema de segmentación de palabras de Baidu utiliza una segmentación de palabras de coincidencia máxima bidireccional.
Sin embargo, más tarde se descubrió que había lagunas en el proceso de razonamiento y que los pasos del algoritmo de segmentación de palabras derivado de Baidu todavía eran demasiado engorrosos. Así que analice más a fondo para ver si la derivación anterior es incorrecta.
Entonces, ¿cuáles son las lagunas del análisis anterior?
Basándonos en la segmentación de palabras de Baidu de "Beijing Hua Yan Yun" como "Beijing Hua Yan Yun", deducimos que la segmentación de palabras de Baidu tiene una coincidencia máxima inversa. Parece que a partir de aquí se adopta la coincidencia máxima inversa. Debido a que el resultado de la coincidencia máxima frontal debería ser "Beijing/China/Yanyun", sería demasiado apresurado inferir que Baidu utiliza una coincidencia máxima bidireccional.
Hemos dicho antes que Baidu tiene dos diccionarios, un diccionario general y un diccionario propietario.
Y las palabras del diccionario propietario se segmentan primero y los fragmentos restantes se segmentan mediante diccionarios ordinarios.
Debido a que "Beijing Hua Yan Yun" arriba se divide en "Beijing Hua Yan Yun",
Otra posibilidad es que la palabra "Beijing Hua Yan Yun" esté almacenada en un archivo propietario. diccionario.
Así que el primer análisis es dejar que el "humo y las nubes de Beijing" abandonen el "Norte". No hay nada que distinguir, así se presenta.
Esto es sólo una hipótesis, entonces, ¿es cierto "Beijing Smoke and Clouds" en el diccionario propietario?
Veamos otro ejemplo, “Humo y nubes de Beijing en el noreste de Shandong”.
Si "Beijing Smoke and Clouds" está en un diccionario común, si se divide al revés, entonces el resultado debería ser, si se divide frontalmente, debería ser, de todos modos, es inseparable. ¿Qué quiere decir esto? Explique que "Kinghua Rock Cloud" está en el diccionario propietario.
Así que primero segmente "Humo y nubes de Beijing" y luego utilice un diccionario normal para segmentar el "Noreste de Shandong" restante, lo que obviamente es un resultado de coincidencia máximo positivo.
Por supuesto, según el algoritmo que mencionamos anteriormente, se sacarán conclusiones de la segmentación de "Montaña Noreste".
Pero obviamente tiene varios pasos de juicio más que la coincidencia máxima directa.
Dado que el efecto era el mismo, también tenía sentido otro método más simple, por lo que, por supuesto, se eligió el método más simple. Por lo tanto, inicialmente se considera que Baidu adopta una coincidencia máxima positiva.
Continuamos probando qué algoritmo de segmentación de palabras usar.
Para reducir el impacto de la segmentación de la primera palabra en el diccionario propietario, las palabras relativamente especiales no pueden aparecer en la consulta.
Revisemos el “nivel de genio”.
No debe haber palabras en el diccionario propietario que aparezcan aquí. Baidu se divide en genio/energía/nivel.
Parece ser el resultado de una coincidencia máxima positiva.
Además, si todos los términos de consulta aparecen en el diccionario propietario, ¿qué método se utiliza?
De esta forma, primero debemos asegurarnos de que todas las palabras aparecen en el diccionario propietario. ¿Cómo aseguramos esto? Construimos la consulta "Shandong Capital" y Baidu la divide en "Shandong/Capital". Se puede ver que "Tokio" está en el diccionario universal. Construya la consulta "Chen Xiaodong Tokyo Hua Yanyun",
A través del análisis anterior, podemos ver que estas dos palabras están en el diccionario propietario y Baidu se divide en Chen Xiaodong/Jinghua Yanyun.
Explique que las palabras exclusivas del diccionario también utilizan una coincidencia máxima positiva o una coincidencia máxima bidireccional.
Entonces, ¿usaste la coincidencia máxima inversa? Construya un ejemplo de consulta "Chen Xiao Dongfang Bubai".
En primer lugar, determinamos que "Chen Xiaodong" y "Dongfang Invincible" aparecen en el diccionario propietario.
Si es para atacar a Chen Xiaodong/Fang/Invincible adelante.
Si se trata de una división inversa, debería ser Chen Xiao/Dongfang Invincible.
Se puede ver que la segmentación de Baidu es sí o no, es decir, se utiliza la coincidencia máxima positiva.
A través del análisis, la palabra "invencible" no existe en el diccionario de Baidu. Entonces, de hecho, la segmentación de Baidu es obviamente inconsistente con nuestro algoritmo anterior, por lo que el algoritmo de análisis anterior tiene problemas, por lo que la conclusión es que Baidu usa el algoritmo de coincidencia máxima directa.
Resumamos el sistema de segmentación de palabras de Baidu: primero use un diccionario propietario para segmentar parte de los resultados a través de la segmentación de palabras con coincidencia máxima positiva, y luego entregue el resto al diccionario ordinario, y también use una palabra con coincidencia máxima positiva. segmentación. Finalmente genera el resultado.
Además, GOOGLE también utiliza el algoritmo de segmentación de palabras de máxima coincidencia hacia adelante.
Pero parece que no hay un diccionario especial, por lo que muchos nombres propios han sido cortados en pedazos.