Optimización de la segmentación de palabras chinas en búsqueda elástica
A continuación, hablemos sobre cómo segmentar palabras en chino ES a partir de los siguientes puntos.
Al indexar, para proporcionar cobertura de índice, generalmente se usa el analizador ik_max_word, y el índice se segmentará con la granularidad más fina. Al realizar búsquedas, se utilizará el analizador ik_smart para mejorar la precisión de la búsqueda y segmentar palabras con la granularidad más gruesa.
La configuración de asignación de campos es la siguiente:
El módulo de análisis de índice de análisis sirve como un registro configurable para el analizador y utiliza el analizador para procesar campos y cadenas de búsqueda durante la indexación del documento. escenario. Al personalizar un analizador, esto generalmente se hace con un filtro de token de tokenizador de filtro de caracteres.
Primero, la cadena pasa por un filtro de caracteres. Su trabajo es procesar la cadena antes de la segmentación de palabras. El filtro de caracteres puede eliminar etiquetas HTML, como "
La segmentación de palabras en inglés se puede segmentar según espacios, mientras que la segmentación de palabras en chino es más complicada y se puede segmentar mediante algoritmos de aprendizaje automático.
Finalmente, cada palabra pasa todos los filtros de token. Puede modificar palabras (por ejemplo, poner "Rápido" en minúscula), eliminar palabras (por ejemplo, palabras vacías "a", "y", "el", etc.) o agregar palabras. (p. ej., sinónimos "a", "y", etc.) o palabras agregadas (p. ej., sinónimos
Filtro de caracteres - gt; gt Tokenizer ->; gt Token Filter
Oficial Ejemplo de sitio web:
Por lo general, para garantizar la cobertura del índice y la precisión de la búsqueda, se utiliza ik_max_word como segmentador de palabras de índice y el modo ik_smart como analizador de búsqueda.
Porque los datos en. El segmentador de palabras procesa el índice invertido durante la indexación. Si el segmentador de palabras cambia, incluso si la palabra clave de la consulta es la misma que la palabra clave en el documento durante la búsqueda, las palabras separadas serán diferentes debido a la coincidencia de palabras. cuando el diccionario de sinónimos del diccionario de mapeo o segmentación de palabras cambia, los datos del índice deben volver a indexarse
2.1 Diccionario de sinónimos recomendado
Personalice los sinónimos a través del sistema de segmentación de palabras ik< /. p>
Quiere ver el efecto de los sinónimos o probar el efecto de la segmentación de palabras
Las palabras sugeridas deben coincidir con el prefijo pinyin, la ortografía y el prefijo chino, como al ingresar "baidu", " bd", "Bai" La palabra "Baidu" debe coincidir, por lo que una palabra debe dividirse en varios tokenizadores para indexar y guardar. El chino usa un único tokenizador y las primeras letras de pinyin y la ortografía requieren un analizador personalizado para indexar.
Algunos contenidos necesitan mejoras