Segmentador de palabras personalizado ES
Los segmentadores de palabras ES a menudo incluyen 3 paquetes de bloques de construcción de bajo nivel:
Analizador estándar
El analizador estándar convierte texto de acuerdo con la definición del algoritmo de segmentación de texto Unicode Segmentación de palabras en límites de palabras. Elimina la mayor parte de la puntuación, muestra separadores de palabras en minúsculas y admite la eliminación de palabras vacías.
Analizador simple
El Analizador simple divide el texto en entradas cuando encuentra caracteres que no son letras. Las minúsculas muestran participios.
Analizador de espacios en blanco
El analizador de espacios en blanco divide el texto en varios elementos cuando encuentra algún carácter de espacio en blanco. Los segmentos de palabras no se convertirán a letras minúsculas.
Stop Analyzer
Stop Analyzer es similar a Simple Analyzer, pero también admite la eliminación de palabras vacías.
Analizador de palabras clave
Un analizador "noop" que toma cualquier texto determinado y genera exactamente el mismo texto como palabra.
Analizador de patrones
Utiliza expresiones regulares para dividir segmentos de palabras, admitiendo minúsculas y palabras vacías.
Analizadores de idiomas
Elasticsearch proporciona muchos analizadores de idiomas específicos, como inglés o francés.
Analizador de huellas dactilares
Un analizador especializado que crea una huella digital que se puede utilizar para la detección repetida.
/p/13112fe5eaad
Utilice comas inglesas como delimitadores para segmentar texto chino:
Configure el analizador en el índice
Obtenga palabra resultados de segmentación
/yu280265067/article/details/71107658