¿Cuáles son las herramientas de Naive Bayes en el procesamiento del lenguaje natural?
Bayes ingenuo gaussiano: las variables características son variables continuas que se ajustan a la distribución gaussiana, como la altura de una persona y la longitud de un objeto.
Bayes ingenuo polinómico: las variables características son variables discretas y obedecen a una distribución polinómica. En la clasificación de documentos, las variables de características están representadas por la cantidad de veces que aparece una palabra o el valor TF-IDF de una palabra.
TF-IDF Frecuencia de términos de TF y frecuencia inversa de documentos Frecuencia de términos y frecuencia inversa de documentos
TF calcula el número de veces que aparece una palabra en un documento. Considera que la importancia de una palabra es proporcional al número de veces que aparece en el documento.
IDF se refiere al grado de distinción de una palabra en el documento. Cree que cuantas menos veces aparezca una palabra en un documento, más se distinguirá de otros documentos. Cuanto mayor sea el ejército israelí, mayor será la distinción de la palabra.
TF = número de palabras que aparecen en el documento/número total de palabras.
IDF = log(número total de documentos/(número de documentos en los que aparece la palabra + 1))