de sklearn.feature_extraction.text importar TfidfVectorizer
En la clasificación de texto, primero segmente las palabras, luego realice el cálculo tfidf en el texto después de la segmentación y cuantíquelo (esta parte es el núcleo) y, finalmente, utilice algoritmos tradicionales de aprendizaje automático para la clasificación.
Así que quiero centrarme en aprender aquí.
Si es 'nombre de archivo', la secuencia de argumentos pasados para ajustar debe ser una lista de nombres de archivos que deben leerse para obtener el contenido sin procesar que se analizará.
Si es "archivo", el elemento de secuencia debe tener un método de "lectura" (un objeto similar a un archivo) que se llama para obtener los bytes en la memoria.
De lo contrario, se espera que la entrada sea una cadena de secuencia o elementos de bytes que se espera que se analicen directamente.
Si desea analizar bytes o archivos, utilice esta codificación para decodificar.
Instrucciones sobre qué hacer si se le da una secuencia de bytes para analizar que contiene caracteres que no pertenecen a la codificación dada. De forma predeterminada, es "estricto", lo que significa que se generará un UnicodeDecodeError. Otros valores son "ignorar" y "reemplazar".
Elimine símbolos fonéticos y realice otras normalizaciones de caracteres en un paso de preprocesamiento. "ascii" es un método rápido que sólo funciona con caracteres con mapeo ascii directo. Unicode es un método un poco más lento y funciona con cualquier carácter. Ninguno (predeterminado) no hace nada.
Tanto ascii como unicode utilizan la normalización NFKD de unicodedata.normalize.
Convierte todos los caracteres a minúsculas antes de tokenizar.
Reescriba la etapa de preprocesamiento (conversión de cadenas) manteniendo los pasos de tokenización y generación de n-gramas.
Reescribe los pasos de segmentación de cadenas conservando los pasos de preprocesamiento y generación de n-gramas. Solo disponible si analizador == 'palabra'.
Si la característica consta de palabras o caracteres de n gramos.
Si se pasa una función invocable, se utilizará para extraer una serie de características de la entrada sin procesar y sin procesar.
Si es una cadena, pásala a _check_stop_list y devuelve la lista de parada correspondiente. ' english ' es actualmente el único valor de cadena admitido. "inglés" tiene varios problemas conocidos y usted debería considerar una alternativa (consulte Uso de palabras vacías). La implicación es filtrar todas las palabras en inglés.
Si es un tipo de lista, suponiendo que la lista contenga palabras vacías, todas las palabras vacías se eliminarán de los resultados de la segmentación de palabras (tokens resultantes). Se aplica solo si analizador == 'palabra'.
Si es Ninguno, no se utilizan palabras vacías. max_df se puede establecer en un valor en el rango de [0,7, 1,0) para detectar y filtrar automáticamente palabras vacías en función de la frecuencia de las palabras en los documentos del corpus.
Una expresión regular que forma un "token" y solo se puede usar cuando analizador == 'palabra'. La expresión regular predeterminada selecciona tokens que constan de 2 o más caracteres alfanuméricos (la puntuación se ignora por completo y siempre se trata como un delimitador de token).
Tipo de diccionario, mapeo entre términos (terms) e índices de características (feature indices).
Vector de frecuencia de documento inverso (IDF); solo se define cuando use_idf es True.
Palabras que se ignoran por los siguientes motivos:
Aparecen en demasiados documentos (max_df)
Aparecen en muy pocos documentos (min_df)
se trunca mediante la selección de funciones (max_features).
Sólo se puede utilizar si no se proporciona ningún glosario.
----------------------------------Yo soy la línea divisoria---- ----------------------------------
De repente me da pereza actualizar, así que Te daré uno hoy. Acabo de descubrir la URL
/feng_zhiyu/article/details/81952697
/binglingzy666/article/details/79241486
.