Colección de citas famosas - Frases motivadoras - El vector del método de bolsa de palabras de datos de texto representa el significado del código que ejecuta los resultados.

El vector del método de bolsa de palabras de datos de texto representa el significado del código que ejecuta los resultados.

Modelo de bolsa de palabras Si hay 65,438+0,000 documentos de noticias, entonces este modelo se llama modelo de bolsa de palabras. En este modelo, estos documentos se descomponen en palabras y, después de la deduplicación, se obtienen 3000 palabras, y luego estas 3000 palabras sirven como. Léxico para la representación textual.

1. La característica es que las palabras del diccionario no están en un orden específico, y también se descarta la estructura general de la oración.

2. La bolsa de palabras es un método de segmentación de palabras que no conserva el orden (las etiquetas generadas forman un conjunto, no una secuencia, renunciando a la estructura general de la oración), por lo que se utiliza a menudo en modelos de procesamiento del lenguaje superficial en lugar de un modelo de aprendizaje profundo. Los N-grams son una herramienta de ingeniería de características poderosa e indispensable cuando se trabaja con modelos livianos de procesamiento de texto superficial, como la regresión logística y los bosques aleatorios.