Análisis del sentimiento chino en la minería de textos
El análisis de sentimientos es el proceso de analizar, procesar, resumir y razonar sobre textos subjetivos con color emocional.
El objetivo del análisis de sentimiento es conocer la actitud del hablante/escritor hacia algún tema o hacia un texto bipolar. Esta actitud puede ser su juicio o evaluación personal, puede ser su estado emocional en ese momento (es decir, el estado emocional del autor cuando hizo esta declaración), o puede ser la comunicación emocional intencional del autor (es decir, , el autor espera que los lectores experimenten emociones)
El análisis de sentimiento de texto se utiliza ampliamente, como el análisis de riesgo de la opinión pública de la red, la predicción de información, etc. Por ejemplo, predecir tendencias bursátiles, taquilla de películas, resultados electorales, etc. A través del sentimiento de los usuarios de Twitter, todos comparan el sentimiento público con los eventos sociales, encuentran coherencia y lo utilizan para hacer predicciones.
Primero, instale la biblioteca de análisis de sentimiento chino SnowNLP:
Snow NLP (procesamiento de texto en chino simplificado) es una biblioteca de clases escrita en lenguaje Python que puede procesar fácilmente contenido de texto en chino. Inspirado en TextBlob.
En [1]:
Carga de datos
En [2]:
Salida[2]:
Preprocesamiento de datos
En [3]:
En [4]:
Salida[4]:
En [7 ]:
Fuera[7]:
Calificar todos los datos
En [9]:
Fuera[9]: p>
Combina las puntuaciones en la tabla original.
In[11]:
Out[11]:
Calcular el índice
In[12]:
Salida[12]:
Entrada[13]:
Salida[13]:
Entrada[14]:
Out[14]:
Conclusión básica: La mediana es mucho más alta que el promedio, lo que indica que un pequeño número de puntuaciones anormalmente bajas han reducido el promedio.
Entrada[16]:
Salida[16]:
Según la distribución de puntuaciones, un histograma es lo más apropiado.
Entrada[17]:
Salida[17]:
Para una pequeña cantidad de datos, un histograma también funcionará.
Entrada[18]:
Salida[18]:
Entrada[19]:
Salida[19]: p> p>
En [20]:
Ordenar por puntuación para ver la precisión de la puntuación.
En [22]:
Salida[22]:
Buena reseña
En [23]:
Salida[23]:
Entrada [24]:
Salida[24]:
Comentarios negativos
Entrada En [ 25]:
Salida[25]:
Entrada [26]:
Salida[26]:
Entrada Entrada [27 ]:
Salida[27]:
Entrada [28]:
Salida[28]:
Entrada Entrada [29] :
Fuera[29]:
En [30]:
Fuera[30]:
Conclusión
La precisión es mayor que la de las adivinanzas aleatorias, pero no tan precisa como la puntuación manual.
Los datos de referencia de entrenamiento de la biblioteca SnowNLP se basan en productos vendidos por comercio electrónico, y la precisión de la puntuación de los datos de los mensajes del hotel es promedio.
Es mejor que los usuarios hagan su propio análisis de sentimiento (el sitio web agrega una función de puntuación y los usuarios se califican a sí mismos)