Vector de palabra guantes
El nombre completo de Glove es vectores globales para representación de palabras, lo que significa vector de palabras global en chino. Glove es una herramienta de representación de palabras con estadísticas globales de frecuencia de palabras (estadísticas generales y basadas en recuentos).
Al igual que word2vec, puede representar una palabra como un vector compuesto de números reales. El vector puede capturar algunas características semánticas entre palabras, como similitud y analogía. Y mediante operaciones vectoriales, como la distancia euclidiana o la similitud del coseno, se puede calcular la similitud semántica entre dos palabras.
3. Construya una función de pérdida:
Esta función de pérdida es la pérdida cuadrática media más simple, pero se agrega una función de peso sobre esta base. Su función es: para palabras que a menudo aparecen juntas en un corpus (apariciones frecuentes),
En este artículo, el autor utiliza una función por partes que cumple con las condiciones anteriores:
Todos En este artículo, en el experimento, los valores son todos.
Aunque mucha gente afirma que Glove es un método de aprendizaje no supervisado, es decir, que no requiere etiquetado manual de datos, de hecho todavía tiene etiquetas y la suma vectorial es para actualizar continuamente los parámetros de aprendizaje. Básicamente, su método de entrenamiento no es diferente del aprendizaje supervisado, ambos se basan en el descenso de gradientes.
El método de entrenamiento específico es: utilizar el algoritmo de descenso de gradiente de AdaGrad, muestrear aleatoriamente todos los elementos distintos de cero en la matriz, establecer la tasa de aprendizaje en 0,05, iterar 50 veces cuando el tamaño del vector sea inferior a 300 y iterar 100 veces para otros tamaños, hasta la convergencia.
Debido a que es simétrica, la suma vectorial de las dos últimas palabras aprendidas también debe ser simétricamente equivalente, pero debido a que los valores iniciales son diferentes, los valores finales son diferentes. Para mejorar la robustez, finalmente se selecciona la suma de los dos como vector de palabra final (una inicialización diferente de los dos equivale a agregar ruido aleatorio diferente, por lo que se puede mejorar la robustez).
La Figura 1 * * * utiliza tres indicadores: precisión semántica, precisión gramatical y precisión general. Entonces podemos encontrar fácilmente que la dimensión del vector puede alcanzar el mejor valor cuando es 300 y el tamaño de la ventana de contexto está aproximadamente entre 6 y 10.
Si el corpus en sí es relativamente pequeño y el ajuste fino no tiene ningún efecto, o si no tiene una gran potencia informática para entrenarlo usted mismo directamente, el uso directo de vectores de palabras pre-entrenados con big data lo hará tener mejores resultados.