Colección de citas famosas - Colección de consignas - Varias estructuras de redes neuronales recurrentes comunes RNN, LSTM, GRU

Varias estructuras de redes neuronales recurrentes comunes RNN, LSTM, GRU

En los métodos tradicionales de tareas de procesamiento de texto, los vectores TF-IDF se utilizan generalmente como entrada de características. Obviamente, dicha representación en realidad pierde el orden de cada palabra en la secuencia del texto de entrada. En el proceso de modelado de redes neuronales, las redes neuronales de avance generales, como las redes neuronales convolucionales, generalmente aceptan un vector de longitud fija como entrada. Al modelar datos de texto, las redes neuronales convolucionales ingresan cadenas de longitud variable o cadenas de palabras y luego convierten la entrada original en representaciones vectoriales de longitud fija a través de ventanas deslizantes y agrupaciones, que pueden capturar algunas características locales en el texto original. Todavía es difícil aprender la dependencia a larga distancia entre dos palabras.

Las redes neuronales recurrentes funcionan bien con secuencias largas y ordenadas de entradas de datos de texto. Simula el orden de lectura de un artículo, lee cada palabra del artículo de adelante hacia atrás y codifica la información útil leída previamente en variables de estado, para que tenga cierta capacidad de memoria y pueda comprender mejor el siguiente texto.

La estructura de la red se muestra en la siguiente figura:

Como se puede ver en la figura, T es el tiempo, X es la capa de entrada, S es la capa oculta, O es la capa de salida, la matriz W es el último valor de la capa oculta como el peso de esta entrada.

Si la Fórmula 2 se incorpora repetidamente a la Fórmula 1, obtendrá:

donde f y g son funciones de activación, u es la matriz de peso desde la capa de entrada hasta la capa oculta, w es la matriz de pesos de la transición de estado de la capa oculta desde el momento anterior al siguiente. En la tarea de clasificación de texto, F puede elegir la función Tanh o la función ReLU, y G puede usar la función Softmax.

Al minimizar el error de pérdida (es decir, la distancia entre la salida Y y la categoría real), la red se entrena continuamente para que la red neuronal recurrente resultante pueda predecir con precisión la categoría del texto y lograr el propósito de la clasificación. En comparación con las redes neuronales de avance, como las redes neuronales convolucionales, las redes neuronales recurrentes a menudo pueden obtener resultados más precisos debido a su capacidad para describir información de secuencia.

El algoritmo de entrenamiento de RNN es BPTT.

El principio básico de BPTT es el mismo que el del algoritmo BP, que también es un proceso de tres pasos:

1 Calcular el valor de salida de cada neurona hacia adelante; >

2. Calcule a la inversa el valor del término de error de cada neurona, que es la derivada parcial de la función de error E a la entrada ponderada de la neurona J;

3 Calcule el gradiente de cada peso.

Finalmente, los pesos se actualizan mediante el algoritmo de descenso de gradiente estocástico.

Referencia específica: /p/39a99c88a565

Finalmente, el gradiente de cada peso representado por la matriz jacobiana se obtiene mediante la regla de la cadena:

Due al error de predicción Retropropagación a lo largo de cada capa de la red neuronal, cuando el valor propio máximo de la matriz jacobiana es mayor que 1, el gradiente de cada capa aumentará exponencialmente con la distancia desde la salida, lo que provocará que el gradiente explote; por otro lado, si el valor propio máximo de la matriz jacobiana Para valores propios menores que 1, el gradiente se reducirá exponencialmente y desaparecerá. Para las redes de avance comunes, la desaparición de los gradientes significa que el efecto de predicción de la red neuronal no se puede mejorar profundizando las capas de la red porque, en cualquier caso, solo unas pocas capas cercanas a la salida pueden realmente desempeñar un papel de aprendizaje. Esto dificulta que los modelos de redes neuronales recurrentes aprendan las dependencias de larga distancia en las secuencias de entrada.

Para obtener una derivación detallada del descenso de gradiente RNN, consulte: /p/44163528.

El problema de la explosión del gradiente se puede aliviar mediante el recorte del gradiente, es decir, cuando el paradigma del gradiente es mayor que un valor dado, el gradiente se reduce proporcionalmente. El problema de los gradientes que desaparecen es más difícil y también es necesario mejorar el modelo en sí. La red residual profunda es una mejora de la red neuronal feedforward. Alivia el fenómeno de la desaparición de gradientes a través del aprendizaje residual, lo que nos permite aprender representaciones de red más profundas. Para las redes neuronales recurrentes, los modelos de memoria a largo plazo y sus variantes, como las unidades recurrentes cerradas, pueden compensar en gran medida la pérdida causada por la desaparición de gradientes agregando un mecanismo de puerta.

El diagrama de organización de la red de LSTM es el siguiente:

En comparación con las redes neuronales recurrentes tradicionales, ¿LSTM todavía se basa en xt y ht? 1 para calcular ht, pero la estructura interna se diseña con más detalle, agregando tres puertas, a saber, la puerta de entrada it, la puerta de olvido ft, la puerta de salida ot y una unidad de almacenamiento interna ct. La puerta de entrada controla en qué medida se actualiza el nuevo estado del cálculo actual en la unidad de almacenamiento; la puerta de olvido controla cuánta información en la unidad de almacenamiento anterior depende del grado de control de la salida actual por parte de la puerta de salida; la unidad de almacenamiento actual.

En el modelo LSTM clásico, la fórmula de cálculo de actualización de la capa T es

donde pasa la entrada xt y la salida de la capa oculta ht del paso anterior. 1 se transforma linealmente y luego se pasa a través de la función de activación σ. El resultado de ingresar la compuerta es un vector, donde cada elemento es un número real entre 0 y 1, utilizado para controlar la cantidad de información que fluye a través de la válvula en cada dimensión las dos matrices Wi y Ui y el vector bi son los parámetros; de la puerta de entrada, debe aprenderse durante el proceso de capacitación. El método de cálculo de la puerta de olvido ft y la puerta de salida ot es similar al de la puerta de entrada. Tienen sus propios parámetros W, U y B. A diferencia de la red neuronal recurrente tradicional, del estado de la última unidad de memoria. ¿Connecticut? La transición de 1 al estado actual ct no depende necesariamente por completo del estado calculado por la función de activación, sino que también está controlada por la puerta de entrada y la puerta de olvido.

En la red entrenada, cuando no hay información importante en la secuencia de entrada, el valor de la puerta de olvido de LSTM está cerca de 1 y el valor de la puerta de entrada está cerca de 0. En este momento, se guardará la memoria pasada, realizando así la función de memoria a largo plazo. Cuando aparece información importante en la secuencia de entrada, LSTM la almacenará en la memoria y el valor de su puerta de entrada estará cerca de 1 cuando aparezca información importante en la secuencia de entrada, y esta información significa que la memoria anterior ya no es importante; , la puerta de entrada El valor de es cercano a 1, mientras que el valor de la puerta de olvido es cercano a 0, de modo que los viejos recuerdos se olvidan y se memoriza nueva información importante. Con este diseño, toda la red puede aprender más fácilmente las dependencias a largo plazo entre secuencias.

GRU está simplificado en LSTM y su estructura de red es la siguiente:

Zt representa la puerta de actualización, que es similar a la puerta de olvido y la puerta de entrada de LSTM. Puede decidir qué información descartar y qué información nueva agregar.

Rt significa puerta de reinicio, que se utiliza para determinar en qué medida se descarta la información anterior.

Cabe señalar que H es solo una variable, por lo que en cada momento, incluida la última combinación lineal, H se actualiza con su yo anterior y sus respuestas alternativas actuales. Por ejemplo, esta variable es como una copa de vino. Vertemos el vino una porción a la vez, lo mezclamos con los ingredientes recién añadidos y luego lo volvemos a verter. Aquí, el reinicio controla la proporción del vino que se vierte y se vuelve a verter después de mezclar, y la actualización controla la proporción de nuevas materias primas con respecto al vino elaborado previamente. De la misma manera, puede entenderse como LSTM. La puerta de olvido de LSTM tiene una función similar a restablecer y la puerta de entrada es similar a actualizar. La diferencia es que LSTM también controla la exposición del estado actual, es decir, la función de la puerta de salida, que GRU no tiene.

1. Aprendizaje automático de cien caras

2./p/45649187

3./p/39a99c88a565