Red neuronal reversible
1. ¿Qué es una red neuronal reversible?
Para algunos problemas, los investigadores han establecido modelos teóricos complejos para lograr el mapeo de parámetros implícitos a valores medibles. Este mapeo se denomina proceso directo. El proceso inverso consiste en obtener parámetros implícitos basados en los valores medidos, lo que también es un problema práctico que debe resolverse. Pero el proceso inverso es difícil de resolver porque parte de información clave se pierde en el proceso directo.
Si utiliza directamente redes neuronales tradicionales para entrenar el proceso inverso, el efecto será limitado porque el proceso inverso es un mapeo de uno a muchos. El mejor caso para un modelo entrenado por una red neuronal es identificar la solución más probable; el peor caso es el promedio de múltiples soluciones.
INN tiene tres características: (I) El mapeo de entrada a salida es biyectivo, es decir, existe su inverso; (ii) Tanto el mapeo hacia adelante como hacia atrás son válidos y computables; tiene un jacobiano manejable, por lo que las probabilidades se pueden transformar explícitamente mediante fórmulas variables.
El NN estándar entrena directamente el proceso inverso, pero se necesita un término de pérdida supervisada (SL) para distinguir el X real del X predicho (podemos entender temporalmente SL como una determinada función de costo), Y-> ; Este mapeo uno a muchos de X limita en gran medida el NN tradicional. INN solo usa SL para el proceso directo, pero como X no tiene un valor definido, la X predicha pertenece a la pérdida no supervisada (USL) y debe seguir la P (X) anterior. Además, la variable potencial z debe obedecer a una distribución gaussiana y pertenece a USL.
Debido a que parte de la información se perderá en el proceso directo, se introduce y se entrena una variable de salida potencial adicional z para capturar información relacionada con X pero no contenida en y. Además, también es necesario entrenar el. red para ajustar p(z) según la distribución gaussiana. Es decir, ajuste p (x | y) en una determinada función x = g (y, z) y transforme la distribución conocida p (z) en el espacio x bajo la condición de que se cumpla y.
2. Explicación detallada de la posada
Si x∈R D, y∈R M, entonces debido a la pérdida de información en el proceso directo, la dimensión intrínseca M de y debe ser menor. que D, incluso si M puede ser mayor que D.
Queremos predecir ρ(x|y) según el modelo q(x|y), por lo tanto, se introduce la variable implícita z, y q(x|y) se representa por g(y); , z; θ) de la siguiente manera:
En consecuencia, su proceso directo también se puede representar mediante f(x; θ):
El entrenamiento bidireccional de F y G puede evitarse Problemas de cGAN y redes neuronales bayesianas. Debido a que INN requiere f = g -1, las dimensiones en ambos lados (dimensiones intrínsecas y dimensiones mostradas) deben ser las mismas. Por lo tanto, se requiere que la dimensión k de la variable z sea d-m. Si m k > D, debe usar el vector 0 de la dimensión M K-D para completar el vector x.
Combinando todas las definiciones anteriores, nuestra red representa q(x|y) como:
El componente básico de la red neuronal reversible es la capa de acoplamiento afín extendida por el NVP real. modelo. Su principio de funcionamiento es dividir los datos de entrada en dos partes u 1 y u 2, transformarlos aprendiendo las funciones s i y ti (puede ser cualquier función variable compleja, la función en sí no necesita ser reversible) y acoplarla en de manera alterna:
La salida es la concatenación de [v 1, v 2]. Representado como:
Dada la salida, también se puede obtener el proceso inverso:
Representado como:
Las redes reversibles profundas se componen de una serie de las anteriores bloques de construcción.
Además, existen dos extensiones de esta arquitectura básica:
INN reduce el error en el dominio de entrada y en el dominio de salida, haciendo que el entrenamiento sea más efectivo. Por lo tanto, INN realiza alternativamente iteraciones hacia adelante y hacia atrás y acumula gradientes bidireccionales antes de actualizar los parámetros.
Para la iteración directa, calculamos la desviación entre la salida del modelo y i = s(xi) y la predicción de la red f y (xi). La pérdida se expresa como L y (y i, f y (xi)). , que puede ser Cualquier pérdida supervisada, como error al cuadrado en problemas de regresión o entropía cruzada en problemas de clasificación.
Para la variable potencial Z, calculamos la distribución marginal de la salida del modelo p(y = s(x)) = p(x)/|J s y la salida de la red q(y = f y | (x), La desviación entre los productos de z = f z (x)) = p(x)/|J yz |. En segundo lugar, Y y Z son independientes entre sí y no cubrirán la misma información dos veces. Ly y Lz son ambas pérdidas en el proceso de iteración directa.
L y y L z son teóricamente suficientes, pero en ejemplos de problemas complejos todavía hay una pequeña dependencia residual entre y y z, lo que hace que q(x|y) sea diferente del p( x| real). y) está sesgado. Para evitar esta situación, se define adicionalmente la pérdida de entrada L x, donde L x (p(x), q(x)) representa la relación entre p(x) y la distribución de predicción hacia atrás q(x) = p(y = f y (x )) p(z = f z (x))/|J x |.
L x y L z se implementan utilizando el método de error medio máximo MMD. MMD es un método basado en kernel para comparar dos distribuciones de probabilidad que solo se pueden obtener a través de muestras. Este artículo utiliza los siguientes métodos para lograr los mejores resultados:
3. Experimentos relacionados con INN
El proceso directo de este experimento es determinar el patrón de un punto en función de sus coordenadas bidimensionales, y el proceso inverso es marcar sus coordenadas bidimensionales en función de su patrón. Los resultados del entrenamiento son los siguientes:
Se puede ver que si solo hay entrenamiento directo (ly, L z), se capturará la relación conocida, pero habrá una gran desviación en el área sin completar. del espacio X (por lo que el efecto de Configuración1 es mejor, pero el efecto de Configuración2 y Configuración3 es peor). Pero si solo hay entrenamiento inverso (L x), se aprenderá la distribución X correcta, pero se perderá la información conocida.
El entrenamiento con cGAN requiere más variables implícitas y estructuras más complejas, y la diferencia entre cGAN e INN no es solo el uso de diferentes funciones de pérdida, lo que demuestra que INN es mejor que cGAN. La última red de abandono solo usa Y como entrada y, como no usa ninguna variable implícita, pierde toda la información que Y no contiene.
Analizar la estructura del espacio implícito, es decir, comprender cómo el modelo usa Z dada y. Para cada coordenada z i en el espacio implícito (Z es una variable bidimensional en este experimento), usamos. [ y, z i] como entrada al proceso inverso, que produce xi', y luego colorea los puntos; el tono depende del color del modo al que xi' está más cerca en el espacio X, y el brillo depende de qué tan lejos xi ' es de ese modo.
En medicina, los tumores pueden alterar la saturación de oxígeno en sangre, lo que provoca cambios en la reflectancia de la superficie del tejido. Las cámaras multiespectrales pueden medir la reflectancia de las superficies de los tejidos; también se pueden simular basándose en modelos que incluyen la saturación de oxígeno, la fracción de volumen sanguíneo, la intensidad de dispersión, el índice de anisotropía y el espesor del tejido. Sin embargo, es difícil obtener características funcionales importantes basadas en la reflectancia de la superficie del tejido, ya que diferentes parámetros del tejido pueden dar como resultado la misma reflectancia del tejido. También hay intentos de modelar directamente el proceso inverso, pero el efecto de predicción del modelo no es ideal.
En términos de precisión, el método del mapa (máximo de póster) de INN es mejor que otros métodos. Si no se considera la pérdida L x, tendrá poco impacto en la precisión, pero si no se consideran L y y L z, la red fallará por completo;
Dado y, los resultados de predicción de INN para p(x|y) son los siguientes:
El área naranja es el P(Xi | y) predicho por INN; el área gris es la distribución p(x) de; todo el conjunto de datos; la línea discontinua es el valor real de x en relación con y en el conjunto de prueba.
También se pueden ver dos puntos en los resultados anteriores:
No entraré en detalles sobre este ejemplo. Es similar a las aplicaciones médicas y el efecto sigue siendo aceptable: