silbido
La forma es la siguiente:
fórmula relu
-----sigmoide escalonada
------- Función softplus
------- Función Rel
Entre ellas -------- sigmoide
A continuación se explican softplus y Noisy ReLU en la fórmula anterior
La función softplus está cerca de la función ReLU, pero es más suave. Al igual que ReLU, es una supresión unilateral y tiene un amplio rango de aceptación (0, +inf). Debido a las operaciones exponenciales, las operaciones logarítmicas requieren una gran cantidad de cálculos. Debido a esto, la gente rara vez las usa y, a juzgar por la experiencia de algunas personas (Glorot et al. (2011a)), el efecto no es mejor que. ReLU.
La derivada de softplus resulta ser la función sigmoidea
La escasez de ReLU
Leaky ReLU
¿Cuándo?<0 , ?(?)=, donde ? es muy pequeño, esto puede evitar el problema de ?<0 Cuando es imposible aprender:
Se llama rectificador paramétrico ( PReLU) y utiliza ? como parámetro aprendible
Cuando ? De la distribución gaussiana Cuando se genera aleatoriamente, se llama Rectificador aleatorio (RReLU)
Cuando se fija en ?=0,01, se ReLU con fugas.
Ventajas:
Es un parámetro de sentido común o entrenable. Swish tiene las características de límite inferior, suavidad y no monótono.
Swish funciona mejor que ReLU en modelos profundos.
Por ejemplo, simplemente reemplazar ReLU con unidades Swish puede aumentar la precisión de clasificación principal de Mobile NASNetA en ImageNet en un 0,9 % y la precisión de clasificación de Inception-ResNet-v en un 0,6 %.
Derivada
Cuando = 0
Swish se convierte en una función lineal
En, Swish se convierte en relu: f(x) = 2max ( 0,x)
Entonces, la función Swish puede verse como una función suave entre la función lineal y la función relu.
Maxout puede verse como una adición de una capa a la red de aprendizaje profundo. La capa de función de activación contiene un parámetro k. En comparación con ReLU, sigmoide, etc., esta capa es especial porque agrega k neuronas y luego genera el valor con el valor de activación más grande. salida del nodo de capa:
En la red maxout, la expresión de salida de su nodo de capa oculto es