silbido

La forma es la siguiente:

fórmula relu

-----sigmoide escalonada

------- Función softplus

------- Función Rel

Entre ellas -------- sigmoide

A continuación se explican softplus y Noisy ReLU en la fórmula anterior

La función softplus está cerca de la función ReLU, pero es más suave. Al igual que ReLU, es una supresión unilateral y tiene un amplio rango de aceptación (0, +inf). Debido a las operaciones exponenciales, las operaciones logarítmicas requieren una gran cantidad de cálculos. Debido a esto, la gente rara vez las usa y, a juzgar por la experiencia de algunas personas (Glorot et al. (2011a)), el efecto no es mejor que. ReLU.

La derivada de softplus resulta ser la función sigmoidea

La escasez de ReLU

Leaky ReLU

¿Cuándo?<0 , ?(?)=, donde ? es muy pequeño, esto puede evitar el problema de ?<0 Cuando es imposible aprender:

Se llama rectificador paramétrico ( PReLU) y utiliza ? como parámetro aprendible

Cuando ? De la distribución gaussiana Cuando se genera aleatoriamente, se llama Rectificador aleatorio (RReLU)

Cuando se fija en ?=0,01, se ReLU con fugas.

Ventajas:

Es un parámetro de sentido común o entrenable. Swish tiene las características de límite inferior, suavidad y no monótono.

Swish funciona mejor que ReLU en modelos profundos.

Por ejemplo, simplemente reemplazar ReLU con unidades Swish puede aumentar la precisión de clasificación principal de Mobile NASNetA en ImageNet en un 0,9 % y la precisión de clasificación de Inception-ResNet-v en un 0,6 %.

Derivada

Cuando = 0

Swish se convierte en una función lineal

En, Swish se convierte en relu: f(x) = 2max ( 0,x)

Entonces, la función Swish puede verse como una función suave entre la función lineal y la función relu.

Maxout puede verse como una adición de una capa a la red de aprendizaje profundo. La capa de función de activación contiene un parámetro k. En comparación con ReLU, sigmoide, etc., esta capa es especial porque agrega k neuronas y luego genera el valor con el valor de activación más grande. salida del nodo de capa:

En la red maxout, la expresión de salida de su nodo de capa oculto es