¿Por qué las interrupciones del servidor suelen ocurrir temprano en la mañana, cuando la utilización es más baja?
¡Entonces, los eventos accidentales no se pueden decir como máximo!
Pero es normal cambiar por la noche y tiene sentido común optar por hacer cosas necesarias que pueden afectar el negocio cuando hay menos usuarios.
En primer lugar, es un honor para mí responder a esta pregunta. Abordemos este tema juntos y ahora exploremoslo juntos.
Me gustaría compartir con vosotros mis puntos de vista y opiniones personales sobre este tema. Espero que mi respuesta te sea útil y te guste lo que comparto.
La noche era oscura y ventosa, matando gente y robando bienes. Este momento es el tiempo de descanso para la gente normal y los piratas informáticos eligen estar activos en este momento. Ya sea un ataque de seguridad o DDOS, puede causar fallas en el servidor.
Si tiene una mejor respuesta a esta pregunta, comente y discuta este tema juntos.
Por fin estoy aquí. Les deseo a todos una vida feliz, un trabajo feliz todos los días, una vida saludable todos los días, que todo vaya bien en su familia y que su negocio prospere cada año. ¡Gracias a todos!
16 Respuestas confiables de programadores experimentados.
Hay varias razones principales.
En primer lugar, es cierto que las caídas del servidor suelen producirse temprano en la mañana cuando la utilización es más baja, pero esta utilización es sólo para los usuarios.
De hecho, temprano en la mañana, el servidor está muy ocupado. ¿En qué estás principalmente ocupado? Principalmente algunas tareas programadas y copia de seguridad de la base de datos. Muchas operaciones que requieren mucho tiempo, como las estadísticas de informes, se programan en medio de la noche para evitar afectar el negocio normal durante medio día. Por lo tanto, en este momento, el servidor está funcionando con una carga elevada y es probable que se produzcan accidentes.
Del mismo modo, lanzar un nuevo código o cambiar funciones también elegirá el período de menor actividad comercial por la noche. No importa cuán bueno sea el trabajo de prueba preliminar, algunos errores inevitablemente quedarán ocultos. En las primeras horas de la mañana, estos errores (como los bucles infinitos) se han estado ejecutando durante un tiempo y pueden provocar varios fallos si no se atienden.
Si el tiempo en línea es relativamente corto, está bien. Cuando la actualización es relativamente grande, los programadores trabajan hasta la medianoche. En este caso, las personas están cansadas y es más probable que cometan errores durante el trabajo intenso.
Por ejemplo, los bucles infinitos y las pérdidas de memoria tardan un tiempo en aparecer. Con monitoreo en tiempo real durante el día, la probabilidad de falla natural es relativamente pequeña. Incluso si se produce un fallo, se puede reparar rápidamente para que los usuarios no se den cuenta.
La noche era oscura y ventosa, matando gente y robando bienes. Este es el tiempo de descanso para la gente normal y los piratas informáticos eligen estar activos durante este tiempo. Ya sea un ataque de seguridad o DDOS, puede causar fallas en el servidor.
Ji Ke se dedica al desarrollo de software integrado durante muchos años. Recientemente, debido a que la empresa necesita realizar investigación y desarrollo de backend, a menudo elige actualizar temprano en la mañana. El procesamiento de datos a gran escala también se realiza durante este período de tiempo, y el tiempo de inactividad frecuente del servidor también ocurre durante este período. Los usuarios empiezan a jugar con él cuando lo usan menos. Si lo hacen con más frecuencia, es fácil que se produzcan problemas con el servidor. Debido a que trabajamos con dispositivos IoT, existen varias situaciones de inactividad en el trabajo. La operación de una gran cantidad de datos provocó un aumento repentino en la participación de la CPU durante un período de tiempo, lo que provocó problemas en el módulo de recepción de datos, lo que provocó problemas de monitoreo del sistema y no se pudo detectar mucha información del dispositivo.
El funcionamiento excesivo de la base de datos conduce a una disminución de la eficiencia, que también es un factor importante que afecta el rendimiento del sistema. De hecho, el servidor también está compuesto por computadoras comunes y sus principales recursos son la CPU y la memoria. Cualquiera de estos dos factores puede provocar que el sistema falle. Si la CPU está llena, la respuesta del sistema será extremadamente lenta y puede disminuir con el tiempo. Si la memoria está llena, el sistema fallará y no podrá ejecutarse directamente. En efecto, el núcleo se apagará.
Ahora resuma los problemas comunes de apagado del servidor:
1. El espacio en disco está lleno. Hoy en día, los programadores están acostumbrados a utilizar la impresión de registros durante el tiempo de ejecución. Si dura mucho tiempo y no hay un mecanismo de limpieza, tarde o temprano surgirán problemas. Este error suele ocurrir durante el funcionamiento normal.
Si utiliza un servidor de computación en la nube, generalmente envía un mensaje corto antes de que el sistema falle para notificarle que su sistema está al borde del colapso.
2. Problemas de rendimiento de concurrencia. Si varias personas operan una base de datos o un bloque de datos al mismo tiempo, el sistema se congelará. Este es un problema de competencia por los recursos de la CPU, que puede resolverse. aumentando la configuración del hardware y optimizando la eficiencia del código de software. Cuán grande es la cantidad de datos, se puede considerar la gestión distribuida.
3. Los datos se dañan o destruyen, provocando que el sistema falle. Por lo tanto, es una práctica común configurar discos de respaldo. Si hay un problema, lleve el disco de respaldo a la parte superior. La empresa utiliza ahora servidores Alibaba Cloud, que son mucho más estables que antes. En el medio, cambié a Telecom Cloud. Aunque el precio de Tencent Cloud es bajo, al final no pude evitar cambiar directamente a Alibaba Cloud y nunca quise volver a cambiar. La estabilidad de los datos siempre es lo primero.
4. Algunas operaciones incorrectas innecesarias a menudo son causadas por operaciones incorrectas de los programadores o del personal de operación y mantenimiento, lo que provoca tiempos de inactividad del servidor a gran escala. Este tipo de incidentes les ha sucedido a muchos proveedores de servicios en la nube. El nivel fundamental es una cuestión de gestión. Cualquier detalle de la gestión backend es posible.
Descubra varias pistas sobre el problema del tiempo de inactividad del servidor;
1. Compruebe si hay una pérdida de memoria en el servidor. A veces, cuando reinicia la máquina, se ejecutará normalmente. Se vuelve muy lento después de un tiempo. Nueve de cada diez veces es un problema de memoria.
2. Independientemente de si es causado por piratas informáticos o no, algunos datos muy críticos e importantes también son de gran interés para los piratas informáticos. En general, esta probabilidad no es muy alta.
3. ¿Es causado por un punto muerto en la base de datos, demasiado acceso y demasiadas conexiones?
Una vez que el servidor cae, provocará innumerables quejas por parte de los usuarios. No importa cuál sea la situación, la estabilidad siempre es lo primero. Ahora bien, a menos que se haya verificado al 100% con éxito una actualización importante de funciones, las consecuencias serán desastrosas.
Espero que esto ayude.
El personal de mantenimiento de Huawei respondió aproximadamente:
1. Tipo de negocio: tareas programadas del sistema. Por ejemplo, informes estadísticos nocturnos, actualización de tareas, actualización de datos o copia de seguridad de datos. Espera un momento. Todo esto ocurrió en las primeras horas de la mañana. En este momento, CPU/memoria/espacio (disco/base de datos)/IO (lectura y escritura de disco) será muy alto. Como resultado, pueden producirse tiempos de inactividad o escasez de recursos.
2. Tipo de operación: si se requieren operaciones como transición/actualización/parcheo/rectificación, la situación puede desencadenarse. En muchos casos, es necesario reiniciar procesos/servicios/sistemas.
3. Categoría de error, ya sea un sistema Linux o un sistema empresarial, puede haber errores que provoquen fallas del sistema o tiempo de inactividad del servidor. Esto también puede ocurrir durante el día.
4. Problema de hardware. El hardware, como las placas o los discos individuales, envejecerá lentamente debido a la vida útil real. Por ejemplo, los discos en matrices de discos se dañan fácilmente.
5. La congestión repentina del tráfico genera grandes cantidades de datos, lo que provoca congestión en la transmisión y el tráfico. Y el espacio en disco está lleno o el espacio en la tabla de la base de datos está lleno. Causar problemas. Puede haber problemas.
Ocasionalmente puede ser porque tienes una conciencia superficial, porque este tipo de problema es el más profundo y puedes pensar más. Pruébelo tomando notas.
El tiempo de inactividad generalmente se divide en cinco situaciones:
1. El programa falla debido a un problema.
2.cpu\Gpu y memoria están llenos.
3. El espacio en el disco duro está lleno
4. El espacio en la tabla de la base de datos está lleno.
5. La temperatura ambiente es demasiado alta.
Los anteriores son problemas personales encontrados durante el proceso de operación y mantenimiento, y se proporciona una respuesta resumida.
Aunque hay muy pocos usuarios que usan el sistema temprano en la mañana, es posible que el servidor tenga que trabajar mucho en este momento:
Permítanme hablar primero sobre algo que vi Hace mucho tiempo y compartí con mis compañeros la experiencia de un tiempo de inactividad del servidor. Algunas experiencias son mágicas. Piénselo como una broma (por conveniencia, lo cuento en primera persona).
La primera parte a la que atendemos es el hospital y la sala de ordenadores está en el edificio del hospital. Los servidores de la sala de ordenadores han estado caídos con frecuencia últimamente y los ingenieros de la empresa han estado allí varias veces pero no han encontrado ningún problema.
Más tarde, la empresa se sintió abrumada y decidió dejar que un ingeniero viviera en la sala de computadoras por la noche para ver qué sucedía en la sala de computadoras en medio de la noche. Pensó que incluso si no se podía encontrar la causa, el servidor podría ser destruido. se reinició tan pronto como se detuvo.
Más tarde descubrí el motivo. A las tres o cuatro de la mañana, se abrió la puerta de la sala de ordenadores y entró una enfermera que trabajaba en el turno de noche. Lo miró y dijo: "No hay nadie allí. ¿No es un desperdicio de electricidad encender el aire acondicionado?" Luego apagué el aire acondicionado en la sala de computadoras y la temperatura subió. ...
El tiempo de inactividad del servidor significa que el servidor no puede ejecutarse normalmente debido a algunas razones, lo que provoca que la red se desconecte y no se pueda utilizar normalmente. Las caídas de servidores suelen producirse en las primeras horas de la mañana. ¿Por qué sucede esto? Por ejemplo, nuestra empresa se dedica a la producción de equipos tecnológicos para Internet. Para no afectar la producción normal, las actualizaciones del sistema generalmente se llevan a cabo temprano en la mañana y también se lleva a cabo una gran cantidad de procesamiento de datos en este momento. El servidor también es propenso a tener problemas en este momento. El análisis específico tiene las siguientes razones:
1. Cuando se actualiza el sistema o se procesa una gran cantidad de datos, el espacio del disco duro estará lleno. Si nadie puede liberar el espacio en disco a tiempo, el servidor se congelará, provocando un tiempo de inactividad.
2. Si se ejecutan varios dispositivos al mismo tiempo, el uso de esta base de datos hará que el sistema se congele. Esto se debe a la incautación de recursos de la CPU, lo que provocará que el servidor aumente y las visitas al sitio web se disparen. envenenamiento del programa y muchas aplicaciones para consumir. El servidor eventualmente fallará y dejará de responder.
3. Debido a la reducción del personal de mantenimiento temprano en la mañana, factores ambientales como cortes de energía y altas temperaturas pueden causar fallas en el servidor. Sin embargo, esta situación es relativamente rara, porque la sala de computadoras tiene un generador para evitar la pérdida de datos causada por cortes de energía, y la temperatura también es un sistema de temperatura constante.
4. Para ahorrar costos de servidor, algunas empresas alquilan servidores con configuraciones más bajas para realizar mucho trabajo, lo que sobrecargará los servidores, como puede imaginar, se producirán tiempos de inactividad frecuentes.
5. En términos generales, el tiempo de inactividad del servidor tiene mucho que ver con la memoria. Algunos servidores se vuelven lentos después de funcionar durante un período de tiempo, lo que es básicamente un problema de memoria. Compruebe si hay pérdidas de memoria.
El tiempo de inactividad del servidor provocará una serie de problemas, provocando pérdidas inconmensurables. Realice un mantenimiento regular y preste atención al uso temprano en la mañana para evitar tiempos de inactividad. En cualquier momento, el funcionamiento estable del servidor es lo más importante.
¿Qué quieres decir con tiempo de inactividad del servidor? El "inactividad" en nuestro "tiempo de inactividad" diario en realidad se refiere a la palabra inglesa "inactividad", que significa que el servidor o servicio actual no responde o está fuera de línea.
El tiempo de inactividad del servidor se puede dividir en tiempo de inactividad provocado por el hombre y tiempo de inactividad incontrolable. ¿Cuál es la diferencia entre los dos? Vamos a explicarlo en detalle a continuación:
1. Comportamiento de apagado controlado por humanos
El funcionamiento prolongado del servidor puede causar algunos problemas (no fatales), o cuando lo necesitemos. para modificar el software del servidor/Cuando se actualiza y mantiene el hardware, puede ser necesario detener o reiniciar la operación. El tiempo de inactividad en este caso es manejable y está dentro de nuestros planes.
2. Comportamiento de apagado incontrolado
Hay muchos factores, como una pantalla azul repentina en el servidor, una caída anormal del servicio y un corte de energía repentino. En este momento, el servicio (servidor) no puede proporcionar servicios normalmente, debido a factores incontrolables.
En nuestro trabajo diario de operación y mantenimiento, el mantenimiento de parada planificada generalmente opta por hacer estas cosas en medio de la noche. ¿Por qué? Hay varias razones principales:
1. Reducir el impacto en los usuarios
Básicamente, todos descansan temprano en la mañana y la cantidad de usuarios es mucho menor que durante el día. Por lo tanto, el tiempo de inactividad causado por el mantenimiento del sistema y del hardware en este momento tendrá poco impacto en los usuarios; en todo caso, solo afectará a una pequeña cantidad de usuarios.
2. Disponer de tiempo suficiente para afrontar los fracasos.
Si el mantenimiento se realiza temprano en la mañana, incluso si ocurre un problema, el técnico tendrá tiempo suficiente (como 00-05) para solucionar el fallo. Si se reparaba durante el día, llegarían todas las quejas de que los servicios (equipos) estuvieron caídos durante una hora, lo cual sería muy estresante.
De hecho, el principio es muy simple: al igual que nosotros, estamos ocupados con muchas cosas durante el día, al igual que los porteadores, trasladando constantemente mercancías al almacén. Sólo cuando se hayan enviado todos los productos podremos comenzar a organizarlos y organizar el almacén.
En segundo lugar, durante el día, el servidor está en realidad en estado "portero" para el procesamiento de datos en tiempo real.
Solo después de que se complete el trabajo de procesamiento de datos en tiempo real (trabajo de procesamiento), habrá la oportunidad o capacidad de dejar espacio para la inducción y organización de datos. Por lo tanto, el tiempo de inactividad del servidor suele producirse durante los períodos de menor utilización. Eso es todo