¿Qué es mbb?
1. ¿Qué es la estructura MBB?
El nombre completo de MBB es Modular Building Block. Cada BB (Building Block) puede contener una CPU de 4 vías, varias memorias y tarjetas de E/S. En los servidores Sun, BB se llama placa; en los servidores HP, BB se llama celda; en el servidor Compaq original, BB se llama quad. Las CPU de diferentes BB pueden tener diferentes frecuencias de reloj. Todas las bolas están conectadas entre sí a través de un mecanismo de conmutación llamado interruptor de barra transversal. El interruptor de barra transversal puede proporcionar conexiones de alta velocidad punto a punto entre BB.
Utilizando la tecnología MBB es más fácil diseñar un servidor con un mayor número de CPU. Puede ejecutar un sistema operativo en este tipo de servidor, o puede ejecutar varios sistemas operativos en uno o más BB. Esto se denomina partición lógica del servidor (basada en la partición física).
La tecnología MBB existe desde hace más de diez años. Fue inventada y adoptada por primera vez por Sequent (NumaQ) a finales de los 80 y principios de los 90. Cray adoptó la tecnología MBB en su Cray 6400 a principios de la década de 1990, que fue el predecesor del Sun E10000; Compaq lanzó su modelo Wildfire (GS320) basado en tecnología MBB en el primer trimestre de 2000. HP La compañía lanzó el Superdome, el modelo de la industria; último modelo basado en tecnología MBB, en el tercer trimestre de 2000. El Starfire (F15K) lanzado por Sun en el tercer trimestre de 2001 no tiene cambios en la arquitectura. Simplemente reemplaza la CPU del E10000 original con SPARC3.
2. Ventajas de la estructura MBB
Un servidor basado en tecnología MBB está compuesto por múltiples BB, por lo que inherentemente tiene las características de partición física (Physical Partition). Como se mencionó anteriormente, existe un mecanismo de interconexión (interruptor de barra cruzada) que conecta BB en el servidor MBB, que funciona a una frecuencia de reloj fija.
Por ejemplo, el mecanismo Uniboard del servidor Sunfire completa esta función de interconexión. Su reloj de bus es de 150MHz, que es fijo independientemente de la frecuencia principal de la CPU (600, 750, 900, 1050MHz). El problema es que el tiempo de espera para que se transmitan datos/comandos es demasiado largo. Ésta es una contradicción clásica entre una alta frecuencia de reloj de la CPU y una baja velocidad del bus.
Todos los servidores de estructura MBB tienen una ventaja "significativa": la placa de CPU y la placa de memoria se pueden intercambiar en caliente. Esto se debe a que cada BB está físicamente separado y cada placa de CPU de 4 vías se puede aislar individualmente del sistema y apagar. Pero hay una cosa a tener en cuenta: en un sistema en ejecución, existen restricciones para desconectar la CPU, la memoria o la placa de E/S de una BB, que varían según el diseño de cada modelo. Por ejemplo, el servidor Sun 6800 tiene una etiqueta de advertencia que indica que cada ranura Uniboard no puede estar vacía durante más de 60 segundos mientras el sistema está en funcionamiento (y los factores ambientales como el suministro de energía y la temperatura deben controlarse dentro de un rango determinado). De esto se puede deducir que F12K/F15K puede tardar incluso menos tiempo.
3. Defectos de la estructura MBB
Cuando HP lanzó originalmente el servidor Superdome, anunció sus valores de rendimiento relativos con otros servidores HP UNIX. El valor de rendimiento relativo de la CPU Superdome de 64 canales (estructura MBB) es 20, y el valor de rendimiento relativo del N4000 de 8 canales (estructura exclusiva) es 6,3. Podemos ver que 8 veces la cantidad de CPU solo da como resultado una mejora de rendimiento 3 veces.
La razón fundamental de este fenómeno radica en la estructura de MBB.
Es posible que la CPU, la memoria o la tarjeta de E/S de cada celda (BB) del Superdomo necesiten acceder a datos de otras celdas. El interruptor de barra transversal establece conexiones punto a punto entre celdas, pero también genera latencia. Es decir, si una solicitud de conexión no tiene éxito, se intentará nuevamente hasta que la conexión se establezca exitosamente, mientras que otras solicitudes de conexión esperarán. En entornos reales, muchos clientes intentan minimizar el impacto de este retraso estableciendo particiones físicas (con hasta 12 a 16 CPU en cada partición). Este enfoque divide la máquina original con una gran cantidad de CPU en varias máquinas con una menor cantidad de CPU. Por supuesto, no es la escalabilidad del servidor como se afirmó originalmente (por ejemplo, un servidor con 64 CPU).
Los servidores Sun y Compaq con estructura MBB tienen estructuras de conmutadores de barra transversal similares. Por supuesto, todos tienen el mismo defecto de retardo de acceso a los datos: se debe establecer una conexión punto a punto y el establecimiento de esta conexión. es Competitivo.
Sun afirma que la escalabilidad de sus servidores es lineal, es decir, el rendimiento del servidor aumenta linealmente a medida que aumenta el número de CPU. Se demuestra utilizando dos valores de referencia, SPECintRate y SPECjbb2000. Lo que debemos señalar es que estos dos métodos de prueba se basan únicamente en la propia CPU y no incluyen el acceso a datos compartidos ni la aparición de E/S de red y disco duro. Evidentemente, esto no se corresponde con la situación real.
Cuando hablamos de rendimiento del servidor, lo miramos en su conjunto. Existen muchas pruebas de referencia que pueden evaluar el rendimiento del servidor en su conjunto, como por ejemplo: TPC/C, Oracle ASB11i, Peoplesoft, SAP, Baan, JDEdwards, etc. Todos estos métodos de prueba tienen las características de acceso a la base de datos, aplicación real del cliente simulada y gran volumen de acceso a E/S.
4. Diseño del servidor IBM UNIX con POWER4 como chip
La idea de diseño del servidor IBM UNIX (serie p) es compartida, es decir, todas las CPU se pueden utilizar por igual. Vea todas las conexiones de memoria y E/S: una nueva arquitectura que proporciona suficientes rutas de alta velocidad para el flujo de datos/instrucciones.
El aumento del número de CPU en los servidores de la serie p es un proceso proporcional y gradual. Actualmente, el número máximo de CPU en el p690 es 32. A juzgar por el ejemplo del p690 de "menos gana más", la cantidad de CPU del servidor no representa realmente el nivel de sus capacidades de procesamiento. El hecho de que P690 (CPU de 32 canales) supere al Superdome (CPU de 64 canales) es una prueba contundente.
Hay dos puntos importantes en el diseño de POWER4 y servidores basados en POWER4:
· Eliminación de restricciones en la transmisión de datos
· Crece la capacidad de transmisión de datos con el aumento del rendimiento de la CPU
Se presentará lo siguiente con más detalle:
(1) Se diseña un búfer más grande en el chip POWER4. Hay dos procesadores centrales en un chip POWER4, cada procesador central tiene un búfer L1 (datos de 32 KB y instrucciones de 64 KB) y hay un búfer L2 compartido (1,5 MB) en cada chip). Este búfer L2 tiene una velocidad de reloj de la mitad de la frecuencia del procesador central. Cada búfer L2 tiene tres buses de 32 bytes de ancho conectados a los dos procesadores centrales para transferir instrucciones y datos a los dos procesadores centrales. También hay tres buses de 8 bytes de ancho que se utilizan para transferir datos desde los dos procesadores centrales al búfer L2. POWER4 creó la primera arquitectura de CPU que eliminó los conflictos entre señales de control y transferencias de datos.
El procesador POWER4 tiene un controlador de búfer L3, que interactúa con el búfer L3 de 32 MB. Hay un dicho en la industria que dice que cualquier E/S es mala, es decir, los datos necesarios cuando la CPU está en funcionamiento no están en la memoria y deben leerse desde los periféricos.
El estado más ideal es que se cumplan todas las instrucciones/datos necesarios para que se ejecute el procesador, seguido de las instrucciones/datos en el búfer L1, luego en el búfer L2, luego en el búfer L3 y, en el peor de los casos, la situación está en la memoria. El número total de buffers en los servidores de la serie p es cuatro veces mayor que el de los servidores Sun y quince veces mayor que el de los servidores HP. (2) En el diseño de POWER4, hay un mecanismo de conexión llamado interruptor distribuido. Proporciona conexiones punto a punto entre procesadores en un MCM (módulo multichip) y también se utiliza para conexiones punto a punto entre procesadores en diferentes MCM. La frecuencia de reloj de este conmutador distribuido es la mitad de la frecuencia de reloj de la CPU. Por ejemplo, si se trata de un procesador POWER4 de 1,3 GHz, el conmutador distribuido proporciona una conexión de bus punto a punto de 16 bytes de ancho y una frecuencia de 650 MHz.
Los servidores que IBM proporciona actualmente al mercado UNIX realmente han logrado un crecimiento lineal en la potencia de procesamiento de la CPU y la potencia de procesamiento del servidor.