FPGA de alta gama (1)

Anteriormente, Intel anunció que había comenzado a entregar el primer lote de FPGA Agilex a los primeros clientes en experimentar los FPGA Agilex. Esto lleva la competencia entre los dos mayores proveedores de FPGA a una etapa de "confrontación frontal". Xilinx envió su primera FPGA "Versal ACAP" en junio, por lo que después de una larga y polémica guerra de "¿quién puede enviar primero?", se acabó. Resulta que ambos competidores pueden comenzar a enviar sus líneas de productos FPGA en aproximadamente dos meses, lo que puede usarse para realizar evaluaciones comparativas con sus rivales. Esto significa que, a diferencia de otras empresas que compiten para mejorar el rendimiento introduciendo nodos avanzados primero, ninguna de las empresas ha tenido tiempo suficiente para ganar diseños utilizando una tecnología nueva y más avanzada.

Sin embargo, esta competencia se ha ampliado, y el nuevo jugador Achronix afirma que enviará las primeras muestras de su nuevo FPGA Speedster 7t antes de finales de este año. Para los equipos de desarrollo, esto significa que para finales de año, habrá tres productos FPGA de alta gama completamente diferentes para elegir, todos utilizando tecnologías de proceso similares y ofreciendo capacidades únicas.

Este artículo es el primero de una serie que compara nuevas familias de FPGA de alta gama de estos tres proveedores. Examinaremos la tecnología subyacente, la organización lógica de la FPGA (LUT), recursos mejorados para procesamiento y conexión en red acelerados, arquitectura de memoria, arquitectura de chip/paquete/personalizada, recursos de E/S, estrategias de herramientas de diseño, las características únicas y novedosas de cada producto. características y funcionalidades y estrategias de marketing. Si puede disfrutar de muchas fallas, un ancho de banda increíble o algunos diseños de dispositivos semiconductores interesantes y potentes, entonces este será un viaje emocionante para usted.

Nota: Intel y Achronix participaron y contribuyeron a la información de este artículo. Xilinx no respondió a nuestra solicitud de información.

Esta vez, el dominio de los FPGA de alta gama ha cambiado. En el pasado, el mercado más grande para FPGA de alta gama eran las redes, y la participación de mercado también ha cambiado. Depende principalmente de quién puede proporcionar los mejores diseños para los productos implementados por la última ola de clientes de redes cableadas e inalámbricas y quién puede obtener más. cuota de mercado. Sin embargo, el momento del lanzamiento de 5G cambia esta dinámica. Antes de que llegara la actual ola de tecnología FPGA, el 5G ya había comenzado a acelerar su expansión. Por lo tanto, la primera ronda de redes troncales 5G se basa en la generación anterior de lógica programable. Estos dispositivos se integrarán en el ya robusto ecosistema 5G, por lo que no podemos estar seguros de si una revolución completa en 5G coincidirá con el nacimiento de una nueva generación de FPGA. Estos diseños de FPGA ya comprenden completamente la mecánica del 5G. Sin embargo, no subestime la importancia de las FPGA para 5G o la importancia de 5G para el mercado de FPGA. Hoy en día, cuando utilizas un teléfono móvil, probablemente el 99% de las llamadas se realicen a través de una FPGA. Con 5G, la influencia de FPGA será aún mayor.

Este fenómeno ha generado interés a medida que el mercado emergente de aceleración de centros de datos, principalmente para cargas de trabajo de IA, se expande rápidamente. Se estima que el mercado de aceleración de IA crecerá rápidamente en los próximos años, por lo que los tres proveedores competirán por la mayor parte de la cuota de mercado de estos dispositivos con su impresionante relación precio-rendimiento y su mayor eficiencia energética, y afirman que las soluciones ofrecen Se puede extender hasta los bordes/lados finales. Cada uno de estos proveedores es muy consciente de la urgencia de ocupar estas ranuras para tarjetas aceleradoras de IA y han diseñado nuevos chips en torno a esta idea.

Echemos un vistazo a todos estos factores, ¿de acuerdo?

Desde la perspectiva de la tecnología de proceso subyacente, los FPGA de las series Xilinx y Achronix están diseñados en base al proceso de 7 nm de TSMC, mientras que Intel Agilex utiliza el proceso Intel de 10 nm con un rendimiento similar. No se deje engañar por la diferencia de nombres 7/10. No se deje engañar por la diferencia de nombres 7/10. Hace mucho tiempo señalamos que los equipos de marketing de la industria de los semiconductores nombran los nodos basándose en lo que suena bien para el mercado, más que en cualquier característica identificable del transistor en sí.

Según nuestras estimaciones, los procesos de 7 nm de TSMC y de 10 nm de Intel son aproximadamente equivalentes, y los fabricantes que utilizan ambos procesos son básicamente los mismos. Esto significa que el liderazgo a largo plazo de Intel en tecnología de procesos parece haber desaparecido. Sin embargo, a medida que nos acercamos al cuello de botella de la Ley de Moore, la competencia en el procesamiento del silicio es inevitable.

Los tres proveedores experimentaron mejoras modestas al avanzar a los últimos nodos de proceso de semiconductores. Pero es imposible cumplir con los estándares históricos de la Ley de Moore porque los ingresos incrementales provenientes de nuevas actualizaciones de procesos han ido disminuyendo constantemente en los últimos nodos de proceso. La llegada de la tecnología FinFET ha dado a todos un impulso temporal. Ahora que la Ley de Moore llega a su fin a nivel económico, podemos encontrar que la tendencia de rendimientos marginales decrecientes continuará.

En el pasado, a medida que se reducían los tamaños de los transistores, cada nuevo nodo de proceso aumentaba considerablemente la densidad del transistor y lograba un mejor rendimiento y un menor consumo de energía. Ahora, los proveedores deben sopesar los tres y, a menudo, obtienen poco a cambio, incluso en sus métricas preferidas. Al mismo tiempo, los costos no recurrentes de trasladarse a nuevos nodos de proceso continúan creciendo exponencialmente. Esto significa que el riesgo asumido por las empresas de FPGA aumenta dramáticamente, porque para seguir siendo competitivas, necesitan invertir continuamente para obtener ganancias cada vez menores. Esto también significa que estamos entrando en una nueva era. La arquitectura y funcionalidad de FPGA, las herramientas de FPGA y las estrategias de marketing de estas tres empresas serán los factores clave que afectarán los ingresos, en lugar de quién será el primero en utilizar la nueva tecnología de proceso.

Dado que la tecnología es literalmente un lavado, echemos un vistazo a las capacidades y características de los productos de cada proveedor. Comience con la funcionalidad FPGA más básica: la estructura LUT. A menudo nos lamentamos de que cada empresa calcule los LUT de forma diferente y que este tipo de juego se vuelva más complejo con cada generación. Xilinx y Achronix utilizan actualmente LUT de 6 entradas, mientras que ALM de Intel es básicamente una LUT de 8 entradas. Los fabricantes están más o menos de acuerdo en que podemos usar 2,2 LUT4 por LUT6 y 2,99 LUT4 por LUT8 para convertir los diferentes luts en 4 luts de entrada equivalentes.

Según el primer cálculo de este método, la serie Achronix Speedster 7T incluye LUT6 de 363K a 2,6M (equivalente a LUT4 de 800K a 5,76M), y la serie Intel Agilex incluye LUT6 de 132K a 912K ALM (equivalente a LUT4 de 395K a 2,7M). La línea de productos Versal de Xilinx contiene aproximadamente de 246.000 a 984.000 CLB (equivalente a LUT4, que se traduce en 541.000 a 2,2 millones). Cada proveedor afirma que su arquitectura es superior y enfatiza las características de diseño que mejoran la densidad lógica, el rendimiento o la enrutabilidad en algunas aplicaciones o configuraciones específicas. En este momento, no sabemos si las LUT de algún proveedor son significativamente mejores que las de otro proveedor.

Sin embargo, los recursos disponibles de la FPGA no dependen sólo del número de luts. También se deben considerar los siguientes desafíos: el porcentaje de LUT utilizados de manera efectiva (que discutiremos más adelante cuando analicemos las herramientas de diseño) y la cantidad de mejoras integradas en los módulos lógicos que permiten que la estructura LUT se implemente de una manera mínima para funcionar. en la participación en el diseño. Dependiendo de su diseño, es posible que encuentre más en uno o más FPGA, independientemente de la cantidad de luts.

La razón principal por la que FPGA es "bueno" en la inferencia de IA es que puede realizar muchas operaciones aritméticas (principalmente multiplicación y acumulación de varias precisiones) en paralelo, gracias a la gran cantidad de tejido en el Estructura lógica programable "DSP Block Array". Esto permite a los FPGA realizar operaciones matriciales como la convolución de manera más eficiente que los procesadores tradicionales con arquitectura von Neumann.

Se analizan los multiplicadores de hardware que son críticos para el razonamiento de la inteligencia artificial. Los multiplicadores de precisión variable de Achronix pueden implementar una multiplicación de 41K int-8 o una multiplicación de 82K int-4.

El Intel Agilex tiene un multiplicador de 2K-17K 18x19, y el Xilinx Versal tiene un "motor DSP" de 500-3k, muy probablemente una "sección DSP58", que incluye un multiplicador de 27x24 y nuevas capacidades de punto flotante de hardware. La comparación debe ser "manzanas con naranjas y mangos". En cuanto a qué fruta es más adecuada para su aplicación, eso lo debe "decidir el diseñador".

Ahora, los tres proveedores han mejorado el soporte para la multiplicación de punto flotante. Achronix ofrece una arquitectura completamente nueva para sus módulos DSP, a la que llaman "Procesador de aprendizaje automático" (MLP). Cada MLP contiene hasta 32 multiplicadores/acumuladores (MAC), modos enteros de 4 a 24 bits y varios modos de punto flotante, y puede admitir el formato Bfloat16 y formatos de bloque de punto flotante, incluido TensorFlow. Además de eso, Achronix MLP acopla estrechamente el módulo de memoria integrado a la unidad de cómputo para que las operaciones MAC puedan ejecutarse a 750 MHz mientras se espera que la FPGA acceda a la memoria para obtener datos.

Intel también utiliza bloques DSP de precisión variable con punto flotante de hardware (básicamente como lo que ofrecen desde hace años). El soporte de punto flotante de Intel es probablemente el más amplio y maduro de los tres. Con la ayuda de Agilex, lanzaron dos nuevos modos de punto flotante, a saber, punto flotante de media precisión (FP16) y punto flotante de bloque (Bfloat16), e hicieron ajustes estructurales para hacer sus operaciones DSP más eficientes.

Xilinx ha actualizado sus segmentos DSP48 anteriores a DSP 58, probablemente porque ahora incluyen hardware de punto flotante y sus multiplicadores se han actualizado a 27×24. Entonces, en esta generación, otros dos proveedores se han unido a Intel para ofrecer multiplicadores de hardware que admitan operaciones de punto flotante. Para Xilinx, esto es un cambio. Xilinx ha afirmado anteriormente que implementar multiplicadores de hardware de punto flotante en FPGA no es una buena idea porque las operaciones de punto flotante se usan principalmente para entrenamiento, mientras que los FPGA se usan principalmente para aplicaciones de inferencia.

En términos de formatos de punto flotante disponibles, tanto Versal (hasta 2,1K multiplicadores) como Agilex (hasta 8,7K multiplicadores) admiten el formato FP32. Las tres series admiten media precisión (FP 16): Versal admite hasta 2,1 000 multiplicadores, Agilex admite hasta 17,1 000 multiplicadores y Speedster admite hasta 5,1 000 multiplicadores. Agilex (multiplicador de hasta 17,1 K) y Speedster (multiplicador de hasta 5,1 K) admiten Bfloat16. Para la multiplicación de punto flotante en formato FP24, Versal y Agilex probablemente usarán unidades FP32, mientras que el Speedster tiene multiplicadores de hasta 2,6K. Achronix Speedster también admite multiplicadores de punto flotante en bloque de hasta 81,9k.

Xilinx también trae un nuevo procesador vectorial programable por software: una matriz de hasta 400 núcleos de procesamiento vectorial LIW-SIMD V de 1 GHz con potencia informática mejorada y memoria estrechamente acoplada. Esto proporciona un modelo de programación más simple para paralelizar operaciones vectoriales complejas y aprovechar los ricos recursos informáticos de los FPGA. En términos generales, elija "GPU/motor de inferencia" en lugar de la estrategia competitiva de "fregadero de cocina" de Xilinx. Discutiremos esto en detalle más adelante.

La respuesta de Intel a los procesadores vectoriales Achronix MLP y Xilinx es una evolución de la vieja escuela. Señalaron que los módulos DSP de Agilex ya implementan la misma funcionalidad que las nuevas funciones DSP de otros proveedores. Podemos utilizar flujos de diseño y desarrollo de FPGA establecidos y completamente comprendidos y no requerimos que los clientes divida sus diseños en dispositivos de varias arquitecturas. Es bueno que su equipo tenga experiencia en diseño FPGA/RTL. Pero si su aplicación requiere que ingenieros de software desarrollen el DSP, el enfoque programable por software de Xilinx puede tener una ventaja.

Además de calcular simplemente los multiplicadores, podemos comparar estas capacidades observando las declaraciones de los proveedores sobre el rendimiento teórico. Sin embargo, cabe señalar que estas afirmaciones son muy exageradas y difíciles de definir con precisión. Los proveedores generalmente obtienen un número multiplicando el número de multiplicadores en el chip por la frecuencia operativa máxima de esos multiplicadores, y obtienen un número de "como máximo XX TOPS o TFLOPS". Obviamente, los diseños del mundo real no utilizarán 100 multiplicadores, ningún diseño puede alcanzar la velocidad de reloj teórica máxima de estos multiplicadores y ningún diseño puede alimentar continuamente a estos multiplicadores con datos de entrada a una velocidad adecuada, y la precisión de estas operaciones de multiplicación varía según los proveedores. .

Si tuviéramos que estimar, podemos decir que FPGA puede alcanzar entre el 50 y el 90 de su máximo teórico en diseños reales. Esto es mejor que las GPU, que se cree que sólo alcanzan entre 10 y 20 de su máximo teórico en el mundo real.

Al estimar el número de TOPS para operaciones INT8, si incluimos 133 TOPS en su procesador vectorial, Xilinx Versal ocupa el primer lugar con aproximadamente 171 TOPS. 12 provienen de su módulo DSP y 26 provienen de su estructura lógica. El siguiente es Speedster con alrededor de 86 TOPS, 61 de los cuales provienen de su módulo MLP y 25 de su estructura lógica. El número máximo de operaciones ágiles de xint8 es 92 TOPS, de las cuales 51 son del módulo DSP y 41 del fabric lógico. Basado en TFLOPS en formato Bfloat16, Agilex lidera con 40 puntos, seguido de Versal con 9 puntos y Speedster con 8 puntos. El Speedster logra una gran ventaja en operaciones de punto flotante en bloque, pero tiene 123 TFLOPS, seguido por los 41 de Agilex y los 15 de Versal.

Estos números proceden de las propias fichas técnicas de la empresa. Como comentábamos, son máximos teóricos que no son posibles de alcanzar en aplicaciones prácticas. Las afirmaciones de "disponibilidad" de Achronix tienen cierto mérito, ya que su MLP es un diseño único diseñado para mantener operaciones de multiplicación de precisión variable dentro del propio módulo y ejecutarse a la máxima frecuencia de reloj, sin la necesidad de que los datos se envíen de ida y vuelta a estructuras lógicas para completarse. Las operaciones más comunes en el razonamiento de la inteligencia artificial. Asimismo, la arquitectura del procesador vectorial de Xilinx debería mantener el flujo fluido de datos a través de las unidades aritméticas. En otras palabras, no hemos visto ningún punto de referencia o diseño de referencia que demuestre las afirmaciones de estas empresas de manera significativa.

Por supuesto, para utilizar todos estos luts y multiplicadores, debes hacer que tu diseño sea práctico de colocar y enrutar y cumplir con los requisitos de sincronización del chip que elijas. A medida que los FPGA han evolucionado, esto se ha convertido en un desafío cada vez más difícil. Las rutas lógicas y de red de un solo bit se distribuyen en un chip enorme con recursos de enrutamiento limitados, lo que hace que el cierre de tiempo tradicional se convierta gradualmente en una pesadilla. Las técnicas tradicionales para lograr el cierre temporal en diseños sincrónicos se han topado con un obstáculo y no pueden escalar. Tanto Xilinx como Achronix han resuelto este problema en sus FPGA de nueva generación agregando una red en chip (NoC) que superpone la lógica tradicional y las estructuras de enrutamiento. Los NoC son esencialmente un punto de inflexión porque ya no es necesario unir todo el chip en una fusión mágica gigante para lograr el cierre del tiempo. Ahora, bloques de sincronización más pequeños pueden transmitir datos a través del NoC, lo que alivia la carga de las estructuras de enrutamiento tradicionales y divide los problemas que las enormes herramientas de automatización de diseño necesitan resolver en problemas más pequeños y manejables.

Hace algunas generaciones, Intel adoptó otro enfoque para resolver este problema: utilizó una gran cantidad de microregistros llamados "registros ultraflexibles" para suavizar toda la estructura lógica. Estos registros permiten volver a cronometrar y canalizar rutas lógicas más largas y complejas, por lo que todo el diseño es esencialmente asíncrono. Curiosamente, este es también el efecto del NoC utilizado por Xilinx y Achronix. Cada enfoque tiene sus desafíos, ya que ambos métodos añaden mucha complejidad al diseño del chip y a las herramientas de diseño que utilizamos.

En el caso de Intel, los registros HyperFlex también tienen algún impacto negativo en la velocidad general que puede alcanzar la estructura lógica. Intel dijo que la arquitectura HyperFlex en Agilex FPGA es una arquitectura de segunda generación que se ha mejorado y mejorado en comparación con la arquitectura HyperFlex de la generación anterior para mejorar el rendimiento y simplificar el cierre de tiempo. A medida que Agilex avance, tendremos que esperar y ver cómo reaccionan los usuarios.

De los dos proveedores que utilizan NoC para enrutamiento, Xilinx y Achronix, Achronix afirma haber logrado el NoC más rápido con su implementación AXI de chip cruzado bidimensional. En este NoC, cada fila o columna está implementada como dos canales AXI unidireccionales de 256 bits que operan a 2 GHz, es decir, puede soportar 512 Gbps de tráfico de datos en cada dirección. El NoC*** de Speedster tiene 197 nodos, lo que da como resultado un ancho de banda total de 27 Tbps, lo que alivia la carga de recursos del enrutamiento tradicional bit a bit en FPGA. Hasta donde sabemos, el rendimiento Versal NoC de Xilinx aún no se ha publicado, pero con aproximadamente 28 nodos, suponemos que el ancho de banda total es de aproximadamente 1,5 Tbps

Bueno, ya no tenemos tinta para esto. semana, pero la próxima semana continuaremos: eche un vistazo a las fascinantes y flexibles arquitecturas de memoria que estas familias de FPGA aportan, las capacidades únicas de empaquetado y personalización de cada familia, las locas capacidades de SerDes IO, los subsistemas de procesamiento integrados y la herramienta de diseño. flujos y más.

*Haga clic en el final del texto para leer el texto original para leer el texto original en inglés.

Hoy es el número 2125 del Semiconductor Industry Observer. Bienvenido a prestar atención.

Observación de la industria de semiconductores

"El primer medio vertical de semiconductores"

Identifique el código QR, responda a las palabras clave a continuación y lea más.

AI |Oblea|TSMC|RF|Huawei|Circuito integrado| |Auriculares TWS|Xiaomi

Responda al envío y lea cómo convertirse en miembro de "Semiconductor Industry Watch"

Responde a la búsqueda y podrás encontrar fácilmente otros artículos que te interesen.

Original en inglés

!