Búsqueda de sitios web

¿Podría la IA convertirte en multimillonario en 2025?


NVIDIA acaba de anunciar Hopper, una nueva arquitectura de GPU que promete importantes mejoras de rendimiento para cargas de trabajo de IA. Miramos debajo del capó para descifrar si el énfasis en los modelos Transformer AI se traduce en un rediseño radical y observamos las actualizaciones en la pila de software.

NVIDIA lo hizo de nuevo, pero esta vez con un giro: pareció tomar prestada una página del libro de jugadas de la competencia. En NVIDIA GTC, que se ha convertido en uno de los eventos más importantes de la industria de la IA, la compañía anunció la última versión de su arquitectura y productos de hardware. A continuación se muestra un desglose de los anuncios y lo que significan para el ecosistema en general.

Hopper: la nueva arquitectura GPU de NVIDIA

GTC, que comenzó el lunes y se extenderá hasta el jueves, presenta más de 900 sesiones. Más de 200.000 desarrolladores, investigadores y científicos de datos de más de 50 países se han registrado para el evento. En su discurso inaugural de GTC 2022, el fundador y director ejecutivo de NVIDIA, Jensen Huang, anunció una gran cantidad de novedades en centros de datos y computación de alto rendimiento, inteligencia artificial, colaboración en diseño y gemelos digitales, redes, automoción, robótica y atención médica.

El planteamiento de Huang fue que "las empresas están procesando, refinando sus datos, creando software de IA... convirtiéndose en fabricantes de inteligencia". Si el objetivo es transformar los centros de datos en 'fábricas de IA', como dice NVIDIA, entonces tiene sentido colocar a los Transformers en el centro de esto.

La página central de los anuncios ha sido la nueva arquitectura Hopper GPU, que NVIDIA denomina "la próxima generación de informática acelerada". La nueva arquitectura, que lleva el nombre de Grace Hopper, una científica informática pionera de EE. UU., sucede a la arquitectura NVIDIA Ampere, lanzada hace dos años. La compañía también anunció su primera GPU basada en Hopper, la NVIDIA H100.

NVIDIA afirma que Hopper aporta un salto de rendimiento de un orden de magnitud con respecto a su predecesor, y esta hazaña se basa en seis innovaciones revolucionarias. Repasémoslos y tomemos notas rápidas de cómo se comparan con la competencia.

Primero, la fabricación. Construido con 80 mil millones de transistores utilizando un proceso TSMC 4N de vanguardia diseñado para las necesidades informáticas aceleradas de NVIDIA, H100 presenta importantes avances para acelerar la IA, HPC, el ancho de banda de la memoria, la interconexión y la comunicación, incluidos casi 5 terabytes por segundo de conectividad externa. A nivel de fabricación, empresas emergentes como Cerebras o Graphcore también han superado los límites de lo posible.

La GPU NVIDIA H100, la primera en utilizar la nueva arquitectura Hopper

En segundo lugar, GPU de instancias múltiples (MIG). La tecnología MIG permite dividir una única GPU en siete instancias más pequeñas y completamente aisladas para manejar diferentes tipos de trabajos. La arquitectura Hopper amplía las capacidades MIG hasta 7 veces con respecto a la generación anterior al ofrecer configuraciones multiinquilino seguras en entornos de nube en cada instancia de GPU. Run:AI, un socio de NVIDIA, ofrece algo similar como capa de software, llamado uso compartido fraccional de GPU.

En tercer lugar, la informática confidencial. NVIDIA afirma que H100 es el primer acelerador del mundo con capacidades informáticas confidenciales para proteger los modelos de IA y los datos de los clientes mientras se procesan. Los clientes también pueden aplicar la informática confidencial al aprendizaje federado para industrias sensibles a la privacidad, como la atención médica y los servicios financieros, así como en infraestructuras de nube compartidas. Esta no es una característica que hayamos visto en otros lugares.

Cuarto, NVIDIA NVLink de cuarta generación. Para acelerar los modelos de IA más grandes, NVLink se combina con un nuevo conmutador NVLink externo para extender NVLink como una red escalable más allá del servidor, conectando hasta 256 GPU H100 con un ancho de banda 9 veces mayor en comparación con la generación anterior utilizando NVIDIA HDR Quantum InfiniBand. Nuevamente, esto es específico de NVIDIA, aunque los competidores a menudo también aprovechan su propia infraestructura especializada para conectar su hardware.

Quinto, instrucciones DPX para acelerar la programación dinámica. La programación dinámica es tanto un método de optimización matemática como un método de programación informática, desarrollado originalmente en la década de 1950. En términos de optimización matemática, la programación dinámica generalmente se refiere a simplificar una decisión dividiéndola en una secuencia de pasos de decisión a lo largo del tiempo. La programación dinámica es principalmente una optimización sobre la simple recursividad.

NVIDIA señala que la programación dinámica se utiliza en una amplia gama de algoritmos, incluida la optimización de rutas y la genómica, y puede acelerar la ejecución hasta 40 veces en comparación con las CPU y hasta 7 veces en comparación con las GPU de la generación anterior. No conocemos un equivalente directo en la competencia, aunque muchos nuevos chips de IA también aprovechan el paralelismo.

La sexta innovación es la que consideramos más importante: un nuevo motor Transformer. Como señala NVIDIA, los transformadores son el modelo estándar elegido para el procesamiento del lenguaje natural y uno de los modelos de aprendizaje profundo más importantes jamás inventados. El Transformer Engine del acelerador H100 está diseñado para acelerar estas redes hasta 6 veces en comparación con la generación anterior sin perder precisión. Esto merece un análisis más profundo.

El motor Transformer en el corazón de Hopper

Al mirar el titular del nuevo motor transformador en el corazón del H100 de NVIDIA, recordamos los comentarios del arquitecto de Intel Raja M. Koduri a Tiernan Ray de ZDNet. Koduri señaló que la aceleración de las multiplicaciones de matrices es ahora una medida esencial del rendimiento y la eficiencia de los chips, lo que significa que cada chip será un procesador de red neuronal.

Koduri acertó, por supuesto. Además de los propios esfuerzos de Intel, esto es lo que ha impulsado una nueva generación de diseños de chips de IA a partir de una serie de empresas emergentes. Ver a NVIDIA referirse a un motor transformador nos hizo preguntarnos si la compañía realizó un rediseño radical de sus GPU. Después de todo, las GPU no se diseñaron originalmente para cargas de trabajo de IA, simplemente resultaron ser buenas en ellas y NVIDIA tuvo la visión y la perspicacia para construir un ecosistema a su alrededor.

Sin embargo, al profundizar en el propio análisis de NVIDIA de la arquitectura Hopper, la noción de un rediseño radical parece disiparse. Si bien Hopper presenta un nuevo multiprocesador (SM) de transmisión con muchas mejoras de rendimiento y eficiencia, eso es todo. Esto no es sorprendente, dado el gran peso del ecosistema construido alrededor de las GPU de NVIDIA y las actualizaciones masivas y posibles incompatibilidades que implicaría un rediseño radical.

Al analizar las mejoras en Hopper, la memoria parece ser una gran parte. Como dijo a ZDNet el gerente de producto de Facebook para PyTorch, la popular biblioteca de capacitación en aprendizaje automático: "Los modelos son cada vez más grandes, son realmente grandes y muy costosos de entrenar". Hoy en día, los modelos más grandes a menudo no se pueden almacenar por completo en los circuitos de memoria que acompañan a una GPU. Hopper viene con una memoria que es más rápida, más grande y compartida entre SM.

Otro impulso proviene de los nuevos núcleos tensores de cuarta generación de NVIDIA, que son hasta 6 veces más rápidos entre chips en comparación con el A100. Los núcleos tensoriales son precisamente los que se utilizan para las multiplicaciones de matrices. En H100, se utiliza un nuevo tipo de datos FP8, lo que da como resultado un cálculo 4 veces más rápido en comparación con las opciones de punto flotante de 16 bits de la generación anterior. En tipos de datos equivalentes, todavía hay una aceleración del doble.

H100 compute improvement summary

En cuanto al llamado "nuevo motor transformador", resulta que este es el término que utiliza NVIDIA para referirse a "una combinación de software y tecnología personalizada NVIDIA Hopper Tensor Core diseñada específicamente para acelerar el entrenamiento y la inferencia del modelo transformador".

NVIDIA señala que el motor transformador gestiona de forma inteligente y elige dinámicamente entre FP8 y cálculos de 16 bits, manejando automáticamente la refundición y el escalado entre FP8 y 16 bits en cada capa para ofrecer un entrenamiento de IA hasta 9 veces más rápido y una inferencia de IA hasta 30 veces más rápida. Aceleraciones en modelos de lenguaje grande en comparación con la generación anterior A100.

Entonces, si bien este no es un rediseño radical, la combinación de mejoras de rendimiento y eficiencia da como resultado una aceleración 6 veces mayor en comparación con Ampere, como detalla el blog técnico de NVIDIA. El enfoque de NVIDIA en mejorar el rendimiento de los modelos de transformadores no está en absoluto fuera de lugar.

Los modelos de transformadores son la columna vertebral de los modelos de lenguaje que se utilizan ampliamente en la actualidad, como BERT y GPT-3. Inicialmente desarrollados para casos de uso de procesamiento de lenguaje natural, su versatilidad se aplica cada vez más a la visión por computadora, el descubrimiento de fármacos y más, como hemos estado documentando en nuestra cobertura sobre el estado de la IA. Según una métrica compartida por NVIDIA, el 70% de las investigaciones publicadas en IA en los últimos 2 años se basan en transformadores.

El lado del software: buenas noticias para los usuarios de Apache Spark

Pero ¿qué pasa con el lado del software? En anuncios anteriores de GTC, las actualizaciones de la pila de software fueron una parte clave de la noticia. En este caso, si bien las heurísticas optimizadas por NVIDIA que eligen dinámicamente entre los cálculos FP8 y FP16 son una parte clave del nuevo motor transformador internamente, las actualizaciones de la pila de software externa parecen menos importantes en comparación.

El servidor de inferencia Triton de NVIDIA y el marco NeMo Megatron para entrenar modelos de lenguaje grandes están recibiendo actualizaciones. También lo son Riva, Merlin y Maxin, un SDK de IA de voz que incluye modelos previamente entrenados, un marco de IA de recomendación de extremo a extremo y un SDK de mejora de la calidad de audio y video, respectivamente. Como destacó NVIDIA, estos son utilizados por empresas como AT&T, Microsoft y Snapchat.

También hay 60 actualizaciones de SDK para las bibliotecas CUDA-X de NVIDIA. NVIDIA optó por destacar áreas emergentes como la aceleración de la simulación de circuitos cuánticos (disponibilidad general de cuQuantum) y la investigación de la capa física 6G (disponibilidad general de Sionna). Sin embargo, para la mayoría de los usuarios, la buena noticia probablemente esté en la actualización del Acelerador RAPIDS para Apache Spark, que acelera el procesamiento más de 3 veces sin cambios de código.

Si bien esto no fue exactamente destacado en los anuncios de NVIDIA, creemos que debería serlo. Una aceleración 3x de la noche a la mañana sin cambios de código para los usuarios de Apache Spark, con el 80 por ciento de las empresas Fortune 500 usando Apache Spark en producción, no es una noticia menor. Tampoco es la primera vez que NVIDIA muestra amor a los usuarios de Apache Spark.

En general, NVIDIA parece mantener su impulso. Si bien la competencia es feroz, con la ventaja que NVIDIA ha logrado crear, es posible que no sean necesarios rediseños radicales.

Artículos relacionados