¿Qué es exactamente un PC con IA? ¿Y deberías comprar uno en 2025?
Google dijo que entrenar modelos grandes es un "gran enfoque" para la compañía y debería recibir más atención en los resultados de referencia.
Un centro de datos de Google con racks de sus chips aceleradores TPU versión 4 para procesar el aprendizaje automático. Google utilizó un grupo de 2.048 TPU para entrenar su versión más grande de su programa de lenguaje natural BERT, que consta de 481 mil millones de parámetros, en 19 horas, como una presentación a la competencia de referencia MLPerf.
El mundo del aprendizaje profundo de la inteligencia artificial está obsesionado con el tamaño.
Los programas de aprendizaje profundo, como GPT-3 de OpenAI, continúan usando cada vez más chips de GPU de Nvidia y AMD, o nuevos tipos de chips aceleradores, para crear programas de software cada vez más grandes. La precisión de los programas aumenta con el tamaño, sostienen los investigadores.
Esa obsesión con el tamaño se mostró el miércoles en los últimos resultados de referencia de la industria reportados por MLCommons, que establece el estándar para medir la rapidez con la que los chips de computadora pueden procesar el código de aprendizaje profundo.
Google decidió no someterse a ninguna prueba de referencia estándar de aprendizaje profundo, que consiste en programas que están bien establecidos en el campo pero relativamente desactualizados. En su lugar, los ingenieros de Google mostraron una versión del programa de lenguaje natural BERT de Google, que ningún otro proveedor utilizó.
MLPerf, el conjunto de referencia utilizado para medir el rendimiento en la competencia, informa resultados para dos segmentos: la división estándar "Cerrada", donde la mayoría de los proveedores compiten en redes bien establecidas como ResNet-50; y la división "Abierta", que permite a los proveedores probar enfoques no estándar.
Fue en la división Open donde Google mostró una computadora que usaba 2.048 de los chips TPU de Google, versión 4. Esa máquina fue capaz de desarrollar el programa BERT en unas 19 horas.
El programa BERT, una red neuronal con 481.000 millones de parámetros, no había sido revelado previamente. Es más de tres órdenes de magnitud más grande que la versión estándar de BERT en circulación, conocida como "BERT Large", que tiene solo 340 millones de parámetros. Tener muchos más parámetros suele requerir mucha más potencia de cálculo.
Google dijo que la presentación de la novela refleja la creciente importancia de la escala en la IA.
Google presentó la nueva versión de su programa de lenguaje BERT en la división "Open" de MLPerf. Graphcore y Samsung fueron los otros dos proveedores que participaron en esta división.
"Nuestra idea esta vez es que siempre hemos querido asegurarnos de que nuestras presentaciones a MLPerf estén bien alineadas con nuestras necesidades internas y las necesidades de la industria de ML", dijo Aarush Selvan, quien supervisa la infraestructura de aprendizaje automático de Google, en una conferencia de prensa.
"Y así, entrenar modelos grandes, modelos del orden de decenas o cientos de miles de millones de parámetros, e incluso un billón de parámetros y más, es cada vez más importante tanto dentro de Google, que es un gran conjunto de enfoques para nuestra investigación y nuestra producción, como para nuestros clientes de la nube".
El conjunto de pruebas MLPerf es la creación de MLCommons, un consorcio de la industria que emite múltiples evaluaciones anuales de referencia de computadoras para las dos partes del aprendizaje automático: el llamado entrenamiento, donde se construye una red neuronal refinando su configuración en múltiples experimentos; y la llamada inferencia, en la que la red neuronal terminada hace predicciones a medida que recibe nuevos datos.
El informe del miércoles es la última prueba de referencia para la fase de entrenamiento. Es la continuación del informe anterior de junio.
Los resultados completos de MLPerf se discutieron en un comunicado de prensa en el sitio web de MLCommons. Los datos completos sobre las presentaciones se pueden ver en las tablas publicadas en el sitio.
Selvan, de Google, dijo que MLCommons debería considerar incluir más modelos grandes. Las redes más antiguas y pequeñas, como ResNet-50, "solo nos dan un proxy" para el rendimiento del entrenamiento a gran escala, dijo.
"Lanzar 4.000 fichas para entrenar BERT en solo unos segundos es realmente genial", observó Selvan, refiriéndose a la versión más pequeña de BERT en la que se centran la mayoría de los proveedores en la división cerrada.
"Y muestra algunos aspectos de la escalabilidad, pero en realidad es solo un proxy, porque en la vida real, nunca se usan tantos chips para entrenar un modelo tan pequeño".
"Lanzar 4.000 fichas para entrenar BERT en solo unos segundos es realmente genial", observó Selvan, refiriéndose a la versión más pequeña de BERT en la que se centran la mayoría de los proveedores en la división cerrada. "Y muestra algunos aspectos de la escalabilidad, pero en realidad es solo un proxy, porque en la vida real, nunca se usan tantos chips para entrenar un modelo tan pequeño".
El componente que falta, dijo Selvan, es la llamada eficiencia de los sistemas a medida que se hacen más grandes. Google fue capaz de ejecutar su gigantesco modelo BERT con una eficiencia del 63%, según dijo a ZDNet, medido por el número de operaciones de coma flotante por segundo realizadas en relación con una capacidad teórica. Eso, dijo, fue mejor que el siguiente resultado más alto de la industria, 52%, logrado por Nvidia en el desarrollo de su modelo de lenguaje Megatron-Turing desarrollado con Microsoft.
"En el futuro, creemos que sería realmente increíble tener algún tipo de referencia de modelo grande dentro de la competencia MLPerf", dijo Selvan.
David Kanter, director ejecutivo de MLCommons, dijo que la decisión de tener modelos grandes debería dejarse a los miembros de la Cámara de los Comunes para que decidan colectivamente. Señaló, sin embargo, que el uso de pequeñas redes neuronales como pruebas hace que la competencia sea accesible para más partes.
"El objetivo de un índice de referencia es ser justo y representativo, pero también no llevar a la bancarrota a nadie que lo administre", dijo Kanter.
"En teoría, podríamos hacer del entrenamiento GPT-3 un punto de referencia de MLPerf ", agregó Kanter, refiriéndose al modelo de lenguaje de 175.000 millones de parámetros presentado por OpenAI el año pasado como un modelo de lenguaje natural de última generación.
"El objetivo de un índice de referencia es ser justo y representativo, pero también no llevar a la bancarrota a nadie que lo administre", dijo Kanter, presidente de MLCommons. "En teoría, podríamos hacer que el entrenamiento de GPT-3 sea un punto de referencia de MLPerf ... El desafío es que el entrenamiento de GPT-3 es bastante costoso desde el punto de vista computacional. Son decenas de millones de dólares".
"El desafío es que entrenar GPT-3 es bastante costoso desde el punto de vista computacional. Son decenas de millones de dólares".
Por el contrario, las pruebas estándar de MLPerf, cuyo código está disponible para todos, son un recurso que cualquier investigador de IA puede tomar para replicar las pruebas, sin tener enfoques exóticos para calcular, dijo Kanter.
"De esa manera, produce estos artefactos de ingeniería muy valiosos para toda la comunidad y ayuda a impulsar la industria".
Google no tiene planes de publicar sobre el nuevo modelo BERT, dijo Selvan a ZDNet en un correo electrónico, describiéndolo como "algo que hicimos solo para MLPerf". El programa es similar a los diseños descritos en una investigación de Google a principios de este año sobre redes neuronales altamente paralelizadas, dijo Selvan.
A pesar de la novedad del programa BERT de 481.000 millones de parámetros, es representativo de las tareas del mundo real porque se basa en el código del mundo real.
"Creemos que estos puntos de referencia que presentamos, porque aprovechan una arquitectura Transformer apilada, son bastante realistas en términos de sus características de cómputo con los grandes modelos de lenguaje existentes que se han publicado", dijo Selvan a ZDNet.
Al igual que las presentaciones más pequeñas en MLPerf, el modelo BERT gigante fue entrenado para producir resultados con cierta precisión, explica Selvan. En este caso, un 75% de precisión en las predicciones, por encima del 72,2% exigido por MLPerf.
Una vez más, los chips de Nvidia se llevaron la mayor parte de las puntuaciones más altas para entrenar redes neuronales, esta vez con la ayuda de Microsoft Azure.
El programa de Google también se basó en menos muestras de datos de texto para alcanzar la misma precisión que los resultados de la división cerrada de otros proveedores. La división cerrada requiere un programa para entrenar con casi quinientos millones de secuencias de tokens, en su mayoría de una longitud de 128 tokens por secuencia. El programa de Google se entrenó usando solo alrededor de 20 millones de tokens, pero con una longitud de 512 tokens por secuencia. El trabajo se discute con más detalle en una publicación de blog de Google.
El sistema de 2.048 TPU que Google utilizó para hacer el trabajo está actualmente disponible como un servicio de Google Cloud.
El resto de los resultados de MLPerf, principalmente en la división Closed, muestran que Nvidia y otros proveedores continúan progresando en la reducción del tiempo que se tarda en entrenar las versiones estándar de ResNet, BERT y otras tareas.
Nvidia, como siempre, se llevó la mayor parte de los mejores resultados. Por ejemplo, las computadoras que usan su última generación de GPU, la A100, ocuparon los cuatro primeros lugares por el tiempo más rápido para entrenar ResNet-50, siendo el más rápido de solo 21 segundos. Eso fue con 4.320 A100 operando en paralelo, con la ayuda de 1.080 procesadores EPYC x86 de AMD. El resultado fue una mejora con respecto a los 24 segundos que Nvidia anotó en el informe de junio.
Sin embargo, cuando los sistemas utilizaron menos chips Nvidia y menos procesadores host, los competidores pudieron obtener una puntuación más alta que Nvidia. Habana Labs de Intel ocupó el quinto lugar en ResNet-50 con 256 de los chips aceleradores Gaudi de Habana supervisados por 128 Intel Xeons.
Graphcore argumentó que puede ofrecer mejores resultados a un costo mucho menor que los sistemas de Nvidia, y una mayor parte del ahorro es que se necesitan menos procesadores de host de Intel o AMD para un número equivalente de aceleradores de IA.
Y Graphcore, la startup con sede en Bristol, Reino Unido, que mostró la mejor puntuación en el informe de junio para un sistema de dos procesadores en el entrenamiento BERT, ocupó el sexto lugar en ResNet-50 con una nueva versión de su computadora IPU-POD que utiliza 256 de sus chips aceleradores IPU y 32 procesadores host AMD EPYC.
Los resultados de Habana y Graphcore ResNet-50 fueron de 3,4 minutos y 3,8 minutos, respectivamente. Eso se compara con los 4,5 minutos requeridos por la entrada en séptimo lugar de Nvidia, un sistema A100 de 64 vías con 16 procesadores EPYC.
Al igual que en el informe de junio, la primera vez que Graphcore participó, la compañía enfatizó la importancia de lograr un equilibrio entre el rendimiento y el costo de los sistemas en general. La compañía citó el tiempo de entrenamiento ResNet-50 de 28 minutos en su sistema de 16 vías, un minuto más rápido que un sistema DGXA100 comparable de Nvidia que cuesta sustancialmente más, dijo.
"Nuestro POD-16 supera a un DGXA100... y es la mitad del precio de lista del DGXA100", dijo Dave Lacey, arquitecto jefe de software de Graphcore, en una conferencia de prensa.
Gran parte de la ventaja de costo proviene de tener una proporción más pequeña de procesadores host Intel o AMD x86 en relación con los chips IPU, dijo Graphcore.
Graphcore ocupó el sexto lugar detrás de los chips de Nvidia en cuanto a puntuaciones máximas entrenando el modelo BERT estándar, con casi 7 minutos frente a los 3 minutos del sistema Nvidia en quinto lugar. Sin embargo, el sistema Graphcore utilizó sólo 4 procesadores AMD EPYC frente a los 16 del sistema basado en Nvidia.
"El precio del procesador host es una parte significativa del costo de un sistema", dijo Lacey. "Como cualquier recurso caro, solo usas lo que necesitas".
Graphcore argumenta que su baja proporción entre el procesador host (Intel o AMD x86) y el chip acelerador es un modelo más eficiente de procesamiento de IA que conduce a ahorros de costos sustanciales.
Cuando se le preguntó sobre el punto de Google con respecto a las tareas de redes neuronales grandes, Lacey dijo que los principales resultados de MLPerf sirven bien como un proxy para las tareas del mundo real.
Más allá de los logros individuales de los proveedores, el punto de referencia MLPerf demuestra el logro total de la industria de chips en la aceleración del rendimiento en las redes neuronales, dijo el presidente de MLCommons, Kanter.
"Si nos fijamos en la trayectoria de los mejores resultados en el entrenamiento de MLPerf a lo largo del tiempo, se puede ver que es dramáticamente más rápido que la Ley de Moore", dijo Kanter, refiriéndose a la regla general de los semiconductores durante muchas décadas de que la densidad de los transistores se duplica aproximadamente cada 18 meses, lo que lleva a duplicar el rendimiento.
"A través de optimizaciones en la arquitectura, en el tamaño del sistema, en el software, en la partición de modelos", dijo Kanter, los proveedores están logrando acelerar el rendimiento de la red neuronal hasta 11 veces más rápido que la trayectoria histórica de la Ley de Moore.
El conjunto de referencias continúa ganando apoyo de los proveedores, con más participantes y más presentaciones. Los resultados reportados para todos los puntos de referencia en conjunto totalizaron 175, frente a los 144 del informe de junio.
En esta ocasión, nuevos proveedores se unieron a la competencia. Samsung Electronics, por ejemplo, presentó los resultados de su supercomputadora utilizando 256 chips AMD y 1.024 Nvidia A100. Ese sistema, con la ayuda de algunos ajustes de software no estándar, tuvo la segunda puntuación más rápida de todos los sistemas para entrenar la versión normal de BERT, solo 25 segundos.
También un recién llegado esta vez fueel servicio en la nube Azure de Microsoft, que reportó los resultados de 19 presentaciones utilizando procesadores AMD y Nvidia A100 en varias configuraciones. Azure ganó dos de los cinco primeros puestos en siete de las ocho pruebas comparativas.
Y un sistema Azure obtuvo la puntuación más alta para entrenar un modelo de segmentación de imágenes con datos médicos (el desafío KiTS19), utilizando 192 procesadores AMD EPYC y 768 A100.
"Queremos democratizar la supercomputación", dijo Nidhi Chappell, jefe de computación de alto rendimiento e IA en Azure, a ZDNet.
Dijo que hacer que los sistemas disponibles comercialmente, como el sistema AI100 de 768 vías, estén en la nube ha "reunido lo mejor de HPC e IA, en lugar de tomar una nube básica que sirve para todas las cargas de trabajo".
"El entrenamiento de IA es un problema de HPC, y nuestra experiencia en HPC nos ha ayudado a construir IA a escala", dijo. "Queremos construir una infraestructura que esté optimizada para la gran escala", lo que incluye sistemas que tienen hasta 80.000 núcleos.
Microsoft muestra que su servicio en la nube Azure está "democratizando la computación de alto rendimiento" con su primera presentación de capacitación MLPerf, realizada en cooperación con Nvidia.
Una razón importante para participar en MLPerf, dijo Chappell, fue demostrar que un trabajo a gran escala puede funcionar tan bien en un entorno en la nube como en las instalaciones.
"Lo que hemos demostrado es que hemos sido capaces de enmascarar la sobrecarga de la virtualización en la nube; Esa sobrecarga es prácticamente remota en la nube", por lo que no reduce el rendimiento, dijo.
Cuando se le preguntó sobre los modelos grandes frente a las tareas estándar de MLPerf, Chappell dijo que "es solo cuestión de tiempo" antes de que Azure presente algunos trabajos no estándar a gran escala similares a lo que Google ha hecho en la división Open.
"Sucederá".
Al mismo tiempo, las pruebas MLPerf estándar en la división cerrada son útiles, dijo, porque "muestran qué tan rápido está evolucionando la IA; Es un proceso constante de optimización".
El colaborador de Chappell en Nvidia, Shar Narasimhan, gerente senior de productos del grupo de Nvidia para sus productos de centros de datos, dijo en la misma sesión informativa que las pruebas estándar de MLPerf tienen la virtud de ser como una pista uniforme donde muchos atletas compiten en un campo nivelado.
"Sirve como una oportunidad para que todos corran exactamente la misma carrera y comparen los resultados cara a cara", dijo Narasimhan. "Cuando miramos los resultados olímpicos, hemos tenido exactamente la misma pista durante más de un siglo, y eso te permite comparar la carrera que se corrió hace 100 años con los resultados de [el velocista jamaicano] Usain Bolt".
Por supuesto, con el modelo de PNL más grande publicado en el mundo, Megatron-Turing, parecería que Nvidia y Azure podrían ofrecer una presentación novedosa de modelos grandes como lo hizo Google.
"No podemos comparar esos modelos con nadie más", explicó Narasimhan, por lo que es difícil hacer que ese trabajo sea útil en el contexto de MLPerf. Nvidia no se ha comprometido con ninguna presentación futura de modelos grandes.
En términos de lo que es importante para la industria, dijo Narasimhan, es que muchas empresas quieren usar la IA para propósitos enfocados, "no para un modelo de lenguaje gigante que necesita 4.000 chips para funcionar". Los puntos de referencia más pequeños se pueden usar para anticipar las cargas de trabajo y el rendimiento, dijo.
Selvan, de Google, dijo que Google tiene la intención de continuar presentando a los puntos de referencia de la división cerrada de MLPerf en el futuro.
"Veremos a todos de vuelta en la división cerrada el próximo año, con suerte, no podemos prometerlo, pero planeamos estar allí", dijo.