Búsqueda de sitios web

En la última prueba de referencia de IA, es principalmente Nvidia la que compite contra Nvidia


Por primera vez desde que comenzó la prueba de referencia MLPerf de entrenamiento de IA en 2018, Nvidia prácticamente no tenía competencia con sus chips dominantes.

A falta de una gran competencia, algunos de los resultados más significativos de Nvidia en el último MLPerf fueron en contra de ella misma, comparando su GPU más nueva, la H100 "Hopper", con su producto existente, la A100.

Aunque el gigante de los chips Nvidia tiende a proyectar una larga sombra sobre el mundo de la inteligencia artificial, su capacidad para simplemente expulsar a la competencia del mercado puede estar aumentando, si los últimos resultados de las pruebas de referencia son una indicación.

Google no respondió a una solicitud de comentarios de ZDNET sobre por qué no participó esta vez.

En un correo electrónico, Graphcore le dijo a ZDNET que la compañía había decidido que, por el momento, podría tener mejores lugares para dedicar el tiempo de sus ingenieros que las semanas o meses que se necesitan para preparar las presentaciones para MLPerf.

"Surgió el problema de los rendimientos decrecientes", dijo el jefe de comunicaciones de Graphcore, Iain Mackenzie, a ZDNET por correo electrónico, "en el sentido de que habrá un inevitable salto ad infinitum, más segundos afeitados, configuraciones de sistema cada vez más grandes propuestas".

Graphcore "puede participar en futuras rondas de MLPerf, pero en este momento no refleja las áreas de IA donde estamos viendo un progreso más emocionante", dijo Mackenzie a ZDNET. Las tareas de MLPerf son simplemente "apuestas de mesa".

En cambio, dijo, "realmente queremos enfocar nuestras energías" en "desbloquear nuevas capacidades para los profesionales de la IA". Con ese fin, "se puede esperar ver un progreso emocionante pronto" de Graphcore, dijo Mackenzie, "por ejemplo, en la dispersión de modelos, así como con GNN", o Graph Neural Networks.

Además de que los chips de Nvidia dominaron la competencia, todos los sistemas informáticos que lograron las puntuaciones más altas fueron los construidos por Nvidia en lugar de los de sus socios. Eso también es un cambio con respecto a las rondas anteriores de la prueba de referencia. Por lo general, algunos proveedores, como Dell, obtendrán las mejores calificaciones para los sistemas que armaron con chips Nvidia. Esta vez, ningún proveedor de sistemas fue capaz de vencer a Nvidia en el uso de sus chips.

Las pruebas de referencia de entrenamiento MLPerf informan cuántos minutos se tarda en ajustar los "pesos" o parámetros neuronales, hasta que el programa informático alcanza la precisión mínima requerida en una tarea determinada, un proceso conocido como "entrenamiento" de una red neuronal, donde una cantidad de tiempo más corta es mejor. 

Aunque las puntuaciones más altas a menudo acaparan los titulares, y los proveedores las enfatizan a la prensa, en realidad, los resultados de MLPerf incluyen una amplia variedad de sistemas y una amplia gama de puntuaciones, no solo una sola puntuación máxima.

En una conversación telefónica, el director ejecutivo de MLCommons, David Kanter, le dijo a ZDNET que no se enfocara solo en los puntajes más altos. Kanter dijo que el valor de la suite de referencia para las empresas que están evaluando la compra de hardware de IA es tener un amplio conjunto de sistemas de varios tamaños con varios tipos de rendimiento.

Las presentaciones, que se cuentan por cientos, van desde máquinas con solo un par de microprocesadores ordinarios hasta máquinas que tienen miles de procesadores host de AMD y miles de GPU Nvidia, el tipo de sistemas que logran las puntuaciones más altas.

"Cuando se trata de entrenamiento e inferencia de ML, hay una amplia variedad de necesidades para todos los diferentes niveles de rendimiento", dijo Kanter a ZDNET, "Y parte del objetivo es proporcionar medidas de rendimiento que se puedan usar en todas esas escalas diferentes".

Kanter continuó: "Hay tanto valor en la información sobre algunos de los sistemas más pequeños como en los sistemas de mayor escala... Todos estos sistemas son igualmente relevantes e importantes, pero tal vez para diferentes personas".

En cuanto a la falta de participación de Graphcore y Google en esta ocasión, Kanter dijo: "Me encantaría ver más presentaciones", y agregó: "Entiendo que muchas empresas pueden tener que elegir cómo invertir los recursos de ingeniería. ... Creo que verás estas cosas ir y venir con el tiempo en diferentes rondas" del benchmark.

Un interesante efecto secundario de la escasez de competencia para Nvidia significó que algunas puntuaciones máximas en algunas tareas de entrenamiento no solo no mostraron ninguna mejora con respecto al tiempo anterior, sino más bien una regresión. 

Por ejemplo, en la venerable tarea ImageNet, donde una red neuronal se entrena para asignar una etiqueta clasificadora a millones de imágenes, el mejor resultado esta vez fue el mismo resultado que había sido el tercer lugar en junio, un sistema construido por Nvidia que tardó 19 segundos en entrenarse. Ese resultado en junio había quedado por detrás de los resultados del chip "TPU" de Google, que llegó a solo 11,5 segundos y 14 segundos.

Cuando se le preguntó sobre la repetición de una presentación anterior, Nvidia le dijo a ZDNET por correo electrónico que su enfoque está en el chip H100 esta vez, no en el A100. Nvidia también señaló que ha habido progreso desde los primeros resultados del A100 en 2018. En esa ronda de pruebas de entrenamiento, un sistema Nvidia de ocho vías tardó casi 40 minutos en entrenar ResNet-50. En los resultados de esta semana, ese tiempo se había reducido a menos de 30 minutos.

Nvidia también habló de su ventaja de velocidad frente a los chips Gaudi2 AI de Intel y el próximo procesador Sapphire Rapids XEON.

Cuando se le preguntó sobre la escasez de presentaciones competitivas y la viabilidad de MLPerf, Salvatore de Nvidia dijo a los periodistas: "Esa es una pregunta justa", y agregó: "Estamos haciendo todo lo posible para fomentar la participación; Los puntos de referencia de la industria prosperan con la participación. Esperamos que, a medida que algunas de las nuevas soluciones continúen llegando al mercado de otros, quieran mostrar los beneficios y las bondades de esas soluciones en un punto de referencia estándar de la industria, en lugar de ofrecer sus propias afirmaciones de rendimiento únicas, que son muy difíciles de verificar".

Un elemento clave de MLPerf, dijo Salvatore, es publicar rigurosamente la configuración y el código de la prueba para mantener los resultados de la prueba claros y consistentes en los cientos de presentaciones de docenas de empresas. 

Junto con las puntuaciones de referencia de entrenamiento de MLPerf, la publicación del miércoles de MLCommons también ofreció resultados de pruebas para HPC, es decir, computación científica y supercomputadoras. Esas presentaciones incluyeron una combinación de sistemas de Nvidia y sus socios, y también la supercomputadora Fugaku de Fujitsu, que ejecuta sus propios chips.

Una tercera competencia, llamada TinyML, mide qué tan bien se desempeñan los chips integrados y de bajo consumo al realizar inferencias, la parte del aprendizaje automático donde una red neuronal entrenada hace predicciones.

Esa competencia, en la que Nvidia hasta ahora no ha participado, tiene una interesante diversidad de chips y presentaciones de proveedores, como los fabricantes de chips Silicon Labs y Qualcomm, el gigante tecnológico europeo STMicroelectronics y las startups OctoML, Syntiant y GreenWaves Technologies. 

En una prueba de TinyML, una prueba de reconocimiento de imágenes que utilizó el conjunto de datos CIFAR y la red neuronal ResNet, GreenWaves (con sede en Grenoble, Francia), obtuvo la puntuación más alta por tener la latencia más baja para procesar los datos y llegar a una predicción. La compañía presentó su acelerador de IA Gap9 en combinación con un procesador RISC.  

En comentarios preparados, GreenWaves declaró que Gap9 "ofrece un consumo de energía extraordinariamente bajo en redes neuronales de complejidad media, como la serie MobileNet en tareas de clasificación y detección, pero también en redes neuronales recurrentes complejas y de precisión mixta, como nuestro eliminador de ruido de audio basado en LSTM".

Artículos relacionados