Búsqueda de sitios web

El avance cuántico de Google es "realmente notable", pero hay más por hacer


En el evento GTC de Nvidia hoy, el CEO Jensen Huang hizo anuncios que, según la compañía, tienen el potencial de transformar industrias multimillonarias. Seleccionamos cuidadosamente los anuncios, centrándonos en la infraestructura de hardware y software que impulsa las aplicaciones que aparecen en los titulares.

GTC, el evento insignia de Nvidia, es siempre una fuente de anuncios sobre todo lo relacionado con la IA. La edición de otoño de 2021 no es una excepción. El discurso de apertura de Huang enfatizó lo que Nvidia llama el Omniverso. Omniverse es la plataforma de colaboración y simulación de mundos virtuales de Nvidia para flujos de trabajo 3D, que reúne sus tecnologías.

Según lo que hemos visto, describiríamos el Omniverso como la versión de Nvidia del Metaverso. Podrá leer más sobre el Omniverso en la cobertura de Stephanie Condon y Larry Dignan aquí en ZDNet. Lo que podemos decir es que, efectivamente, para que algo como esto funcione se necesita una confluencia de tecnologías.

Entonces, repasemos algunas de las actualizaciones en la pila de tecnología de Nvidia, centrándonos en componentes como los modelos de lenguaje grande (LLM) y la inferencia.

Ver también: Todo lo anunciado en el GTC de otoño de 2021 de Nvidia.

NeMo Megatron, la plataforma de modelo de lenguaje grande de código abierto de Nvidia

Nvidia presentó lo que llama el marco Nvidia NeMo Megatron para entrenar modelos de lenguaje. Además, Nvidia pone a disposición Megatron LLM, un modelo con 530 mil millones que se puede entrenar para nuevos dominios e idiomas.

Bryan Catanzaro, vicepresidente de Investigación de Aprendizaje Profundo Aplicado de Nvidia, dijo que "la creación de grandes modelos de lenguaje para nuevos lenguajes y dominios es probablemente la aplicación de supercomputación más grande hasta el momento, y ahora estas capacidades están al alcance de las empresas del mundo".

Si bien los LLM ciertamente están experimentando mucha tracción y un número creciente de solicitudes, la utilidad de esta oferta en particular merece cierto escrutinio. En primer lugar, la formación de LLM no es para personas débiles de corazón y requiere mucho dinero. Se ha estimado que entrenar un modelo como el GPT-3 de OpenAI cuesta alrededor de 12 millones de dólares.

OpenAI se ha asociado con Microsoft y ha puesto a disposición una API en torno a GPT-3 para comercializarlo. Y hay una serie de preguntas que plantearse sobre la viabilidad de formar un propio LLM. La obvia es si puede permitírselo, así que digamos que Megatron no está dirigido a la empresa en general, sino a un subconjunto específico de empresas en este momento.

La segunda pregunta sería: ¿para qué? ¿Realmente necesitas tu propio LLM? Catanzaro señala que los LLMS "han demostrado ser flexibles y capaces, capaces de responder preguntas de dominio profundo, traducir idiomas, comprender y resumir documentos, escribir historias y computar programas". 

Impulsar impresionantes hazañas de IA se basa en una variedad de avances de software y hardware, y Nvidia está abordando ambos. 

No iríamos tan lejos como para decir que los LLM "comprenden" documentos, por ejemplo, pero reconozcamos que los LLM son suficientemente útiles y seguirán mejorando. Huang afirmó que los LLM "serán la aplicación HPC más importante de la historia".

La verdadera pregunta es: ¿por qué crear su propio LLM? ¿Por qué no utilizar la API de GPT-3, por ejemplo? La diferenciación competitiva puede ser una respuesta legítima a esta pregunta. La función costo-valor puede ser otra, en otra encarnación de la antigua pregunta "comprar versus construir".

En otras palabras, si está convencido de que necesita un LLM para potenciar sus aplicaciones y planea usar GPT-3 o cualquier otro LLM con términos de uso similares, con bastante frecuencia, puede resultar más económico capacitar el suyo propio. Nvidia menciona casos de uso como la creación de chatbots, asistentes personales y otras aplicaciones de inteligencia artificial de dominios específicos.

Para hacer eso, tendría más sentido comenzar con un LLM previamente capacitado y adaptarlo a sus necesidades mediante el aprendizaje por transferencia en lugar de capacitarlo desde cero. Nvidia señala que NeMo Megatron se basa en los avances de Megatron, un proyecto de código abierto dirigido por investigadores de Nvidia que estudian el entrenamiento eficiente de grandes modelos de lenguaje transformador a escala.

La compañía añade que el marco NeMo Megatron permite a las empresas superar los desafíos de entrenar modelos sofisticados de procesamiento del lenguaje natural. Entonces, la propuesta de valor parece ser: si decide invertir en LLM, ¿por qué no utilizar Megatron? Aunque parece una propuesta razonable, debemos tener en cuenta que Megatron no es el único juego disponible.

Recientemente, EleutherAI, un colectivo de investigadores independientes de IA, abrió su modelo GPT-j de 6 mil millones de parámetros. Además, si está interesado en idiomas además del inglés, ahora contamos con un gran modelo de idioma europeo con fluidez en inglés, alemán, francés, español e italiano de Aleph Alpha. Wudao es un LLM chino que también es el LLM más grande con 1,75 billones de parámetros, y HyperCLOVA es un LLM coreano con 204 mil millones de parámetros. Además, siempre hay otros LLM de código abierto un poco más antiguos o más pequeños, como GPT2 o BERT y sus muchas variaciones.

Apuntar a la inferencia del modelo de IA aborda el costo total de propiedad y operación

Una advertencia es que cuando se trata de LLM, más grande (es decir, tener más parámetros) no significa necesariamente mejor. Otra es que incluso con una base como Megatron sobre la que construir, los LLM son bestias caras de entrenar y operar. La oferta de Nvidia está diseñada para abordar ambos aspectos al centrarse también específicamente en la inferencia.

Megatron, señala Nvidia, está optimizado para escalar a través de la infraestructura informática acelerada a gran escala de Nvidia DGX SuperPOD™. NeMo Megatron automatiza la complejidad de la formación LLM con bibliotecas de procesamiento de datos que ingieren, curan, organizan y limpian datos. Al utilizar tecnologías avanzadas para la paralelización de datos, tensores y canalizaciones, permite que el entrenamiento de grandes modelos de lenguaje se distribuya de manera eficiente en miles de GPU.

Pero ¿qué pasa con la inferencia? Después de todo, al menos en teoría, los LLM solo se entrenan una vez, pero el modelo se usa muchas, muchas veces para inferir y producir resultados. La fase de inferencia de operación representa aproximadamente el 90% del costo energético total de operación de los modelos de IA. Por lo tanto, tener una inferencia que sea rápida y económica es de suma importancia, y eso se aplica más allá de los LLM.

Nvidia está abordando esto anunciando importantes actualizaciones de su servidor de inferencia Triton, mientras más de 25.000 empresas en todo el mundo implementan la inferencia de IA de Nvidia. Las actualizaciones incluyen nuevas capacidades en el software de código abierto Nvidia Triton Inference Server™, que proporciona inferencia multiplataforma en todos los modelos y marcos de IA, y Nvidia TensorRT™, que optimiza los modelos de IA y proporciona un tiempo de ejecución para inferencia de alto rendimiento en las GPU de Nvidia. .

Nvidia introduce una serie de mejoras para Triton Inference Server. El vínculo más obvio con los LLM es que Triton ahora tiene una funcionalidad multinodo de múltiples GPU. Esto significa que los LLM basados en Transformer que ya no caben en una sola GPU se pueden inferir en múltiples GPU y nodos de servidor, lo que, según Nvidia, proporciona un rendimiento de inferencia en tiempo real.

El 90% de la energía total requerida para los modelos de IA proviene de la inferencia

Triton Model Analyzer es una herramienta que automatiza una tarea de optimización clave al ayudar a seleccionar las mejores configuraciones para modelos de IA entre cientos de posibilidades. Según Nvidia, logra un rendimiento óptimo garantizando al mismo tiempo la calidad de servicio requerida por las aplicaciones.

RAPIDS FIL es un nuevo back-end para la inferencia de GPU o CPU de bosques aleatorios y modelos de árbol de decisión mejorados por gradiente, que proporciona a los desarrolladores un motor de implementación unificado tanto para el aprendizaje profundo como para el aprendizaje automático tradicional con Triton.

Por último, pero no menos importante, en el frente del software, Triton ahora viene con la integración de Amazon SageMaker, lo que permite a los usuarios implementar fácilmente modelos de múltiples marcos utilizando Triton dentro de SageMaker, el servicio de inteligencia artificial totalmente administrado de AWS.

En el frente del hardware, Triton ahora también admite CPU Arm, GPU Nvidia y CPU x86. La compañía también presentó la GPU Nvidia A2 Tensor Core, un acelerador de bajo consumo y tamaño reducido para la inferencia de IA en el borde que, según Nvidia, ofrece hasta 20 veces más rendimiento de inferencia que las CPU.

Triton proporciona inferencia de IA en GPU y CPU en la nube, centro de datos, borde empresarial e integrado, está integrado en AWS, Google Cloud, Microsoft Azure y Alibaba Cloud, y está incluido en Nvidia AI Enterprise. Para ayudar a ofrecer servicios basados en las tecnologías de inteligencia artificial de Nvidia hasta el borde, Huang anunció Nvidia Launchpad.

Nvidia actúa de forma proactiva para mantener su liderazgo en su ecosistema de hardware y software

Y eso está lejos de ser todo lo que Nvidia ha presentado hoy. Nvidia Modulus construye y entrena modelos de aprendizaje automático basados en la física que pueden aprender y obedecer las leyes de la física. Los gráficos, una estructura de datos clave en la ciencia de datos moderna, ahora se pueden proyectar en marcos de redes neuronales profundas con Deep Graph Library, o DGL, un nuevo paquete de Python.

Huang también presentó tres nuevas bibliotecas: ReOpt, para la industria logística de 10 billones de dólares. cuQuantum, para acelerar la investigación en computación cuántica. Y cuNumeric, para acelerar NumPy para científicos, científicos de datos e investigadores de aprendizaje automático e inteligencia artificial en la comunidad Python. Y Nvidia presentará 65 SDK nuevos y actualizados en GTC.

Entonces, ¿qué hacer con todo eso? Aunque seleccionamos cuidadosamente, cada uno de estos elementos probablemente justificaría su propio análisis. El panorama general es que, una vez más, Nvidia está actuando de manera proactiva para mantener su liderazgo en un esfuerzo concertado para vincular su hardware con su software.

Los LLM pueden parecer exóticos para la mayoría de las organizaciones en este momento. Aún así, Nvidia apuesta a que verán más interés y aplicaciones prácticas y se posicionará como una plataforma LLM para que otros puedan desarrollarla. Aunque existen alternativas, haber seleccionado, respaldado y combinado con el ecosistema y la marca de software y hardware de Nvidia probablemente parezca una propuesta atractiva para muchas organizaciones.

Lo mismo ocurre con el enfoque en la inferencia. Ante la creciente competencia de una serie de proveedores de hardware que crean arquitecturas diseñadas específicamente para cargas de trabajo de IA, Nvidia está redoblando su apuesta por la inferencia. Esta es la parte de la operación del modelo de IA que juega el papel más importante en el costo total de propiedad y operación. Y Nvidia, una vez más, lo está haciendo con su estilo característico: aprovechar el hardware y el software en un ecosistema.

Artículos relacionados