El nuevo modelo de lenguaje de inteligencia artificial de billones de parámetros de Google es casi 6 veces más grande que GPT-3

Un trío de investigadores del equipo de Google Brain reveló recientemente la próxima gran novedad en los modelos de lenguaje de IA: un enorme sistema transformador de un billón de parámetros.

El siguiente modelo más grande que existe, hasta donde sabemos, es GPT-3 de OpenAI, que utiliza unos miserables 175 mil millones de parámetros.

Antecedentes: Los modelos de lenguaje son capaces de realizar una variedad de funciones, pero quizás la más popular sea la generación de texto novedoso. Por ejemplo, puedes ir aquí y hablar con un modelo de lenguaje de “inteligencia artificial filósofo” que intentará responder cualquier pregunta que le haga (con numerosas excepciones notables).

[Leeracontinuación:[Readnext:Cómo Netflix da forma a la cultura dominante, explicado por los datos]

Si bien estos increíbles modelos de inteligencia artificial existen a la vanguardia de la tecnología de aprendizaje automático, es importante recordar que esencialmente solo están realizando trucos de salón. Estos sistemas no entiendo el idioma, simplemente están ajustados para que parezca que lo hacen.

Ahí es donde entra la cantidad de parámetros: cuantos más mandos y diales virtuales pueda girar y sintonizar para lograr las salidas deseadas, más control finito tendrá sobre cuál es esa salida.

Qué ha hecho Google: En pocas palabras, el equipo de Brain ha descubierto una manera de hacer que el modelo en sí sea lo más simple posible y, al mismo tiempo, exprimir la mayor cantidad de potencia de cálculo en bruto posible para hacer posible el mayor número de parámetros. En otras palabras, Google ha mucho de dinero y eso significa que puede permitirse utilizar tanto hardware como el modelo de IA que pueda aprovechar.

En el equipo propias palabras:

Los Switch Transformers son aprendices de lenguaje natural escalables y efectivos. Simplificamos la mezcla de expertos para producir una arquitectura que sea fácil de entender, estable para entrenar y mucho más eficiente en muestras que los modelos densos de tamaño equivalente. Descubrimos que estos modelos se destacan en un conjunto diverso de tareas de lenguaje natural y en diferentes regímenes de entrenamiento, incluido el entrenamiento previo, el ajuste fino y el entrenamiento de múltiples tareas. Estos avances hacen posible entrenar modelos con cientos de miles de millones a billones de parámetros y que logran aceleraciones sustanciales en relación con las densas líneas de base de T5.

Toma rápida: No está claro exactamente qué significa esto o qué pretende hacer Google con las técnicas descritas en el documento de preimpresión. Hay más en este modelo que solo mejorar OpenAI, pero exactamente cómo Google o sus clientes podrían usar el nuevo sistema es un poco confuso.

La gran idea aquí es que suficiente fuerza bruta conducirá a mejores técnicas de uso de computación que, a su vez, permitirán hacer más con menos computación. Pero la realidad actual es que estos sistemas no tienden a justificar su existencia en comparación con tecnologías más ecológicas y útiles. Es difícil lanzar un sistema de inteligencia artificial que solo pueda ser operado por compañías tecnológicas de billones de dólares que estén dispuestas a ignorar la enorme huella de carbono que crea un sistema de este tamaño.

Contexto: Google ha superado los límites de lo que la IA puede hacer durante años y esto no es diferente. En sí mismo, el logro parece ser la progresión lógica de lo que ha estado sucediendo en el campo. Pero el momento es un poco sospechoso.

H / t: Venture Beat

Publicado el 13 de enero de 2021-17: 08 UTC

  • Add Your Comment