La inteligencia artificial generativa va rápido y ya estamos pasando de hablar de LLMs (modelos amplios de lenguaje) a LMMs (modelos multimodales de lenguaje).
Para poner las cosas en contexto, tanto LLM o LMM es lo que permite interacciones funcionales con la inteligencia artificial, siendo ChatGPT un ejemplo que ilustra perfectamente el caso.
ChatGPT es el medio de interacción. GPT-4 (o GPT-5, próximamente), un LLM, es el elemento que hace posible esa interacción luego de un largo entrenamiento con grandes volúmenes de datos.
¿Qué diferencia existe entre un LLM y un LMM? ¿Y por qué las cosas se van volcando hacia los LMM? Es algo parecido a lo que se vio en la evolución de redes sociales, donde se empezó por texto para terminar en multimedia.
Los LLMs, en principio, están diseñados para manejar texto. LMMs, en cambio, manejan texto e imágenes, por tanto son multimodales.
Gemini, presentado por Google en días pasados, es un ejemplo de LMM, siendo el acceso a través de Bard, el chatbot que lanzó hace unos meses en respuesta a la fiebre de ChatGPT.
Según los planes de Google, Gemini llegará con toda su fuerza en 2024, pero, de momento, se puede disfrutar de Gemini Pro en Bard.
La demostración de Gemini presentada por Google da una idea de lo que se puede esperar en términos de IA generativa potenciada por LMMs, y aun cuando el futuro inmediato luce impresionante, hay que ir suave con las expectativas.
La demo de Gemini, tan impresionante y emocionante a partes iguales, no es un reflejo de la realidad actual, pues se trata de una versión mejorada y, hasta cierto punto, falseada de las capacidades de este modelo.
Falsear demostraciones y exagerar capacidades tecnológicas se ha vuelto práctica común en este ámbito, viéndose el caso a nivel de cámaras de smartphones, aplicaciones y demás.
Podría ser que Gemini llegue a ser tan bueno como lo que quiso mostrar Google con su presentación, pero no deja de ser un engaño, sobre todo cuando no se advierte al público de manera llana la realidad de la supuesta demostración.
En todo Silicon Valley parece permear una cultura de optimismo poco realista que logra vender ideas tan audaces como improbables, demostrándose con el tiempo que no pasaban de ser una falacia.
Ejemplos hay de sobra, y uno particularmente llamativo es el de Theranos y la promesa de su fundadora, Elizabeth Holmes, de diagnósticos médicos confiables y rápidos a partir de una sola gota de sangre.
Ya veremos lo que pasa con Gemini, pero, por ahora, Google lleva dos strikes en cuestiones de IA generativa.