GPT-4o: Lo que debes saber del nuevo modelo de OpenAI

GPT-4o: Lo que debes saber del nuevo modelo de OpenAI
GPT-4o es el nuevo modelo multimodal de OpenAI

¿Tuviste un día ocupado y no te pudiste enterar el mayor anuncio de OpenAI en meses? Pues te lo resumimos en este video:

@evoacdm

¡ChatGPT 4 gratis para todos! Y más novedades de GPT-4o, el omnimodel de OpenAI #openai #chatgpt #gpt4 #gpt4o

♬ original sound - EvoAcademy | Tecnología + IA

Hoy, OpenAI ha realizado una serie de anuncios que prometen revolucionar el mundo de la inteligencia artificial: lanzó su modelo GPT-4o. El cual es su primer "omnimodelo" y que estará disponible de forma gratuita para todos.

Ve nuestro análisis detallado en este video

GPT-4o: Más Allá del Texto

GPT-4o - con "o" de "omni" no es solo una actualización en potencia de procesamiento o en el manejo del lenguaje. Este nuevo modelo incorpora capacidades multimodales, lo que significa que puede ver, escuchar y hablar. Esto abre un abanico de posibilidades para aplicaciones más dinámicas e interactivas.

Una de las características más destacadas es la capacidad de GPT-4o para entender y generar contenido visual y auditivo. Durante la presentación, OpenAI demostró cómo el modelo puede actuar como un asistente personal desde un dispositivo móvil, ayudando en tareas como la traducción de idiomas en tiempo real y la interpretación de escenarios complejos a través de la aplicación Be My Eyes.

Proceso en (casi) tiempo real

GPT-4o puede responder a entradas de audio en un promedio de 320 milisegundos, lo cual es similar al tiempo de respuesta humana en una conversación

Antes de GPT-4o, podías usar el Modo de Voz para hablar con ChatGPT con una latencia promedio de varios segundos. Para lograr esto, se utiliza una cadena de tres modelos separados: un modelo simple transcribe el audio a texto, otro modelo procesa el texto y genera una respuesta en texto, y un tercer modelo simple convierte ese texto nuevamente a audio.

Ahora todo se hace en el mismo modelo por lo cual es significativamente más rápido. Esta rapidez le permite conversar naturalmente con las personas. En este video, GPT-4o simula como sería representar a otro usuario en una llamada.

Análisis de Datos y Navegación Web

Además de las capacidades multimodales, GPT-4o incluirá funcionalidades avanzadas que anteriormente estaban reservadas para la versión paga de ChatGPT Plus.

Los usuarios podrán acceder gratuitamente al análisis avanzado de datos y la navegación web. Estas herramientas son esenciales para tareas complejas de investigación y análisis, haciendo de GPT-4o una herramienta mucho más versátil y valiosa.

💡
Si no conoces que hace Advanced Data Analysis en ChatGPT puedes revisar este video.

Nuevas capacidades en imagen

Se mostraron ejemplos de generación de imágenes, una de las áreas donde GPT-4 ha mejorado significativamente.

Mejor consistencia

A diferencia de versiones anteriores, este modelo puede mantener la consistencia en personajes y elementos visuales a lo largo de múltiples imágenes, lo cual es un avance notable en la generación de contenido visual coherente.

En este ejemplo, ChatGPT es capaz de continuar con la coherencia de un personaje que pasa por varias partes de una historia.

Puede editar sobre imágenes existentes

Hasta el momento, DALL-E sólo puede re-imaginar un elemento visual. Es decir no podía tomar uno existente. Sin embargo han mostrado que esto va a cambiar.

Ejemplo donde toma un elemento real, un posavasos, y lo altera según una instrucción simple

Abren la GPT Store

OpenAI ha liberado a todo publico la GPT Store, donde cualquier usuario puede acceder a versiones personalizadas de ChatGPT. Esto es un paso adelante en la democratización del acceso a herramientas avanzadas de inteligencia artificial.

Más rápido y más barato

Además, se ha anunciado que GPT-4o es más rápido y económico, y ya está disponible para su uso a través de la API, permitiendo a los desarrolladores integrar estas capacidades en sus propias aplicaciones desde hoy mismo.

Aplicación de escritorio

OpenAI lanzará una app de escritorio para ChatGPT. Esta permitirá poder hablar con el modelo y compartirle lo que tenemos en el portapapeles o lo que estamos viendo, para así usarlo como contexto en una petición.

ChatGPT Plus pierde valor

La introducción de GPT-4o gratis para todos plantea varias preguntas importantes. Una de ellas es el impacto en los usuarios que pagan por ChatGPT Plus. Con esta actualización, parece que la principal ventaja de la versión paga es sólo el acceso preferencial a nuevas herramientas y actualizaciones. Esperemos que los siguientes anuncios permitan establecer una diferencia más clara.

Nuevos desafíos éticos

Otra consideración es el comportamiento del modelo en interacción con los usuarios. Durante las demostraciones, GPT-4 mostró una capacidad notable para entender expresiones humanas, lo que plantea cuestiones éticas sobre la interacción humano-máquina.

Por ejemplo, la nueva propuesta de ley de IA en Chile explícitamente aborda los temas relacionados al reconocimiento de emociones, lo cual GPT-4o hace bien.

Competencia y el Futuro

El anuncio de OpenAI llega justo antes del evento más importante de Google, el Google I/O. Parece que OpenAI ha puesto este lanzamiento para coincidir con el evento de Google, aumentando la presión sobre uno de sus principales competidores.

Google, por su parte, ha mostrado avances en su asistente virtual que también promete capacidades de interacción avanzadas.

[Video] Logan Kilpatrick on LinkedIn: Lots to look forward to Google IO tomorrow 👀
Lots to look forward to Google IO tomorrow 👀

Al final del anuncio, la CTO de OpenAI, Mira Murati, dijo que la "Next Big Thing" vendrá en las siguientes semanas.

¿Cuándo va a estar disponible?

Las capacidades de texto e imagen de GPT-4o comienzan a estar disponibles hoy en ChatGPT. Los usuarios de ChatGPT Plus ya tienen acceso, mientras que los usuarios gratuitos van a tener dentro de las próximas semanas.

Como luce el nuevo modelo en ChatGPT Plus

El modo de voz supuestamente debería estar dentro de unas semanas. Sin embargo, pareciera que algunos usuarios ya pueden usarlo desde la app de iOS.

Los desarrolladores también pueden acceder ahora a GPT-4o en la API como un modelo de texto y visión (sin audio, sin generación de imágenes y sin video). GPT-4o es 2 veces más rápido, cuesta la mitad y tiene 5 veces más límites de tasa en comparación con GPT-4 Turbo.

Se espera que el deployment completo de todas estas nuevas características tome varias semanas.

Conclusión

El lanzamiento de GPT-4o es un hito en la inteligencia artificial. Sus capacidades avanzadas y la democratización del acceso prometen transformar cómo interactuamos con la tecnología en nuestro día a día.

Esperamos que este análisis les haya resultado útil y los invitamos a compartir sus impresiones sobre este nuevo modelo.

No olviden suscribirse a nuestro blog y regresar mañana para más información sobre los anuncios del Google I/O.