En los últimos días, OpenAI ha presentado la última versión del modelo de IA que se espera que revolucione el sector, no solo para los usuarios de ChatGPT Plus, sino para todos los usuarios en general. Con una inteligencia equiparable al nivel de GPT-4, presenta mejoras en velocidad y capacidades en texto, visión y audio mejoradas. Muchos han bautizado a Chat GPT-4o como un ‘Omnimodel’, pues posee el doble de velocidad, en concreto, cinco veces mayor que GPT4-Turbo. Además, destaca por presentar un precio reducido, un 50% para más funciones.

En concreto, estará disponible para usuarios con membresía gratuita y de pago. Sin duda, un modelo mucho más accesible y eficiente, que de primeras podrá ser utilizado por todos, sin restricciones.

La gran revolución de Chat GPT-4o

GPT4-4o se caracteriza porque la base de su tecnología es la misma, presentando muchas similitudes con la IA de Copilot o GPT-4 gratuita. No obstante, aparecen muchas mejoras internas que demuestra que se trata de un salto evolutivo destacado y revolucionario.

Queda demostrado que GPT-4o es capaz de tomar una gráfica y analizarla, dando conclusiones relacionadas con lo que figura en la imagen. También puede resolver problemas matemáticos o analizar fotografías o capturas de pantalla.

Además, presentará una versión de escritorio, por lo que los usuarios no tendrán que acceder al ordenador y a su navegador para emplearlo, simplemente podrán hacerlo de una manera más directa.

Diferencias con GPT-4

GPT-4o es una multimodal de forma nativa, con poca latencia e interacciones en tiempo real. De este modo, mejorarán notablemente sus capacidades de texto, audio e imagen.

GPT-4o, al reducir su latencia, ofrece respuestas casi instantáneas. Para ser más exactos, GPT-4 tardaba una media de unos cinco segundos en responder, mientras que la velocidad media de GPT-40 es de 320 milisegundos. No obstante, dependerá en todo momento de la petición que se le hubiese realizado.

Con respecto a su procesamiento multimodal, significa que va a entender tanto lo se le escriba por texto como la información que se le envíe por imagen, audio o video, lo que significa que la forma de interacción con la IA es muy flexible.

Otro aspecto muy destacado es que GPT-4o presenta distintos tonos de voz, hasta tal punto que puede reírse, cantar o mostrar diferentes estados de ánimo. Así pues, a la hora de responder con voz, manifestará las mismas emociones, de tal forma que daría la sensación de que se está hablando con una persona real. Por si fuese poco, puede interpretar las expresiones faciales y realizar traducciones de manera simultánea.

¿Cómo acceder a GPT-4o?

Para acceder a esta nueva herramienta de OpenAI bastará con ser usuario de ChatGPT Plus y Team, dándole prioridad a los usuarios de pago, aunque después llegará también de forma gratuita al resto de la comunidad.

Es un lanzamiento iterativo, pues incluye únicamente las novedades relacionadas al texto y la imagen.

Así pues, los usuarios de pago seguirán contando con múltiples beneficios: límite más amplio de peticiones, mayor acceso a los modos de voz en tiempo real y una aplicación exclusiva para macOS. El objetivo con ello es que, a partir de un atajo de teclado, ChatGPT-4o se convierta en el sustituto de Siri.

¿Qué modelo es mejor?

La respuesta puede ser una obviedad, pues GPT-4o posee un rendimiento mayor. Es compatible con los modelos GPT-4. Además, GPT-4T es compatible con MMLU (88,7%), GPQA (53,6%), MATH (76,6%), HumanEval (90,2%), MGSM (90,5%) consiguiendo superar sus puntos de referencia. Por ejemplo, el modelo GPT-4o tiene una puntuación del 53,6% en la prueba de referencia GPQA, mientras que su predecesor, el modelo GPT-4, tiene una puntuación del 35,7%.

La capacidad de visión también demuestra la superioridad de GPT-4o. Como el modelo GPT-4 no tiene capacidades de Visión, el modelo GPT-4o es una mejor opción para las tareas visuales Sin embargo, GPT-4o tiene un mayor rendimiento de comprensión, procesamiento y análisis de la visión que GPT-4T, que es el gran modelo lingüístico de OpenAI con capacidades de visión. Del mismo modo, el modelo GPT-4o puede procesar entradas visuales mucho más rápido y generar salidas relacionadas que el modelo GPT-4 Turbo.

Que es mejor GPT-4o se parecía no solo en la velocidad de salida de texto, sino también en la velocidad de salida de voz. La salida en GPT-40 es de 320 segundos, teniendo en cuenta que una persona normal hace una pausa de 250.000 segundos para responder en inglés. Por tanto, es una IA que habla más rápido y fluido que los propios seres humanos.

Con respecto a datos de entrenamiento y acceso web, el modelo GPT-4o posee una ventana de contexto de 128K y datos en línea accesibles públicamente hasta octubre de 2023. Por tanto, el modelo GPT-4o no está preparado actualmente para responder a cuestiones actuales, por lo que no será práctico en tareas relacionadas con marketing digital, SEO o investigaciones rigurosas.

 

Deja un comentario

Por favor, introduce tu comentario
Por favor, introduce tu nombre