La nueva actualización de ChatGPT finalmente rompe la barrera del texto | ENBLE
ChatGPT supera la barrera del texto con su nueva actualización | ENBLE
OpenAI está implementando nuevas funcionalidades para ChatGPT que permitirán ejecutar indicaciones con imágenes y comandos de voz además de texto.
La marca de IA anunció el lunes que estas nuevas características estarán disponibles en las próximas dos semanas para los usuarios de ChatGPT Plus y Enterprise. La función de voz está disponible en iOS y Android en una capacidad optativa, mientras que la función de imágenes está disponible en todas las plataformas de ChatGPT. OpenAI señala que planea ampliar la disponibilidad de las funciones de imágenes y voz más allá de los usuarios de pago después de la implementación escalonada.

La función de chat de voz funciona como una conversación auditiva entre el usuario y ChatGPT. Presionas el botón y haces tu pregunta. Después de procesar la información, el chatbot te da una respuesta en forma de habla en lugar de texto. El proceso es similar al uso de asistentes virtuales como Alexa o Google Assistant y podría ser el preámbulo de una renovación completa de los asistentes virtuales en su conjunto. El anuncio de OpenAI llega solo días después de que Amazon revelara una característica similar que llegará a Alexa.
Para implementar la comunicación de voz y audio con ChatGPT, OpenAI utiliza un nuevo modelo de texto a voz que es capaz de generar un “audio similar al humano a partir de solo texto y unos pocos segundos de muestra de habla”. Además, su modelo Whisper puede “transcribir tus palabras habladas en texto”.
OpenAI reconoce los problemas que podrían surgir debido al poder detrás de esta característica, incluyendo “el potencial de actores maliciosos para suplantar figuras públicas o cometer fraudes”.
- ¿Ya no más GPUs? Esto es cómo podría verse el DLSS 10 de Nvidia | E...
- Fedora 39 beta ofrece la distribución de Linux de mejor rendimiento...
- Es posible que no necesites una cirugía cerebral abierta para obten...
Esta es una de las principales razones por las que la empresa planea limitar el uso de sus nuevas características a “casos de uso específicos y asociaciones”. Incluso cuando las características estén más ampliamente disponibles, solo serán accesibles principalmente para usuarios más privilegiados, como desarrolladores.
La función de imágenes te permite capturar una imagen y ingresarla a ChatGPT con tu pregunta o indicación. Puedes usar la herramienta de dibujo con la aplicación para ayudar a aclarar tu respuesta y tener una conversación de ida y vuelta con el chatbot hasta que se resuelva tu problema. Esto es similar a la nueva función Copilot de Microsoft en Windows, que se basa en el modelo de OpenAI.
OpenAI también ha reconocido los desafíos de ChatGPT, como su problema de alucinación continua. Alineado con la función de imágenes, la marca decidió limitar ciertas funcionalidades, como la “capacidad del chatbot para analizar y hacer declaraciones directas sobre las personas”.
ChatGPT se presentó por primera vez como una herramienta de texto a voz a finales del año pasado; sin embargo, OpenAI ha ampliado rápidamente sus capacidades. El chatbot original basado en el modelo de lenguaje GPT-3 ha sido actualizado a GPT-3.5 y ahora a GPT-4, que es el modelo que está recibiendo la nueva característica.
Cuando GPT-4 se lanzó por primera vez en marzo, OpenAI anunció varias colaboraciones empresariales, como Duolingo, que utilizó el modelo de IA para mejorar la precisión de las lecciones de escucha y habla en la aplicación de aprendizaje de idiomas. OpenAI ha colaborado con Spotify para traducir podcasts a otros idiomas manteniendo el sonido de la voz del podcaster. La empresa también habló de su trabajo con la aplicación móvil Be My Eyes, que ayuda a personas ciegas o con baja visión. Muchas de estas aplicaciones y servicios estaban disponibles antes de la actualización de imágenes y voz.