abril 26, 2025

Google busca integrar Chirp 3 en Vertex AI para que su plataforma hable en 31 idiomas

En un contexto donde los usuarios muestran satisfacción con la generación de texto e imagen en sus interacciones con chatbots, Google ha decidido enfocarse en la voz como la forma de interacción preferida para los modelos de inteligencia artificial generativa de próxima generación. Por esta razón, Google Cloud ha anunciado la incorporación de Chirp 3 a su plataforma de inteligencia artificial, Vertex AI.

Chirp 3 representa la última versión del modelo de generación de audio de Google. Esta plataforma combina tecnologías de reconocimiento de voz (speech-to-text) y generación de voz en alta definición (HD text-to-speech), y ahora ofrece ocho nuevas voces en 31 idiomas, lo que equivale a un total de 248 “hablantes”.

Características de Chirp 3

Con “inflexiones emotivas” y “una entonación realista”, una representante de Google Cloud ha destacado que Chirp 3 es la herramienta ideal para crear asistentes de voz, audiolibros y narraciones de podcasts, así como para agentes de soporte y voces en off para contenidos multimedia. Como parte de Vertex AI, Chirp 3 estará disponible a partir de la próxima semana.

Al integrar estas capacidades en Vertex AI, los usuarios podrán añadir funciones de voz avanzadas al desarrollo de sus aplicaciones. Sin embargo, es importante señalar que Chirp 3 estará sujeto a ciertas restricciones inicialmente, con el objetivo de prevenir el uso inapropiado de esta plataforma generadora de audio.

La visión de Google para la IA

“Nuestra visión general para la IA ha sido ofrecer una amplia gama de modelos; nos centraremos en Gemini, pero también ofrecemos Imagen, Veo y Chirp, junto con otros modelos científicos”, afirmó Thomas Kurian, director ejecutivo de Google Cloud, durante un evento en las oficinas de DeepMind en Londres.

Leer:  El cambio de imagen machista en Silicon Valley como advertencia en lugar de tendencia

A diferencia de Gemini, que es más amigable y fácil de usar, Vertex AI es una plataforma más compleja que se enfoca en la creación y gestión de aplicaciones de IA personalizadas, adaptándose mejor a las necesidades de desarrolladores y científicos de datos.

La evolución hacia la interacción por voz

A pesar de que los comandos basados en texto siguen siendo la forma habitual de interacción con los modelos de IA generativa, las grandes empresas del Big Tech y diversas start-ups han estado experimentando con interfaces de voz en sus plataformas. En octubre de 2024, Google anunció que su chatbot, Gemini Live, ya puede procesar consultas y respuestas en español a través de dispositivos Android. Ese mismo mes, Microsoft reveló que Copilot será capaz de interactuar con los usuarios utilizando varias voces similares a las humanas, gestionando interrupciones y pausas de manera natural.

En enero de este año, el modo de voz de ChatGPT fue presentado como un chatbot que puede interpretar intenciones y entonaciones de las consultas, reconocer objetos y resolver problemas matemáticos, además de facilitar conversaciones más fluidas y naturales.

En la carrera por ofrecer un servicio más avanzado a los usuarios, uno de los enfoques consiste en acelerar la percepción de que estamos interactuando no con una computadora o un robot, sino con una persona, un amigo siempre dispuesto a ayudar. Para muchas empresas, superar la barrera de la voz parece ser el siguiente paso lógico en la progresiva humanización de la máquina.

Noticias relacionadas