A OpenAI acaba de lançar a maior atualização de IA de voz até o momento.
A OpenAI lança a maior atualização de IA de voz até o momento, revolucionando a inteligência artificial.
Conteudo
TLDR;
A OpenAI lançou três novos modelos de áudio em tempo real para desenvolvedores: GPT Realtime 2 para conversas avançadas, GPT Realtime Translate para tradução ao vivo e GPT Realtime Whisper para transcrição em streaming.. O GPT Realtime 2 permite conversas faladas com raciocínio de nível GPT-5, rastreamento de contexto longo de 128 mil tokens, chamadas paralelas de ferramentas e níveis ajustáveis de raciocínio para tarefas complexas.. O GPT Realtime Translate entende mais de 70 idiomas de entrada e fala em 13 de saída preservando contexto e sotaques, enquanto o GPT Realtime Whisper gera legendas, notas e resumos em tempo real para reuniões e eventos.
Resumo
A OpenAI lançou três novos modelos de áudio em tempo real para desenvolvedores: GPT Realtime 2, GPT Realtime Translate e GPT Realtime Whisper, visando transformar assistentes de voz em ferramentas inteligentes e naturais, superando limitações antigas como respostas fracas em conversas complexas. O GPT Realtime 2 oferece raciocínio de nível GPT-5, com janela de contexto de 128 mil tokens, chamadas paralelas de ferramentas, frases intermediárias como "deixe-me verificar" e níveis ajustáveis de raciocínio (de mínimo a XH alto), alcançando 96,6% de precisão em benchmarks como Big Bench Audio e 48,5% em diálogos multi-turno. Ele lida com interrupções, sotaques, termos especializados e tons empáticos. O GPT Realtime Translate suporta mais de 70 idiomas de entrada e 13 de saída, preservando contexto e sotaques em conversas ao vivo, ideal para suporte ao cliente e eventos internacionais, como testes da Deutsche Telekom. Já o GPT Realtime Whisper faz transcrições em streaming para legendas, resumos e workflows em reuniões ou aulas. Padrões incluem voz-para-ação, sistemas-para-voz e voz-para-voz. Preços: US$ 32/milhão de tokens de entrada para Realtime 2 (saída US$ 64), US$ 0,034/min para Translate e US$ 0,017/min para Whisper. Disponíveis via API com guardrails contra abusos e suporte a residência de dados na UE. O vídeo menciona patrocínio do Code Rabbit para revisão de código e adianta desafios de infraestrutura em supercomputadores, como redes de GPUs. (198 palavras)