15:28
youtube.com ha 10h SRT AI Coder TODAY

O novo avanço em IA da DeepSeek acaba de superar os limites da IA

IA da DeepSeek supera limites e revoluciona a inteligência artificial.

Tecnologia GPUs LLM DeepSeek

Conteudo

TLDR;

Usa uma técnica chamada DSpark (speculative decoding), em que um modelo auxiliar rápido rascunha vários tokens, uma camada de correção alinha a sequência e o modelo principal valida apenas os trechos confiáveis para gerar mais rápido sem mudar o resultado final. O foco é velocidade, custo e escalabilidade: não aumenta a “inteligência” do modelo, mas reduz latência e custo mantendo a qualidade porque o modelo grande ainda decide a resposta final. A solução já foi testada em tráfego ao vivo e reportou ganhos de resposta por usuário de até 85% (ex.: V4 flash 60–85%, V4 Pro 57–78%) e maior porcentagem de rascunhos aceitos em vários modelos como Qwen e Gemma.

Resumo

DeepSeek lançou o DSpark para o V4, uma melhoria focada em tornar sistemas de IA mais rápidos, baratos e resistentes a sobrecarga, priorizando escala em produção em vez de aumentar a "inteligência" do modelo. A técnica central é "speculative decoding": um modelo auxiliar menor rascunha vários tokens rapidamente e o modelo grande verifica e valida essas escolhas, acelerando a geração sem alterar a autoria final. Para mitigar a suffix decay — degradação das porções finais quando se gera muitos tokens em paralelo — o DSpark introduz uma correção leve (semi-autoregressive generation) que preserva coerência; o cabeçalho Markov, simples e eficiente, é usado por padrão. Além disso, há verificação agendada por confiança: cada token rascunhado recebe pontuação de confiança e o sistema decide quais tokens valerá a pena enviar ao modelo grande segundo o nível de tráfego e perfis de throughput, otimizando uso de GPU e latência. Projetado para tráfego online, já foi testado em produção e mostrou ganhos substanciais: aumento de latência percebida por usuário de até 85% (60–85% no V4 Flash, 57–78% no V4 Pro) e melhorias relevantes no comprimento de rascunho aceito frente a baselines em tarefas de matemática, código e conversa diária, com resultados consistentes em diferentes famílias modelos.