25:22
youtube.com ha 3h SRT Sandbox

Deepseek marca outro AVANÇO ENORME

Por AI Search

Technology LLM IA DeepSeek

Conteudo

TLDR;

DeepSeek lançou o DeepSpark, que afirma aumentar a capacidade de saída dos modelos em mais de 600% e acelerar a geração em cerca de 80% sem perda de qualidade. A aceleração vem de engenharia focada em eficiência e da decodificação especulativa, onde um modelo pequeno antecipa vários tokens e o modelo grande verifica esses palpites em paralelo, reduzindo esperas por acesso à memória. DeepSeek é um pequeno laboratório chinês com recursos limitados, autor do modelo open-source DeepSeek V4, e publica detalhes técnicos que tornam suas reivindicações audíveis e reproduzíveis.

Resumo

Se você já trabalhou com modelos de IA, sabe que agentes que realizam tarefas longas demoram para gerar respostas; DeepSeek, um pequeno laboratório chinês com recursos limitados, desenvolveu técnicas para acelerar a geração em até seis vezes e aumentar a capacidade de saída em mais de 600% sem perda de qualidade, graças ao design eficiente e à publicação aberta de detalhes como fizeram com o DeepSeek V4. O problema básico é a geração autoregressiva, em que cada palavra é escrita uma de cada vez e precisa consultar todas as palavras anteriores, o que gera um gargalo de busca na memória enquanto a GPU fica ociosa entre pequenas explosões de cálculo; a solução usada pela indústria é o decoding especulativo, que emprega um modelo menor e rápido para prever vários tokens adiante e um modelo grande para checar essas previsões em paralelo, aceitando sequências corretas e rejeitando trechos incorretos através de rejection sampling; essa engenharia permite reduzir a latência mantendo a qualidade, porque o modelo maior continua tendo a palavra final. O recente sistema DeepSpark exemplifica essa abordagem ao combinar otimizações arquiteturais e estratégias de memória, permitindo acelerações práticas mesmo em infraestruturas modestas, e por ser aberto facilita reprodução e avanços.