A Apple acaba de tornar o treinamento de IA embaraçosamente simples.
Treinamento de IA nunca foi tão simples, graças à Apple!
Conteudo
TLDR;
A Apple descreve um método em duas etapas: gerar respostas do modelo base com parâmetros controlados (temperatura, truncamento) e fine-tunar o próprio modelo com essas saídas, sem verificador, teacher model, RL ou execução de código. No experimento com Quant 3 30B Instruct o desempenho no LiveCodeBench subiu de 42,4% para 55,3%, com ganhos especialmente em problemas mais difíceis. Isso sugere que focar em geração controlada e qualidade de dados pode tornar o aprimoramento de LLMs muito mais barato, rápido e acessível, diminuindo a dependência de pipelines complexos e rotulagem humana.
Resumo
Um trabalho recente da Apple mostra que a melhoria de modelos de linguagem pode ser muito mais simples do que a indústria tem perseguido: em vez de pilhas complexas com aprendizado por reforço, modelos professores, execução de código e rotulagem humana cara, um processo em duas etapas — gerar respostas com um modelo base usando controle de temperatura e truncamento apropriados e em seguida ajustar finamente o próprio modelo com essas respostas — elevou o desempenho do Quant 3 30B Instruct de 42,4% para 55,3% no LiveCodeBench, com ganhos maiores em problemas difíceis. O ponto central é que modelos podem autoaperfeiçoar-se se a geração for bem controlada e a qualidade dos dados for alta, mesmo quando esses dados vêm do próprio modelo. Isso muda a lógica de melhoria de LLMs: menos dependência de pipelines dispendiosos e mais foco em geração controlada, qualidade de dados e velocidade de iteração. O achado tem implicações de custo e acessibilidade — potencialmente democratizando quem pode construir sistemas de IA sérios — e levanta a questão se a indústria não vem superdimensionando soluções, já que o verdadeiro gargalo pode ser como o ciclo de aprendizado é estruturado, não a inteligência do modelo, e requer atenção.