Ornith 1.0 First Look & Test – The BEST New Local Coding Models?

TLDR;

Ornith 1.0 é uma família de modelos finetunados, principalmente sobre bases Alibaba Qwen, com versões públicas testadas de 9B dense e 35B MoE (31B dense listado e 397B indisponíveis/fora de alcance). Os benchmarks oficiais apresentam resultados impressionantes (média de cinco runs e uso de GRPO), mas os testes práticos iniciais já mostraram falhas funcionais e indícios de loops de raciocínio em alguns casos. É possível rodar localmente — o autor executou o 9B quantizado em laptop com GPU de 24GB e o 35B não quantizado em uma workstation via vLLM — porém modelos maiores exigem hardware muito potente e podem apresentar lentidão ou erros.

Resumo

Neste vídeo o autor examina Ornith 1.0, uma família de modelos finamente ajustados a partir de arquiteturas abertas, e testa duas variantes disponíveis: a densa de 9 bilhões de parâmetros e a Mixture-of-Experts de 35 bilhões; outras versões, como a densa de 31 bilhões e a de 397 bilhões, não estão acessíveis. Ele contextualiza o interesse em pesos abertos diante do acesso restrito a modelos frontier como GPT‑5.6, descreve a técnica de treino self‑improving que coevolui scaffolds com políticas e enfatiza o uso de RL com GRPO (Group Relative Policy Optimization). Os benchmarks divulgados foram feitos em cinco rodadas com temperatura mais alta que a sugerida, e o canal recomenda recursos didáticos da Hugging Face sobre o método. Para teste prático, rodou o modelo 9B quantizado (Q8) num laptop com 24 GB de VRAM e o 35B sem quantização num servidor com vLLM, submetendo-os ao BrowserOS v2.5, que exige criação de jogos 3D funcionais. Os experimentos revelaram problemas: elementos de interface mal organizados, falta de clique direito, timeouts de geração e sinais de loops de pensamento nas cadeias de raciocínio; o autor ajustou parâmetros e comparará os resultados lado a lado, mantendo cautela sobre possíveis vazamentos de dados de treino.

Ornith 1.0 First Look & Test – The BEST New Local Coding Models?

Conteudo

TLDR;

Resumo

Relacionados

Instalar YouNews

Instalar YouNews