10:41
youtube.com 21/05/2026 SRT AI Coder TODAY

Mistral Medium 3.5 BEATS Kimi AND Claude? 🤯 Local AI TEST & REVIEW

Mistral Medium 3.5 supera Kimi e Claude em teste de inteligência artificial local?

Benchmark Claude Tecnologia Mistral

Conteudo

TLDR;

Segundo benchmarks auto-relatados (SWEbench) mostrados no vídeo, o Mistral Medium 3.5 aparece superando Claude e Kim/K2.6 em engenharia de software, embora o revisor manifeste ceticismo quanto à veracidade completa dos resultados. A capacidade de visão é sólida: identificou corretamente um gato (melhor que Mistral 4 small), consegue decifrar textos em tomografias e mantém reconhecimento mesmo com quantizações na faixa de ~2,9–3,7 bits. É possível rodar localmente, mas o modelo exige muita memória e ajuste (Q9 ~147 GB; quantizado para ~47–59 GB dependendo dos bits) e ainda há complexidade/bugs relacionados às versões e pesos que precisam ser resolvidos.

Resumo

Neste vídeo o autor testa o modelo Mistral 3.5 de 128 bilhões de parâmetros, rotulado como versão "medium", comparando-o ao Mistral 4 (119B) e a modelos maiores, e mostra ceticismo apesar de conquistas anunciadas. O 3.5 é apresentado como multimodal com capacidade de visão e em benchmarks de engenharia de software auto-relatados aparece à frente de Claude, Kim K2.6 e Quinn, o que o revisor duvida. Na avaliação visual o modelo identificou corretamente um gato (em vez de "raposa vermelha" como na versão anterior) e funcionou sob quantizações: reconhece imagens em 2,9 bits, respostas mais complexas exigem 3,1–3,7 bits. O autor testou a versão Q9 (147 GB) e quantizações que reduzem para 47–59 GB, comentando sobre desempenho em sistemas de 64 GB. Houve confusão no empacotamento dos pesos (versões consolidadas versus modeler) e um bug de escala foi corrigido. O modelo tem modos de raciocínio "none" e "high"; produziu um Tetris funcional, mas falhou em versões de Flappy Bird e em cenas WebGL devido a erros de shader. Gerações longas consumiram muita memória (~137 GB) e em testes na nuvem Nvidia resultados foram inconsistentes, levando o autor a permanecer impressionado porém cauteloso e recomenda mais verificações independentes antes de conclusões.