Mistral Medium 3.5 BEATS Kimi AND Claude? 🤯 Local AI TEST & REVIEW
Mistral Medium 3.5 supera Kimi e Claude em teste de inteligência artificial local?
Conteudo
TLDR;
Segundo benchmarks auto-relatados (SWEbench) mostrados no vÃdeo, o Mistral Medium 3.5 aparece superando Claude e Kim/K2.6 em engenharia de software, embora o revisor manifeste ceticismo quanto à veracidade completa dos resultados. A capacidade de visão é sólida: identificou corretamente um gato (melhor que Mistral 4 small), consegue decifrar textos em tomografias e mantém reconhecimento mesmo com quantizações na faixa de ~2,9–3,7 bits. É possÃvel rodar localmente, mas o modelo exige muita memória e ajuste (Q9 ~147 GB; quantizado para ~47–59 GB dependendo dos bits) e ainda há complexidade/bugs relacionados à s versões e pesos que precisam ser resolvidos.
Resumo
Neste vÃdeo o autor testa o modelo Mistral 3.5 de 128 bilhões de parâmetros, rotulado como versão "medium", comparando-o ao Mistral 4 (119B) e a modelos maiores, e mostra ceticismo apesar de conquistas anunciadas. O 3.5 é apresentado como multimodal com capacidade de visão e em benchmarks de engenharia de software auto-relatados aparece à frente de Claude, Kim K2.6 e Quinn, o que o revisor duvida. Na avaliação visual o modelo identificou corretamente um gato (em vez de "raposa vermelha" como na versão anterior) e funcionou sob quantizações: reconhece imagens em 2,9 bits, respostas mais complexas exigem 3,1–3,7 bits. O autor testou a versão Q9 (147 GB) e quantizações que reduzem para 47–59 GB, comentando sobre desempenho em sistemas de 64 GB. Houve confusão no empacotamento dos pesos (versões consolidadas versus modeler) e um bug de escala foi corrigido. O modelo tem modos de raciocÃnio "none" e "high"; produziu um Tetris funcional, mas falhou em versões de Flappy Bird e em cenas WebGL devido a erros de shader. Gerações longas consumiram muita memória (~137 GB) e em testes na nuvem Nvidia resultados foram inconsistentes, levando o autor a permanecer impressionado porém cauteloso e recomenda mais verificações independentes antes de conclusões.