Meta's SAM 3 is CRAZY (Free + Open Source)
Por Matthew Berman
Conteudo
TLDR;
É o novo modelo "Segment Anything" da Meta, open-source com pesos disponíveis que permite segmentar objetos em vídeos usando prompts de texto. Sim — o vídeo afirma que o SAM 3 é de código aberto e com pesos liberados (open weights). Na prática você digita o nome do objeto no playground (por exemplo "bicycle" ou "taxi") e o modelo encontra e segmenta automaticamente esses objetos ao longo do vídeo, mostrando miniaturas, rótulos, cores e permitindo excluir segmentos.
Resumo
Meta lançou o SAM 3, a nova versão do Segment Anything Model, um modelo de segmentação de objetos em imagens e vídeos que é gratuito e de código aberto, com pesos abertos. Ele permite usar prompts de texto simples para localizar e segmentar qualquer objeto em um vídeo de forma rápida e precisa. No demonstrativo, o autor mostra uma cena noturna complexa com tráfego, pedestres, motocicletas e bicicletas; ao digitar "bicycle" no playground do SAM 3, o sistema procura ao longo dos dez segundos do vídeo, encontra a bicicleta quase imperceptível e também identifica outras bicicletas que aparecem durante a sequência. Em outro exemplo, ao digitar "taxi", o modelo detecta e segmenta todos os táxis presentes no vídeo, criando segmentos independentes para cada instância. A interface exibe miniaturas dos objetos à esquerda, atribui rótulos e cores distintas a cada segmento e permite excluir segmentos indesejados. Esse lançamento destaca o potencial do SAM 3 para edição de vídeo, análise visual e automação de tarefas que exigem reconhecimento e isolamento de objetos em movimento, ampliando o acesso a ferramentas avançadas de visão computacional. É uma ferramenta promissora para criadores, pesquisadores e desenvolvedores interessados em soluções abertas para visão computacional de forma colaborativa.