Scientists Found 7 Disturbing Things Inside AI

TLDR;

Grokking é o fenômeno em que um modelo passa de memorizar exemplos a generalizar repentinamente após mais treino, mostrando saltos inesperados na aprendizagem que desafiam nossa intuição sobre como redes neurais aprendem. Pesquisadores encontraram tokens "glitch" por falhas entre tokenizer e dados e também mapearam recursos internos interpretáveis que podem ser amplificados ou suprimidos, fazendo modelos como Claude "obsessarem" por um conceito como a Golden Gate Bridge. Essas descobertas implicam tanto aplicações impressionantes — resolver problemas científicos antigos e até controlar interfaces biológicas — quanto riscos de alinhamento, comportamento imprevisível e necessidade de debate ético e regulação.

Resumo

O vídeo reúne sete fatos surpreendentes sobre redes neurais modernas e as implicações técnicas e sociais que eles trazem: o fenômeno do "grokking", em que modelos passam de mera memorização a generalização repentinamente após muito treino; tokens “fantasmas” gerados por incompatibilidades entre tokenizer e dados, que podem provocar respostas erráticas; o experimento "Golden Gate" com Claude, que mapeou e permitiu amplificar ou suprimir recursos internos interpretáveis (como a ideia da ponte) — mostrando que conceitos internos são humanos e controláveis, o que tem impacto em alinhamento; a descoberta dos "induction heads", circuitos que permitem aprendizado a partir de poucos exemplos e cuja formação coincide com mudanças visíveis na perda de treinamento; e relatos diversos de aplicações e dilemas reais — desde AIs que resolveram problemas biológicos históricos repetidamente até hardware que transforma corpos de insetos em ciborgues e avanços em implantes visuais. Também são abordadas preocupações sociais e políticas: reflexões de Mona Lazar sobre mudanças humanas, alertas de Peter Thiel sobre o mercado de trabalho técnico, propostas de taxação por Elizabeth Warren, busca por medidores de consciência, recursos protótipo da Apple, falhas de chatbots em atendimento da Meta, e uma crítica à noção simplista de “fundamental” na física. O vídeo mistura descobertas científicas, aplicações inquietantes e debates éticos.

Scientists Found 7 Disturbing Things Inside AI

Conteudo

TLDR;

Resumo

Relacionados

Instalar YouNews

Instalar YouNews