
https://arxiv.org/pdf/2407.04620
Não consigo sincronizar minhas pesquisas com os posts no blog (seria impossível), mas em 15 de Agosto fiquei surpreso, pois pesquisadores de instituições renomadas, incluindo Stanford, UC San Diego, UC Berkeley e Meta, estão avançando no desenvolvimento de uma nova arquitetura de inteligência artificial, conhecida como modelos TTT (test-time training). Essa inovação promete superar os desafios enfrentados pelos transformers tradicionais, oferecendo um processamento de dados mais eficiente e econômico para aplicações em IA generativa.
Os modelos transformers são essenciais em organizações como a OpenAI, formando a espinha dorsal de sistemas avançados como o Sora, um gerador de vídeo de última geração. Apesar de sua eficácia em processar linguagem natural e gerar texto, esses modelos consomem uma quantidade significativa de energia e exigem alta capacidade computacional. Um dos principais limitadores dos transformers é o estado oculto, que, embora armazene informações valiosas, requer revisão completa dos dados para responder a perguntas específicas, como sobre o conteúdo de um livro.
Para superar essas limitações, foi desenvolvido o modelo TTT, que elimina a necessidade de um estado oculto extensivo, substituindo-o por um mecanismo de aprendizado de máquina mais eficiente. Segundo Yu Sun, pós-doutorando em Stanford e colaborador na pesquisa, os modelos TTT são capazes de processar extensos volumes de dados — incluindo texto, imagens, áudio e vídeo — sem aumentar seu tamanho conforme mais dados são processados, algo que os diferencia dos transformers tradicionais.

As principais inovações das camadas TTT incluem:
- Estados Ocultos Expressivos: Cada estado oculto nas camadas TTT é um modelo, como um modelo linear ou um MLP de duas camadas (Perceptron Multi-Camadas), que pode ser continuamente treinado para capturar melhor o contexto.
- Regra de Atualização Auto-Supervisionada: O mecanismo de atualização para o estado oculto é baseado em aprendizado auto-supervisionado, permitindo que o modelo atualize seus parâmetros com base nos dados de entrada mesmo durante o tempo de teste.
Em termos de avanços práticos, a abordagem TTT aborda questões de escalabilidade e eficiência comumente enfrentadas por RNNs tradicionais e modelos de autoatenção por:
- Manter uma complexidade linear em relação ao comprimento da sequência de entrada.
- Potencialmente superando RNNs tradicionais como Mamba e modelos de autoatenção como Transformers no manejo de contextos de sequências longas.
- Implementar otimizações de sistema que permitem que as camadas TTT funcionem eficientemente em hardware, beneficiando-se particularmente das arquiteturas modernas de GPU.
“Nossa abordagem permite que o sistema analise informações sobre um livro com menos complexidade computacional, evitando a necessidade de revisitar o texto múltiplas vezes”, explicou Sun ao TechCrunch. Essa tecnologia tem o potencial de transformar o processamento de vídeos longos, simulando a experiência visual humana sem as limitações dos grandes modelos baseados em transformers.
Outras empresas, como Mistral e AI21 Labs, também estão explorando tecnologias alternativas, como os modelos de espaço de estado (SSMs), que prometem eficiência comparável ou até superior aos transformers.