O Transformer é uma arquitetura de rede neural introduzida no artigo “Attention is All You Need” (2017), que revolucionou o campo do Processamento de Linguagem Natural (NLP). Diferente de modelos anteriores, como RNNs e LSTMs, ele não depende de processamento sequencial – permitindo paralelismo, maior velocidade e melhor desempenho em tarefas linguísticas.
As palavras são convertidas em vetores (números) para que possam ser entendidas pelo modelo.
➡ Exemplo: “gato” → [0.12, -0.34, ...]
Como o Transformer processa tudo ao mesmo tempo (não em sequência), ele precisa saber a posição de cada palavra na frase. Isso é feito com codificações posicionais que são somadas ao embedding.
O coração do Transformer. A ideia é:
“Para cada palavra, qual é a importância das outras palavras no contexto?”
A fórmula de atenção básica:
Attention(Q, K, V) = softmax(Q × Kᵗ / √dₖ) × V
Onde:
Essa técnica permite que o modelo “preste atenção” em partes relevantes da frase ao tomar decisões.
O modelo usa múltiplas “cabeças de atenção” que analisam diferentes partes da frase de maneira paralela e combinam os resultados.
Após a atenção, os dados passam por uma rede neural tradicional para mais processamento.
Cada etapa tem uma normalização (layer norm) e uma conexão residual (skip connection), ajudando no aprendizado e estabilidade.
O Transformer completo é formado por dois blocos principais:
No caso do GPT, apenas o decodificador é usado, pois ele é treinado para prever a próxima palavra.
O Transformer é a base de modelos como:
Renée Maksoud - junho de 2025