O artigo Attention is All You Need (Vaswani et al.,2017) marcou uma ruptura no processamento de linguagem natural ao apresentar a arquitetura Transformer. Sua abordagem abriu caminho para a criação de modelos de grande escala, como BERT, GPT e diversos outros que dominam o estado da arte em processamento de linguagem natural e em outras áreas, como visão computacional e bioinformática.
Sobre a arquitetura Transformer, é correto afirmar que: