A respeito dos fundamentos de GPU para ambientes de alto desempenho e das aplicações práticas da CUDA, julgue o item a seguir.


Técnicas como AWQ (activation-aware weight quantization) e GGUF (general unified format) comprometem a precisão e a viabilidade da execução local de grandes modelos de linguagem, sendo inadequadas para aplicações como chatbots offline, análise de texto em tempo real ou inferência embarcada, já que essas abordagens aumentam a latência e o consumo de memória, exigindo hardware com alta capacidade computacional.