Sim, ajuda, mas... a RNDA1 já trabalha com dados compressionados (na minha assinatura tem um link para um resumo sobre a arquitetura RDNA1, expliquei isso lá):
"Unido a isso a AMD aplicou DCC (Compressão Delta de Cor) em todos os níveis de memória, adicionou escrita/leitura fora de ordem em todas as memórias e unificou o LLC (Cache de Último Nível) com os ACE (Motor de Computação Assíncrona) e uncore. Aqui realmente o trabalho foi duro mas recompensante, pois não só o consumo de energia é reduzido como o segundo maior gargalo da GCN é eliminado (por alto, esse novo esquema hierárquico com DCC faz os 448GB/s render como se fosse ~1TB/s)."
O que vai acontecer é a AMD ter melhorado esse algoritmo de compressão para ter um resultado melhor, mas isso ainda não mudará o fato de que são apenas 512GB/s, contra 760GB/s da concorrente. E mesmo que a AMD tivesse usado um barramento de memória de 320bits, ainda seria menor que o da RTX 3080 por estar usando uma memória mais lenta (seria necessário um barramento de, no mínimo, 384bits para igualar). Memórias de 18Gbps ajudariam um pouco (512GB/s -> 576GB/s), mas não são tão abundantes e baratas quanto as de 16Gbps, então o pouco ganho não vale o custo.
Quanto a adicionar um bloco de hardware para fazer isso, é complicado, pois ele precisaria descompactar esses dados na cache e isso induziria latência, logo o melhor caminho é otimizar ao máximo a compressão e fazer todos os blocos "entenderem" essa compressão (aka ler/escrever o dado já compressionado), pois isso já funcionaria como um hardware dedicado a isso, entende? Bem, a NVIDIA 'bombou' a Ampere com memórias G6X e muitos ALUs para conseguir dar conta do 4K, a AMD está tomando um caminho diferente que é o de reorganizar seus IPs e otimizá-los para conseguir algo semelhante sem custar caro (seja em dinheiro, seja em transistores).
Por fim, quanto a decisão da AMD de ter preferido uma cache de 128MB à 320/384/512bits, além do fator complexidade e custo do PCB, deixo uma análise por um ponto de vista diferente: A memória cache (SRAM) sempre escala bem conforme diminuímos os nós (não atoa demonstra-se densidade de nós por SRAM). Esses 128MB mais uma controladora lógica daria algo em torno de 150mm² na densidade N7 da TSMC, se mudarmos para a N7P esse espaço ocupado é ainda menor. Então, para se ter um barramento maior é necessário ter mais controladores de memória (cada um equivale a 32bits), e eles ao contrário da SRAM são péssimos em escalar (ex: No Zen2/Zen3 o IOD é em 12nm enquanto que o CCD é em 7nm), logo quanto mais denso o nó menos sentido se vê em usar muitos controladores: Um barramento de 512bits (16 IMCs) GDDR6 gastaria mais espaço em um die N7+ que um barramento de 256bits (8 IMCs) GDDR6 com 128MB cache.
Vale ressaltar que os IMCs consomem e esquentam, em alguns casos até mais que a cache (novamente, o Zen2, em idle o CPU fica na casa dos 20W, porque desse montante ~15W é do IOD), então mudar o padrão de muitos IMCs para poucos IMCs mais cache soa bem no papel, mas e na prática? Se ela funcionar da mesma forma que a LLC, sua eficiência será de 100%: As cache da GPU têm uma taxa de acerto bem alta, e quanto mais se acerta mais se absorve o trafego de dados que iria para a VRAM, logo oferecer uma cache extra é vantagem em todas as situações, e mesmo tendo uma penalidade na latência por causa de seu tamanho, é mais rápido um acesso um pouco mais lento garantido (sempre ir até a LLC) que um acesso mais rápido com grandes chances de altas latências (ir à VRAM por um miss).
UFA, acho que devo ter deixado claro :3