"[AMD FSR3] não é uma pesposta ou uma coisa rápida [ao DLSS3], é absolutamente algo em que estamos trabalhando há algum tempo. Por que está demorando um pouco mais para sair [...]? A principal coisa a ser lembrada sobre o FSR é a sua filosofia e o FSR até agora não funcionava apenas no RDNA2 ou RDNA1, mas em outras gerações de placas gráficas AMD. Eles também funcionam em placas gráficas concorrentes. É exponencialmente mais difícil do que se o fizéssemos funcionar em RDNA3. […] Nós realmente queremos trabalhar em mais do que apenas RDNA3." — Frank Azor para PCWorld
> Seria essa uma implicação indireta de que o FSR3 utilizará os núcleos de IA que estrearão na RDNA3, e por causa disso é 'exponencialmente mais difícil' coloca-lo nas RDNA1/2?
Depois de ter revisto a apresentação e ter lido os slides (e o site) da AMD, tenho muita coisa a falar mas meu sentimento foi de.... Venham ler um pouco comigo
1) Vamos começar com uma olhada no die N31 com anotações do Locuza, onde vemos claramente 6SEs, onde cada motor de sombreamento é composto por 16CUs, onde cada unidade computacional é composta por 64SPs, onde cada processador de fluxo realiza 2 operações FMA (ou 4 FP32 / 8 FP16 / 16 INT8 / 32 INT4). Logo, numericamente falando, o total de ALUs do N31 é de 6144SPs e não 12288SPs (mas esse segundo número não está inteiramente errado). Além disso fica claro a total ausência do InfCache (que foi movido para o MCD) e o aumento de ROPs (128 -> 192).
2) A primeira conclusão disso é um rebalanceamento na RDNA3: Cada SE agora é composto por 16CUs e não 20CUs, aliviando assim a carga nos ROPs e unidade de Rasterização +Primitivos (antes eram 40SPs a cada ROP, agora são 32SPs por cada ROP), mas apenas no caso de cada CU realizar uma instrução, pois com o ILP (Paralelismo a Nível de Instrução) pode-se aumentar a carga/vazão a até 64 tarefas por ROP, e não duvido que esse seja um dos motivos de frequências distintas do front-end e shader-cores.
3) Falando de ILP e "carga/vazão a até", já deve ter ficado claro que a AMD não dobrou a quantidade de SPs por CU, e sim a quantidade de instruções que cada SP processa. No caso a quantidade de processadores de fluxo é de 6144SPs mas cada um desses núcleos pode processar um ou dois dados por vez, mas isso não é uma certeza e sim uma possibilidade, tudo vai depender se o hardware/software conseguir extrair uma segunda instrução sem dependências da tarefa em execução. Por isso que disse que o número de 12288SPs não está errado, pois no melhor caso os 6144SPs trabalharão como se fossem o dobro disso, rendendo esse desempenho anunciado de ~61TFlops, mas...
4) ...esses 61,4TFlops é o rendimento da 7900XTX no melhor dos casos, pois no pior deles o desempenho dela é de "módicos" 30,7TFlops. Estaria então a AMD mentindo ao informar os 70% acima da 6950XT? O ganho de vazão da Navi31 em cima da Navi21 é de 2,8x mas a AMD já sabendo que o máximo só é alcançado em situações bem específicas, informou 1,7x para não haver reclamações futuras (imho, haverão), que é justamente a media. Então meus amigos esperem aquela clássica sensação das Vega de volta: "Por que minha placa tem tantos FLOPS e não rende isso tudo nos jogos?".
5) Pelo visto a AMD voltou atrás na decisão de não gastar transistores com núcleos dedicados à IA/ML e finalmente os adicionou: Agora a RDNA3 possui dois aceleradores de instruções de baixa precisão por CU (totalizando 192 AI-cores) que aumentam a execução dessas instruções em 270%! Essas unidades acelerarão coisas como o degrain/denoise do RTRT e o FSR3, além de cálculos relacionados à IA/ML (como o BF16, INT16 e INT8). A grosso modo esses são os "Tensor Cores" da AMD, e não duvido nada que seja nessas unidades que se utilizará o WMMA (Fusão de Matrizes de Multiplicação-Soma).
6) E é claro que se o FSR3 vai se aproveitar desses novos núcleos, ele provavelmente não funcionará nas RDNA2 e RDNA1. Claro, faltam muitas informações ainda para falar qualquer coisa sobre, mas os ganhos exibidos em desempenho só levam a crer que ele esta sendo acelerado por essas novas unidades de AI, e isso contribui também para um ganho de desempenho da GPU como um todo pois desafoga o pipeline desse tipo de cálculo (mas os SPs ainda continuam com a possibilidade de realizar tais cálculos, caso precise). Como disse, tudo muito verde e sem nenhuma informação concreta sobre, só resta aguardar.
7) A parte que menos impressionou foi a do ray-tracing das RDNA3, que aumentou mas ficou devendo bastante em relação à concorrência, e o claro motivo é da ausência de hardware dedicado a isso como a Intel e NVIDIA possuem. Parte dessa decepção se deve aos vazamentos, que apontavam o dobro de SPs e com isso teríamos o dobro de núcleos RT, que por não se provar verdade teve um leve aumento de 80 para 96 núcleos aceleradores, ao invés de 80 para 192, ou seja, um aumento de apenas 20% de aceleradores, que só entregaram mais desempenho porque a AMD aumentou a eficiência de cada um deles em 50%. Somem isso a uma ordenação box e traversal via hardware e temos um ganho entre 47% e 84% em cima da geração anterior (nota, o gráfico que mostra tais valores utiliza o FSR).
8) Faz muito, mas muito tempo mesmo que não leio sobre "clocks desacoplados", creio que as últimas GPUs que vi usando esta abordagem foram da série 8000 da NVIDIA (Tesla), lá em 2006 (não lembro se as Fermi também eram assim). Deixando a NVIDIA de lado, um dos motivos para essa separação é que, com o ILP, a parte de execução do sombreamento acaba pesando muito no consumo enquanto que o front-end, que não foi expandido (pelo contrário, foi simplificado já que utiliza apenas o NGG agora), não pesa. Então desacoplar a frequência acaba trazendo um balanceamento na carga de trabalho e principalmente no consumo, que segundo a AMD teve uma redução de até 25% só com essa decisão. Vale constar, também, que esse tipo de abordagem dificulta o overclock, mas desde que o turbo/boost chegou nas GPUs que é mais vantajoso ir de undervolt que overclock.
9) Os demais detalhes como o DisplayPort 2.1, UHBR13.5, 12bit por canal (que permitirão 8K165 ou 4K480) e o suporte à compressão AV1 via hardware nem preciso citar, mas este último é interessante pois essa compressão tem um diferencial: Os núcleos de inteligência artificial irão ser usados para aplicar post-processing na compressão e assim otimizar partes do video final, como realce de letras, deblocking e denoise, aumentando e muito a qualidade visual do resultado, e isso tudo graças à compra da Xilinx.
10) A AMD evitou comparar com a concorrência, mas pelos cálculos e pelo que foi mostrado, o desempenho em rasterização 4K da 7900XTX deve ficar entre 10-15% abaixo da RTX4090, com um preço 38% inferior e um consumo igualmente menor, logo foi um bom posicionamento, o que não posso dizer da 7900XT que pareceu-me cara para uma redução de 24% de desempenho em relação à sua irmã mais forte. Se o preço da XT fosse 799~849 seria excelente e colocaria muito mais pressão nas futuras 4070(Ti) e até 4080, mas deixa-la com o preço de 899 não me pareceu bom.
---
Considerações finais, com opinião pessoal: a AMD cumpriu a promessa de >50% de desempenho por watt geração-sobre-geração, e sobre um preço muito competitivo que deixa a concorrente em desvantagem nas placas que ainda serão lançadas. Mas nem tudo são flores, pois o Paralelismo a Nível de Instrução (ILP) é uma maneira barata (ou rápida, se preferirem) de adicionar vazão de dados à GPU, e isso nos faz voltar a justamente o que o RDNA1 corrigiu das GCN, que são os "FLOPS falsos", aka, o desempenho real da GPU não condizer com o desempenho no papel. Se a AMD não conseguir extrair paralelismo através do ILP o desempenho da 7900XTX vai ser de apenas ~31TFlops, ou seja, ~40% de ganho em cima da 6950XT, bem longe dos 70% divulgados e mais longe ainda dos teóricos 185% de ganho no papel (21,5TFlops -> 61,4TFlops).
Para quem ainda não conseguiu entender isso de paralelismo de instrução e pico variável, pensem no ILP como ligar/adicionar SMT/HT a um CPU: A quantidade de núcleos dobra, mas esses núcleos virtuais nem sempre dobram o desempenho, tem vezes que eles ajudam mas tem outras que eles não adicionam desempenho.
Logo quem vivenciou a uArch Terascale da AMD sabe a dependência que ela tinha do software por causa do ILP (e do VLIW, mas não focarei nessa parte). Por fim, posso estar sendo dramático agora, mas esse movimento de lançar a esse preço faz parecer o lançamento do RDNA1, onde a AMD lançou o chip topo de linha (N10 == x800/x900) como sendo da série x700 justamente por não conseguir alcançar/passar o topo de linha da concorrência, mas dessa vez ela usou a nomenclatura high-end. Falando em nome, por mais nostálgico que sejam as siglas XT e XTX, muitos se confundirão com essa pequena diferença no nome e grande diferença no conjunto, dá até para parafrasear com a 4080 16GB x 4080 12GB, ou seja, 7900 24GB x 7900 20GB U.U
No geral fiquei com "mixed feelings", mas como estava do lado conservador do que esperar, fico no aguardo de mais informações da arquitetura e com aquele pensamento: Essa foi um novo paradigma interno tal qual foi do Zen1 para o Zen2, logo o RDNA4 será o mesmo salto que foi do Zen2 para o Zen3, ou seja... o loop eterno de aguardar pelo que esta por vir xD
Ainda acho que algo deu errado com esse chip do N31 por causa dos clocks. Basta ver o aumento de clocks do Zen3 para o Zen4 para ver porque o pessoal estava esperando um boost na casa dos 3GHZ e não 2.5GHZ que é bem pouco comparando com os 2.1~2.2GHZ do N21. Curioso para ver a frequência da N33 que pelo rumor é em 6nm para ver se é algo da arquitetura ou foi problema com o processo de 5nm.
Outra coisa que acho que vai prejudicar bastante a AMD é o pouco investimento em aumentar a performance em RT. Para as RDNA2 até que não importou muito pois tinha poucos jogos com RT na época mas acho que para o ano que vem e 2024 (2 anos para cada geração) virão muitos jogos e essas placas vão ficar muito atrás da Nvidia. Eu estava esperando mais de 2X de aumento por unidade RT mas esses 50% foram broxantes já que a AMD vem de uma performance em RT bem inferior que a Nvidia e Intel. E se no ano que vem a Intel conseguir lançar uma GPU high end a AMD vai cair para terceira posição em performance nesses jogos.
Sobre a mudança da arquitetura eu acho que foi por causa dos chiplets que eles voltaram para a organização das instruções por software pois eu acredito que no futuro uma GPU com múltiplos GDC vai precisar que um controle mais fino das waves de instruções para dividir o trabalho entre elas.
E para extrair performance desses novos CUs com 2 intruções por ciclo vai demandar um trabalho muito maior da equipe dos drivers então acho que podemos esperar a mesma novela das Vega com a volta do "fine wine" que era péssimo para os reviews de lançamento das placas.
Ele realmente colocou um preço muito baixo, mas convenhamos que a 7900XT ficou acima do esperado. Se olharmos a geração anterior pelos preços, temos:
- 6900XT = 999 USD
- 6800XT = 649 USD
- 6800 = 579 USD
Então daria muito bem para a 7900XT custar 849 ou até 799, enquanto que a série 7800 pode/poderia começar em 749/699 ou até mesmo arriscar nos mesmos 649 da 6800XT, pois a diferença de desempenho para a 7900XT será grande, então não sei o que pensar do preço alvo. E por que falo do desempenho? Comparem:
- 6900XT -> 6800XT == N21, 80CU, 256bit, 128MB InfCache -> N21, 72CU, 256bit, 128MB InfCache
- 7900XT -> 7800XT == N31, 84CU, 320bit, 96MB InfCache -> N32, 60CU, 256bit, 64MB InfCache
Então tudo leva a crer que vai ter um abismo de diferença de desempenho entre a 7900XT e 7800XT, a menos que exista outro cut-down da Navi31 (5SE*14CU, ou 6SE*12) para amenizar esse salto, no caso um chip N31XL (com 70 ou 72CUs), só não sei dizer se viria com 4 ou 5 MCDs (256 ou 320bits). Sinceramente? Vai ficar um abismo mesmo, dificilmente este cut-down existirá.
Ainda acho que algo deu errado com esse chip do N31 por causa dos clocks. Basta ver o aumento de clocks do Zen3 para o Zen4 para ver porque o pessoal estava esperando um boost na casa dos 3GHZ e não 2.5GHZ que é bem pouco comparando com os 2.1~2.2GHZ do N21. Curioso para ver a frequência da N33 que pelo rumor é em 6nm para ver se é algo da arquitetura ou foi problema com o processo de 5nm.
Outra coisa que acho que vai prejudicar bastante a AMD é o pouco investimento em aumentar a performance em RT. Para as RDNA2 até que não importou muito pois tinha poucos jogos com RT na época mas acho que para o ano que vem e 2024 (2 anos para cada geração) virão muitos jogos e essas placas vão ficar muito atrás da Nvidia. Eu estava esperando mais de 2X de aumento por unidade RT mas esses 50% foram broxantes já que a AMD vem de uma performance em RT bem inferior que a Nvidia e Intel. E se no ano que vem a Intel conseguir lançar uma GPU high end a AMD vai cair para terceira posição em performance nesses jogos.
Sobre a mudança da arquitetura eu acho que foi por causa dos chiplets que eles voltaram para a organização das instruções por software pois eu acredito que no futuro uma GPU com múltiplos GDC vai precisar que um controle mais fino das waves de instruções para dividir o trabalho entre elas.
E para extrair performance desses novos CUs com 2 intruções por ciclo vai demandar um trabalho muito maior da equipe dos drivers então acho que podemos esperar a mesma novela das Vega com a volta do "fine whine" que era péssimo para os reviews de lançamento das placas.
Perfeitas observações. Os comentários que estão aparecendo é que a arquitetura foi pensada em alcançar os 3GHz mas por algum motivo parou nos 2,5GHz, e na minha mente dizer que foi pelo limite de consumo é só uma parte do quebra-cabeça, tem mais coisa ai, só resta esperar o chip monolítico (N33) para dar uma conclusão, se bem que com o abismo de distância entre o Navi31 e o Navi32 este segundo precisará de um clock bem mais alto para minimizar este gap.
Quanto ao RTRT penso o mesmo, já se vão 4 anos desde seu surgimento e com a Lovelace, e a implementação desse recurso em motores gráficos populares, a tendência é dele finalmente sair de um gimmick para algo necessário/obrigatório, até a Intel que acabou de aparecer na briga tem uma implementação mais completa e rápida, portanto daqui para 2024 a RDNA3 pode se tornar completamente obsoleta em questão de desempenho frente às concorrentes em jogos com a UE5, por exemplo.
Até entendo seu ponto quanto à mudança para o lado software, e pode até ser que seja realmente necessário, mas como bem disseste a AMD precisará de uma equipe muito melhor no lado software, que não é e nunca foi o forte da AMD, isso desde os tempos da ATi e o Catalyst. Essa de ILP só me faz lembrar não é nem das Vega com "Fine Wine", e sim das Terascale onde precisávamos esperar um "driver day one" para o jogo rodar satisfatoriamente porque a placa era totalmente dependente do software para desempenhar, sem um driver o jogo ou não rodava, ou rodava com bugs ou rodava lento, sem condizer com o desempenho da placa... as vezes era preciso esperar semanas para ter "o driver do jogo", e nisso tome martelada nas comparações internet à fora (como eu jogava só depois que o preço do jogo caia, não sofria com isso, mas quem jogava lançamentos sofria nos tempos das HD2000 à HD5000). Espero sinceramente que este tempo não volte...
Gsus, erro crasso, corrigi imediatamente. Estava meio vesgo por causa do vinho mesmo xD
Para não ficar apenas no meu erro, uma informação importante e ao mesmo tempo nada legal:
2pJ/bit é um pouco de exagero, mas se colocarmos um valor mais normal de 1pJ/bit ainda assim temos 42W de consumo de energia apenas com o InfinityLink. Por que essa informação não é legal? Porque assim como nos Ryzens chiplet esse consumo não some, ele é constante, ou seja, esperem um consumo em idle mais alto que o comum (novamente, assim como nos Ryzens).
isso não é um avanço tão grande amigo, seria se fosse 4nm!
no mais nessa geração a AMD focou na relação consumo x performance praticamente mantendo os msmos TDP!
isso não é um avanço tão grande amigo, seria se fosse 4nm!
no mais nessa geração a AMD focou na relação consumo x performance praticamente mantendo os msmos TDP!
Não. 5nm é um processo de fabricação totalmente novo, é sim um grande avanço sobre os 7nm.
Lembrando que:
6nm é somente um aperfeiçoamento do processo de 7nm e 4nm a mesma coisa, é um pequeno aperfeiçoamento do processo de 5nm.
O Próximo grande avanço no processo de fabricação será o 3nm, que ira estrear ano que vem com os novos chips da Apple, para processadores desktop e GPUs provavelmente veremos esse processo sendo utilizado somente lá pelo final de 2024, já que a Apple abocanha praticamente toda a produção em um novo processo da TSMC.
Gsus, erro crasso, corrigi imediatamente. Estava meio vesgo por causa do vinho mesmo xD
Para não ficar apenas no meu erro, uma informação importante e ao mesmo tempo nada legal:
2pJ/bit é um pouco de exagero, mas se colocarmos um valor mais normal de 1pJ/bit ainda assim temos 42W de consumo de energia apenas com o InfinityLink. Por que essa informação não é legal? Porque assim como nos Ryzens chiplet esse consumo não some, ele é constante, ou seja, esperem um consumo em idle mais alto que o comum (novamente, assim como nos Ryzens).
ou seja e o mesmo "HT link" que tem nos Ryzens ?
então pra fazer over tem que ficar de olho pra ver se não fica 2:1 etc... ?
se sim mais uma coisa pra complicar o oc
Gsus, erro crasso, corrigi imediatamente. Estava meio vesgo por causa do vinho mesmo xD
Para não ficar apenas no meu erro, uma informação importante e ao mesmo tempo nada legal:
2pJ/bit é um pouco de exagero, mas se colocarmos um valor mais normal de 1pJ/bit ainda assim temos 42W de consumo de energia apenas com o InfinityLink. Por que essa informação não é legal? Porque assim como nos Ryzens chiplet esse consumo não some, ele é constante, ou seja, esperem um consumo em idle mais alto que o comum (novamente, assim como nos Ryzens).
Zero problemas de driver ou performance. Uso uma Red devil 6900xt e a única coisa que eu reparei é o aumento de temperatura progressivo que vem acontecendo desde que eu comprei.
Fora isso, não lembro de um jogo que não tenha alcançado os 144 fps em qhd no ultra, salvo o cp2077, que fica na casa dos 95-99.
Tanto que um amigo comprou uma 6900 da amd, e tá felizao com o upgrade que fez da 3070.
Agora RT dá um chute no saco dela
Se me devolverem a grana da garantia, vou procurar/esperar uma rog 7900xtx ou pegar uma placa referência.
Zero problemas de driver ou performance. Uso uma Red devil 6900xt e a única coisa que eu reparei é o aumento de temperatura progressivo que vem acontecendo desde que eu comprei.
Fora isso, não lembro de um jogo que não tenha alcançado os 144 fps em qhd no ultra, salvo o cp2077, que fica na casa dos 95-99.
Tanto que um amigo comprou uma 6900 da amd, e tá felizao com o upgrade que fez da 3070.
Agora RT dá um chute no saco dela
Se me devolverem a grana da garantia, vou procurar/esperar uma rog 7900xtx ou pegar uma placa referência.
Estou há cerca de 2 semanas com uma 6900 XT. Sem problema algum, estável.
Só tenho 2 bugs no momento:
- Não consigo streamar Destiny 2 pelo Discord (não consegui fazer instalação limpa do Discord, então não sei...)
- Fui afetado pelo bug de stutter em vídeos HD no Firefox. Desativar aceleração de hardware resolveu.
No mais, está belezinha.
Edit: @SharkHunter_JF, 3º bug: Estou jogando Destiny e algumas vezes quando dou alt+tab a tela fica preta, a imagem não volta e tenho que reiniciar o PC.
Sem problemas aqui com aminha 6800XT. Mas confesso que joguei poucos jogos diferentes nela então não sei como está a estabilidade em jogos mais recentes.