Hardware | 12/05/2021

Tudo o que sabemos sobre a série RTX 3000 da Nvidia

Tudo o que sabemos sobre a nova série de placas de vídeo da Nvidia: as GeForce RTX 3000.

 

A arquitetura Ampere irá alimentar a GeForce RTX 3090, GeForce RTX 3080, GeForce RTX 3070, RTX 3060 TI, RTX 3060 e as outras próximas GPUs Nvidia. Ela representa a próxima grande melhora do time verde e promete um salto gigantesco de desempenho. Com base nos detalhes atuais, estas GPUs devem passar facilmente para o topo da hierarquia de GPUs e derrubar algumas das melhores placas gráficas do mercado. A seguir, vamos entrar nos detalhes do que sabemos sobre a arquitetura Ampere, incluindo especificações, características e outras melhorias de desempenho.

 

nvidia rtx 3000

 

A arquitetura Ampere marca um importante ponto de inflexão para NVidia. É a sua primeira GPU de 7nm, ou de 8nm para as peças de consumo. De qualquer forma, o processo de encolhimento permite um número significativamente maior de transistores embalados em uma área menor do que antes. É também a segunda geração ray tracing de consumidor e a terceira geração de hardware de deep learning. Este processo menor fornece uma grande oportunidade para a Nvidia melhorar radicalmente o hardware e tecnologias anteriores da série RTX 20.

Sabemos que a arquitetura Ampere já lançou em seu caminho a GeForce RTX 3090, RTX 3080, RTX 3070, RTX 3060 TI e RTX 3060, esperamos também a RTX 3050 vir esse ano. Também fazem parte das GPUs de data center: as Nvidia A100, que são uma categoria completamente separada de hardware. Aqui vamos explicar as variações da arquitetura Ampere tanto para o consumidor quanto para o data center e mostrar algumas das diferenças.

O lançamento das GPUs Ampere da Nvidia parece uma mistura de Pascal de 2016 e Turing de 2018. O CEO da Nvidia, Jensen Huang, revelou o centro de dados A100 em 14 de maio, oferecendo um gosto inicial oficial do que está por vir, mas o A100 não foi projetado para os cartões GeForce. É a substituição para o Volta GV100 (que substituiu o GP100). Os modelos de consumo têm um conjunto diferente de recursos, alimentados por GPUs separadas como o GA102, GA104 e assim por diante. As placas de consumo também usam GDDR6X/GDDR6, onde a A100 usa HBM2.

 

nvidia rtx 3000

 

Além da arquitetura da GPU, a Nvidia reformulou o design central da placa gráfica, com um forte foco em refrigeração e energia. Como observa um vídeo da Nvidia, “Sempre que falamos de performance da GPU, tudo vem de quanto mais potência você pode dar e pode dissipar, mais performance você pode obter”. Uma solução de resfriamento retrabalhada, ventiladores e placa de circuito impresso (PCB) fazem parte da melhoria da história geral de desempenho das GPUs Ampere da Nvidia. Naturalmente, os projetos de terceiros são livres para se desviar dos projetos da Nvidia.

Com a mudança do nó FinFET de 12nm da TSMC para TSMC N7 e Samsung 8N, muitos esperavam que a Ampere oferecesse melhor desempenho em níveis de potência mais baixos. Em vez disso, a Nvidia está levando todos os transistores extras e eficiência e simplesmente oferecendo mais, pelo menos no pico da performance dos produtos. A GA100, por exemplo, tem 54 bilhões de transistores e uma matriz quadrada de 826mm. Isso é um aumento considerável de 156% na contagem de transistores do GV100, enquanto o tamanho da matriz é apenas 1,3% maior. As GPUs de consumo também aumentam na contagem de transistores enquanto reduzem muito o tamanho das matrizes.

Enquanto 7nm/8nm permite uma melhor eficiência com o mesmo desempenho, também permite um desempenho muito maior com a mesma potência. A Nvidia está tomando o caminho do meio e oferecendo ainda mais desempenho com níveis de potência ainda mais altos. O V100 foi uma peça de 300W para o modelo de data center, e o novo Nvidia A100 o empurra para 400W. Vemos o mesmo nos modelos de consumo. A GeForce RTX 2080 Ti era uma peça de 250/260W, e a Titan RTX era uma peça de 280W. A RTX 3090 vem um TDP recordista de GPU única de 350W (que não conta o A100, obviamente), enquanto a RTX 3080 tem um TDP de 320W.

O que isso significa para os usuários finais? Além de requerer potencialmente uma atualização da fonte de alimentação e o uso de um conector de alimentação de 12 pinos nos próprios modelos da Nvidia, significa uma carga gigante de desempenho. É o maior salto de desempenho de uma única geração que eu me lembro de ter visto da Nvidia. Combinado com as atualizações de arquitetura, às quais chegaremos em um momento, a Nvidia diz que a RTX 3080 tem o dobro do desempenho da RTX 2080. E se essas cargas de trabalho incluem ray tracing e/ou DLSS, o abismo pode ser ainda maior.

 

 

Vamos  abordar também a questão da eficiência. Em um ponto de sua apresentação, Jensen afirmou que a Ampere fornece 1,9X o desempenho por watt como Turing. Isso parece impressionante, porém aparenta ser mais uma elevação teórica do desempenho do que o que veremos na tabela inicial das GPUs.

Veja a RTX 3080 como um exemplo. Ela tem um TDP de 320W, que é quase 50% mais que o TDP de 215W da RTX 2080. Mesmo que realmente tenha o dobro do desempenho da RTX 2080, isso ainda é apenas uma melhoria de 35% no desempenho por watt.

Nvidia obtém o valor de 1,9X não a partir de fps/Watts, mas sim olhando para a quantidade de potência necessária para atingir o mesmo nível de desempenho que o Turing. Se você pegar uma GPU Turing e limitar a performance a 60 fps em algum jogo não especificado, e fizer o mesmo com Ampere, Nvidia alega que Ampere usaria 47% menos potência.

Isso não é tão surpreendente assim. Temos visto desenhos de GPU de potência limitada por muito tempo em laptops. Os laptops RTX 2080, por exemplo, teoricamente podem clockar quase tão alto quanto as partes de mesa, mas eles estão restritos a um nível de potência muito menor, o que significa que os clocks reais e o desempenho são menores. Uma redução de 10% no desempenho pode muitas vezes proporcionar um ganho de eficiência de 30% quando se está próximo dos limites de um projeto.

O R9 Nano da AMD foi outro exemplo de como a eficiência diminui no limite de potência e tensão. O R9 Fury X era uma peça de 275W TDP com 4096 shaders a 1050 MHz. O R9 Nano tomou os mesmos 4096 shaders, mas os clockou a um máximo de 1000 MHz, e aplicou um limite de 175W no TDP. Na prática, o desempenho era geralmente mais próximo de 925MHz, mas ainda com um terço a menos de potência.

 

nvidia rtx 3000

 

Especificações da Arquitetura Nvidia Ampere

 

nvidia rtx 3000

 

A maior e melhor GPU é a A100. Ela tem até 128 SMs e seis pilhas HBM2 de 8GB cada, das quais apenas 108 SMs e cinco pilhas HBM2 estão atualmente habilitadas na Nvidia A100. As variações futuras poderão ter a configuração completa de GPU e RAM. No entanto, o GA100 não será uma parte do consumidor, assim como o GP100 e o GV100 antes era apenas para uso em data centers e workstations. Sem o hardware de ray tracing, o GA100 não é remotamente viável como uma placa GeForce, não se preocupe com o custo da matriz maciça, HBM2, e do mediador de silicone.

 

nvidia rtx 3000

 

Descendo para os modelos de consumo, a Nvidia faz algumas grandes mudanças. A Nvidia aparentemente dobrou o número de núcleos CUDA FP32 por SM, o que resultou em enormes ganhos no desempenho de sombreamento. Com o GA102, Nvidia tem um total de sete clusters GPC, cada um com 12 SMs, o que dá uma configuração máxima de 84 SMs. Destes, 82 estão habilitados na RTX 3090 enquanto a RTX 3080 tem apenas 68 habilitados. O HBM2 e o interposer de silicone também desapareceram, substituídos por 24 chips GDDR6X, cada um rodando em uma interface de 16 bits de meia largura para o 3090, ou 10 chips GDDR6X rodando em uma interface de 32 bits para o 3080.

Com o dobro de núcleos CUDA por SM, que equivale a 10496 núcleos CUDA, com dois núcleos CUDA FP64 capazes por SM. Em outras palavras, o desempenho da FP64 é 1/64 o desempenho da FP32. Nvidia retira a funcionalidade FP64 restante, e em seu lugar adiciona núcleos RT de segunda geração. Há também quatro núcleos tensores de 3ª geração, cada um dos quais é quatro vezes o rendimento por clock dos núcleos tensores de Turing da geração anterior.

O boost clock de 1700 MHz dá um potencial de 35,7 TFLOPS de FP32, e o GDDR6X de 19,5 Gbps fornece 936 GBps de largura de banda. Caso isso não esteja claro, potencialmente o RTX 3090 terá mais que o dobro do desempenho do RTX 2080 Ti.

Considerando que a RTX 3090 é quase um chip GA102 completo, não há muito espaço para nada mais rápido neste momento. Poderia haver uma futura placa Titan com um GA102 totalmente habilitado? Absolutamente, mas seria apenas 2,4% mais rápido nos mesmos relógios que o 3090. Talvez 21 Gbps de memória pudesse ajudar, mas realisticamente não vemos Nvidia fazendo um cartão Titan para Ampere. Em vez disso, o RTX 3090 é uma placa de desempenho extremo focado no consumidor, e agora está aberto a terceiros para criar designs personalizados (ao contrário das placas Titan das gerações anteriores).

 

 

Há mais do que uma simples duplicação dos núcleos CUDA, no entanto. Especificamente, a arquitetura Ampere da Nvidia para GPUs de consumo agora tem um conjunto de núcleos CUDA que pode lidar com instruções FP32 e INT, e um segundo conjunto de núcleos CUDA que só pode fazer instruções FP32.

Para entender como isso afeta o desempenho, precisamos voltar à arquitetura Turing onde Nvidia adicionou suporte simultâneo FP32 + INT. Se você está pensando que a Ampere pode agora fazer FP32 + FP32 + INT simultâneos, isso é incorreto. Ao invés disso, é FP32 + (FP32 ou INT) concorrente. Isso significa que, embora o TFLOPS teórico tenha aumentado drasticamente, não veremos a escala de desempenho dos jogos diretamente com o TFLOPS.

Com Turing, Nvidia disse que em muitos jogos (olhando para os jogos no geral), aproximadamente 35% dos cálculos do núcleo CUDA eram cargas de trabalho inteiras. As pesquisas com o ponteiro de memória são um exemplo típico disso. Se essa proporção ainda se mantiver, um terço de todos os cálculos de GPU em um jogo serão cálculos de INT, que potencialmente ocupam mais da metade da porção FP32+INT dos SMs.

Os próprios números de desempenho da Nvidia refletem isto. Ele mostrou um aumento de performance geracional de até 2X ao comparar RTX 3080 com RTX 2080, mas se você olhar apenas para o TFLOPS, o RTX 3080 é quase o triplo da performance teórica. Mas a realidade é que a RTX 2080 poderia fazer FP32 + INT em cerca de 10 tera-OPS cada, enquanto a RTX 3080 tem quase 30 tera-OPS de FP32 disponíveis e apenas 15 tera-OPS de INT disponíveis. Usando os dois terços da idéia acima, isso significa que pode acabar fazendo 10 TOPS de INT em um conjunto de núcleos, e 15+5 TFLOPS de FP32 espalhados pelos núcleos da FP32.

Embora o desempenho do computador ainda tenha recebido um aumento considerável, é também importante notar que a largura de banda não cresceu tanto. A RTX 3080 tem o triplo do potencial da FP32, 1,5X do potencial INT, e cerca de 1,5X da largura de banda também (1,53X para ser exato). Há provavelmente melhorias na compressão de memória que tornam a largura de banda efetiva mais alta, mas em geral, provavelmente nunca veremos nada próximo a um aumento de 3X no desempenho da FP32, a menos que alguém possa fazer um teste teórico puro de FP32.

 

nvidia rtx 3000

Num movimento um pouco surpreendente, a RTX 3080 também usa o mesmo chip GA102 que o 3090, só que desta vez com 68 SMs habilitados. A Nvidia diz que os rendimentos são ótimos para a Ampere, mas obviamente parte disso é por ser capaz de usar GPUs parcialmente habilitadas. Isso dá a RTX 3080 impressionantes 8704 núcleos CUDA. Dois dos canais de memória também estão desativados, dando-lhe 10GB de memória GDDR6X.

Ao contrário das gerações anteriores, os clocks das três GPUs da série RTX 30 são relativamente similares: 1700-1730MHz. Em termos de desempenho teórico, a RTX 3080 pode fazer 29,8 TFLOPS e tem 760 GBps de largura de banda, e a Nvidia diz que é duas vezes mais rápida do que a RTX 2080 de saída.

Isso não faz muito sentido, como observamos acima. O desempenho teórico FP32 TFLOPS é quase triplicado, mas a divisão em FP32 vs. FP32/INT nos núcleos, juntamente com outros elementos como largura de banda de memória, significa que uma melhoria de 2X será nas melhores placas no geral.

 

nvidia rtx 3000

 

A RTX 3070 muda para a GPU GA104, e continua o corte em relação à GA102. Onde o GA102 tem sete GPCs com 12 SMs cada, o GA104 tem seis GPCs com 8 SMs cada, dando um máximo de 48 SMs. O RTX 3070, semelhante ao 3090, tem dois SMs desativados para melhorar o rendimento, deixando 46 SMs ativos e 5888 núcleos CUDA. Naturalmente, ele tem um tamanho menor e uma contagem menor de transistores também: 17,4 bilhões de transístores e 392,5mm de tamanho quadrado de matriz.

Ao contrário da 3090/3080, a RTX 3070 usa GDDR6 e tem oito canais com 8GB de memória em um bus de 256 bits. O GA104 suporta tanto o GDDR6 quanto o GDDR6X? Nós não sabemos. Curiosamente, a velocidade da memória do GDDR6 permanece a 14Gbps, a mesma que a das GPUs Turing, o que significa que ela pode encontrar gargalos de largura de banda em algumas cargas de trabalho. Entretanto, também tem os mesmos 96 ROPs que o 3080, e 50% mais ROPs do que a geração anterior RTX 2070 Super. 

A RTX 3070 entrega 20,4 TFLOPS e 448 GBps de largura de banda. Nvidia diz que a RTX 3070 acabará sendo mais rápida que a RTX 2080 Ti também, embora possa haver casos em que a VRAM de 11GB vs. 8GB permita que o ex-campeão de pesos pesados saia na frente.

 

nvidia

 

Arquitetura Ampere GA100 da Nvidia

Algumas das mudanças feitas com o centro de dados GA100 se propagam para a linha do consumidor, mas isso não se estende aos aprimoramentos do núcleo tensor para FP64. Eis o que sabemos da arquitetura Ampere, começando com a GA100.

Em primeiro lugar, a GA100 se empacota em um monte de coisas novas. A um alto nível, a GPU aumentou de um máximo de 80 SMs / 5120 núcleos CUDA no GV100 para 128 SMs / 8192 núcleos CUDA no GA100. Isso é um aumento de 60% na contagem de núcleos, e ainda assim a GA100 usa 2,56 vezes mais transistores. Todos esses transistores extras vão em direção a melhorias na arquitetura. Se você quiser se aprofundar nos detalhes completos, consulte o whitepaper Nvidia A100 Architecture, que resumimos brevemente aqui.

Os núcleos tensores na GA100 recebem as melhorias mais significativas. A geração anterior de núcleos tensores GV100 operava em duas matrizes 4×4 FP16 e podia computar um 4x4x4 fused multiply-add (FMA) das duas matrizes com terceira matriz a cada ciclo. Isso resulta em 128 operações de ponto flutuante por ciclo por núcleo tensor, e Nvidia classificou o GV100 para 125 TFLOPS de pico de produção para FP16.

Os núcleos tensores GA100 por comparação podem completar uma operação de matriz FMA 8x4x8 por clock, que é 256 operações FMA ou 512 operações FP total por núcleo tensor – quatro vezes a produtividade. Mesmo com a metade do número de núcleos tensores por SM, ainda é o dobro do desempenho por SM.

GA100 também adiciona suporte para a esparsidade nos núcleos tensores. A ideia é que muitas operações de aprendizado profundo acabam com um monte de valores ponderados que não importam mais, de modo que, à medida que o treinamento progride, esses valores podem basicamente ser ignorados. Com a sparsity, o rendimento do núcleo tensor é efetivamente dobrado. O Nvidia A100 é avaliado em 312 TFLOPS para FP16, mas 624 TFLOPS com sparsity.

 

hardware perfeito

 

Além do aumento considerável na produção bruta, os núcleos tensores GA100 também adicionam suporte para operações de tensor INT8, INT4 e binário de precisão ainda mais baixa. INT8 permite 624 TOPS, 1248 TOPS com sparsity, e INT4 duplica isso para 1248 / 2496 TOPS. O modo binário não suporta esparsidade e pode ser de uso limitado, mas o A100 pode fazer 4992 TOPS nesse modo.

No outro extremo do espectro, os núcleos tensores do A100 também suportam instruções FP64. O desempenho para FP64 é muito menor que FP16 a 19,5 TFLOPS. Entretanto, para cargas de trabalho FP64 que ainda é 2,5 vezes mais rápido do que o rendimento máximo FP64 do GV100.

Finalmente, o A100 adiciona dois novos formatos de ponto flutuante. O BF16 (Bfloat16) já é usado por alguns outros aceleradores de deep learning (como o TPUv4 do Google). Ele usa os 16 bits, assim como o FP16, mas muda as coisas para usar um expoente de 8 bits e mantissa de 7 bits, combinando com a faixa de expoente de 8 bits do FP32 enquanto diminui a precisão. Isto demonstrou proporcionar melhor treinamento e precisão de modelo que o formato FP16 normal. 

O segundo formato é o Nvidia on Tensor Float 32 (TF32), que mantém o expoente de 8 bits mas estende a mantissa até 10 bits, combinando a precisão da FP16 com o intervalo da FP32. O desempenho da TF32 é o mesmo da FP16 também, portanto a precisão extra para simulações de deep learning vem basicamente ‘grátis’.

 

nvidia

 

São muitas melhorias no núcleo tensor, o que deve lhe dizer onde está o foco da Nvidia para a GA100. O deep learning e as cargas de trabalho de supercomputação acabam de receber um grande impulso no desempenho. Há algumas outras atualizações arquitetônicas com a GA100 também, as quais vamos abordar brevemente aqui. A contagem de transistores SM aumentou em 50-60%, e todos esses transistores tiveram que ir a algum lugar.

A GPU Multi-Instância (MIG) é uma nova característica. Isto permite que um único A100 possa ser dividido em até sete GPUs virtuais separadas. Cada uma destas GPUs virtuais (com operações de tensor executando cargas de trabalho de inferência) potencialmente corresponde ao desempenho de um único GV100, aumentando muito as oportunidades de escalonamento para provedores de serviços em nuvem.

O cache A100 L1 por SM é 50% maior, a 192KB vs. 128KB no V100. O cache L2 aumentou ainda mais, de 6MB no V100 para 40MB no A100. Ele também tem uma nova estrutura de barra transversal particionada que fornece 2,3 vezes a largura de banda de leitura do cache GV100 L2. Note que a memória total HBM2 aumentou ‘apenas’ de 16GB ou 32GB no GV100 para 40GB no GA100, mas o cache L1 e L2 aumentado ajuda a otimizar melhor o desempenho da memória.

O desempenho da NVLink também foi quase dobrado, de 25,78 Gbps por par de sinais no GV100 para 50 Gbps no GA100. Uma única NVLink em A100 fornece 25 GBps em cada direção, o que é similar ao GV100, mas com metade do número de pares de sinais por link. O número total de links também foi duplicado para 12, dando uma largura de banda total NVLink de 600 GBps com A100 em comparação com 300 GBps com V100. O suporte PCIe Gen4 também está presente, quase dobrando a largura de banda para conexões x16 (de 15,76 GBps para 31,5 GBps).

Finalmente, o A100 adiciona nova cópia assíncrona, barreira assíncrona e aceleração de gráficos de tarefas. Cópia assíncrona melhora a eficiência da largura de banda da memória e reduz a largura de banda do arquivo de registro, e pode ser feita em segundo plano enquanto um SM está realizando outro trabalho. As barreiras aceleradas por hardware proporcionam mais flexibilidade e desempenho para os desenvolvedores CUDA, e a aceleração do gráfico de tarefas ajuda a otimizar as submissões de trabalho para a GPU.

Há outras melhorias arquitetônicas, como a decodificação NVJPG que acelera a decodificação JPG para o treinamento de deep learning de algoritmos baseados em imagem. O A100 inclui um mecanismo de decodificação JPEG de 5 núcleos de hardware, que pode superar a decodificação JPEG baseada em CPU e aliviar o congestionamento PCIe. Da mesma forma, o A100 adiciona cinco unidades NVDEC (Nvidia Decode) para acelerar a decodificação de formatos comuns de fluxo de vídeo, o que ajuda o rendimento de ponta a ponta para aplicações de deep learning e inferência que funcionam com vídeo.

É tudo para a arquitetura GA100 e Nvidia A100, então agora vamos ver as mudanças arquitetônicas Ampere para as placas de consumidor GeForce RTX.

 

nvidia

 

Arquitetura da Nvidia Ampere GA102/GA104

Houve uma tonelada de mudanças feitas com a GA100 em relação ao GV100, e as atualizações do lado do consumidor são igualmente significativas. Muitas das mudanças acima mencionadas para os núcleos tensores são transferidas para os modelos de consumo – menos o material FP64, naturalmente. Os núcleos tensores GA102/GA104 ainda suportam as operações Bfloat16 ou Tfloat32, bem como a sparsity (onde os elementos zero são efetivamente ignorados). Entretanto, os núcleos tensores são 8x4x4, portanto o desempenho por núcleo tensor Ampere é apenas o dobro do desempenho dos núcleos tensores da Turing (e até dobrar novamente com a sparsity).

GA102 também acrescenta suporte à nova memória GDDR6X da Micron. Não é surpreendente que os cartões de consumo fiquem com GDDR6/GDDR6X em vez de HBM2. GDDR6X implementa a sinalização PAM4, permitindo taxas de dados quadruplicadas quando usado. (Também pode aderir com a sinalização NRZ a velocidades mais baixas para conservar energia, ou seja, quando ocioso).

Com as GPUs GA10x, Nvidia também adicionou a tecnologia EDR (Error Detection and Replay) ao subsistema de memória. Isso significa que se o subsistema de memória detectar um erro na transmissão, ele tentará novamente até que ocorra uma transmissão bem sucedida. Isto pode ser particularmente útil para overclocking, mas significa que alcançar um overclock maior pode não melhorar o desempenho. Em algum momento, o EDR fará efeito e evitará que a GPU falhe devido a erros de memória, mas a performance irá cair. 

Junto com os núcleos tensores e memória atualizados, há outras grandes mudanças para o ray tracing e núcleos CUDA. Vamos começar com o ray tracing.

A Nvidia fez muito barulho sobre o ray tracing em 2018 com a arquitetura Turing e as GPUs GeForce RTX série 20. Dois anos depois … bem, vamos ser honestos: o ray tracing nos jogos não tem realmente correspondido ao seu potencial. Battlefield V teve melhores reflexos, Shadow of the Tomb Raider e Call of Duty melhoraram as sombras, Metro Exodus usou a iluminação global de RT, e em todos os casos o desempenho levou um mergulho para uma melhoria relativamente pequena no visual. Até hoje, o melhor exemplo do que o traçado de raios pode fazer é, sem dúvida, o Control, um jogo que usa efeitos RT para reflexos, sombras e iluminação difusa. Parece bastante agradável, embora, como era de se esperar, o impacto do desempenho ainda seja grande.

 

configure uma máquina

 

Qual o tamanho? Para uma RTX 2080 Ti e Core i9-9900K, controle de corrida a 1440p e qualidade máxima sem traçado de raio, com desempenho de 80 fps. Ligue todos os extras de traçado de raio e o desempenho caiu para 43 fps – 47% mais lento, ou basicamente metade do desempenho. Isso é uma penalidade dolorosa, embora você possa atenuar as coisas na maioria das vezes habilitando o DLSS 2.0, que no modo de qualidade se eleva a 1707×960 e sobe para 1440p. Isso traz o desempenho de volta a 72 fps.

Há também demonstrações de “traçado completo do caminho”, onde o hardware é empurrado ainda mais. Pegue um jogo relativamente antigo e de baixa fidelidade como o Quake II ou Minecraft, e acrescente efeitos de traçado de raio completo para iluminação, sombras, reflexos, refração, e muito mais. Além disso, ao invés de centenas de quadros por segundo, você pode obter 60 fps – isto é, com um RTX 2070 Super a 1080p com DLSS habilitado, pelo menos com a máxima qualidade.

Se você acha que a perda de desempenho devido aos efeitos de traçado de raio é demais e que a Nvidia deveria inverter o rumo, no entanto, você não conhece muito bem a empresa. A GeForce 256 foi a primeira GPU (de acordo com a Nvidia) a introduzir os cálculos de transformação de hardware e de iluminação no hardware de consumo. Passaram-se anos até que a maioria dos jogos chegasse a usar essas características corretamente. As primeiras GPUs com shaders também eram pré-datadas para o uso comum do hardware por anos, mas hoje praticamente todos os jogos lançados fazem uso extensivo da tecnologia shader. A Nvidia vê o ray tracing como um passo semelhante.

A boa notícia é que a performance de traçado de raio(ray tracing) com a arquitetura Ampere está recebendo uma grande melhora. Nvidia diz que o RTX 3080 pode fazer 58 TFLOPS de cálculos de traçado de raio, comparado ao RTX 2080 Ti’s 34 TFLOPS. Ou, dito de outra forma, é 1,7 vezes mais rápido no traçado de raio.

Nvidia não entrou em detalhes sobre como calcula os TFLOPS RT, mas disse que os novos núcleos RT do 2º gênero são duas vezes mais rápidos do que os núcleos do 1º gênero. Parte da melhoria no desempenho de RT vem da adição de unidades computacionais adicionais ao hardware. A Nvidia falou especificamente sobre uma unidade de execução MIMD melhorada, bem como rotinas de interpolação triangular que permitem tempos diferentes em cada raio, o que pode ajudar em aspectos como borrão de movimento.

A Ampere também adiciona suporte para RT + cargas de trabalho gráficas simultâneas, ou RT + computação, o que melhora significativamente o desempenho geral do traçado de raio. Esta é uma melhoria crítica da Turing, e agora é possível que as GPUs Ampere façam operações gráficas, RT e tensoriais (DLSS) ao mesmo tempo.

 

 

O que isso significa para os jogos de ray tracing? Descobriremos em breve, mas com base no que estamos ouvindo da Nvidia, veremos mais desenvolvedores de jogos aumentando a quantidade de efeitos de ray tracing. O Cyberpunk 2077 apresenta reflexos de traçado de raio, sombras, oclusão ambiente, e muito mais. Um patch Fortnite RTX também permitiu múltiplos efeitos, incluindo reflexos ray tracing, sombras, oclusão ambiente e iluminação global. Da mesma forma, vemos múltiplos efeitos RT para Watch Dogs: Legion and Call of Duty Black Ops Cold War.

Graças ao melhor hardware de ray tracing, um jogo como o Control (ou um dos outros jogos futuros) pode ser capaz de rodar com todos os efeitos de traçado de raio habilitados e não mostrar uma queda significativa no desempenho, ou mesmo ganho de desempenho em relação à renderização tradicional, uma vez habilitado o DLSS. Estaremos analisando isto, assim como como o desempenho do ray tracing se compara ao Big Navi da AMD, no futuro.

A Nvidia também forneceu a métrica acima a partir de sua demonstração tecnológica Marbles que utiliza o traçado completo do caminho. Uma GPU Turing sem nome (RTX 2080 Ti?) poderia executar Marbles a 720p e 25 fps, sem profundidade de campo, uma luz cúpula, e uma luz indireta. Ampere (RTX 3090?), entretanto, pode executar a demonstração a 1440p e 30 fps, com profundidade de campo habilitada e com 130 luzes de área. Qualquer que seja o GPUs utilizado, há potencialmente um nível totalmente novo de ray tracing ao alcance.

 

 

Não se trata apenas de ray tracing, é claro. Nvidia também está dobrando em DLSS, e graças aos núcleos tensoriais ainda mais potentes, a qualidade e o desempenho devem ser ainda melhores do que antes. Já estamos perto do ponto em que o DLSS 2.0 em modo de qualidade parece melhor do que a renderização nativa com TAA ou SMAA (principalmente porque o TAA em particular tende a acrescentar borrão). Não é difícil imaginar muitos gamers optando por permitir que o DLSS obtenha um aumento de desempenho saudável.

Como a Ampere tem suporte nativo para telas de 8K, graças ao HDMI 2.1, o DLSS se torna ainda mais importante. Que tipo de hardware poderia até mesmo esperar poder 8K em qualquer coisa que se aproxime de níveis de desempenho decentes? Isso é fácil: ligue o DLSS e renderize a 4K usando um RTX 3090 ou RTX 3080. Exceto, há potencial para ir ainda mais longe.

Nvidia tem um grupo de atualizações que se enquadram coletivamente sob o guarda-chuva DLSS 2.1. Especificamente, estas melhorias incluem um “modo de ultra desempenho” para jogos de 8K, com escalas de até 9X. Isso significa que o DLSS 8K pode render a 1440p e upscale, onde anteriormente o modo de desempenho DLSS só tinha 4x upscaling (por exemplo, 1080p a 4K, ou 4K a 8K). Há também suporte para DLSS nos modos VR, e DLSS agora tem uma opção de escalonamento dinâmico para que não tenha que ser escalonado a partir de uma resolução fixa.

O redimensionamento do DLSS 2.1 é realmente de 8K? Não, mas será que isso realmente importa? Os displays 8K permanecem exorbitantemente caros, e se você estiver sentado em seu sofá, há poucas chances de você perceber a diferença entre 4K e 8K. Mas a força do marketing é forte no reino do home theater, então podemos definitivamente esperar ver um impulso maior para as TVs 8K indo em frente – é assim que as empresas de eletrônicos de consumo vão tentar convencer todos os proprietários de TVs 4K HDR a atualizar.

Outra novidade é o RTX IO, uma forma de otimizar o carregamento de ativos de jogos e outros dados. Isto parece ser semelhante, em alguns aspectos, ao que a Sony falou com a PlayStation 5, ou a tecnologia Velocity da Microsoft na Série X do Xbox.

Os slides da Nvidia mencionavam especificamente o uso de compressão de dados, afirmando que há um aumento potencial de 100X na taxa de transferência com uma utilização 20X menor da CPU. Também parece aproveitar, ou pelo menos suportar, o Microsoft DirectStorage. De fato, o carregamento de ativos na memória GPU pode contornar a CPU, mas há algumas preocupações e ressalvas.

RTX IO menciona especificamente o uso de SSDs PCIe Gen4, o que impediria a grande maioria dos PCs atuais. Pode funcionar com PCIe Gen3, e o que dizer da SATA? Parece que ambos são possíveis, mas não está claro como será a troca de desempenho. Os PCs atuais com CPUs Intel pelo menos não suportam PCIe Gen4, e a Intel não adicionará essa característica por enquanto, até a Rocket Lake e a Alder Lake chegarem. Os usuários do AMD Zen 2 com placas X570 ou B550 poderiam usá-lo potencialmente, mas então essas CPUs até agora parecem que podem limitar o desempenho com placas gráficas da série RTX 30.

Um detalhe que notamos foi que a RTX IO parece ser uma tecnologia que precisa ser implementada pelos desenvolvedores de jogos, de modo que pode não ver uso generalizado por algum tempo. Também não sabemos o quanto isso afetará o desempenho no mundo real. Claro, os ativos podem carregar mais rapidamente, mas com que freqüência isso é o gargalo nos jogos? Finalmente, se RTX IO requer uma GPU Nvidia (o que parece provável), deixaria de fora os usuários AMD, então os desenvolvedores de jogos podem estar mais inclinados a procurar uma solução universal separada (DirectStorage) em vez de adotar RTX IO.

Finalmente, vamos terminar com uma rápida visão geral das mudanças restantes na arquitetura Ampere no GA102/GA104. A Nvidia moveu os ROPs (operações raster) para fora dos controladores de memória e para os clusters GPC, com 16 ROPs por GPC. Isso significa que os 7 clusters GPC na GA102 dão ao RTX 3090 112 ROPS, 17% a mais do que o 2080 Ti. Para o RTX 3080, a Nvidia aparentemente desativa um GPC completo, dando 96 ROPs.

Junto com as mudanças nos ROPs, Nvidia aumentou o cache L2 para 512KB por controlador de memória, com o GA102 completo tendo 12 controladores. Isso dá 6144KB de L2 total no 3090, e 5120KB no 3080.

Talvez mais importante que o cache L2, a Nvidia adicionou um cache L1 configurável a cada SM: 128KB para sermos exatos. Isso significa que há 10496KB de cache L1 nos 3090 e 8704KB de L1 nos 3080. Isso é até 33% mais memória L1 / compartilhada por SM em relação ao Turing, e aparentemente o dobro do cache de dados e memória compartilhada para cargas de trabalho gráficas. Isto deve melhorar as latências em muitas operações, e o cache L1 pode ser configurado da seguinte forma:

  • 128 KB L1 + 0 KB de memória compartilhada
  • 120 KB L1 + 8 KB Memória compartilhada
  • 112 KB L1 + 16 KB Memória compartilhada
  • 96 KB L1 + 32 KB Memória compartilhada
  • 64 KB L1 + 64 KB Memória compartilhada
  • 28 KB L1 + 100 KB Memória compartilhada

As GPUs Ampere GA102/GA104 também são totalmente PCIe Gen4 habilitadas, embora, claro, isso significa usar uma placa AMD X570 com CPU Zen 2 ou posterior … ou esperar pelas futuras CPUs da Intel Rocket Lake / Alder Lake.

O motor do decodificador de vídeo Nvidia (NVDEC) também foi atualizado, agora com suporte nativo para decodificação AV1. O AV1 pode fornecer melhor qualidade e compressão que o H.264, HEVC e VP9 e está sendo adotado por muitas plataformas de vídeo. No entanto, pode causar alta utilização da CPU, que é onde a decodificação AV1 da Nvidia entra em jogo. O NVDEC da Ampere pode fazer até 8K60 de decodificação AVI em hardware. O NVENC (codificador Nvidia), por outro lado, permanece inalterado em relação ao Turing.

 

nvidia

 

Este artigo é uma tradução da postagem de Tom’s Hardware: Nvidia RTX 30-Series Ampere Architecture Deep Dive: Everything We Know. Créditos das imagens: Nvidia.

 

alguma dúvida

ASSINE NOSSO BLOG

Receba nossas publicações em seu e-mail.
Prometemos não exagerar :)