Atac Rowhammer a GPUs NVIDIA amb GDDR6: aixĂ­ afecta la seguretat dels teus sistemes

  • Noves variants de Rowhammer (GDDRHammer, GeForge i GPUBreach) aconsegueixen compromĂ­s total del sistema des de la GPU
  • Les GPUs NVIDIA amb memòria GDDR6 (Ampere i Ada) sĂłn el focus principal de les investigacions
  • Els atacs poden corrompre taules de pĂ gines i obtenir lectura/escriptura sobre la memòria de la CPU
  • Mitigacions: activar IOMMU i ECC, seguir pegats de NVIDIA i extremar cauteles en entorns de nĂşvol i servidors

Atac Rowhammer a GPUs NVIDIA amb GDDR6

Una vella coneguda del món de la ciberseguretat, la vulnerabilitat Rowhammer, ha fet el salt definitiu a les targetes gràfiques modernes. Allò que abans es considerava un problema principalment associat a la memòria RAM de la CPU, avui s'estén a les GPUs NVIDIA equipades amb memòria GDDR6, obrint un front de risc que afecta tant usuaris avançats com empreses i proveïdors de núvol.

Diversos equips de recerca acadèmica han demostrat que és possible aprofitar aquesta debilitat física de la memòria per passar d'un simple programa sense privilegis a la GPU a un control pràcticament absolut del sistema operatiu. Aquest avenç col·loca les targetes gràfiques, clau en entorns d'IA, centres de dades i estacions de treball a Europa i Espanya, al punt de mira d'administradors de sistemes i responsables de seguretat.

Què és Rowhammer i per què ara copeja les GPUs NVIDIA amb GDDR6

L'atac Rowhammer es basa en un fenomen físic: en accedir de forma molt ràpida i repetida a determinades files de memòria DRAM, es generen pertorbacions elèctriques que provoquen canvis de bits (bit-flips) en files adjacents. Aquests canvis de 0 a 1 o d'1 a 0 permeten, en condicions controlades, alterar dades sensibles i saltar mecanismes d'aïllament de memòria.

Aquest comportament es va documentar per primera vegada en profunditat en memòries DDR3, i amb el temps es va veure que també era possible a DDR4 i fins i tot s'estudia per a DDR5. El nou ara és que dues línies de treball independents han demostrat que la mateixa idea funciona sobre memòria gràfica GDDR6 a GPUs NVIDIA, un tipus de maquinari present en una gran quantitat dequips de sobretaula, estacions professionals i servidors.

Els investigadors han confirmat que, en targetes basades en les arquitectures Ampere i Ada Lovelace, la manipulació de les cel·les de GDDR6 pot induir milers de canvis de bit controlats. En proves de laboratori, una GeForce RTX 3060 va arribar a registrar al voltant de 1.100 alteracions de bits, mentre que una RTX A6000 i una RTX 6000 “Ada” van mostrar també un nombre significatiu de vulnerabilitats aprofitables.

La clau d'aquest salt qualitatiu és que ja no parlem només de degradar el rendiment o alterar puntualment una xarxa neuronal, sinó de atacs complets capaços de prendre el control de la màquina amfitriona. És a dir, des de la pròpia GPU es pot arribar a modificar com es gestiona la memòria del sistema i escalar privilegis fins a accedir a administrador o root.

GDDRHammer i GeForge: atacs Rowhammer que donen control total des de la GPU

Dues de les cadenes d'atac més estudiades fins ara, GDDRHammer i GeForge, han confirmat que Rowhammer a GDDR6 no és una curiositat acadèmica, sinó un risc real per a sistemes amb GPUs NVIDIA modernes. Ambdós treballs se centren a corrompre les taules de pàgines que gestiona la unitat de memòria de la GPU per accedir a zones de memòria que en teoria estan protegides.

En el cas de GDDRHammer, els investigadors van analitzar 25 models de targetes NVIDIA amb GDDR6, incloent dispositius professionals de les famílies Ampere i Ada. Van descobrir que les files de memòria DRAM en aquestes GPUs segueixen una disposició geomètrica no monòtona, el que permet dissenyar patrons de hammering de doble cara molt efectius fins i tot quan les adreces físiques semblen allunyades entre si.

Per maximitzar el nombre d'activacions de files i augmentar els bit-flips, GDDRHammer assigna diferents bancs de memòria a multiprocessadors de transmissió independents dins de la targeta gràfica, coordinant parcialment la seva execució per esquivar les polítiques internes de mostreig i refresc. Aquesta combinació de patrons i sincronització es tradueix en una taxa d'alteracions de bits molt superior a la de treballs previs, amb mitges que superen el miler de canvis per gigabyte en alguns models.

GeForge, per la seva banda, introdueix patrons de hammering no uniformes en el temps que aconsegueixen evadir les mitigacions d'actualització de files objectiu (TRR) que incorpora la memòria GDDR6. Variant intensitat, distribució i ordre dels accessos, els atacants són capaços de forçar bit-flips sense que el maquinari activi els seus mecanismes de protecció.

  GPT-5.4: la IA d'OpenAI que ja pot gestionar el teu ordinador de manera autònoma

El pas següent en les dues cadenes d'atac consisteix a dirigir aquests bitflips cap a les estructures de gestió de memòria de la GPU. Mitjançant tècniques de “massatge de memòria”, els exploits omplen i buiden assignacions fins a forçar que les taules de pàgines jeràrquiques acabin ocupant posicions físiques reconegudes com a vulnerables. Un cop allà, només cal un únic bit canviat al punter adequat per redirigir la traducció d'adreces cap a taules falsificades controlades per l'atacant.

GPUBreach: tercera ruta d'atac que combina Rowhammer i errors de controlador

Sobre aquest terreny se suma un tercer vector, GPUBreach, presentat com el tercer atac Rowhammer plenament funcional sobre GPUs. A diferència dels anteriors, que depenen críticament de com s'assigna i refresca la memòria GDDR6, GPUBreach combina el martelleig de cel·les amb vulnerabilitats als controladors de NVIDIA, el que us permet anar un pas més enllà en determinades configuracions.

Aquest atac s'ha provat de forma específica en una NVIDIA RTX A6000, una targeta de gamma professional molt present en estacions de treball de disseny, simulació o IA utilitzades en empreses europees. En els experiments de laboratori, GPUBreach va aconseguir comprometre el nucli del sistema operatiu directament des de la GPU, tot i que el sistema tenia activada la protecció IOMMU, que en teoria hauria de limitar allò que pot veure i modificar la targeta gràfica.

La cadena d'explotació de GPUBreach torna a arrencar, amb la corrupció de taules de pàgines internes de la GPU. A partir d'aquí, aprofita errors recents als controladors per escalar privilegis i executar operacions de lectura i escriptura sobre la memòria principal del host. El resultat pràctic és que un codi aparentment innocu i sense privilegis a la GPU es pot convertir en una porta del darrere capaç d'accedir a qualsevol dada o procés del sistema.

El que és especialment preocupant de GPUBreach és que mostra com fins i tot sistemes amb IOMMU actiu poden ser vulnerables si el programari que gestiona el maquinari (en aquest cas, els controladors de GPU) introdueix els seus errors de seguretat. Això obliga a mirar no només la memòria i l'arquitectura de la targeta, sinó també l'ecosistema de drivers i llibreries que es despleguen a servidors i estacions de treball.

De la GPU a la CPU: com s'aconsegueix accedir a la memòria del sistema amfitrió

Més enllà de les diferències tècniques entre GDDRHammer, GeForge i GPUBreach, totes les investigacions coincideixen en un mateix punt: l'objectiu final és arribar a la memòria de la CPU i prendre el control del sistema amfitrió. Per això, els atacants exploten com la GPU gestiona les adreces de memòria i com es comuniquen GPU i CPU a través del bus PCIe.

Quan s'aconsegueix corrompre les taules de pàgines internes de la targeta gràfica, l'atacant pot modificar camps que indiquen si una adreça física es refereix a memòria local de la GPU o memòria del host. Alterant aquests bits en entrades falsificades, les operacions de lectura i escriptura realitzades per la GPU es redirigeixen de manera transparent cap a la RAM principal de l'equip, sense passar pels controls habituals de la CPU.

Aquesta via d'accés directe eludeix mecanismes com ara gestió de memòria de la CPU i les proteccions de còpia en escriptura del sistema operatiu. En una demostració pràctica, els investigadors van aconseguir sobreescriure el segment de codi d'una biblioteca estàndard de C directament a la memòria del host, injectant codi màquina en una funció molt utilitzada (per exemple, la rutina de tancament de registre) que després va ser executada per un programa legítim amb privilegis elevats.

En encadenar aquests passos, un procés sense privilegis que s'executa a la GPU obté finalment una consola de superusuari (root) al sistema operatiu central. Des d'aquest punt, qualsevol dada, aplicació o servei queda a l'abast de l'atacant, cosa que equival a un compromís total de l'equip, tant a estacions de treball individuals com a servidors compartits.

  NVIDIA nega les converses per comprar un gran fabricant de PC malgrat els rumors

Els estudis subratllen que, per la manera com es gestiona la memòria en aquestes targetes, els antivirus i eines de seguretat tradicionals amb prou feines tenen visibilitat sobre el que passa dins de la GPU. Això fa que els atacs passin desapercebuts per a moltes solucions desplegades avui a empreses, centres de dades i entorns de recerca a Europa.

Models afectats, abast real i situaciĂł en entorns europeus

Fins ara, les investigacions han identificat de manera explícita diverses famílies de targetes. Entre els models de consum, la GeForce RTX 3060 apareix una vegada i una altra com a exemple de GPU vulnerable als patrons de Rowhammer descrits. Entre les solucions professionals, destaquen les RTX A6000 i RTX 6000 amb memòria GDDR6, molt presents a estacions de treball i servidors d'empreses de sectors com l'enginyeria, l'audiovisual o la investigació científica.

Els equips de GDDRHammer i GeForge han provat almenys 25 models amb GDDR6, indicant que una gran majoria de les targetes de gamma alta basades en Ampere i Ada presenten diferents graus de susceptibilitat als nous patrons de hammering. Tot i això, encara no existeix una llista pública exhaustiva de totes les GPUs afectades, per la qual cosa la recomanació general és assumir risc potencial en “qualsevol sistema amb GDDR6” fins que NVIDIA publiqui informació més detallada.

Al costat més tranquil·litzador, les proves actuals apunten que les memòries GDDR6X i GDDR7, així com solucions com HBM2 i HBM3 amb protecció On-Die ECC, no mostren el mateix comportament sota aquests atacs concrets. Tot i això, els mateixos investigadors admeten que l'absència d'evidències no equival a una garantia absoluta, especialment en un context on la investigació sempre va alguna cosa per darrere del llançament de nous productes.

Per a Espanya i per a la resta d'Europa, l'impacte potencial es concentra en tres fronts: centres de dades i plataformes de núvol que reutilitzen GPUs entre múltiples clients, estacions de treball professionals a empreses d'enginyeria, IA i disseny, i laboratoris i universitats que empren acceleradors NVIDIA amb GDDR6 per a càrrega intensiva. En aquests entorns, la combinació daccés compartit i alta criticitat de les dades fa que una fallada daquest tipus pugui tenir conseqüències greus.

En equips domèstics i de gaming, el risc immediat es considera més reduït sobretot perquè aquests atacs requereixen un coneixement tècnic profund, condicions controlades i temps d'execució prolongat. Tot i així, el fet que una GPU relativament comuna com la RTX 3060 estigui a la llista de models vulnerables hauria de servir com a crida d'atenció per als que reutilitzen aquest maquinari en servidors casolans, laboratoris o petits entorns de virtualització.

Mitigacions disponibles: IOMMU, ECC i bones prĂ ctiques de seguretat

Davant la impossibilitat de “pegat” per programari una propietat física de la memòria, les recomanacions actuals se centren en limitar el que la GPU pot veure i corregir els errors abans que s'explotin. Dues mesures apareixen de forma reiterada a tots els estudis: activar IOMMU i habilitar ECC quan sigui possible.

La Unitat de Gestió de Memòria d'Entrada/Sortida (IOMMU) actua com un filtre entre dispositius com la GPU i la memòria del host. Quan està activada a la BIOS oa la configuració del sistema, mapeu les adreces visibles per al dispositiu cap a marcs de pàgina concrets, restringint l'accés a regions específiques. En teoria, això dificulta que un atacant pugui redirigir operacions de la GPU cap a zones sensibles de RAM.

No obstant, la pràctica és una mica més matisada. Diversos estudis han mostrat exploit funcionals contra una RTX A6000 amb IOMMU habilitada, demostrant que no és una barrera absoluta. A més, en molts sistemes Linux comercials, sobretot en servidors i estacions de treball, la IOMMU ve desactivada per defecte per motius de compatibilitat o rendiment, cosa que deixa un nombre considerable de màquines exposades sense que els seus administradors necessàriament en siguin conscients.

La segona línia defensiva és lús de ECC (codi de correcció d'errades) a la memòria de la GPU. Activar ECC permet detectar i corregir errors d'un sol bit abans que es converteixin en bitflips explotables, reduint significativament la fiabilitat dels atacs Rowhammer. NVIDIA ofereix opcions per habilitar ECC, sobretot a targetes d'estació de treball i solucions de centre de dades.

  Microsoft llança Maia 200, el seu nou xip d'IA per plantar cara a Google, Amazon i Nvidia

El problema és doble: per una banda, ECC implica pèrdua de rendiment i reducció de memòria disponible, cosa que molts entorns professionals han evitat per esprémer al màxim el maquinari. De l'altra, hi ha tècniques de Rowhammer més agressives que poden generar alteracions en més d'un bit, capaces de esquivar parcialment les defenses basades en ECC. De nou, no és una solució perfecta, però sí una capa addicional que complica la vida a l'atacant.

Més enllà d'aquestes dues mesures, els experts recomanen seguir de prop les actualitzacions de seguretat i butlletins de NVIDIA, especialment aquells publicats arran de recerques prèvies com GPUHammer i ara dels treballs sobre GDDRHammer, GeForge i GPUBreach. Per a organitzacions a Espanya i Europa, resulta clau integrar aquests avisos en els seus processos de gestió de vulnerabilitats i no tractar-los només com a curiositats acadèmiques.

Consells pràctics per a empreses, núvol i usuaris avançats

Per a administradors de sistemes i responsables de seguretat en empreses europees que depenen de GPUs NVIDIA amb GDDR6, la principal prioritat és avaluar el nivell d'exposició actual. Això implica revisar quins models estan desplegats, en quins entorns s'utilitzen i si es comparteixen entre múltiples usuaris o clients, com passa a moltes plataformes de núvol i centres de dades.

En entorns de núvol privat, HPC o IA on les mateixes targetes es reutilitzen entre diferents projectes o departaments, convé considerar polítiques més estrictes, com ara dedicar GPU concretes a càrregues especialment sensibles o agrupar en nodes separats clients amb diferents perfils de risc. També té sentit revisar la configuració de la BIOS per assegurar-se que IOMMU està activada sempre que sigui viable i documentar clarament els casos en què no es pugui habilitar.

Per a estacions de treball professionals, tant a Espanya com a altres països europeus, és recomanable revisar si els equips compten amb GPUs RTX A6000, RTX 6000 o altres Ampere/Ada amb GDDR6 i valorar seriosament l‟activació d‟ECC, especialment quan aquestes màquines accedeixen a informació sensible o formen part d‟infraestructures crítiques. Encara que suposi una petita penalització de rendiment, el benefici en termes de seguretat pot compensar amb escreix.

Els proveïdors de serveis gestionats i empreses de hosting que ofereixen servidors amb GPU haurien d'actualitzar els seus guies d'enduriment i plantilles de configuració per incloure de manera explícita l'ús d'IOMMU, la revisió de l'estat d'ECC i l'aplicació ràpida de pedaços de controladors de NVIDIA. Aquesta tasca és especialment rellevant en el context europeu, on les regulacions de protecció de dades i de ciberseguretat exigeixen mesures proporcionades al nivell de risc.

Per a usuaris avançats i entusiastes que empren GPUs de consum com la RTX 3060 en servidors casolans, laboratoris de virtualització o projectes d'IA a casa, la recomanació general passa per mantenir els controladors sempre al dia, limitar l'accés remot a aquestes màquines i evitar executar codi no fiable a la GPU. Encara que la probabilitat dexplotació en aquest tipus dentorns és baixa, adoptar bones pràctiques d'aïllament i actualització ajuda a reduir encara més la superfície datac.

Nvidia finalitza el suport per a GPUs Maxwell, Pascal i Volta
Article relacionat:
Nvidia posa fi al suport per a les GPU Maxwell, Pascal i Volta

Amb tot això, la foto que es dibuixa és una amenaça real, però encara molt lligada a entorns on es combinen maquinari potent, càrregues compartides i un alt valor de les dades. Rowhammer a GPUs NVIDIA amb GDDR6 no és un motiu per al pànic entre usuaris domèstics, però sí una trucada clara perquè empreses, centres de dades i administradors a Espanya i Europa revisin la seguretat de les seves infraestructures gràfiques, ajustin configuracions com IOMMU i ECC, i es mantinguin atents a les investigacions i pegats que seguiran arribant.