Reverse-SynthID y los límites del watermarking invisible

Hay repos que importan por lo que rompen.

Y otros que importan por lo que dejan en evidencia.

Para mí, reverse-SynthID cae en la segunda categoría.

No porque “hayan roto a Google” y ya está, sino porque enseña algo bastante más útil: un watermark invisible deja de parecer magia en cuanto se convierte en un patrón repetido suficientes veces.

Y si encima ese patrón es estable, global y aparece en miles de millones de imágenes, lo que tienes no es solo una capa de procedencia.

Tienes también una señal que alguien puede estudiar con calma.

Lo interesante no es el truco. Es la estadística

Google ha explicado SynthID como un sistema de watermarking invisible para imágenes generadas por IA desplegado a escala masiva. En el paper más reciente hablan de más de 10.000 millones de imágenes y frames de vídeo marcados.

Eso impresiona, claro.

Pero también introduce un problema incómodo: a esa escala, cada nueva imagen no solo sirve para distribuir el watermark, también sirve para muestrearlo.

Ese es el punto realmente importante del repo.

La tesis de fondo no es “mira qué listo este ingeniero”.

La tesis útil es otra:

si el mismo sistema repite una estructura suficientemente estable en suficientes outputs, alguien acabará estimándola.

Y una vez puedes estimarla bien, ya no estás peleando contra una marca invisible. Estás peleando contra un patrón de señal.

Qué dice el repo, resumido sin humo

Lo que afirma reverse-SynthID, de forma bastante sobria, es esto:

que el watermark de SynthID deja una estructura espectral medible,
que esa estructura depende de la resolución,
que hay una plantilla de fase fija compartida entre imágenes del mismo modelo,
que con imágenes muy simples, en especial negras o blancas, esa señal se aísla mucho mejor,
y que con eso se puede construir tanto un detector como un bypass razonablemente eficaz sin usar redes neuronales ni acceso al sistema interno de Google.

Las cifras que publica el repo son fuertes:

detector con alrededor de 90% de acierto,
bypass V3 con 75.8% de caída en energía de portadoras,
91.4% de caída en coherencia de fase en las principales frecuencias,
y una degradación visual pequeña, con 43.5 dB de PSNR en sus benchmarks.

La parte más elegante, para mí, no es la demo del bypass.

Es el razonamiento previo.

En el caso más limpio, el repo trabaja con 100 imágenes negras y 100 blancas para 1024x1024. Ahí el contenido de la imagen deja muy poco que esconder. Cuando promedias muchas muestras, lo que sobrevive con consistencia no es “la escena”, porque no hay escena. Lo que sobrevive es la estructura fija del sistema.

Eso convierte un problema que parecía de IA generativa en uno bastante más clásico de análisis de señal.

El fallo conceptual no es visual. Es operativo

Aquí es donde creo que está la lectura buena.

Muchas veces se habla de watermarking como si el reto principal fuera este:

que sobreviva a compresión,
que sobreviva a recortes,
que sobreviva a screenshots,
que no se vea,
y que el detector pueda recuperarlo después.

Todo eso importa.

Pero no es suficiente.

Porque una cosa es ser robusto ante edición o degradación casual, y otra muy distinta es ser robusto ante análisis adversarial sistemático.

Y en cuanto el sistema se despliega a gran escala, el atacante ya no necesita ver tu código.

Le basta con ver suficientes outputs.

Ese matiz cambia bastante la conversación.

Si el watermark depende de una firma fija a nivel de modelo, o de un conjunto limitado de plantillas predecibles, la escala deja de ser solo una ventaja defensiva. También se vuelve una ventaja ofensiva.

Cuantas más imágenes publiques, más muestras regalas.

Lo que de verdad enseña este caso

Creo que aquí hay varias lecciones útiles para cualquiera que esté pensando en procedencia de contenido generado.

1. Invisible no significa seguro

Que una marca no se vea no implica que no se pueda medir.

Eso en seguridad debería ser obvio, pero seguimos actuando como si invisibilidad y resistencia fueran casi sinónimos.

No lo son.

2. Internet scale tiene un coste criptográfico, no solo de infraestructura

Desplegar algo a escala internet no es solo un problema de latencia, coste o integración.

También es un problema de exposición estadística.

Si el mismo mecanismo aparece una y otra vez, internet se convierte en tu dataset inverso.

3. Robustez frente a usuarios normales no equivale a robustez frente a atacantes motivados

Que un watermark sobreviva a un JPEG o a un crop no demuestra demasiado sobre su resistencia real.

Solo demuestra que aguanta manipulación cotidiana.

El listón duro empieza cuando alguien intenta:

estimar la estructura,
aislar portadoras,
modelar coherencia,
y restar la señal con el menor daño visual posible.

Ahí ya no estás en el terreno de “provenance UX”. Estás en el de seguridad adversarial.

4. La procedencia seria probablemente será multicapa

Si alguien espera resolver la autenticidad de imágenes generadas solo con una marca invisible embebida en píxeles, creo que se está contando una historia demasiado cómoda.

Lo razonable es pensar en capas:

watermarking,
metadatos firmados,
cadenas de procedencia,
verificación en plataforma,
rotación de esquemas,
y supuestos mucho más realistas sobre adversarios.

No porque una capa no sirva para nada, sino porque una sola capa pública, fija y repetida es una invitación a la ingeniería inversa.

Lo que este repo no demuestra

También conviene no sobreactuar.

Este repo no demuestra que toda procedencia de contenido esté muerta.

Tampoco demuestra que cualquier watermark deba caer así.

Y, sobre todo, las métricas del propio repo merecen replicación independiente antes de tratarlas como verdad cerrada.

Hay además otro detalle importante: el proyecto está publicado con una licencia de research, no con una licencia open source permisiva al uso. Es decir, es trabajo público y auditable, sí, pero no conviene mezclar eso con el discurso fácil de “esto es open source y cualquiera puede productizarlo mañana”.

Aun con esas cautelas, la señal es clara.

Mi lectura

Lo relevante de reverse-SynthID no es que haya salido un repo viral diciendo “RIP SynthID”.

Lo relevante es que deja bastante tocada una intuición que mucha gente daba por buena: que una marca invisible desplegada a gran escala puede funcionar como mecanismo de procedencia fuerte por sí sola.

Yo compraría una tesis más modesta.

El watermark puede ser una pista útil.

No parece una base suficiente si el entorno es realmente adversarial.

Y menos aún si el patrón que lo sostiene acaba siendo estable, medible y compartido entre outputs.

En el fondo, esto no va solo de Gemini ni de Google.

Va de una regla bastante vieja en seguridad:

si repites demasiado una estructura, alguien terminará aprendiéndola.

Y cuando eso pasa, la defensa deja de ser una defensa.

Empieza a ser una firma.