Cómo proteger tu contenido de autor de las insaciables IAs

Bloquea el acceso a las IAs como ChatGPT al contenido de tu web para que no sea usado sin permiso, con varios métodos.

5 minutos, 35 segundos
Cómo proteger tu contenido de autor de las insaciables IAs

Bueno. Dirán lo que quieran sus defensores, pero que las IAs actuales usan propiedad intelectual protegida para hacer sus refritos es un hecho. Y en mi opinión, no deja de ser otra forma sutil de plagio. Tal vez a otro nivel, pero plagio igualmente. Vale, que sí. Que en ocasiones los humanos también nos inspiramos consciente y sobre todo inconscientemente en miles de obras de texto, música y arte en general que llevamos digiriendo desde niños. Pero es otra cosa. Esto es sensiblemente diferente.

Para mí, aunque no sea plagio directo, ya es tomar sin permiso contenido que no te pertenece. No para ser indexado como sucede con motores de búsqueda. Es alimento directo para los modelos de lenguaje y creación, cuando no directamente para elaborar detallados perfiles de los asuntos o personas tratados. Y una vez en sus modelos, van a almacenarlo, procesarlo y ofrecerlo gratis como contenido "original" a los numerosos y ociosos usuarios de sus plataformas. Si es que directamente no acaba todo tu trabajo en manos de la competencia más feroz.

¿A quién le gusta que le roben?

Podría parecer hostil esta aproximación tan conservadora a la política de "absorber todo" de las IAs, pero en lo personal, a mí, me toca la moral, tanto como consumidor de contenido como autor. No importa si monetizas su creaciones, si eres insignificante o si nadie te lee. Por derecho y por ley, tu contenido es tuyo desde el mismísimo momento que lo creas. Y ya. También es verdad que poner vallas al campo es difícil. Al final, si el contenido está en la red, ya había riesgo de copia. Pero habría que dejar más claro qué se puede tomar de tu contenido para un modelo de IA y que no.

Además, y de hecho, casi un 20% de los sitios principales de internet ya bloquean a estos modelos de manera contundente. Veamos qué métodos tenemos al alcance el resto de los mortales para hacer este bloqueo efectivo.

NIVEL 1 (amistoso): Bloquear IAs y proteger contenido intelectual vía archivo "robots.txt"

Ay, el archivo "robots.txt". Siempre lo he visto como dejar un cartel en tu sitio web que diga ¡No, por favor, no me robes!". Hay buscadores como Google y otros rastreadores que, por motivos obvios de reputación, hacen honor a las directivas que dejamos ahí escritas, pero... ¿el resto? Permíteme dudar de su eficacia en estos casos.

Nos tenemos que fiar y creer que los bots van a tomar tus indicaciones como órdenes. Porque nada, les impide navegar por el contenido. Van a rebuscar, indagar, indexar y olfatear, toda carpeta, web, archivo o URL que dispongas públicamente. Y ya. Pero bueno. Intentemos poner "algo" de protección. El uso es sencillo, se procede igual que cuando quieres desautorizar a los bots de buscadores en determinadas rutas sensibles (zonas privadas, logins, etc.). Si aún no existe, hay que crear el robots.txt por FTP o añadir estas líneas al final si ya está presente. Va generalmente colocado en la raíz de tu sitio web dentro de la carpeta htdocs, httpdocs, _publichtml o similar.

Esto va dentro dentro de robots.txt:

# Negar acceso a bots
User-agent: CCBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: GPTBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: Omgilibot
Disallow: /
User-agent: Omgili
Disallow: /
User-agent: FacebookBot
Disallow: /

Estos son los bots de IA más populares y hambrientos, pero seguro que irán saliendo más, si es que no estalla la burbuja por saturación.. La lista de agentes la he extraído del sitio web del ingeniero de software Naiyer Asif. Buen artículo al respecto, aunque en inglés.


NIVEL 2 (mosqueado): Bloquear IAs para proteger tu contenido de autor vía motor apache / nginx

Pongámonos serios. Aquí toca usar un poquito más de intensidad bloqueando los bots según se identifiquen. Ojo. Que también pueden fingir que son Elon Musk haciendo turismo, con lo cual el efecto protector se pierde. Pero es un poco más robusto.

En el caso de htaccess/apache:

# Bloqueo con 403 a agentes de IA 
RewriteEngine On
RewriteCond % (CCBot|ChatGPT|GPTBot|anthropic-ai|Omgilibot|Omgili|FacebookBot) [NC]
RewriteRule ^ – [F]

Y así mandas a todos esos bots al limbo del universo 403 (Código de Forbidden)

Este método lo recomienda Neil Clarke en su web, en inglés, sorry. También hay que tener en cuenta que se puede ajustar para carpetas determinadas, si quieres que tengan acceso granular. El código tal cual viene está en bruto: cero acceso a cero carpetas. Tal y como a mí me gusta jajaja

Nginx es más truculento e inflexible para modificar la configuración. La manera rápida es, a nivel server, añadir un evil if.

Bloqueo vía nginx.conf o conf.d/:


if ($http_user_agent ~* (CCBot|ChatGPT|GPTBot|anthropic-ai|Omgilibot|Omgili|FacebookBot)) {
return 403;
}

Aunque todo administrador de sistemas que se precie sabe de sobra que la manera más correcta es usar la función map, declarándola primero a nivel servidor y luego invocándola en la configuración del dominio. Aviso para tiquismiquis talibanes del código correcto. Funcionar, funciona.


NIVEL 3 (letal): proteger tu contenido como si fueras la Warner, vía firewall/iptables

Mi opción favorita. Mira, pueden fingir que no han leído tu robots.txt, pueden simular que son un bot inofensivo que solo quiere indexarte, pero saltarse un cortafuegos está en otra liga de robots. Usando unas sencillas reglas en iptables (lo más habitual en servidores linux), o en tu panel de control (cpanel, plesk, etc.), puedes proteger definitivamente tu propiedad intelectual. Como cada cual usa su sistema, aquí no voy a dar configuraciones, solo indico las IPs que a fecha de este artículo, he metido en cortafuegos, para capar a ChatGPT, que es el más popular y usado con diferencia:

# OpenIA - ChatGPT
20.15.240.64/28
20.15.240.80/28
20.15.240.96/28
20.15.240.176/28
20.15.241.0/28
20.15.242.128/28
20.15.242.144/28
20.15.242.192/28
40.83.2.64/28
20.9.164.0/24
52.230.152.0/24

# User GPT
23.98.142.176/28

Aclaración: Queda por meter IPs de otras IAs. ¿Sugerencias? Por cierto, el agente CCbot de CommonCrawl es bastante perruno y esquivo para ser frenado por cortafuegos, ya que es actúa como una aplicación distribuida y usa un montón de IPs diferentes en las redes de Amazon. Así que salvo que quieras bloquear por completo todas las instancias de Amazon Web Services, es muy, muy difícil, detener su rastreo. Ellos dicen que es una tarea noble. Yo veo avaricia de datos. Por mucho que parezca un acto de altruismo, de redistribución de la información, bla, bla, bla.

Corolario: no dejes que la IA te toque tus creaciones

Al final, a pesar de los esfuerzos, es posible que consigan robar tu contenido, pasándose tus filtros por la robótica entrepierna, cambiando de IPs, usando un proxy... pero mejor no ponérselo fácil. ¿O no? Y luego está el método espartano: no subir contenido sensible, delicado, importante, creativo y personal... ejem (ㆆ _ ㆆ)


¿Algo que decir? ¿Te ha gustado el artículo? Mientras nos pasamos a Commento, te invitamos a dejar tu comentario en este formulario tan de los 2000 ^_^