Cómo proteger tu contenido de autor de las insaciables IAs

Bloquea el acceso a las IAs como ChatGPT al contenido de tu web para que no sea usado sin permiso, con varios métodos.

8 minutos, 43 segundos
Cómo proteger tu contenido de autor de las insaciables IAs

Bueno. Dirán lo que quieran sus defensores en el contexto de la burbuja actual, pero que las IAs actuales usan propiedad intelectual protegida para hacer sus refritos es un hecho indudable. Y en mi opinión, no deja de ser otra forma sutil de plagio. Tal vez a otro nivel, menos directo, menos cuantificable y rastreable, pero plagio igualmente. Vale, que sí. Que en ocasiones los humanos también nos inspiramos consciente y sobre todo inconscientemente en miles de obras de texto, música y arte en general que llevamos digiriendo desde niños. Pero es otra cosa. Esto es sensiblemente diferente. No es inspiración, es robo. Que igual ni te importa. Pero si eres creador de contenido original que publicas en internet, tal vez te convenga proteger de alguna manera tus creaciones, las que sean.

Para mí, aunque no sea plagio directo, lo que hacen las IAs es tomar sin permiso contenido que no te pertenece. No para ser indexado como sucede ─y necesitamos que sea así─ con motores de búsqueda. Es alimento directo para los modelos de lenguaje y generación de contenido. Cuando menos esos datos también se pueden usar para elaborar detallados perfiles de los asuntos o personas tratados. Y una vez que están en sus modelos de IA, van a almacenarlo, procesarlo y ofrecerlo gratis como contenido a los millones de usuarios de sus plataformas. Para un creador, si no eres Disney o Nintendo, que cuentan con ejército de abogados, es tarea imposible defenderse. Todo tu trabajo puede incluso acabar en manos de cualquiera.

¿A quién le gusta que le roben sus obras?

Podría parecer hostil esta aproximación tan conservadora a la política de "absorber todo" que tienen las IAs en su carrera armamentística. A mí me toca la moral, tanto como consumidor de contenido como autor. No sé cuánto tiempo tardarán en empezar a procesar partituras y composiciones. Afortunadamente al ser un nicho pequeño, tal vez tarden. Al final no importa si no monetizas tu contenido, si eres insignificante para ellos o si tienes un blog que nadie lee, como yo. Aunque sea una simple entrada de texto, por derecho y por ley, tu contenido es tuyo desde el mismísimo momento que lo creas. Jurídicamente hablando, el convenio de Berna firmado por muchísimos países protege las obras literarias y artísticas. También es verdad que poner vallas al campo de internet es difícil. Al final, si el contenido está en la red, ya había riesgo de copia. Pero habría que dejar más claro qué se puede tomar de tu contenido para un modelo de IA y que no.

Además, y de hecho, según este artículo, casi un 20% de los sitios principales de internet en 2023 ya bloqueaban a estos modelos de manera contundente. En 2025, aproximadamente el 5% de todos los sitios webs han tomado alguna medida. Veamos qué métodos tenemos al alcance el resto de los mortales para hacer este bloqueo efectivo.

Antes de ejercer el bloqueo, un aviso

Hay un problema inherente: bloquear a los robots (funcione o no el bloqueo), tiene su contrapartida. Y no es positiva. Con el auge de las apps, Gemini, ChatGPT y toda la fiesta loca de la inteligencia artificial, hay un porcentaje alarmante de personitas que las usan para todo tipo de consultas... digamos que como alternativa a los buscadores tradicionales. Y si no estás "procesado", no sales como resultado en ellas. La que va a salir, casi con seguridad, es tu competencia, la que sea.

Negar acceso a los bots de IAs es una decisión difícil, que no se debe tomar así tal cual en dos minutos. Una pesadilla de valoración, añado. Puede que pese más la necesidad de exposición que proteger a toda costa tu contenido. También hay que tener en cuenta que puede que esquiven tus medidas ─cambios de IPs o que no respeten las reglas de robots─. Si van a acceder tarde o temprano, por qué resistirse. En cualquier caso, aquí van las maneras de bloquear esa horda de IAs.

NIVEL 1 (amistoso): Bloquear IAs y proteger contenido intelectual vía archivo "robots.txt"

Ay, el archivo "robots.txt". Siempre lo he visto como dejar un cartel en tu sitio web que diga ¡No, por favor, no me robes!". Hay buscadores como Google y otros rastreadores que, por motivos obvios de reputación, pueden hacen honor a las directivas que dejamos ahí escritas, pero... ¿el resto? Permíteme dudar de su eficacia en estos casos.

Nos tenemos que fiar y creer que los bots van a tomar tus indicaciones como órdenes. Porque nada, les impide navegar por el contenido. Van a rebuscar, indagar, indexar y olfatear, toda carpeta, web, archivo o URL que dispongas públicamente. Y ya. Pero bueno. Intentemos poner "algo" de protección. El uso es sencillo, se procede igual que cuando quieres desautorizar a los bots de buscadores en determinadas rutas sensibles (zonas privadas, logins, etc.). Si aún no existe, hay que crear el robots.txt por FTP o añadir estas líneas al final si ya está presente. Va generalmente colocado en la raíz de tu sitio web dentro de la carpeta htdocs, httpdocs, _publichtml o similar.

Ojo que la lista es larga, actualizada en noviembre de 2025. Esto va dentro dentro del archivo robots.txt:

# Negar acceso a bots
User-agent: AddSearchBot
User-agent: AI2Bot
User-agent: Ai2Bot-Dolma
User-agent: aiHitBot
User-agent: AmazonBuyForMe
User-agent: atlassian-bot
User-agent: amazon-kendra-
User-agent: Amazonbot
User-agent: Andibot
User-agent: Anomura
User-agent: anthropic-ai
User-agent: Applebot
User-agent: Applebot-Extended
User-agent: Awario
User-agent: bedrockbot
User-agent: bigsur.ai
User-agent: Bravebot
User-agent: Brightbot 1.0
User-agent: BuddyBot
User-agent: Bytespider
User-agent: CCBot
User-agent: ChatGPT Agent
User-agent: ChatGPT-User
User-agent: Claude-SearchBot
User-agent: Claude-User
User-agent: Claude-Web
User-agent: ClaudeBot
User-agent: Cloudflare-AutoRAG
User-agent: CloudVertexBot
User-agent: cohere-ai
User-agent: cohere-training-data-crawler
User-agent: Cotoyogi
User-agent: Crawlspace
User-agent: Datenbank Crawler
User-agent: DeepSeekBot
User-agent: Devin
User-agent: Diffbot
User-agent: DuckAssistBot
User-agent: Echobot Bot
User-agent: EchoboxBot
User-agent: FacebookBot
User-agent: facebookexternalhit
User-agent: Factset_spyderbot
User-agent: FirecrawlAgent
User-agent: FriendlyCrawler
User-agent: Gemini-Deep-Research
User-agent: Google-CloudVertexBot
User-agent: Google-Extended
User-agent: Google-Firebase
User-agent: Google-NotebookLM
User-agent: GoogleAgent-Mariner
User-agent: GoogleOther
User-agent: GoogleOther-Image
User-agent: GoogleOther-Video
User-agent: GPTBot
User-agent: iaskspider/2.0
User-agent: IbouBot
User-agent: ICC-Crawler
User-agent: ImagesiftBot
User-agent: img2dataset
User-agent: ISSCyberRiskCrawler
User-agent: Kangaroo Bot
User-agent: KlaviyoAIBot
User-agent: LinerBot
User-agent: Linguee Bot
User-agent: meta-externalagent
User-agent: Meta-ExternalAgent
User-agent: meta-externalfetcher
User-agent: Meta-ExternalFetcher
User-agent: meta-webindexer
User-agent: MistralAI-User
User-agent: MistralAI-User/1.0
User-agent: MyCentralAIScraperBot
User-agent: netEstate Imprint Crawler
User-agent: NotebookLM
User-agent: NovaAct
User-agent: OAI-SearchBot
User-agent: omgili
User-agent: omgilibot
User-agent: OpenAI
User-agent: Operator
User-agent: PanguBot
User-agent: Panscient
User-agent: panscient.com
User-agent: Perplexity-User
User-agent: PerplexityBot
User-agent: PetalBot
User-agent: PhindBot
User-agent: Poseidon Research Crawler
User-agent: QualifiedBot
User-agent: QuillBot
User-agent: quillbot.com
User-agent: SBIntuitionsBot
User-agent: Scrapy
User-agent: SemrushBot-OCOB
User-agent: SemrushBot-SWA
User-agent: ShapBot
User-agent: Sidetrade indexer bot
User-agent: TerraCotta
User-agent: Thinkbot
User-agent: TikTokSpider
User-agent: Timpibot
User-agent: VelenPublicWebCrawler
User-agent: WARDBot
User-agent: Webzio-Extended
User-agent: wpbot
User-agent: YaK
User-agent: YandexAdditional
User-agent: YandexAdditionalBot
User-agent: YouBot
Disallow: /

Estos son los bots de IA más populares y hambrientos, pero seguro que irán saliendo más, si es que no estalla la burbuja por saturación. La lista básica de agentes la había extraído del sitio web del ingeniero de software Naiyer Asif. Por cierto, tiene un buen artículo al respecto, aunque en inglés. La que está actualmente, la extendida, es de [GitHub][(https://github.com/ai-robots-txt/ai.robots.txt/tree/main).


NIVEL 2 (mosqueado): Bloquear IAs para proteger tu contenido de autor vía motor apache / nginx

Pongámonos serios. Aquí toca usar un poquito más de intensidad bloqueando los bots según se identifiquen. Ojo. Que también cualquiera puede fingir que es Elon Musk haciendo turismo sostenible, con lo cual el efecto protector se pierde. Pero es un poco más robusto que el anterior.

En el caso de htaccess/apache:

# Bloqueo con 403 a agentes de IA 
RewriteEngine On
RewriteCond % (CCBot|ChatGPT|GPTBot|anthropic-ai|Omgilibot|Omgili|FacebookBot) [NC]
RewriteRule ^ – [F]

Y así mandas a todos esos bots al limbo del universo 403 (código genérico de forbidden - prohibido). Ten en cuenta que hay que incluir todos los modelos que quieres bloquear. En el ejemplo he dejado unos pocos básicos.

Este método lo recomienda Neil Clarke en su web, en inglés, sorry. También hay que tener en cuenta que se puede ajustar para carpetas determinadas, si quieres que tengan acceso granular. El código tal cual viene está en bruto: cero acceso a cero carpetas. Tal y como a mí me gusta (ᵕ • ᴗ •)

Nginx es más truculento e inflexible para modificar la configuración. La manera rápida es, a nivel server, añadir un evil if.

Bloqueo vía nginx.conf o conf.d/:


if ($http_user_agent ~* (CCBot|ChatGPT|GPTBot|anthropic-ai|Omgilibot|Omgili|FacebookBot)) {
return 403;
}

Aunque todo administrador de sistemas que se precie sabe de sobra que la manera más correcta es usar la función map, declarándola primero a nivel servidor y luego invocándola en la configuración del dominio. Aviso para tiquismiquis talibanes del código correcto. Funcionar, funciona.


NIVEL 3 (letal): proteger tu contenido como si fueras la mismísima Warner, Disney o Nintendo, vía firewall/iptables

Mi opción favorita. Mira, pueden fingir que no han leído tu robots.txt, pueden simular que son un bot inofensivo que solo quiere indexarte, pero saltarse un cortafuegos está en otra liga de robots. Usando unas sencillas reglas en iptables (lo más habitual en servidores linux), o en tu panel de control (cpanel, plesk, etc.), puedes proteger definitivamente tu propiedad intelectual. Como cada cual usa su sistema, aquí no voy a dar configuraciones, solo indico las IPs que a fecha de este artículo, he metido en cortafuegos, para capar a ChatGPT, que es el más popular y usado con diferencia:

# OpenIA - ChatGPT
20.15.240.64/28
20.15.240.80/28
20.15.240.96/28
20.15.240.176/28
20.15.241.0/28
20.15.242.128/28
20.15.242.144/28
20.15.242.192/28
40.83.2.64/28
20.9.164.0/24
52.230.152.0/24

# User GPT
23.98.142.176/28

Aclaración: Queda por meter IPs de otras IAs. ¿Sugerencias? Por cierto, el agente CCbot de CommonCrawl es bastante perruno y esquivo para ser frenado por cortafuegos, ya que es actúa como una aplicación distribuida y usa un montón de IPs diferentes en las redes de Amazon. Así que salvo que quieras bloquear por completo todas las instancias de Amazon Web Services, es muy, muy difícil, detener su rastreo. Ellos dicen que es una tarea noble. Yo veo avaricia de datos. Por mucho que parezca un acto de altruismo, de redistribución de la información, bla, bla, bla.

Resumiendo: valora evitar que las IAs toquen tus creaciones

Al final, a pesar de los esfuerzos, es posible que consigan robar tu contenido, pasándose tus filtros por la robótica entrepierna, cambiando de IPs, usando un proxy... pero mejor no ponérselo fácil. ¿O no? Y luego está el método espartano: no subir contenido sensible, delicado, importante, creativo y personal... ejem. Aquí hay un profundo debate pendiente. Porque si al final todos los creadores de contenido original desisten de alimentar las redes, ¿quién lo hará? ¿de dónde sacarán las IAs nueva información? (ㆆ _ ㆆ)


¿Algo que decir? ¿Te ha gustado el artículo? Mientras nos pasamos a Commento, te invitamos a dejar tu comentario en este formulario tan de los 2000 ^_^