Los bloqueos a rastreadores web de IAs continúan. ¿Impacta el SEO?

Author picture

Escrito por

Según un análisis realizado por originality.ai, al menos 26 de los 100 sitios web más populares del mundo bloquearon a GPTBot, el rastreador web OpenAI. ¿Por qué lo hicieron? ¿Afecta de alguna manera al SEO? Aquí te contamos.
Bloqueo de robots de inteligencia artificial continua

Compartir

  • OpenAI y otras empresas esta utilizando bots que navegan la web obteniendo datos para entrenar sus IA.
  • Actualmente se puede utilizar robots.txt para bloqueos de bots de IA a un sitio web.
  • Hay al menos 5 razones por las cuales las grandes empresas como Amazon.com o nytimes.com están bloqueando los rastreadores IA.

El control y la protección de datos se ha sido un factor fundamental al trabajar en el entorno empresarial. Al reconocer la importancia vital de la información en la era de la inteligencia artificial, algunas de las empresas más reconocidas a nivel mundial están implementando bloqueos de bots de IA, una medida para salvaguardarse de rastreadores como GPTBot de OpenAI.

El bloqueo de rastreadores web de inteligencia artificial (IA) ha crecido a más de 250 empresas de 1000 estudiadas, en solo tres semanas.  Empresas de renombre como Tumblr, Pinterest, The Guardian y The New York Times, también figuran entre los que protegen su contenido del rastreador de IA.

 

Gráfica del porcentaje de sitios que bloquean rastreadores de inteligencia artificial
Fuente:  Originality.ai – % de los 1000 sitios web más importantes que bloquean: gptbot, chatgpt-user, ccbot y anthropic Ai

No solo los bot de las IA más populares estan siendo bloqueados. CCBot de Common Crawl también enfrenta resistencia, con un 14% de los 1000 sitios web más populares. Esta organización ha sido fundamental en proporcionar datos de entrenamiento para varios modelos de lenguaje grandes.

¿Qué es un Bot y por qué es importante para las empresas de IA?

En resumen, un Bot es un rastreador web cuya función es recorrer enlaces y direcciones web a través de internet para recolectar datos únicos y de alta calidad que alimenten modelos de IA. El GPTBot de OpenAI, por ejemplo, está diseñado específicamente para en buscar datos valiosos que puedan contribuir al desarrollo de modelos de IA como ChatGPT.

Permitir el acceso de GPTBot o  CCBot a un sitio web es, en cierto sentido, una contribución al ecosistema de la IA, ya que los datos que recopila son fundamentales para el enriquecimiento y mejoramiento de futuros modelos de inteligencia artificial.

OpenAI y CCBot valoran y respetan la autonomía de los administradores web, ofreciendo opciones para que decidan si permitir o no el acceso del bot a sus sitios, manteniendo así un equilibrio entre la recopilación de datos y la autonomía y control del administrador del sitio web.

¿Por qué las grandes empresas estan bloqueando los bot de inteligencia artificial?

Rastreadores como GPTBot exploran la web tomando obras creativas de individuos en diversas formas, ya sean textos, imágenes u otros medios, y las emplean con objetivos comerciales, todo ello sin solicitar permiso, licencia, ni proveer compensación alguna a los autores originales.

Las empresas bloquean los rastreadores buscando proteger esos datos con la intención de mantener una ventaja diferencial en la información y protegerlos de ser usados sin permiso, teniendo el control de quien se beneficia de ellos y el uso que se les da.

Este bloqueo provoca un conflicto constante en la necesidad de obtener información veraz y de calidad por parte de las IA, siendo esta crucial para el entrenamiento de modelos como el GPT-4 de OpenAI, uno de los más usados actualmente por los usuarios para generar grandes cantidades de información.

Las razones del bloque de los bots de IA por parte de las grandes empresas también pueden deberse a:

Protección de Datos

Las empresas poseen datos únicos y precisos que son vitales para entrenar modelos de IA efectivos. El bloqueo de rastreadores ayuda a prevenir la extracción no autorizada de estos datos. Al bloquear rastreadores, las empresas también buscan proteger la privacidad de los usuarios y la información sensible de los clientes.

Propiedad Intelectual

Muchas empresas crean contenido exclusivo y original, y el bloqueo de rastreadores evita que este contenido sea copiado o replicado sin permiso. Al proteger su contenido y datos únicos, las empresas mantienen una ventaja competitiva en el mercado.

Seguridad

Los rastreadores de IA pueden ser utilizados para fines maliciosos, como la extracción de datos y la infiltración en sistemas. El bloqueo ayuda a mitigar estos riesgos, protege la integridad del sitio web y previene el abuso y el comportamiento no deseado.

Preservación de Recursos

Los rastreadores de IA pueden consumir significativamente el ancho de banda y los recursos del servidor, afectando el rendimiento del sitio. El uso extensivo de recursos puede generar costos adicionales y afectar la experiencia del usuario si el sitio se ve afectado en su performance.

Control de la Información

Algunas empresas pueden querer evitar que los rastreadores de IA manipulen o afecten los rankings y las métricas de análisis web. Mantener el control sobre cómo se presenta y se usa la información es crucial para la gestión de la imagen de marca.

En respuesta a los crecientes bloqueos, muchas empresas han actualizado sus términos de servicio y políticas de usuario para retener el control sobre los datos de los usuarios y su contenido, otro aspecto vital para el entrenamiento de modelos de IA.

¿Qué debes hacer para bloquear a GPTBot o CCBot en tu sitio web?

Según las instrucciones de openAI, para limitar el acceso de su bot a un sitio web se deben ingresar instrucciones en el archivo robots.txt, sin embargo, debemos resaltar que solo OpenAI es quien decide si sus bots acatan estos lineamientos, o por el contrario, decide omitir la desautorización y hacer el rastreo.

amazon bloqueando ccbot y gptbot con archivo robots.txt
Imagen del archivo robots.txt de amazon.com

Para bloquear el acceso completo a GPTBot y CCBot a través de una desautorización de navegación ingresa estas dos líneas de código:

User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

¿Bloquear los rastreadores o bots de IA pueden ayudar al SEO?

El bloqueo de bots utilizados para alimentar sistemas de IA puede ser beneficioso en ciertos aspectos específicos de una estrategia de SEO. Cada plataforma debe evaluar estos aspectos detenidamente, tomando en cuenta sus objetivos particulares al momento de decidir si bloquear o no estos bots.

Algunas consideraciones:

  • Bloquear bots puede afectar el rendimiento y tiempo de carga del sitio, lo cual es positivo para el SEO si obtienes una mejora en el rendimiento.
  • Al bloquear bots de IA se reduce el riesgo de ataques con scraping y otras amenazas que pueden hacer uso de las IA para ejecutarlas.
  • Bloquear bots puede proteger tu contenido y evitar que sea copiado o republicado sin permiso.
  • No permitir el acceso a los Bots que entrenan IA puede ayudar a que tu sitio sea una fuente de información exclusiva y relevante en los motores de búsqueda.
  • Algunos bots pueden alterar los datos, lo cual es crucial para tomar decisiones informadas en SEO o en cualquier estrategia de marketing.
  • No bloquees los Bots de IA si usas inteligencia artificial para generar contenido. Pueden ayudarte a mejorar tu trabajo si aprenden de los resultados que tienes con esos procesos.
  • No bloquees los bots si usas la inteligencia artificial para analizar tu sitio web en busca de mejoras de seguridad.
  • Permite a los bots rastrear tu sitio si tienes productos o servicios que solo tu ofreces, esto ayudara a distribuir esa información en otros canales.
  • Permite el acceso de bots si utilizas la información de tu sitio web para automatizar campañas de marketing o de contenido basada en la información que tiene tu sitio.

Conclusión

Las grandes empresas están bloqueando bots de IA para proteger su información y la privacidad del usuario, enfatizando así el papel esencial de los datos en el mundo digital. Este comportamiento presenta un conflicto para las empresas de inteligencia artificial que buscan nutrir a sus modelos con información veraz y de calidad para los usuarios, y la necesidad de las empresas que buscan resguardar la información de sus activos digitales.

En el contexto SEO

Aunque el bloqueo puede traer algunos beneficios en cuanto a la exclusividad y relevancia de la información, también restringe la colaboración y el intercambio informativo al que podemos tener acceso con la herramienta, revelando un dilema entre y la preservación y control de la información y la veracidad de las fuentes que alimentan los modelos de IA que utilizamos para el trabajo diario.