Arsen und Spitzenhäubchen

Erstellt von tobi um 17:22

TL;DR Ich habe mich ein wenig mit Methoden zum Umgang mit »bösen Robots« im Web beschäftigt und fasse das hier Zusammen. Am Ende gibt es einige Fragen an die Antville-Community.

Ich wünschte, ich könne sagen: ich habe etwas länger Zeit (ca. 1 Jahr) gebraucht, um nachzudenken, ob und wie wir KI-Scraper rauswerfen könnten – das wäre nur völlig gelogen und halt auch nicht sonderlich hilfreich.

Jedenfalls hab ich den o.g. Beitrag von gHack nicht vergessen, und auch schon recht bald darauf ein paar Tests mit einer automatisierten robots.txt-Datei durchgeführt. Die waren halt nicht so zufriedenstellend, nicht ausgereift, und dann schnell wieder im Sande verlaufen.

In der Zwischenzeit sind mir ein paar (für mich) neuartige Methoden bekannt geworden, mit »bad robots« zu verfahren – hauptsächlich über Erwähnungen auf Reddit oder Lobsters.

Und daher hab ich mich nochmal hingesetzt, einiges ausprobiert und erneut recherchiert – und präsentiere nun ein Zwischenergebnis:

gHack hat bereits Dark Visitors verlinkt, allerdings finde ich unter der URL keine Liste mehr, sondern »nur« noch einen WordPress-Plugin, ein Node.js-Modul sowie eine API-Schnittstelle. Für mich ist die API vermutlich eh interessanter (siehe automatisiertes robots.txt) – wer allerdings was Einfaches sucht, steht dort bissi an.
Dafür hab ich das Repository ai.robots.txt gefunden. Das beschreibt sich selbst als »open list of web crawlers associated with AI companies and the training of LLMs to block« und hat ein robots.txt anzubieten.
Das Ziel von Anubis ist, »to help protect the small internet from the endless storm of requests that flood in from AI companies«. Es wird vor eine Website geschaltet, und prüft dann die Besucher*innen mittels einer »proof-of-work challenge« (nicht, dass ich genau wüsste, was das ist), ob es sich um einen »Scraper« handelt. Wie das ausschaut kann mensch auf der oben verlinkten Website sehen.

Anubis hat zuletzt für Gesprächsstoff gesorgt, weil es sogar auf einer (der?) UNESCO-Website eingesetzt wird – die fehlt allerdings (noch) in dieser Liste der Websites, die Anubis verwenden – und weil empfindsame Menschen das Anime-Maskottchen nicht mögen.
Als »data poisoning« wird bezeichnet, was u.a. Iocaine versucht: »The core idea is (…) to serve content generated by iocaine to AI crawlers, but normal content to every other visitor. (…) iocaine is purely about generating garbage.«

Dieser »Müll« schaut dann aus wie eine einfache Website, solange mensch nicht versucht sinnerfassend zu lesen oder »bis ans Ende« der Website zu klickern.

(Sowas lässt sich übrigens auch mit Musik- und Videodaten anstellen, wie Benn Jordan eindrucksvoll beweist. Und vielleicht erinnern Sie sich noch an »Poisoning AI with .ass subtitles«…?)

We poisened their asses with poisenous gases.
— Flight of the Conchords
Dark Visitors (und hier schließt sich der Kreis) bietet weitere Hilfsmittel zum Umgang mit »AI-Agents« an, beispielsweise »agent analytics« und »rules & rule breakers«. Ich hab dazu auf zwei Antville-Sites die nötigen Scripts eingebaut, das Ergebnis ist allerdings eher, hm… uneindeutig?

Nun meine Fragen:

Gibt es Interesse/Bedarf in der Antville-Community, Maßnahmen gegen KI-Scraper zu ergreifen?
Wenn ja: welche von den o.g. kommen in Frage?
Was halten Sie generell von solchen Maßnahmen?
Kennen Sie weitere Möglichkeiten?

gHack

04.05.25, 19:52

Kann sein, dass es hier Leute gibt, die wollen, dass ihre Texte von LLMs in deren Corpus aufgenommen werden. Ich hätte gern die Möglichkeit, die Scraper bei mir zu blocken, denn auch wenn sich viele eh nicht an Regeln wie RFC 9309 halten, so würde ich doch gerne die draußen halten, die das tun, schon als Symbol dafür, dass ich meine Inhalte nicht abgreifen lassen möchte.

Mai 2025
So.	Mo.	Di.	Mi.	Do.	Fr.	Sa.
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31
Februar