Els de codeberg diuen que els robots xafarders de les IA ja estan aprenent com esquivar ràpidament la protecció d'Anubis:
El robot DotBot era l'únic que seguia intentant "escrapejar" mastodont.cat i dic intentant perquè l'estava bloquejant.
L'he afegit a la llista de robots que no vull que "escrapejin"...
https://mastodont.cat/robots.txt
...a les 10:22 i 10:23 ha xarfadejat dos tuts (sense èxit pel meu bloqueig), a les 11 el robot ja ha vist que era a robots.txt i ha parat de xafardejar. A les 11:44 ha tornat a mirar robots.txt no sé si per assegurar-se però ja no xafardeja.
Bon dia! estic content com ha quedat aquest panell, cada minut s'actualitza amb les peticions via nginx que gestiona el servidor mastodont.cat.
Tinc totes les peticions de les darreres dues setmanes pendents d'afegir a la taula de estadístiques per a que es mostrin en aquests gràfics i així poder veure la diferència abans/després de les peticions dels robots xafarders.
Amb un petit programa Python, estic desant en una base de dades totes els registres dels logs de nginx de les darreres dues setmanes.
A veure quanta informació puc treure dels bots IA que han estat xafardejant mastodont.cat des de ves a saber quan...
Fins a 658 diferents IP del robot d'Apple (Applebot/0.1; +http://www.apple.com/go/applebot) estan llistades en el log de nginx però no intenten xafardejar ni tuts, ni enllaços ni res, només miren robots.txt a veure si tenen permís per fer-ho.
Al bot de #Amazon no li preocupa gens que l'estigui bloquejant en cada intent que fa, ell segueix al mateix ritme.
Edito: necessitava temps per veure que era a la llista de robots.txt, ja fa un parell de dies que no xafardeja res.
Bé, per ara ho deixo aquí, tinc la informació prou gràfica de les xafarderies dels robots com ara el de Amazon que intenten obtenir tuts, enllaços, avatars, capçaleres etc de mastodont.cat.
És més fàcil mirar una gràfica que filtrar logs per veure quants robots han intentat xafardejar mastodont.cat.
980 IP bloquejades però en la gràfica es veu que hi ha més robots a bloquejar.
#Amazon és el bot més agressiu xafardejant mastodont.cat en un dia
cat /var/log/nginx/mastodont.cat.access.log.1 | grep "Amazonbot" |wc -l
18473
18.473 "escrapejades" en total, principalment enllaços a mitjans externs però:
cat /var/log/nginx/mastodont.cat.access.log.1 | grep "Amazonbot" | grep "/@" | wc -l
907
o sigui, 907 intents d'obtenir tuts de diversos usuaris.
cat /var/log/nginx/mastodont.cat.access.log.1 | grep "Amazonbot" | grep "/tags" | wc -l
271 -> tuts d'etiquetes
Des de les 7 de la tarda d'ahir, #fail2ban està bloquejant automàticament totes les IPs de bots xafarders, no només Amazonbot. Ara mateix ja ha bloquejat un total de 1.171 IP, bloqueig actiu de 327.
Edito: cap robot obté res de mastodont.cat, només "veuen" que s'ha interromput la connexió gràcies a una configuració específica de nginx (el programari que serveix continguts).
#Amazon és el bot més agressiu xafardejant mastodont.cat en un dia
cat /var/log/nginx/mastodont.cat.access.log.1 | grep "Amazonbot" |wc -l
18473
18.473 "escrapejades" en total, principalment enllaços a mitjans externs però:
cat /var/log/nginx/mastodont.cat.access.log.1 | grep "Amazonbot" | grep "/@" | wc -l
907
o sigui, 907 intents d'obtenir tuts de diversos usuaris.
cat /var/log/nginx/mastodont.cat.access.log.1 | grep "Amazonbot" | grep "/tags" | wc -l
271 -> tuts d'etiquetes
Molts tuts denunciant l'scraping de #Meta però el bot que fa l'scraping més agressiu és el de Amazon:
grep 'meta-externalagent' /var/log/nginx/mastodont.cat.access.log | awk '{print $1}' | wc -l
857
grep 'Amazonbot' /var/log/nginx/mastodont.cat.access.log | awk '{print $1}' | wc -l
11823
En el que portem de dia, Meta ha fet 857 "scraps" però Amazon 11.823.
El bot de Amazon ha fet peticions a mastodont.cat des de 433 IP diferents, això només avui:
grep 'Amazonbot/0.1' /var/log/nginx/mastodont.cat.access.log | awk '{print $1}' | sort -u | wc -l
433
Es cansarà de no rebre res?