El robot DotBot era l'únic que seguia intentant "escrapejar" mastodont.cat i dic intentant perquè l'estava bloquejant.
L'he afegit a la llista de robots que no vull que "escrapejin"...

mastodont.cat/robots.txt

...a les 10:22 i 10:23 ha xarfadejat dos tuts (sense èxit pel meu bloqueig), a les 11 el robot ja ha vist que era a robots.txt i ha parat de xafardejar. A les 11:44 ha tornat a mirar robots.txt no sé si per assegurar-se però ja no xafardeja.

{"datetime": "14/Aug/2025:10:22:38 +0200", "ip": "216.244.66.250", "method": "GET", "uri": "/@joan/523289", "status": "403", "user_agent": "Mozilla/5.0 (compatible;
DotBot/1.2; +https://opensiteexplorer.org/dotbot; help@moz.com)", "referer": "(direct)", "server_name": "mastodont.cat", "request_time": "0.000"}

{"datetime": "14/Aug/2025:10:23:09 +0200", "ip": "216.244.66.250", "method": "GET", "uri": "/@kim/99891381465490612", "status": "403", "user_agent": "Mozilla/5.0 (c
ompatible; DotBot/1.2; +https://opensiteexplorer.org/dotbot; help@moz.com)", "referer": "(direct)", "server_name": "mastodont.cat", "request_time": "90.000"}
{"datetime": "14/Aug/2025:11:00:20 +0200", "ip": "216.244.66.250", "method": "GET", "uri": "/robots.txt", "status": "200", "bytes": "1908", "user_agent": "Mozilla/5
.0 (compatible; DotBot/1.2; +https://opensiteexplorer.org/dotbot; help@moz.com)", "referer": "(direct)", "server_name": "mastodont.cat", "request_time": "0.000", "u
pstream_response_time": ""}

{"datetime": "14/Aug/2025:11:44:27 +0200", "ip": "216.244.66.250", "method": "GET", "uri": "/robots.txt", "status": "200", "bytes": "1908", "user_agent": "Mozilla/5
.0 (compatible; DotBot/1.2; +https://opensiteexplorer.org/dotbot; help@moz.com)", "referer": "(direct)", "server_name": "mastodont.cat", "request_time": "0.000", "u
pstream_response_time": ne
{"datetime": "14/Aug/2025:10:22:38 +0200", "ip": "216.244.66.250", "method": "GET", "uri": "/@joan/523289", "status": "403", "user_agent": "Mozilla/5.0 (compatible; DotBot/1.2; +https://opensiteexplorer.org/dotbot; help@moz.com)", "referer": "(direct)", "server_name": "mastodont.cat", "request_time": "0.000"} {"datetime": "14/Aug/2025:10:23:09 +0200", "ip": "216.244.66.250", "method": "GET", "uri": "/@kim/99891381465490612", "status": "403", "user_agent": "Mozilla/5.0 (c ompatible; DotBot/1.2; +https://opensiteexplorer.org/dotbot; help@moz.com)", "referer": "(direct)", "server_name": "mastodont.cat", "request_time": "90.000"} {"datetime": "14/Aug/2025:11:00:20 +0200", "ip": "216.244.66.250", "method": "GET", "uri": "/robots.txt", "status": "200", "bytes": "1908", "user_agent": "Mozilla/5 .0 (compatible; DotBot/1.2; +https://opensiteexplorer.org/dotbot; help@moz.com)", "referer": "(direct)", "server_name": "mastodont.cat", "request_time": "0.000", "u pstream_response_time": ""} {"datetime": "14/Aug/2025:11:44:27 +0200", "ip": "216.244.66.250", "method": "GET", "uri": "/robots.txt", "status": "200", "bytes": "1908", "user_agent": "Mozilla/5 .0 (compatible; DotBot/1.2; +https://opensiteexplorer.org/dotbot; help@moz.com)", "referer": "(direct)", "server_name": "mastodont.cat", "request_time": "0.000", "u pstream_response_time": ne

Bon dia! estic content com ha quedat aquest panell, cada minut s'actualitza amb les peticions via nginx que gestiona el servidor mastodont.cat.
Tinc totes les peticions de les darreres dues setmanes pendents d'afegir a la taula de estadístiques per a que es mostrin en aquests gràfics i així poder veure la diferència abans/després de les peticions dels robots xafarders.

Amb un petit programa Python, estic desant en una base de dades totes els registres dels logs de nginx de les darreres dues setmanes.
A veure quanta informació puc treure dels bots IA que han estat xafardejant mastodont.cat des de ves a saber quan...

[(nginx) mastodon@mastodont:~/bots/nginx$ python nginx.py 1
Base de dades nginx_logs ja existeix

Fitxers de log trobats: ['/var/log/nginx/mastodont.cat.access.log', '/var/log/nginx/mastodont.cat.access.log.1', '/var/log/nginx/mastodont.cat.access.log.2.9z', '/v
ar/log/nginx/mastodont.cat.access.log.3.gz', '/var/log/nginx/mastodont.cat.access.log.4.gz', '/var/log/nginx/mastodont.cat.access.log.5.9z', '/var/log/nginx/mastodo
nt.cat.access.log.6.gz', '/var/log/nginx/mastodont.cat.access.log.7.gz', '/var/log/nginx/mastodont.cat.access.log.8.gz', '/var/log/nginx/mastodont.cat.access.log.9.
gz', '/var/log/nginx/mastodont.cat.access.log.10.gz', '/var/log/nginx/mastodont.cat.access.log.11.gz', '/var/log/nginx/mastodont.cat.access.log.12.gz', '/var/log/ng
inx/mastodont.cat.access.log.13.gz', '/var/log/nginx/mastodont.cat.access.log.14.9z']

Processant fitxer: /var/log/nginx/mastodont.cat.access.log

Processant fitxer: /var/log/nginx/mastodont.cat.access.log.1

Processant fitxer: /var/log/nginx/mastodont.cat.access.log.2.g9z

Processant fitxer: /var/log/nginx/mastodont.cat.access.log.3.9z

Processant fitxer: /var/log/nginx/mastodont.cat.access.log.4.g9z

Processant fitxer: /var/log/nginx/mastodont.cat.access.log.5.9z

Processant fitxer: /var/log/nginx/mastodont.cat.access.log.6.9z

Processant fitxer: /var/log/nginx/mastodont.cat.access.log.7.9z

Processant fitxer: /var/log/nginx/mastodont.cat.access.log.8.9z

Recess anT fitxer: /var/log/nginx/mastodont.cat.access.log.9.9z
[(nginx) mastodon@mastodont:~/bots/nginx$ python nginx.py 1 Base de dades nginx_logs ja existeix Fitxers de log trobats: ['/var/log/nginx/mastodont.cat.access.log', '/var/log/nginx/mastodont.cat.access.log.1', '/var/log/nginx/mastodont.cat.access.log.2.9z', '/v ar/log/nginx/mastodont.cat.access.log.3.gz', '/var/log/nginx/mastodont.cat.access.log.4.gz', '/var/log/nginx/mastodont.cat.access.log.5.9z', '/var/log/nginx/mastodo nt.cat.access.log.6.gz', '/var/log/nginx/mastodont.cat.access.log.7.gz', '/var/log/nginx/mastodont.cat.access.log.8.gz', '/var/log/nginx/mastodont.cat.access.log.9. gz', '/var/log/nginx/mastodont.cat.access.log.10.gz', '/var/log/nginx/mastodont.cat.access.log.11.gz', '/var/log/nginx/mastodont.cat.access.log.12.gz', '/var/log/ng inx/mastodont.cat.access.log.13.gz', '/var/log/nginx/mastodont.cat.access.log.14.9z'] Processant fitxer: /var/log/nginx/mastodont.cat.access.log Processant fitxer: /var/log/nginx/mastodont.cat.access.log.1 Processant fitxer: /var/log/nginx/mastodont.cat.access.log.2.g9z Processant fitxer: /var/log/nginx/mastodont.cat.access.log.3.9z Processant fitxer: /var/log/nginx/mastodont.cat.access.log.4.g9z Processant fitxer: /var/log/nginx/mastodont.cat.access.log.5.9z Processant fitxer: /var/log/nginx/mastodont.cat.access.log.6.9z Processant fitxer: /var/log/nginx/mastodont.cat.access.log.7.9z Processant fitxer: /var/log/nginx/mastodont.cat.access.log.8.9z Recess anT fitxer: /var/log/nginx/mastodont.cat.access.log.9.9z

Fins a 658 diferents IP del robot d'Apple (Applebot/0.1; +http://www.apple.com/go/applebot) estan llistades en el log de nginx però no intenten xafardejar ni tuts, ni enllaços ni res, només miren robots.txt a veure si tenen permís per fer-ho.

#scraping

[root@mastodont ~ # cat /var/log/nginx/json_access.log |grep "Applebot" 1

{"datetime": "11/Aug/2025:19:39:22 +0200", "IP": "17.241.227.40", "uri": "/robots.txt", "status": "444", "user_agent": "Mozilla/5.@ (Macintosh; Intel Mac 0S X 10_15

_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.4 Safari/605.1.15 (Applebot/@.1; +http://www.apple.com/go/applebot)", "referer": "(direct)", "server_name":
"mastodont.cat", "request_time": "@0.000"}

{"datetime": "11/Aug/2025:19:39:23 +0200", "IP": "17.241.219.192", "uri": "/robots.txt", "status": "444", "user_agent": "Mozilla/5.0 (Macintosh; Intel Mac 0S X 10_1

5_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.4 Safari/605.1.15 (Applebot/@.1; +http://www.apple.com/go/applebot)", "referer": "(direct)", "server_name":
"mastodont.cat", "request_time": "@0.000"}
[root@mastodont ~ # cat /var/log/nginx/json_access.log |grep "Applebot" 1 {"datetime": "11/Aug/2025:19:39:22 +0200", "IP": "17.241.227.40", "uri": "/robots.txt", "status": "444", "user_agent": "Mozilla/5.@ (Macintosh; Intel Mac 0S X 10_15 _7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.4 Safari/605.1.15 (Applebot/@.1; +http://www.apple.com/go/applebot)", "referer": "(direct)", "server_name": "mastodont.cat", "request_time": "@0.000"} {"datetime": "11/Aug/2025:19:39:23 +0200", "IP": "17.241.219.192", "uri": "/robots.txt", "status": "444", "user_agent": "Mozilla/5.0 (Macintosh; Intel Mac 0S X 10_1 5_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.4 Safari/605.1.15 (Applebot/@.1; +http://www.apple.com/go/applebot)", "referer": "(direct)", "server_name": "mastodont.cat", "request_time": "@0.000"}

Al bot de no li preocupa gens que l'estigui bloquejant en cada intent que fa, ell segueix al mateix ritme.

Edito: necessitava temps per veure que era a la llista de robots.txt, ja fa un parell de dies que no xafardeja res.

és el bot més agressiu xafardejant mastodont.cat en un dia

cat /var/log/nginx/mastodont.cat.access.log.1 | grep "Amazonbot" |wc -l
18473

18.473 "escrapejades" en total, principalment enllaços a mitjans externs però:

cat /var/log/nginx/mastodont.cat.access.log.1 | grep "Amazonbot" | grep "/@" | wc -l
907
o sigui, 907 intents d'obtenir tuts de diversos usuaris.

cat /var/log/nginx/mastodont.cat.access.log.1 | grep "Amazonbot" | grep "/tags" | wc -l
271 -> tuts d'etiquetes

Des de les 7 de la tarda d'ahir, està bloquejant automàticament totes les IPs de bots xafarders, no només Amazonbot. Ara mateix ja ha bloquejat un total de 1.171 IP, bloqueig actiu de 327.
Edito: cap robot obté res de mastodont.cat, només "veuen" que s'ha interromput la connexió gràcies a una configuració específica de nginx (el programari que serveix continguts).

és el bot més agressiu xafardejant mastodont.cat en un dia

cat /var/log/nginx/mastodont.cat.access.log.1 | grep "Amazonbot" |wc -l
18473

18.473 "escrapejades" en total, principalment enllaços a mitjans externs però:

cat /var/log/nginx/mastodont.cat.access.log.1 | grep "Amazonbot" | grep "/@" | wc -l
907
o sigui, 907 intents d'obtenir tuts de diversos usuaris.

cat /var/log/nginx/mastodont.cat.access.log.1 | grep "Amazonbot" | grep "/tags" | wc -l
271 -> tuts d'etiquetes

Molts tuts denunciant l'scraping de però el bot que fa l'scraping més agressiu és el de Amazon:

grep 'meta-externalagent' /var/log/nginx/mastodont.cat.access.log | awk '{print $1}' | wc -l
857
grep 'Amazonbot' /var/log/nginx/mastodont.cat.access.log | awk '{print $1}' | wc -l
11823
En el que portem de dia, Meta ha fet 857 "scraps" però Amazon 11.823.