Discussion
Loading...

#Tag

Log in
  • About
  • Code of conduct
  • Privacy
  • Users
  • Instances
  • About Bonfire
Hacker News
Hacker News
@h4ckernews@mastodon.social  ·  activity timestamp 2 weeks ago

Why we're taking legal action against SerpApi's unlawful scraping

https://blog.google/innovation-and-ai/technology/safety-security/serpapi-lawsuit/

#HackerNews #legalaction #SerpApi #scraping #lawsuit #technews #cybersecurity

Google

Why we’re taking legal action against SerpApi’s unlawful scraping

We filed a suit today against the scraping company SerpApi.
  • Copy link
  • Flag this post
  • Block
Terence Eden boosted
Terence Eden
Terence Eden
@Edent@mastodon.social  ·  activity timestamp last month

🆕 blog! “Stop crawling my HTML you dickheads - use the API!”

One of the (many) depressing things about the "AI" future in which we're living, is that it exposes just how many people are willing to outsource their critical thinking. Brute force is preferred to thinking about how to efficiently tackle a problem.

For some reason, my websites are regularly…

👀 Read more: https://shkspr.mobi/blog/2025/12/stop-crawling-my-html-you-dickheads-use-the-api/
⸻
#AI #api #HTML #scraping

  • Copy link
  • Flag this post
  • Block
Hacker News
Hacker News
@h4ckernews@mastodon.social  ·  activity timestamp last month

It seems that OpenAI is scraping [certificate transparency] logs

https://benjojo.co.uk/u/benjojo/h/Gxy2qrCkn1Y327Y6D3

#HackerNews #OpenAI #CertificateTransparency #Scraping #Technology #News #HackerNews

  • Copy link
  • Flag this post
  • Block
Hacker News
Hacker News
@h4ckernews@mastodon.social  ·  activity timestamp last month

Sacrificing accessibility for not getting web scraped

https://tilschuenemann.de/projects/sacrificing-accessibility-for-not-getting-web-scraped

#HackerNews #sacrifice #accessibility #web #scraping #data #privacy #user #experience

  • Copy link
  • Flag this post
  • Block
Terence Eden
Terence Eden
@Edent@mastodon.social  ·  activity timestamp last month

🆕 blog! “Stop crawling my HTML you dickheads - use the API!”

One of the (many) depressing things about the "AI" future in which we're living, is that it exposes just how many people are willing to outsource their critical thinking. Brute force is preferred to thinking about how to efficiently tackle a problem.

For some reason, my websites are regularly…

👀 Read more: https://shkspr.mobi/blog/2025/12/stop-crawling-my-html-you-dickheads-use-the-api/
⸻
#AI #api #HTML #scraping

  • Copy link
  • Flag this post
  • Block
Hacker News
Hacker News
@h4ckernews@mastodon.social  ·  activity timestamp 2 months ago

Messing with Scraper Bots

https://herman.bearblog.dev/messing-with-bots/

#HackerNews #Messing #with #Scraper #Bots #tech #news #web #scraping #security #bots

Herman's blog

Messing with bots

Markov chain babblers, bogus php files, and more!
  • Copy link
  • Flag this post
  • Block
Hacker News
Hacker News
@h4ckernews@mastodon.social  ·  activity timestamp 2 months ago

I scraped 3B Goodreads reviews to train a better recommendation model

https://book.sv

#HackerNews #scraping #Goodreads #recommendation_model #data_analysis #machine_learning #book_reviews

  • Copy link
  • Flag this post
  • Block
Bjørnar (he/him) and 1 other boosted
MakerTube
MakerTube
@MakerTube@mastodon.social  ·  activity timestamp 3 months ago

Is there a public IP block list for AI bots? I see a jump in traffic usage lately and it seems robots.txt is widely ignored these days. #ai #blocking #firewall #scraping #peertube

  • Copy link
  • Flag this post
  • Block
MakerTube
MakerTube
@MakerTube@mastodon.social  ·  activity timestamp 3 months ago

Is there a public IP block list for AI bots? I see a jump in traffic usage lately and it seems robots.txt is widely ignored these days. #ai #blocking #firewall #scraping #peertube

  • Copy link
  • Flag this post
  • Block
spla
spla
@spla@mastodont.cat  ·  activity timestamp 5 months ago

Els de codeberg diuen que els robots xafarders de les IA ja estan aprenent com esquivar ràpidament la protecció d'Anubis:

https://social.anoxinon.de/@Codeberg/115033790447125787

#BotsXafarders #scraping

  • Copy link
  • Flag this post
  • Block
spla
spla
@spla@mastodont.cat  ·  activity timestamp 5 months ago

El robot DotBot era l'únic que seguia intentant "escrapejar" mastodont.cat i dic intentant perquè l'estava bloquejant.
L'he afegit a la llista de robots que no vull que "escrapejin"...

https://mastodont.cat/robots.txt

...a les 10:22 i 10:23 ha xarfadejat dos tuts (sense èxit pel meu bloqueig), a les 11 el robot ja ha vist que era a robots.txt i ha parat de xafardejar. A les 11:44 ha tornat a mirar robots.txt no sé si per assegurar-se però ja no xafardeja.

#BotsXafarders #scraping

{"datetime": "14/Aug/2025:10:22:38 +0200", "ip": "216.244.66.250", "method": "GET", "uri": "/@joan/523289", "status": "403", "user_agent": "Mozilla/5.0 (compatible;
DotBot/1.2; +https://opensiteexplorer.org/dotbot; help@moz.com)", "referer": "(direct)", "server_name": "mastodont.cat", "request_time": "0.000"}

{"datetime": "14/Aug/2025:10:23:09 +0200", "ip": "216.244.66.250", "method": "GET", "uri": "/@kim/99891381465490612", "status": "403", "user_agent": "Mozilla/5.0 (c
ompatible; DotBot/1.2; +https://opensiteexplorer.org/dotbot; help@moz.com)", "referer": "(direct)", "server_name": "mastodont.cat", "request_time": "90.000"}
{"datetime": "14/Aug/2025:11:00:20 +0200", "ip": "216.244.66.250", "method": "GET", "uri": "/robots.txt", "status": "200", "bytes": "1908", "user_agent": "Mozilla/5
.0 (compatible; DotBot/1.2; +https://opensiteexplorer.org/dotbot; help@moz.com)", "referer": "(direct)", "server_name": "mastodont.cat", "request_time": "0.000", "u
pstream_response_time": ""}

{"datetime": "14/Aug/2025:11:44:27 +0200", "ip": "216.244.66.250", "method": "GET", "uri": "/robots.txt", "status": "200", "bytes": "1908", "user_agent": "Mozilla/5
.0 (compatible; DotBot/1.2; +https://opensiteexplorer.org/dotbot; help@moz.com)", "referer": "(direct)", "server_name": "mastodont.cat", "request_time": "0.000", "u
pstream_response_time": ne
{"datetime": "14/Aug/2025:10:22:38 +0200", "ip": "216.244.66.250", "method": "GET", "uri": "/@joan/523289", "status": "403", "user_agent": "Mozilla/5.0 (compatible; DotBot/1.2; +https://opensiteexplorer.org/dotbot; help@moz.com)", "referer": "(direct)", "server_name": "mastodont.cat", "request_time": "0.000"} {"datetime": "14/Aug/2025:10:23:09 +0200", "ip": "216.244.66.250", "method": "GET", "uri": "/@kim/99891381465490612", "status": "403", "user_agent": "Mozilla/5.0 (c ompatible; DotBot/1.2; +https://opensiteexplorer.org/dotbot; help@moz.com)", "referer": "(direct)", "server_name": "mastodont.cat", "request_time": "90.000"} {"datetime": "14/Aug/2025:11:00:20 +0200", "ip": "216.244.66.250", "method": "GET", "uri": "/robots.txt", "status": "200", "bytes": "1908", "user_agent": "Mozilla/5 .0 (compatible; DotBot/1.2; +https://opensiteexplorer.org/dotbot; help@moz.com)", "referer": "(direct)", "server_name": "mastodont.cat", "request_time": "0.000", "u pstream_response_time": ""} {"datetime": "14/Aug/2025:11:44:27 +0200", "ip": "216.244.66.250", "method": "GET", "uri": "/robots.txt", "status": "200", "bytes": "1908", "user_agent": "Mozilla/5 .0 (compatible; DotBot/1.2; +https://opensiteexplorer.org/dotbot; help@moz.com)", "referer": "(direct)", "server_name": "mastodont.cat", "request_time": "0.000", "u pstream_response_time": ne
{"datetime": "14/Aug/2025:10:22:38 +0200", "ip": "216.244.66.250", "method": "GET", "uri": "/@joan/523289", "status": "403", "user_agent": "Mozilla/5.0 (compatible; DotBot/1.2; +https://opensiteexplorer.org/dotbot; help@moz.com)", "referer": "(direct)", "server_name": "mastodont.cat", "request_time": "0.000"} {"datetime": "14/Aug/2025:10:23:09 +0200", "ip": "216.244.66.250", "method": "GET", "uri": "/@kim/99891381465490612", "status": "403", "user_agent": "Mozilla/5.0 (c ompatible; DotBot/1.2; +https://opensiteexplorer.org/dotbot; help@moz.com)", "referer": "(direct)", "server_name": "mastodont.cat", "request_time": "90.000"} {"datetime": "14/Aug/2025:11:00:20 +0200", "ip": "216.244.66.250", "method": "GET", "uri": "/robots.txt", "status": "200", "bytes": "1908", "user_agent": "Mozilla/5 .0 (compatible; DotBot/1.2; +https://opensiteexplorer.org/dotbot; help@moz.com)", "referer": "(direct)", "server_name": "mastodont.cat", "request_time": "0.000", "u pstream_response_time": ""} {"datetime": "14/Aug/2025:11:44:27 +0200", "ip": "216.244.66.250", "method": "GET", "uri": "/robots.txt", "status": "200", "bytes": "1908", "user_agent": "Mozilla/5 .0 (compatible; DotBot/1.2; +https://opensiteexplorer.org/dotbot; help@moz.com)", "referer": "(direct)", "server_name": "mastodont.cat", "request_time": "0.000", "u pstream_response_time": ne
  • Copy link
  • Flag this post
  • Block
spla
spla
@spla@mastodont.cat  ·  activity timestamp 5 months ago

Bon dia! estic content com ha quedat aquest panell, cada minut s'actualitza amb les peticions via nginx que gestiona el servidor mastodont.cat.
Tinc totes les peticions de les darreres dues setmanes pendents d'afegir a la taula de estadístiques per a que es mostrin en aquests gràfics i així poder veure la diferència abans/després de les peticions dels robots xafarders.

#BotsXafarders #scraping #manteniment

gràfiques on es mostren les peticions via nginx que gestiona mastodont.cat. Es veuen les peticions totals, les èxitoses, les re dirigides etc
gràfiques on es mostren les peticions via nginx que gestiona mastodont.cat. Es veuen les peticions totals, les èxitoses, les re dirigides etc
gràfiques on es mostren les peticions via nginx que gestiona mastodont.cat. Es veuen les peticions totals, les èxitoses, les re dirigides etc
  • Copy link
  • Flag this post
  • Block
spla
spla
@spla@mastodont.cat  ·  activity timestamp 5 months ago

Amb un petit programa Python, estic desant en una base de dades totes els registres dels logs de nginx de les darreres dues setmanes.
A veure quanta informació puc treure dels bots IA que han estat xafardejant mastodont.cat des de ves a saber quan...

#scraping #BotsXafarders

[(nginx) mastodon@mastodont:~/bots/nginx$ python nginx.py 1
Base de dades nginx_logs ja existeix

Fitxers de log trobats: ['/var/log/nginx/mastodont.cat.access.log', '/var/log/nginx/mastodont.cat.access.log.1', '/var/log/nginx/mastodont.cat.access.log.2.9z', '/v
ar/log/nginx/mastodont.cat.access.log.3.gz', '/var/log/nginx/mastodont.cat.access.log.4.gz', '/var/log/nginx/mastodont.cat.access.log.5.9z', '/var/log/nginx/mastodo
nt.cat.access.log.6.gz', '/var/log/nginx/mastodont.cat.access.log.7.gz', '/var/log/nginx/mastodont.cat.access.log.8.gz', '/var/log/nginx/mastodont.cat.access.log.9.
gz', '/var/log/nginx/mastodont.cat.access.log.10.gz', '/var/log/nginx/mastodont.cat.access.log.11.gz', '/var/log/nginx/mastodont.cat.access.log.12.gz', '/var/log/ng
inx/mastodont.cat.access.log.13.gz', '/var/log/nginx/mastodont.cat.access.log.14.9z']

Processant fitxer: /var/log/nginx/mastodont.cat.access.log

Processant fitxer: /var/log/nginx/mastodont.cat.access.log.1

Processant fitxer: /var/log/nginx/mastodont.cat.access.log.2.g9z

Processant fitxer: /var/log/nginx/mastodont.cat.access.log.3.9z

Processant fitxer: /var/log/nginx/mastodont.cat.access.log.4.g9z

Processant fitxer: /var/log/nginx/mastodont.cat.access.log.5.9z

Processant fitxer: /var/log/nginx/mastodont.cat.access.log.6.9z

Processant fitxer: /var/log/nginx/mastodont.cat.access.log.7.9z

Processant fitxer: /var/log/nginx/mastodont.cat.access.log.8.9z

Recess anT fitxer: /var/log/nginx/mastodont.cat.access.log.9.9z
[(nginx) mastodon@mastodont:~/bots/nginx$ python nginx.py 1 Base de dades nginx_logs ja existeix Fitxers de log trobats: ['/var/log/nginx/mastodont.cat.access.log', '/var/log/nginx/mastodont.cat.access.log.1', '/var/log/nginx/mastodont.cat.access.log.2.9z', '/v ar/log/nginx/mastodont.cat.access.log.3.gz', '/var/log/nginx/mastodont.cat.access.log.4.gz', '/var/log/nginx/mastodont.cat.access.log.5.9z', '/var/log/nginx/mastodo nt.cat.access.log.6.gz', '/var/log/nginx/mastodont.cat.access.log.7.gz', '/var/log/nginx/mastodont.cat.access.log.8.gz', '/var/log/nginx/mastodont.cat.access.log.9. gz', '/var/log/nginx/mastodont.cat.access.log.10.gz', '/var/log/nginx/mastodont.cat.access.log.11.gz', '/var/log/nginx/mastodont.cat.access.log.12.gz', '/var/log/ng inx/mastodont.cat.access.log.13.gz', '/var/log/nginx/mastodont.cat.access.log.14.9z'] Processant fitxer: /var/log/nginx/mastodont.cat.access.log Processant fitxer: /var/log/nginx/mastodont.cat.access.log.1 Processant fitxer: /var/log/nginx/mastodont.cat.access.log.2.g9z Processant fitxer: /var/log/nginx/mastodont.cat.access.log.3.9z Processant fitxer: /var/log/nginx/mastodont.cat.access.log.4.g9z Processant fitxer: /var/log/nginx/mastodont.cat.access.log.5.9z Processant fitxer: /var/log/nginx/mastodont.cat.access.log.6.9z Processant fitxer: /var/log/nginx/mastodont.cat.access.log.7.9z Processant fitxer: /var/log/nginx/mastodont.cat.access.log.8.9z Recess anT fitxer: /var/log/nginx/mastodont.cat.access.log.9.9z
[(nginx) mastodon@mastodont:~/bots/nginx$ python nginx.py 1 Base de dades nginx_logs ja existeix Fitxers de log trobats: ['/var/log/nginx/mastodont.cat.access.log', '/var/log/nginx/mastodont.cat.access.log.1', '/var/log/nginx/mastodont.cat.access.log.2.9z', '/v ar/log/nginx/mastodont.cat.access.log.3.gz', '/var/log/nginx/mastodont.cat.access.log.4.gz', '/var/log/nginx/mastodont.cat.access.log.5.9z', '/var/log/nginx/mastodo nt.cat.access.log.6.gz', '/var/log/nginx/mastodont.cat.access.log.7.gz', '/var/log/nginx/mastodont.cat.access.log.8.gz', '/var/log/nginx/mastodont.cat.access.log.9. gz', '/var/log/nginx/mastodont.cat.access.log.10.gz', '/var/log/nginx/mastodont.cat.access.log.11.gz', '/var/log/nginx/mastodont.cat.access.log.12.gz', '/var/log/ng inx/mastodont.cat.access.log.13.gz', '/var/log/nginx/mastodont.cat.access.log.14.9z'] Processant fitxer: /var/log/nginx/mastodont.cat.access.log Processant fitxer: /var/log/nginx/mastodont.cat.access.log.1 Processant fitxer: /var/log/nginx/mastodont.cat.access.log.2.g9z Processant fitxer: /var/log/nginx/mastodont.cat.access.log.3.9z Processant fitxer: /var/log/nginx/mastodont.cat.access.log.4.g9z Processant fitxer: /var/log/nginx/mastodont.cat.access.log.5.9z Processant fitxer: /var/log/nginx/mastodont.cat.access.log.6.9z Processant fitxer: /var/log/nginx/mastodont.cat.access.log.7.9z Processant fitxer: /var/log/nginx/mastodont.cat.access.log.8.9z Recess anT fitxer: /var/log/nginx/mastodont.cat.access.log.9.9z
  • Copy link
  • Flag this post
  • Block
spla
spla
@spla@mastodont.cat  ·  activity timestamp 5 months ago

Fins a 658 diferents IP del robot d'Apple (Applebot/0.1; +http://www.apple.com/go/applebot) estan llistades en el log de nginx però no intenten xafardejar ni tuts, ni enllaços ni res, només miren robots.txt a veure si tenen permís per fer-ho.

#scraping

[root@mastodont ~ # cat /var/log/nginx/json_access.log |grep "Applebot" 1

{"datetime": "11/Aug/2025:19:39:22 +0200", "IP": "17.241.227.40", "uri": "/robots.txt", "status": "444", "user_agent": "Mozilla/5.@ (Macintosh; Intel Mac 0S X 10_15

_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.4 Safari/605.1.15 (Applebot/@.1; +http://www.apple.com/go/applebot)", "referer": "(direct)", "server_name":
"mastodont.cat", "request_time": "@0.000"}

{"datetime": "11/Aug/2025:19:39:23 +0200", "IP": "17.241.219.192", "uri": "/robots.txt", "status": "444", "user_agent": "Mozilla/5.0 (Macintosh; Intel Mac 0S X 10_1

5_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.4 Safari/605.1.15 (Applebot/@.1; +http://www.apple.com/go/applebot)", "referer": "(direct)", "server_name":
"mastodont.cat", "request_time": "@0.000"}
[root@mastodont ~ # cat /var/log/nginx/json_access.log |grep "Applebot" 1 {"datetime": "11/Aug/2025:19:39:22 +0200", "IP": "17.241.227.40", "uri": "/robots.txt", "status": "444", "user_agent": "Mozilla/5.@ (Macintosh; Intel Mac 0S X 10_15 _7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.4 Safari/605.1.15 (Applebot/@.1; +http://www.apple.com/go/applebot)", "referer": "(direct)", "server_name": "mastodont.cat", "request_time": "@0.000"} {"datetime": "11/Aug/2025:19:39:23 +0200", "IP": "17.241.219.192", "uri": "/robots.txt", "status": "444", "user_agent": "Mozilla/5.0 (Macintosh; Intel Mac 0S X 10_1 5_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.4 Safari/605.1.15 (Applebot/@.1; +http://www.apple.com/go/applebot)", "referer": "(direct)", "server_name": "mastodont.cat", "request_time": "@0.000"}
[root@mastodont ~ # cat /var/log/nginx/json_access.log |grep "Applebot" 1 {"datetime": "11/Aug/2025:19:39:22 +0200", "IP": "17.241.227.40", "uri": "/robots.txt", "status": "444", "user_agent": "Mozilla/5.@ (Macintosh; Intel Mac 0S X 10_15 _7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.4 Safari/605.1.15 (Applebot/@.1; +http://www.apple.com/go/applebot)", "referer": "(direct)", "server_name": "mastodont.cat", "request_time": "@0.000"} {"datetime": "11/Aug/2025:19:39:23 +0200", "IP": "17.241.219.192", "uri": "/robots.txt", "status": "444", "user_agent": "Mozilla/5.0 (Macintosh; Intel Mac 0S X 10_1 5_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.4 Safari/605.1.15 (Applebot/@.1; +http://www.apple.com/go/applebot)", "referer": "(direct)", "server_name": "mastodont.cat", "request_time": "@0.000"}
  • Copy link
  • Flag this post
  • Block
spla
spla
@spla@mastodont.cat  ·  activity timestamp 5 months ago

Al bot de #Amazon no li preocupa gens que l'estigui bloquejant en cada intent que fa, ell segueix al mateix ritme.

Edito: necessitava temps per veure que era a la llista de robots.txt, ja fa un parell de dies que no xafardeja res.

#scraping #BotsXafarders

gràfica on es mostren els intents del bot de Amazon per xafardejar tuts, etiquetes, enllaços etc
gràfica on es mostren els intents del bot de Amazon per xafardejar tuts, etiquetes, enllaços etc
gràfica on es mostren els intents del bot de Amazon per xafardejar tuts, etiquetes, enllaços etc
  • Copy link
  • Flag this post
  • Block
spla
spla
@spla@mastodont.cat  ·  activity timestamp 5 months ago

Bé, per ara ho deixo aquí, tinc la informació prou gràfica de les xafarderies dels robots com ara el de Amazon que intenten obtenir tuts, enllaços, avatars, capçaleres etc de mastodont.cat.

#scraping

gràfiques a Grafana per a monitoritzar el log de nginx de mastodont.cat. Es motren corbes dels errors 3xx, 4xx i específicament els status code 444 que bloquegen els robots que fan scrap de mastodont.cat
gràfiques a Grafana per a monitoritzar el log de nginx de mastodont.cat. Es motren corbes dels errors 3xx, 4xx i específicament els status code 444 que bloquegen els robots que fan scrap de mastodont.cat
gràfiques a Grafana per a monitoritzar el log de nginx de mastodont.cat. Es motren corbes dels errors 3xx, 4xx i específicament els status code 444 que bloquegen els robots que fan scrap de mastodont.cat
  • Copy link
  • Flag this post
  • Block
spla
spla
@spla@mastodont.cat  ·  activity timestamp 5 months ago

És més fàcil mirar una gràfica que filtrar logs per veure quants robots han intentat xafardejar mastodont.cat.
980 IP bloquejades però en la gràfica es veu que hi ha més robots a bloquejar.

#scraping

gràfica amb tots els robots bloquejats amb codi d'error 444
gràfica amb tots els robots bloquejats amb codi d'error 444
gràfica amb tots els robots bloquejats amb codi d'error 444
  • Copy link
  • Flag this post
  • Block
spla
spla
@spla@mastodont.cat  ·  activity timestamp 5 months ago

#Amazon és el bot més agressiu xafardejant mastodont.cat en un dia

cat /var/log/nginx/mastodont.cat.access.log.1 | grep "Amazonbot" |wc -l
18473

18.473 "escrapejades" en total, principalment enllaços a mitjans externs però:

cat /var/log/nginx/mastodont.cat.access.log.1 | grep "Amazonbot" | grep "/@" | wc -l
907
o sigui, 907 intents d'obtenir tuts de diversos usuaris.

cat /var/log/nginx/mastodont.cat.access.log.1 | grep "Amazonbot" | grep "/tags" | wc -l
271 -> tuts d'etiquetes

#scraping

spla
spla
@spla@mastodont.cat replied  ·  activity timestamp 5 months ago

Des de les 7 de la tarda d'ahir, #fail2ban està bloquejant automàticament totes les IPs de bots xafarders, no només Amazonbot. Ara mateix ja ha bloquejat un total de 1.171 IP, bloqueig actiu de 327.
Edito: cap robot obté res de mastodont.cat, només "veuen" que s'ha interromput la connexió gràcies a una configuració específica de nginx (el programari que serveix continguts).

#scraping #BotsXafarders

filtre de fail2ban que bloqueja bots xafarders
filtre de fail2ban que bloqueja bots xafarders
filtre de fail2ban que bloqueja bots xafarders
  • Copy link
  • Flag this comment
  • Block
spla
spla
@spla@mastodont.cat  ·  activity timestamp 5 months ago

#Amazon és el bot més agressiu xafardejant mastodont.cat en un dia

cat /var/log/nginx/mastodont.cat.access.log.1 | grep "Amazonbot" |wc -l
18473

18.473 "escrapejades" en total, principalment enllaços a mitjans externs però:

cat /var/log/nginx/mastodont.cat.access.log.1 | grep "Amazonbot" | grep "/@" | wc -l
907
o sigui, 907 intents d'obtenir tuts de diversos usuaris.

cat /var/log/nginx/mastodont.cat.access.log.1 | grep "Amazonbot" | grep "/tags" | wc -l
271 -> tuts d'etiquetes

#scraping

  • Copy link
  • Flag this post
  • Block

bonfire.cafe

A space for Bonfire maintainers and contributors to communicate

bonfire.cafe: About · Code of conduct · Privacy · Users · Instances
Bonfire social · 1.0.1 no JS en
Automatic federation enabled
Log in
  • Explore
  • About
  • Members
  • Code of Conduct