Come sapere quali bots/spider rallentano il server (e come bloccarli)

Un crawler, detto anche bot oppure spider, è un software che analizza i contenuti di un sito, per raccogliere informazioni (collect data). In sostanza visitano i siti presenti sul server, raccolgono dati, pagine, informazioni e li inviano ai loro server di provenienza, per essere elaborati e archiviati. Parlando in maniera semplicistica, sono come degli ambasciatori che vengono a vedere casa vostra o il vostro negozio. Sono indispensabili al funzionamento dei motori di ricerca, in quanto raccolgono (collect) tutti i dati del vostro sito per poterli poi restituire agli utenti che fanno ricerche (se i loro algoritmi decidono che i vostri dati possono essere utili all’utente che ha effettuato la ricerca). Ma dietro questa nobile attività vi sono due tipi di problemi:

  1. gli spider dei motori di ricerca possono consumare molte risorse del vostro sito, sia per quanto riguarda la bandwith (traffico dati), sia per quanto riguarda il carico del server
  2. non sempre si tratta di bot dei motori di ricerca, ma spesso di altre tipologie di siti che vogliono utilizzare i dati del vostro sito per altri scopi (copiatura, analisi da parte della concorrenza)

Spider e consumo risorse del sito

Ogni volta che lo spider visita il vostro sito, generalmente lo visita tutto o almeno tenta di collezionare le informazioni del maggior numero di pagine possibile. Questa procedura consuma bandwith: questa rappresenta il traffico dati (in entrata e in uscita) concesso al vostro sito. Ogni piano hosting lo prevede (anche quando trovate in certe offerte bandwith illimitata c’è in realtà un limite). Anche se oggigiorno questo limite mensile di banda dati è aumentato rispetto al passato, esiste e va considerato, sopratutto se avete un hosting economico. Gli spider sono ingordi, gli piace leggere e rileggere tutti i siti. Tutti insieme consumano. Gli stessi motori di ricerca ammettono questa cosa: Google, ad esempio, attraverso il Google Webmaster Tool (o Search Console) permette di ridurre la frequenza di queste scansioni da parte del loro bot. E’ un’opzione semplice da utilizzare e comunque da considerare a seconda del tipo di sito che abbiamo. Un sito di notizie, aggiornato più volte al giorno, va scansionato spesso, per indicizzare subito le novità. Stesso discorso per un forum. Un sito più statico, nel senso che posta news con minor frequenza, può benissimo impostare una scansione meno frequente. E risparmiare bandwith. E non solo: a volte l’insieme dei bot concorre ad aumentare il carico del server, provocando rallentamenti al sito. Se è vero che i rallentamenti di un server (e dei siti che ospita) dipendono sopratutto dalla configurazione (errata) o dagli script (malscritti o non aggiornati), la coincidenza di più bot contemporaneamente è un fattore che in alcuni casi provoca high cpu usage , cosa che manda in crash/black out tutto quando si tratta di attacchi ddos.

Come dicevamo, i bot che visitano il sito sono inviati anche da altri siti che non sono motori di ricerca, ma che hanno scopi totalmente differenti dal collezioare dati per restituirli nei risultati di ricerca. Tra questi siti che “copiano” le vostre pagine: dal quasi legittimo Google News che legge le vostre notizie e le riporta sul suo aggregatore (o come Trivago o Momondo che analizzano ed estraggono dati relativi alle tariffe hotels o alle offerte di viaggi), ai veri e propri siti scraper (che ri-copiano nei loro siti), fino ai siti per analisi seo (search engine oriented) che leggono il vostro sito simulando il motore di ricerca, ma per capire quali parole chiave avete, che densità hanno, come sono linkate le pagine, chi vi linka, ecc. in modo da aggregare ai dati e far capire alla concorrenza quali sono i vostri punti di forza. Alcuni esempi trai i più famosi: Ahrefs, SiteExplorer, Moz.

Conoscere quali spiders/bot contattano i siti ospitati sul server

Se avete accesso alla console SSH del server, allora ecco uno script già pronto per conoscere: nome dello spider, indirizzo ip (da quale server è stato lanciato), numero di volte ha contattato il sito. Copiatelo, aprite la console SSH, incollatelo e premete invio. Dal momento che lancia un processo (di calcolo) intensivo, ci impiegherà qualche minuto per restituire i dati che ci interessano (presi dal domainlogs, dalla mezzanotte precedente). Ecco lo script:

echo -e "\n\e[1;31m=== Bots (robots or crawlers) ===\e[0m\n"; find /usr/local/apache/domlogs/*/ -type f|grep -v -E $'(_|-)log|.gz'|xargs grep -H "" | perl -ne 'if (/$DATE/ && /\/usr\/local\/apache\/domlogs\/.*\/(.*):(\d{1,3}(?:\.\d{1,3}){3}).*\((?:.*?;)*([^;]*(?:b(?:ot|ing)|crawl|yahoo|google|spider)[^;]*);/i) { print ("$1\t$2\t$3\n")}'|sort|uniq -c|sort -rn|awk '{print $1" "$3" "$4" "$2}'|column -t|head

Il risultato sarà come il seguente:

2735  162.158.78.71    SemrushBot/1.2~bl                  ###ar.it
62    141.101.105.133  AhrefsBot/5.2                      ##zar.it
124   88.198.66.230    MJ12bot/v1.4.7                     tuttoblog.com
82    5.9.63.162       MJ12bot/v1.4.7                     tuttoblog.com
56    198.204.243.138  MJ12bot/v1.4.7                     tuttoblog.com
76    162.158.74.178   bingbot/2.0                        ##log.com
72    172.68.58.42     bingbot/2.0                        ##log.com

Notare ad esempio quanto sia vorace Semrush (noto tool di analisi siti), e come ad esempio il bot del motore di ricerca Bing arrivi da diversi IP (i motori di ricerca ne utilizzano centinaia). E’ normale vedere più ip (in quanto se il server ne blocca uno, ne hanno altri da cui far partire l’analisi al nostro sito)

Bloccare gli spider indesiderati

Abbiamo diverse possibilità per bloccare i bot che non ci interessano, e che anzi possono solo danneggiarci (provocando rallentamenti al sito, consumando risorse, copiando i nostri dati per la concorrenza), ovvero inserire delle istruzioni apposite. Possiamo scoraggiarli inserendo l’istruzione nel file robots.txt del sito (maniera soft) oppure bloccando tali bot direttamente tramite il server (istruzioni nel file .htaccess)

Di seguito una lista di spider da bloccare già pronta all’uso, solo da copiare ed incollare nel vostro file robots.txt Due note importanti: è una lista molto ampia, che ovviamente esclude i motori di ricerca, ma è bene controllare che non vi siano servizi che invece vi interessano al suo interno, perchè finireste per bloccarli. E secondo, ognuno la usa sotto la propria responsabilità, proprio perchè state decidendo di scoraggiare la raccolta dei dati del vostro sito a questi spider. Se non avete un file robots, andate nel file manager del vostro sito web, create un file robots.txt e copiate questa lista. Se esiste già, dopo le istruzioni già presenti, potete aggiungere questa lista:

User-agent: 1 2 3 Submit PRO
 disallow: /

User-agent: 200PleaseBot
 disallow: /

User-agent: 2ADAMbot
 disallow: /

User-agent: 2ADAMbot/1.0
 disallow: /

User-agent: 360Spider
 disallow: /

user-agent: Abonti
 disallow: /

user-agent: Abonti/0.92
 disallow: /

user-agent: abot v1.0
 disallow: /

user-agent: aboutthedomain
 disallow: /

user-agent: Add Catalog
 disallow: /

user-agent: Add Catalog/2.1
 disallow: /

user-agent: AdvBot
 disallow: /

user-agent: AdvBot/2.0
 disallow: /

user-agent: AhrefsBot
 disallow: /

user-agent: Ahrefs-Bot
 disallow: /

user-agent: AhrefsBot/1.0
 disallow: /

user-agent: Ahrefs-Bot/1.0
 disallow: /

user-agent: Ahrefs-Bot/2.0
 disallow: /

user-agent: Ahrefs-Bot/3.0
 disallow: /

user-agent: Ahrefs-Bot/4.0
 disallow: /

user-agent: Ahrefs-Bot/5.0
 disallow: /

user-agent: aiHitBot
 disallow: /

user-agent: aiHitBot/2.9
 disallow: /

user-agent: Anonymous/0.0
 disallow: /

user-agent: Arachnida
 disallow: /

user-agent: Associative Spider
 disallow: /

User-agent: Baiduspider
 disallow: /

User-agent: Baidu Spider
 disallow: /

User-agent: Battleztar Bazinga
 disallow: /

User-agent: Battleztar Bazinga/0.01
 disallow: /

User-agent: BDFetch
 disallow: /

User-agent: betaBot
 disallow: /

User-agent: bieshu
 disallow: /

User-agent: Bigli SEO
 disallow: /

User-agent: Blackboard Safeassign
 disallow: /

User-agent: Blazer 1.0
 disallow: /

User-agent: BLEXBot
 disallow: /

User-agent: BLEXBot/1.0
 disallow: /

User-agent: BLP_bbot
 disallow: /

User-agent: BLP_bbot/0.1
 disallow: /

User-agent: BOIA-Accessibility-Agent/PR 1.0
 disallow: /

User-agent: BOT for JCE
 disallow: /

User-agent: BOT/0.1 (BOT for JCE)
 disallow: /

User-agent: BPImageWalker
 disallow: /

User-agent: BPImageWalker/2.0
 disallow: /

User-agent: BUbiNG
 disallow: /

User-agent: BuiBui-Bot
 disallow: /

User-agent: BuiBui-Bot/1.0
 disallow: /

User-agent: ca-crawler
 disallow: /

User-agent: ca-crawler/1.0
 disallow: /

User-agent: CakePHP
 disallow: /

User-agent: Calypso v/0.01
 disallow: /

User-agent: Calypso
 disallow: /

User-agent: CB/Nutch-1.7
 disallow: /

User-agent: CCBot
 disallow: /

User-agent: CCBot/2.0
 disallow: /

User-agent: Checkbot
 disallow: /

User-agent: checkgzipcompression.com
 disallow: /

User-agent: chushou
 disallow: /

User-agent: CloudServerMarketSpider
 disallow: /

User-agent: CloudServerMarketSpider/1.0
 disallow: /
 
User-agent: Clushbot/3.x-BinaryFury
 disallow: /

User-agent: CMS Crawler
 disallow: /

User-agent: CMS Crawler: http://www.cmscrawler.com
 disallow: /

User-agent: coccoc
 disallow: /

User-agent: CoinCornerBot
 disallow: /

User-agent: CoinCornerBot/1.1
 disallow: /

User-agent: Copyscape
 disallow: /

User-agent: crawler4j
 disallow: /

User-agent: CRAZYWEBCRAWLER 0.9.0
 disallow: /

User-agent: CRAZYWEBCRAWLER 0.9.1
 disallow: /

User-agent: CRAZYWEBCRAWLER 0.9.7
 disallow: /

User-agent: CrazyWebCrawler
 disallow: /

User-agent: CrazyWebCrawler-Spider
 disallow: /

User-agent: Crowsnest
 disallow: /

User-agent: Crowsnest/0.5
 disallow: /

User-agent: Curious George - www.analyticsseo.com/crawler
 disallow: /

User-agent: Curious George
 disallow: /

User-agent: cuwhois
 disallow: /

User-agent: cuwhois/1.0
 disallow: /

User-agent: dahoms
 disallow: /

User-agent: datagnionbot
 disallow: /

User-agent: DeuSu/5.0.2
 disallow: /

User-agent: Digincore
 disallow: /

User-agent: Digincore bot
 disallow: /

User-agent: Dispatch/0.11.0
 disallow: /

User-agent: Domain Re-Animator Bot
 disallow: /

User-agent: DomainAppender /1.0
 disallow: /

User-agent: DomainAppender
 disallow: /
 
 User-agent: DomainCrawler/3.0
 disallow: /

User-agent: DomainSigmaCrawler
 disallow: /

User-agent: DomainSigmaCrawler/0.1
 disallow: /

User-agent: Domnutch
 disallow: /

User-agent: Domnutch-Bot
 disallow: /

User-agent: Domnutch-Bot/Nutch
 disallow: /

User-agent: Domnutch-Bot/Nutch-1.0
 disallow: /

User-agent: dotbot
 disallow: /

User-agent: ECCP/1.2.1
 disallow: /

User-agent: eCommerceBot
 disallow: /

User-agent: enlle punto com/Nutch-1.9
 disallow: /

User-agent: EPiServer Link Checker
 disallow: /

User-agent: EuripBot
 disallow: /

User-agent: EuripBot/2.0
 disallow: /

User-agent: evc/2.0
 disallow: /

User-agent: evc-batch
 disallow: /

User-agent: evc-batch/2.0
 disallow: /

User-agent: Express WebPictures
 disallow: /

User-agent: Faraday v0.8.8
 disallow: /

User-agent: Faraday
 disallow: /

User-agent: Findxbot
 disallow: /

User-agent: Findxbot/1.0
 disallow: /

User-agent: Flamingo_SearchEngine
 disallow: /

User-agent: Flipboard Robot
 disallow: /

User-agent: GetProxi.es-bot
 disallow: /

User-agent: GetProxi.es-bot/1.1
 disallow: /

User-agent: GigablastOpenSource
 disallow: /

User-agent: GigablastOpenSource/1.0
 disallow: /

User-agent: Girafabot
 disallow: /

User-agent: Gluten Free Crawler
 disallow: /

User-agent: Gluten Free Crawler/1.0
 disallow: /

User-agent: GriffinBot
 disallow: /

User-agent: GrifinBot/0.01
 disallow: /

User-agent: GWPImages
 disallow: /

User-agent: GWPImages/1.0
 disallow: /

User-agent: Haiula
 disallow: /

User-agent: Haiula/1.4
 disallow: /

User-agent: HaosouSpider
 disallow: /

User-agent: Hivemind
 disallow: /

User-agent: HostHarvest
 disallow: /

User-agent: HostHarvest/0.4.28
 disallow: /

User-agent: HRCrawler
 disallow: /

User-agent: HRCrawler/2.0
 disallow: /

User-agent: http://git.io/tl_S2w
 disallow: /

User-agent: http://www.checkprivacy.or.kr:6600/RS/PRIVACY_ENFAQ.jsp
 disallow: /

User-agent: HubSpot Links Crawler 1.0
 disallow: /

User-agent: HubSpot Webcrawler
 disallow: /

User-agent: HubSpot
 disallow: /

User-agent: hunchan
 disallow: /

User-agent: HyperCrawl
 disallow: /

User-agent: HyperCrawl/0.2
 disallow: /

User-agent: ICAP-IOD
 disallow: /

User-agent: ICC-Crawler
 disallow: /

User-agent: ICC-Crawler/2.0
 disallow: /

User-agent: Ichiro Robot
 disallow: /

User-agent: image.coccoc/1.0
 disallow: /

User-agent: Image2play
 disallow: /

User-agent: Image2play/0.1
 disallow: /

User-agent: Indy Library
 disallow: /

User-agent: InsightsCollector
 disallow: /

User-agent: InsightsCollector/0.1
 disallow: /

User-agent: InsightsCollector/0.1beta
 disallow: /

User-agent: integrity/5
 disallow: /

User-agent: InterNaetBoten
 disallow: /

User-agent: InterNaetBoten/0.99
 disallow: /

User-agent: IRL Crawler
 disallow: /

User-agent: James BOT - WebCrawler
 disallow: /

User-agent: James BOT
 disallow: /

User-agent: JamesBOT
 disallow: /

User-agent: JetBrains 5.0
 disallow: /

User-agent: JetBrains
 disallow: /

User-agent: Kraken
 disallow: /

User-agent: Kraken/0.1
 disallow: /

User-agent: Kyoto-Tohoku-Crawler/v1
 disallow: /

User-agent: larbin
 disallow: /

User-agent: lechenie
 disallow: /

User-agent: libwww-perl
 disallow: /

User-agent: link checker
 disallow: /

User-agent: Link/1.0
 disallow: /

User-agent: linkCheck
 disallow: /

User-agent: linkCheckV3.0
 disallow: /

User-agent: Linkdex
 disallow: /

User-agent: linkdex.com/v2.0
 disallow: /

User-agent: linkdex.com/v2.1
 disallow: /

User-agent: LinkdexBot
 disallow: /

User-agent: linkdexbot/2.0
 disallow: /

User-agent: linkdexbot/2.1
 disallow: /

User-agent: linkdexbot-mobile/2.1
 disallow: /

User-agent: LinkpadBot
 disallow: /

User-agent: LinkpadBot/1.06
 disallow: /

User-agent: LinqiaScrapeBot
 disallow: /

User-agent: LinqiaScrapeBot/1.0
 disallow: /

User-agent: Lipperhey SEO Service
 disallow: /

User-agent: Lipperhey
 disallow: /

User-agent: Lipperhey-Kaus-Australis
 disallow: /

User-agent: Lipperhey-Kaus-Australis/5.0
 disallow: /

User-agent: listicka
 disallow: /

User-agent: LSSRocketCrawler
 disallow: /

User-agent: LSSRocketCrawler/1.0 LightspeedSystems
 disallow: /

User-agent: LSSRocketCrawler/1.0
 disallow: /

User-agent: ltx71
 disallow: /

User-agent: LWNutch/Nutch-1.4
 disallow: /

User-agent: Mail.RU
 disallow: /

User-agent: Mail.RU_Bot
 disallow: /

User-agent: Mail.RU_Bot/2.0
 disallow: /

User-agent: Mail.RU_Bot/Fast/2.0
 disallow: /

User-agent: md5sum
 disallow: /

User-agent: md5sum\x22
 disallow: /

User-agent: meanpathbot
 disallow: /

User-agent: MegaIndex.ru
 disallow: /

User-agent: MegaIndex.ru/2.0
 disallow: /

User-agent: mezhpozvonochnoi
 disallow: /

User-agent: Mike-Crawler
 disallow: /

User-agent: MixBot
 disallow: /

User-agent: MixrankBot
 disallow: /

User-agent: MJ12bot
 disallow: /

User-agent: Monkeybot/0.1
 disallow: /

User-agent: my crawler
 disallow: /

User-agent: My Nutch Spider/Nutch-1.9
 disallow: /

User-agent: mycrowl/Nutch-1.9
 disallow: /

User-agent: MyGreatUA/2.0
 disallow: /

User-agent: MyIPTest
 disallow: /

User-agent: NameProtect Robot
 disallow: /

User-agent: NerdyBot
 disallow: /

User-agent: Netcraft Spider
 disallow: /

User-agent: netEstate NE Crawler
 disallow: /

User-agent: NetLyzer FastProbe
 disallow: /

User-agent: NetResearchServer
 disallow: /

User-agent: NetResearchServer/4.0
 disallow: /

User-agent: Nmap Scripting Engine
 disallow: /

User-agent: node.io
 disallow: /

User-agent: node.js
 disallow: /

User-agent: Node/simplecrawler 0.5.2
 disallow: /

User-agent: Node/simplecrawler
 disallow: /

User-agent: oBot/2.3.1
 disallow: /

User-agent: omgilibot
 disallow: /

User-agent: omgilibot/0.4
 disallow: /

User-agent: Online Domain Tools - Online Website Link Checker
 disallow: /

User-agent: Online Domain Tools - Online Website Link Checker/1.2
 disallow: /

User-agent: Openfind Robot
 disallow: /

User-agent: OpenHoseBot
 disallow: /

User-agent: OpenHoseBot/2.1
 disallow: /

User-agent: Openstat
 disallow: /

User-agent: Openstat/0.1
 disallow: /

User-agent: OptimizationCrawler
 disallow: /

User-agent: OptimizationCrawler/0.2
 disallow: /

User-agent: Page Analyzer v4.0
 disallow: /

User-agent: Page Analyzer
 disallow: /

User-agent: PageAnalyzer
 disallow: /

User-agent: PageAnalyzer/1.1
 disallow: /

User-agent: PageAnalyzer/1.5
 disallow: /

User-agent: PagesInventory
 disallow: /

User-agent: Pagespeed/1.1 Fetcher
 disallow: /

User-agent: Pagespeed/1.1
 disallow: /

User-agent: Pagespeedbot
 disallow: /

User-agent: Perl LWP
 disallow: /

User-agent: PHPCrawl
 disallow: /

User-agent: phpSiteCheck 1.0
 disallow: /

User-agent: phpSiteCheck
 disallow: /

User-agent: Plukkie
 disallow: /

User-agent: POGS/2.0
 disallow: /

User-agent: Powermarks
 disallow: /

User-agent: PowerPivot
 disallow: /

User-agent: PRIVACY_ENFAQ.jsp
 disallow: /

User-agent: Prlog
 disallow: /

User-agent: Prlog/1.0
 disallow: /

User-agent: publiclibraryarchive.org
 disallow: /

User-agent: publiclibraryarchive.org/1.0
 disallow: /

User-agent: Pu_iN Crawler
 disallow: /

User-agent: Putin
 disallow: /

User-agent: Putin spider
 disallow: /

User-agent: qingdao
 disallow: /

User-agent: QlikView
 disallow: /

User-agent: quipu
 disallow: /

User-agent: quipu/1.0
 disallow: /

User-agent: quipu/2.0
 disallow: /

User-agent: R6_CommentReader
 disallow: /

User-agent: R6_FeedFetcher
 disallow: /

User-agent: Riddler
 disallow: /

User-agent: RivalSeek.com-Bot
 disallow: /

User-agent: rogerbot
 disallow: /

User-agent: rogerbot/1.0
 disallow: /

User-agent: rootlink
 disallow: /

User-agent: RU_Bot/2.0
 disallow: /

User-agent: Scopia
 disallow: /

User-agent: Scopia crawler
 disallow: /

User-agent: Scopia crawler 1.0
 disallow: /

User-agent: Scopia crawler 1.1
 disallow: /

User-agent: Scopia crawler 1.2
 disallow: /

User-agent: Scrapy
 disallow: /

User-agent: Scrapy/0.16.5
 disallow: /

User-agent: Scrapy/0.24.4
 disallow: /

User-agent: Scrapy/0.24.5
 disallow: /

User-agent: Scrapy/0.24.6
 disallow: /

User-agent: Scrapy/1.0.1
 disallow: /

User-agent: Screaming Frog SEO Spider
 disallow: /

User-agent: Screaming Frog SEO Spider/2,55
 disallow: /

User-agent: Screaming Frog SEO Spider/2.55
 disallow: /

User-agent: Screaming Frog SEO Spider/3.1
 disallow: /

User-agent: Screaming Frog SEO Spider/3.3
 disallow: /

User-agent: Screaming Frog SEO Spider/4.1
 disallow: /

User-agent: Screaming Frog SEO Spider/5.0
 disallow: /

User-agent: Screaming Frog SEO Spider/5.1
 disallow: /

User-agent: Screaming Frog SEO Spider/5.1 Beta 2
 disallow: /

User-agent: scrutiny/4
 disallow: /

User-agent: SemrushBot
 disallow: /

User-agent: SemrushBot-SA
 disallow: /
 
User-agent: SEOdiver/1.0
 disallow: /

User-agent: SEOkicks
 disallow: /

User-agent: SEOkicks-Robot
 disallow: /

User-agent: SEOlyticsCrawler
 disallow: /

User-agent: SEOlyticsCrawler/3.0
 disallow: /

User-agent: seoscanners
 disallow: /

User-agent: seoscanners.net/1
 disallow: /

User-agent: SEOstats 2.1.0
 disallow: /

User-agent: Seosys/Nutch-2.3
 disallow: /

User-agent: SetCronJob/1.0
 disallow: /

User-agent: SeznamBot
 disallow: /

User-agent: SheerBoredom.Experimental.Robot
 disallow: /

User-agent: SheerBoredom.Experimental.Robot/0.2
 disallow: /

User-agent: ShowyouBot
 disallow: /

User-agent: Simplecrawler
 disallow: /

User-agent: SISTRIX Crawler
 disallow: /

User-agent: sistrix
 disallow: /

User-agent: SiteBot
 disallow: /

User-agent: SiteBot/0.1
 disallow: /

User-agent: SiteExplorer
 disallow: /

User-agent: SiteExplorer/1.0
 disallow: /

User-agent: SiteExplorer/1.0b
 disallow: /

User-agent: Siteluxbot
 disallow: /

User-agent: Siteluxbot/1.0
 disallow: /

User-agent: SkimBot
 disallow: /

User-agent: SkimBot/1.0
 disallow: /

User-agent: sky nutch crawler/Nutch-1.9
 disallow: /

User-agent: SMTBot
 disallow: /

User-agent: SMTBot/1.0
 disallow: /

User-agent: SNK Screenshot Bot
 disallow: /

User-agent: SNK Screenshot Bot/0.20
 disallow: /

User-agent: Sogou Spider
 disallow: /

User-agent: Sogou web spider
 disallow: /

User-agent: SpamBayes
 disallow: /

User-agent: SpamBayes/1.1a3+
 disallow: /

User-agent: spbot
 disallow: /

User-agent: spbot/4.4.2
 disallow: /

User-agent: spiderbot
 disallow: /

User-agent: SpiderLing
 disallow: /

User-agent: Spiderbot/Nutch-1.7
 disallow: /

User-agent: spray-can
 disallow: /

User-agent: spray-can/1.2.1
 disallow: /

User-agent: SSG/3.0
 disallow: /

User-agent: Statastico
 disallow: /

User-agent: Statastico/4.0
 disallow: /

User-agent: Steeler
 disallow: /

User-agent: Steeler/3.5
 disallow: /

User-agent: Stratagems Kumo
 disallow: /

User-agent: Stratagems
 disallow: /

User-agent: StudioFACA Search
 disallow: /

User-agent: StudioFACA
 disallow: /

User-agent: sukibot
 disallow: /

User-agent: sukibot_heritrix
 disallow: /

User-agent: sukibot_heritrix/3.1.1
 disallow: /

User-agent: SurveyBot
 disallow: /

User-agent: Synapse
 disallow: /

User-agent: Synthesio Crawler release MonaLisa
 disallow: /

User-Agent: tbot-nutch/Nutch-1.10
 disallow: /

User-Agent: Traackr.com bot
 disallow: /

User-Agent: trendictionbot
 disallow: /

User-Agent: Trendiction-Bot
 disallow: /

User-Agent: TrueBot
 disallow: /

User-Agent: TrueBot/1.0
 disallow: /

User-Agent: TulipChain/5.xx
 disallow: /

User-Agent: TWMBot/0.1
 disallow: /

User-Agent: Typhoeus
 disallow: /

User-Agent: UCMore Crawler App
 disallow: /

User-Agent: uMBot-LN
 disallow: /

User-Agent: uMBot-LN/1.0
 disallow: /

User-Agent: updown_tester
 disallow: /

User-Agent: URLChecker
 disallow: /

User-agent: V1.0/1.2
 disallow: /

User-agent: w3af.org
 disallow: /

User-agent: WASALive
 disallow: /

User-agent: WASALive-Bot
 disallow: /

User-agent: vBSEO
 disallow: /

User-agent: WBSearchBot
 disallow: /

User-agent: WBSearchBot/1.1
 disallow: /

User-agent: WeAreNotEvil
 disallow: /

User-agent: WebAlta
 disallow: /

User-agent: WebAlta Crawler
 disallow: /

User-agent: Web corpus crawler
 disallow: /

User-agent: WebCookies
 disallow: /

User-agent: WebCookies/1.0
 disallow: /

User-agent: WebCopier vx.xa
 disallow: /

User-agent: Webnest 0.9
 disallow: /

User-agent: WebQL
 disallow: /

User-agent: Webscout
 disallow: /

User-agent: Webscout/1.0
 disallow: /

User-agent: Web-sniffer
 disallow: /

User-agent: Web-sniffer/1.1.0
 disallow: /

User-agent: Webster Pro V3.4
 disallow: /

User-agent: WebTarantula.com Crawler
 disallow: /

User-agent: WeCrawlForThePeace
 disallow: /

User-agent: VegeBot
 disallow: /
 
 User-agent: Vegi bot
 disallow: /

User-agent: WeLikeLinks
 disallow: /

User-agent: VeriCiteCrawler
 disallow: /

User-agent: VeriCiteCrawler/Nutch-1.9
 disallow: /

User-agent: WhatWeb
 disallow: /

User-agent: WhatWeb/0.4.8-dev
 disallow: /

User-agent: Visited by http://tools.geek-tools.org
 disallow: /

User-agent: Voila Robot
 disallow: /

User-agent: voltron
 disallow: /

User-agent: woobot
 disallow: /

User-agent: woobot/1.1
 disallow: /

User-agent: woobot/2.0
 disallow: /

User-agent: Vorboss Web Crawler
 disallow: /

User-agent: Vorboss Web Crawler/Nutch-2.3
 disallow: /

User-agent: WorldBrewBot
 disallow: /

User-agent: WorldBrewBot/2.1
 disallow: /

User-agent: worldwebheritage.org
 disallow: /

User-agent: worldwebheritage.org/1.0
 disallow: /

User-agent: wscheck.com
 disallow: /

User-agent: wscheck.com/1.0.0
 disallow: /

User-agent: www.deadlinkchecker.com
 disallow: /

User-agent: www.petitsage.fr site detector 0.4
 disallow: /

User-agent: WWW-Mechanize
 disallow: /

User-agent: WWW-Mechanize/1.74
 disallow: /

User-agent: Xenu Link Sleuth
 disallow: /

User-agent: Xenu's Link Sleuth
 disallow: /

User-agent: XoviBot
 disallow: /

User-agent: XoviBot/2.0
 disallow: /

User-agent: XSpider
 disallow: /

User-agent: Yandex Robot
 disallow: /

User-agent: Yandex
 disallow: /

User-agent: Yetibot
 disallow: /

User-agent: YisouSpider
 disallow: /

User-agent: yoozBot
 disallow: /

User-agent: yoozBot-2.2
 disallow: /

User-agent: zgrab/0.x
 disallow: /

User-agent: zzabmbot
 disallow: /

User-agent: zzabmbot/1.0
 disallow: /

Nota: è stato bloccato anche Yandex. Se al vostro sito interessa essere presente sul motore di ricerca russo, allora rimuovetelo. Suggerimenti e aggiunte sono ben accetti.