Come sapere quali bots/spider rallentano il server (e come bloccarli)

    Un crawler, detto anche bot oppure spider, è un software che analizza i contenuti di un sito, per raccogliere informazioni (collect data). In sostanza visitano i siti presenti sul server, raccolgono dati, pagine, informazioni e li inviano ai loro server di provenienza, per essere elaborati e archiviati. Parlando in maniera semplicistica, sono come degli ambasciatori che vengono a vedere casa vostra o il vostro negozio. Sono indispensabili al funzionamento dei motori di ricerca, in quanto raccolgono (collect) tutti i dati del vostro sito per poterli poi restituire agli utenti che fanno ricerche (se i loro algoritmi decidono che i vostri dati possono essere utili all’utente che ha effettuato la ricerca). Ma dietro questa nobile attività vi sono due tipi di problemi:

    1. gli spider dei motori di ricerca possono consumare molte risorse del vostro sito, sia per quanto riguarda la bandwith (traffico dati), sia per quanto riguarda il carico del server
    2. non sempre si tratta di bot dei motori di ricerca, ma spesso di altre tipologie di siti che vogliono utilizzare i dati del vostro sito per altri scopi (copiatura, analisi da parte della concorrenza)

    Spider e consumo risorse del sito

    Ogni volta che lo spider visita il vostro sito, generalmente lo visita tutto o almeno tenta di collezionare le informazioni del maggior numero di pagine possibile. Questa procedura consuma bandwith: questa rappresenta il traffico dati (in entrata e in uscita) concesso al vostro sito. Ogni piano hosting lo prevede (anche quando trovate in certe offerte bandwith illimitata c’è in realtà un limite). Anche se oggigiorno questo limite mensile di banda dati è aumentato rispetto al passato, esiste e va considerato, sopratutto se avete un hosting economico. Gli spider sono ingordi, gli piace leggere e rileggere tutti i siti. Tutti insieme consumano. Gli stessi motori di ricerca ammettono questa cosa: Google, ad esempio, attraverso il Google Webmaster Tool (o Search Console) permette di ridurre la frequenza di queste scansioni da parte del loro bot. E’ un’opzione semplice da utilizzare e comunque da considerare a seconda del tipo di sito che abbiamo. Un sito di notizie, aggiornato più volte al giorno, va scansionato spesso, per indicizzare subito le novità. Stesso discorso per un forum. Un sito più statico, nel senso che posta news con minor frequenza, può benissimo impostare una scansione meno frequente. E risparmiare bandwith. E non solo: a volte l’insieme dei bot concorre ad aumentare il carico del server, provocando rallentamenti al sito. Se è vero che i rallentamenti di un server (e dei siti che ospita) dipendono sopratutto dalla configurazione (errata) o dagli script (malscritti o non aggiornati), la coincidenza di più bot contemporaneamente è un fattore che in alcuni casi provoca high cpu usage , cosa che manda in crash/black out tutto quando si tratta di attacchi ddos.

    Come dicevamo, i bot che visitano il sito sono inviati anche da altri siti che non sono motori di ricerca, ma che hanno scopi totalmente differenti dal collezioare dati per restituirli nei risultati di ricerca. Tra questi siti che “copiano” le vostre pagine: dal quasi legittimo Google News che legge le vostre notizie e le riporta sul suo aggregatore (o come Trivago o Momondo che analizzano ed estraggono dati relativi alle tariffe hotels o alle offerte di viaggi), ai veri e propri siti scraper (che ri-copiano nei loro siti), fino ai siti per analisi seo (search engine oriented) che leggono il vostro sito simulando il motore di ricerca, ma per capire quali parole chiave avete, che densità hanno, come sono linkate le pagine, chi vi linka, ecc. in modo da aggregare ai dati e far capire alla concorrenza quali sono i vostri punti di forza. Alcuni esempi trai i più famosi: Ahrefs, SiteExplorer, Moz.

    Conoscere quali spiders/bot contattano i siti ospitati sul server

    Se avete accesso alla console SSH del server, allora ecco uno script già pronto per conoscere: nome dello spider, indirizzo ip (da quale server è stato lanciato), numero di volte ha contattato il sito. Copiatelo, aprite la console SSH, incollatelo e premete invio. Dal momento che lancia un processo (di calcolo) intensivo, ci impiegherà qualche minuto per restituire i dati che ci interessano (presi dal domainlogs, dalla mezzanotte precedente). Ecco lo script:

    echo -e "\n\e[1;31m=== Bots (robots or crawlers) ===\e[0m\n"; find /usr/local/apache/domlogs/*/ -type f|grep -v -E $'(_|-)log|.gz'|xargs grep -H "" | perl -ne 'if (/$DATE/ && /\/usr\/local\/apache\/domlogs\/.*\/(.*):(\d{1,3}(?:\.\d{1,3}){3}).*\((?:.*?;)*([^;]*(?:b(?:ot|ing)|crawl|yahoo|google|spider)[^;]*);/i) { print ("$1\t$2\t$3\n")}'|sort|uniq -c|sort -rn|awk '{print $1" "$3" "$4" "$2}'|column -t|head

    Il risultato sarà come il seguente:

    2735  162.158.78.71    SemrushBot/1.2~bl                  ###ar.it
    62    141.101.105.133  AhrefsBot/5.2                      ##zar.it
    124   88.198.66.230    MJ12bot/v1.4.7                     tuttoblog.com
    82    5.9.63.162       MJ12bot/v1.4.7                     tuttoblog.com
    56    198.204.243.138  MJ12bot/v1.4.7                     tuttoblog.com
    76    162.158.74.178   bingbot/2.0                        ##log.com
    72    172.68.58.42     bingbot/2.0                        ##log.com

    Notare ad esempio quanto sia vorace Semrush (noto tool di analisi siti), e come ad esempio il bot del motore di ricerca Bing arrivi da diversi IP (i motori di ricerca ne utilizzano centinaia). E’ normale vedere più ip (in quanto se il server ne blocca uno, ne hanno altri da cui far partire l’analisi al nostro sito)

    Bloccare gli spider indesiderati

    Abbiamo diverse possibilità per bloccare i bot che non ci interessano, e che anzi possono solo danneggiarci (provocando rallentamenti al sito, consumando risorse, copiando i nostri dati per la concorrenza), ovvero inserire delle istruzioni apposite. Possiamo scoraggiarli inserendo l’istruzione nel file robots.txt del sito (maniera soft) oppure bloccando tali bot direttamente tramite il server (istruzioni nel file .htaccess)

    Di seguito una lista di spider da bloccare già pronta all’uso, solo da copiare ed incollare nel vostro file robots.txt Due note importanti: è una lista molto ampia, che ovviamente esclude i motori di ricerca, ma è bene controllare che non vi siano servizi che invece vi interessano al suo interno, perchè finireste per bloccarli. E secondo, ognuno la usa sotto la propria responsabilità, proprio perchè state decidendo di scoraggiare la raccolta dei dati del vostro sito a questi spider. Se non avete un file robots, andate nel file manager del vostro sito web, create un file robots.txt e copiate questa lista. Se esiste già, dopo le istruzioni già presenti, potete aggiungere questa lista:

    User-agent: 1 2 3 Submit PRO
     disallow: /
    
    User-agent: 200PleaseBot
     disallow: /
    
    User-agent: 2ADAMbot
     disallow: /
    
    User-agent: 2ADAMbot/1.0
     disallow: /
    
    User-agent: 360Spider
     disallow: /
    
    user-agent: Abonti
     disallow: /
    
    user-agent: Abonti/0.92
     disallow: /
    
    user-agent: abot v1.0
     disallow: /
    
    user-agent: aboutthedomain
     disallow: /
    
    user-agent: Add Catalog
     disallow: /
    
    user-agent: Add Catalog/2.1
     disallow: /
    
    user-agent: AdvBot
     disallow: /
    
    user-agent: AdvBot/2.0
     disallow: /
    
    user-agent: AhrefsBot
     disallow: /
    
    user-agent: Ahrefs-Bot
     disallow: /
    
    user-agent: AhrefsBot/1.0
     disallow: /
    
    user-agent: Ahrefs-Bot/1.0
     disallow: /
    
    user-agent: Ahrefs-Bot/2.0
     disallow: /
    
    user-agent: Ahrefs-Bot/3.0
     disallow: /
    
    user-agent: Ahrefs-Bot/4.0
     disallow: /
    
    user-agent: Ahrefs-Bot/5.0
     disallow: /
    
    user-agent: aiHitBot
     disallow: /
    
    user-agent: aiHitBot/2.9
     disallow: /
    
    user-agent: Anonymous/0.0
     disallow: /
    
    user-agent: Arachnida
     disallow: /
    
    user-agent: Associative Spider
     disallow: /
    
    User-agent: Baiduspider
     disallow: /
    
    User-agent: Baidu Spider
     disallow: /
    
    User-agent: Battleztar Bazinga
     disallow: /
    
    User-agent: Battleztar Bazinga/0.01
     disallow: /
    
    User-agent: BDFetch
     disallow: /
    
    User-agent: betaBot
     disallow: /
    
    User-agent: bieshu
     disallow: /
    
    User-agent: Bigli SEO
     disallow: /
    
    User-agent: Blackboard Safeassign
     disallow: /
    
    User-agent: Blazer 1.0
     disallow: /
    
    User-agent: BLEXBot
     disallow: /
    
    User-agent: BLEXBot/1.0
     disallow: /
    
    User-agent: BLP_bbot
     disallow: /
    
    User-agent: BLP_bbot/0.1
     disallow: /
    
    User-agent: BOIA-Accessibility-Agent/PR 1.0
     disallow: /
    
    User-agent: BOT for JCE
     disallow: /
    
    User-agent: BOT/0.1 (BOT for JCE)
     disallow: /
    
    User-agent: BPImageWalker
     disallow: /
    
    User-agent: BPImageWalker/2.0
     disallow: /
    
    User-agent: BUbiNG
     disallow: /
    
    User-agent: BuiBui-Bot
     disallow: /
    
    User-agent: BuiBui-Bot/1.0
     disallow: /
    
    User-agent: ca-crawler
     disallow: /
    
    User-agent: ca-crawler/1.0
     disallow: /
    
    User-agent: CakePHP
     disallow: /
    
    User-agent: Calypso v/0.01
     disallow: /
    
    User-agent: Calypso
     disallow: /
    
    User-agent: CB/Nutch-1.7
     disallow: /
    
    User-agent: CCBot
     disallow: /
    
    User-agent: CCBot/2.0
     disallow: /
    
    User-agent: Checkbot
     disallow: /
    
    User-agent: checkgzipcompression.com
     disallow: /
    
    User-agent: chushou
     disallow: /
    
    User-agent: CloudServerMarketSpider
     disallow: /
    
    User-agent: CloudServerMarketSpider/1.0
     disallow: /
     
    User-agent: Clushbot/3.x-BinaryFury
     disallow: /
    
    User-agent: CMS Crawler
     disallow: /
    
    User-agent: CMS Crawler: http://www.cmscrawler.com
     disallow: /
    
    User-agent: coccoc
     disallow: /
    
    User-agent: CoinCornerBot
     disallow: /
    
    User-agent: CoinCornerBot/1.1
     disallow: /
    
    User-agent: Copyscape
     disallow: /
    
    User-agent: crawler4j
     disallow: /
    
    User-agent: CRAZYWEBCRAWLER 0.9.0
     disallow: /
    
    User-agent: CRAZYWEBCRAWLER 0.9.1
     disallow: /
    
    User-agent: CRAZYWEBCRAWLER 0.9.7
     disallow: /
    
    User-agent: CrazyWebCrawler
     disallow: /
    
    User-agent: CrazyWebCrawler-Spider
     disallow: /
    
    User-agent: Crowsnest
     disallow: /
    
    User-agent: Crowsnest/0.5
     disallow: /
    
    User-agent: Curious George - www.analyticsseo.com/crawler
     disallow: /
    
    User-agent: Curious George
     disallow: /
    
    User-agent: cuwhois
     disallow: /
    
    User-agent: cuwhois/1.0
     disallow: /
    
    User-agent: dahoms
     disallow: /
    
    User-agent: datagnionbot
     disallow: /
    
    User-agent: DeuSu/5.0.2
     disallow: /
    
    User-agent: Digincore
     disallow: /
    
    User-agent: Digincore bot
     disallow: /
    
    User-agent: Dispatch/0.11.0
     disallow: /
    
    User-agent: Domain Re-Animator Bot
     disallow: /
    
    User-agent: DomainAppender /1.0
     disallow: /
    
    User-agent: DomainAppender
     disallow: /
     
     User-agent: DomainCrawler/3.0
     disallow: /
    
    User-agent: DomainSigmaCrawler
     disallow: /
    
    User-agent: DomainSigmaCrawler/0.1
     disallow: /
    
    User-agent: Domnutch
     disallow: /
    
    User-agent: Domnutch-Bot
     disallow: /
    
    User-agent: Domnutch-Bot/Nutch
     disallow: /
    
    User-agent: Domnutch-Bot/Nutch-1.0
     disallow: /
    
    User-agent: dotbot
     disallow: /
    
    User-agent: ECCP/1.2.1
     disallow: /
    
    User-agent: eCommerceBot
     disallow: /
    
    User-agent: enlle punto com/Nutch-1.9
     disallow: /
    
    User-agent: EPiServer Link Checker
     disallow: /
    
    User-agent: EuripBot
     disallow: /
    
    User-agent: EuripBot/2.0
     disallow: /
    
    User-agent: evc/2.0
     disallow: /
    
    User-agent: evc-batch
     disallow: /
    
    User-agent: evc-batch/2.0
     disallow: /
    
    User-agent: Express WebPictures
     disallow: /
    
    User-agent: Faraday v0.8.8
     disallow: /
    
    User-agent: Faraday
     disallow: /
    
    User-agent: Findxbot
     disallow: /
    
    User-agent: Findxbot/1.0
     disallow: /
    
    User-agent: Flamingo_SearchEngine
     disallow: /
    
    User-agent: Flipboard Robot
     disallow: /
    
    User-agent: GetProxi.es-bot
     disallow: /
    
    User-agent: GetProxi.es-bot/1.1
     disallow: /
    
    User-agent: GigablastOpenSource
     disallow: /
    
    User-agent: GigablastOpenSource/1.0
     disallow: /
    
    User-agent: Girafabot
     disallow: /
    
    User-agent: Gluten Free Crawler
     disallow: /
    
    User-agent: Gluten Free Crawler/1.0
     disallow: /
    
    User-agent: GriffinBot
     disallow: /
    
    User-agent: GrifinBot/0.01
     disallow: /
    
    User-agent: GWPImages
     disallow: /
    
    User-agent: GWPImages/1.0
     disallow: /
    
    User-agent: Haiula
     disallow: /
    
    User-agent: Haiula/1.4
     disallow: /
    
    User-agent: HaosouSpider
     disallow: /
    
    User-agent: Hivemind
     disallow: /
    
    User-agent: HostHarvest
     disallow: /
    
    User-agent: HostHarvest/0.4.28
     disallow: /
    
    User-agent: HRCrawler
     disallow: /
    
    User-agent: HRCrawler/2.0
     disallow: /
    
    User-agent: http://git.io/tl_S2w
     disallow: /
    
    User-agent: http://www.checkprivacy.or.kr:6600/RS/PRIVACY_ENFAQ.jsp
     disallow: /
    
    User-agent: HubSpot Links Crawler 1.0
     disallow: /
    
    User-agent: HubSpot Webcrawler
     disallow: /
    
    User-agent: HubSpot
     disallow: /
    
    User-agent: hunchan
     disallow: /
    
    User-agent: HyperCrawl
     disallow: /
    
    User-agent: HyperCrawl/0.2
     disallow: /
    
    User-agent: ICAP-IOD
     disallow: /
    
    User-agent: ICC-Crawler
     disallow: /
    
    User-agent: ICC-Crawler/2.0
     disallow: /
    
    User-agent: Ichiro Robot
     disallow: /
    
    User-agent: image.coccoc/1.0
     disallow: /
    
    User-agent: Image2play
     disallow: /
    
    User-agent: Image2play/0.1
     disallow: /
    
    User-agent: Indy Library
     disallow: /
    
    User-agent: InsightsCollector
     disallow: /
    
    User-agent: InsightsCollector/0.1
     disallow: /
    
    User-agent: InsightsCollector/0.1beta
     disallow: /
    
    User-agent: integrity/5
     disallow: /
    
    User-agent: InterNaetBoten
     disallow: /
    
    User-agent: InterNaetBoten/0.99
     disallow: /
    
    User-agent: IRL Crawler
     disallow: /
    
    User-agent: James BOT - WebCrawler
     disallow: /
    
    User-agent: James BOT
     disallow: /
    
    User-agent: JamesBOT
     disallow: /
    
    User-agent: JetBrains 5.0
     disallow: /
    
    User-agent: JetBrains
     disallow: /
    
    User-agent: Kraken
     disallow: /
    
    User-agent: Kraken/0.1
     disallow: /
    
    User-agent: Kyoto-Tohoku-Crawler/v1
     disallow: /
    
    User-agent: larbin
     disallow: /
    
    User-agent: lechenie
     disallow: /
    
    User-agent: libwww-perl
     disallow: /
    
    User-agent: link checker
     disallow: /
    
    User-agent: Link/1.0
     disallow: /
    
    User-agent: linkCheck
     disallow: /
    
    User-agent: linkCheckV3.0
     disallow: /
    
    User-agent: Linkdex
     disallow: /
    
    User-agent: linkdex.com/v2.0
     disallow: /
    
    User-agent: linkdex.com/v2.1
     disallow: /
    
    User-agent: LinkdexBot
     disallow: /
    
    User-agent: linkdexbot/2.0
     disallow: /
    
    User-agent: linkdexbot/2.1
     disallow: /
    
    User-agent: linkdexbot-mobile/2.1
     disallow: /
    
    User-agent: LinkpadBot
     disallow: /
    
    User-agent: LinkpadBot/1.06
     disallow: /
    
    User-agent: LinqiaScrapeBot
     disallow: /
    
    User-agent: LinqiaScrapeBot/1.0
     disallow: /
    
    User-agent: Lipperhey SEO Service
     disallow: /
    
    User-agent: Lipperhey
     disallow: /
    
    User-agent: Lipperhey-Kaus-Australis
     disallow: /
    
    User-agent: Lipperhey-Kaus-Australis/5.0
     disallow: /
    
    User-agent: listicka
     disallow: /
    
    User-agent: LSSRocketCrawler
     disallow: /
    
    User-agent: LSSRocketCrawler/1.0 LightspeedSystems
     disallow: /
    
    User-agent: LSSRocketCrawler/1.0
     disallow: /
    
    User-agent: ltx71
     disallow: /
    
    User-agent: LWNutch/Nutch-1.4
     disallow: /
    
    User-agent: Mail.RU
     disallow: /
    
    User-agent: Mail.RU_Bot
     disallow: /
    
    User-agent: Mail.RU_Bot/2.0
     disallow: /
    
    User-agent: Mail.RU_Bot/Fast/2.0
     disallow: /
    
    User-agent: md5sum
     disallow: /
    
    User-agent: md5sum\x22
     disallow: /
    
    User-agent: meanpathbot
     disallow: /
    
    User-agent: MegaIndex.ru
     disallow: /
    
    User-agent: MegaIndex.ru/2.0
     disallow: /
    
    User-agent: mezhpozvonochnoi
     disallow: /
    
    User-agent: Mike-Crawler
     disallow: /
    
    User-agent: MixBot
     disallow: /
    
    User-agent: MixrankBot
     disallow: /
    
    User-agent: MJ12bot
     disallow: /
    
    User-agent: Monkeybot/0.1
     disallow: /
    
    User-agent: my crawler
     disallow: /
    
    User-agent: My Nutch Spider/Nutch-1.9
     disallow: /
    
    User-agent: mycrowl/Nutch-1.9
     disallow: /
    
    User-agent: MyGreatUA/2.0
     disallow: /
    
    User-agent: MyIPTest
     disallow: /
    
    User-agent: NameProtect Robot
     disallow: /
    
    User-agent: NerdyBot
     disallow: /
    
    User-agent: Netcraft Spider
     disallow: /
    
    User-agent: netEstate NE Crawler
     disallow: /
    
    User-agent: NetLyzer FastProbe
     disallow: /
    
    User-agent: NetResearchServer
     disallow: /
    
    User-agent: NetResearchServer/4.0
     disallow: /
    
    User-agent: Nmap Scripting Engine
     disallow: /
    
    User-agent: node.io
     disallow: /
    
    User-agent: node.js
     disallow: /
    
    User-agent: Node/simplecrawler 0.5.2
     disallow: /
    
    User-agent: Node/simplecrawler
     disallow: /
    
    User-agent: oBot/2.3.1
     disallow: /
    
    User-agent: omgilibot
     disallow: /
    
    User-agent: omgilibot/0.4
     disallow: /
    
    User-agent: Online Domain Tools - Online Website Link Checker
     disallow: /
    
    User-agent: Online Domain Tools - Online Website Link Checker/1.2
     disallow: /
    
    User-agent: Openfind Robot
     disallow: /
    
    User-agent: OpenHoseBot
     disallow: /
    
    User-agent: OpenHoseBot/2.1
     disallow: /
    
    User-agent: Openstat
     disallow: /
    
    User-agent: Openstat/0.1
     disallow: /
    
    User-agent: OptimizationCrawler
     disallow: /
    
    User-agent: OptimizationCrawler/0.2
     disallow: /
    
    User-agent: Page Analyzer v4.0
     disallow: /
    
    User-agent: Page Analyzer
     disallow: /
    
    User-agent: PageAnalyzer
     disallow: /
    
    User-agent: PageAnalyzer/1.1
     disallow: /
    
    User-agent: PageAnalyzer/1.5
     disallow: /
    
    User-agent: PagesInventory
     disallow: /
    
    User-agent: Pagespeed/1.1 Fetcher
     disallow: /
    
    User-agent: Pagespeed/1.1
     disallow: /
    
    User-agent: Pagespeedbot
     disallow: /
    
    User-agent: Perl LWP
     disallow: /
    
    User-agent: PHPCrawl
     disallow: /
    
    User-agent: phpSiteCheck 1.0
     disallow: /
    
    User-agent: phpSiteCheck
     disallow: /
    
    User-agent: Plukkie
     disallow: /
    
    User-agent: POGS/2.0
     disallow: /
    
    User-agent: Powermarks
     disallow: /
    
    User-agent: PowerPivot
     disallow: /
    
    User-agent: PRIVACY_ENFAQ.jsp
     disallow: /
    
    User-agent: Prlog
     disallow: /
    
    User-agent: Prlog/1.0
     disallow: /
    
    User-agent: publiclibraryarchive.org
     disallow: /
    
    User-agent: publiclibraryarchive.org/1.0
     disallow: /
    
    User-agent: Pu_iN Crawler
     disallow: /
    
    User-agent: Putin
     disallow: /
    
    User-agent: Putin spider
     disallow: /
    
    User-agent: qingdao
     disallow: /
    
    User-agent: QlikView
     disallow: /
    
    User-agent: quipu
     disallow: /
    
    User-agent: quipu/1.0
     disallow: /
    
    User-agent: quipu/2.0
     disallow: /
    
    User-agent: R6_CommentReader
     disallow: /
    
    User-agent: R6_FeedFetcher
     disallow: /
    
    User-agent: Riddler
     disallow: /
    
    User-agent: RivalSeek.com-Bot
     disallow: /
    
    User-agent: rogerbot
     disallow: /
    
    User-agent: rogerbot/1.0
     disallow: /
    
    User-agent: rootlink
     disallow: /
    
    User-agent: RU_Bot/2.0
     disallow: /
    
    User-agent: Scopia
     disallow: /
    
    User-agent: Scopia crawler
     disallow: /
    
    User-agent: Scopia crawler 1.0
     disallow: /
    
    User-agent: Scopia crawler 1.1
     disallow: /
    
    User-agent: Scopia crawler 1.2
     disallow: /
    
    User-agent: Scrapy
     disallow: /
    
    User-agent: Scrapy/0.16.5
     disallow: /
    
    User-agent: Scrapy/0.24.4
     disallow: /
    
    User-agent: Scrapy/0.24.5
     disallow: /
    
    User-agent: Scrapy/0.24.6
     disallow: /
    
    User-agent: Scrapy/1.0.1
     disallow: /
    
    User-agent: Screaming Frog SEO Spider
     disallow: /
    
    User-agent: Screaming Frog SEO Spider/2,55
     disallow: /
    
    User-agent: Screaming Frog SEO Spider/2.55
     disallow: /
    
    User-agent: Screaming Frog SEO Spider/3.1
     disallow: /
    
    User-agent: Screaming Frog SEO Spider/3.3
     disallow: /
    
    User-agent: Screaming Frog SEO Spider/4.1
     disallow: /
    
    User-agent: Screaming Frog SEO Spider/5.0
     disallow: /
    
    User-agent: Screaming Frog SEO Spider/5.1
     disallow: /
    
    User-agent: Screaming Frog SEO Spider/5.1 Beta 2
     disallow: /
    
    User-agent: scrutiny/4
     disallow: /
    
    User-agent: SemrushBot
     disallow: /
    
    User-agent: SemrushBot-SA
     disallow: /
     
    User-agent: SEOdiver/1.0
     disallow: /
    
    User-agent: SEOkicks
     disallow: /
    
    User-agent: SEOkicks-Robot
     disallow: /
    
    User-agent: SEOlyticsCrawler
     disallow: /
    
    User-agent: SEOlyticsCrawler/3.0
     disallow: /
    
    User-agent: seoscanners
     disallow: /
    
    User-agent: seoscanners.net/1
     disallow: /
    
    User-agent: SEOstats 2.1.0
     disallow: /
    
    User-agent: Seosys/Nutch-2.3
     disallow: /
    
    User-agent: SetCronJob/1.0
     disallow: /
    
    User-agent: SeznamBot
     disallow: /
    
    User-agent: SheerBoredom.Experimental.Robot
     disallow: /
    
    User-agent: SheerBoredom.Experimental.Robot/0.2
     disallow: /
    
    User-agent: ShowyouBot
     disallow: /
    
    User-agent: Simplecrawler
     disallow: /
    
    User-agent: SISTRIX Crawler
     disallow: /
    
    User-agent: sistrix
     disallow: /
    
    User-agent: SiteBot
     disallow: /
    
    User-agent: SiteBot/0.1
     disallow: /
    
    User-agent: SiteExplorer
     disallow: /
    
    User-agent: SiteExplorer/1.0
     disallow: /
    
    User-agent: SiteExplorer/1.0b
     disallow: /
    
    User-agent: Siteluxbot
     disallow: /
    
    User-agent: Siteluxbot/1.0
     disallow: /
    
    User-agent: SkimBot
     disallow: /
    
    User-agent: SkimBot/1.0
     disallow: /
    
    User-agent: sky nutch crawler/Nutch-1.9
     disallow: /
    
    User-agent: SMTBot
     disallow: /
    
    User-agent: SMTBot/1.0
     disallow: /
    
    User-agent: SNK Screenshot Bot
     disallow: /
    
    User-agent: SNK Screenshot Bot/0.20
     disallow: /
    
    User-agent: Sogou Spider
     disallow: /
    
    User-agent: Sogou web spider
     disallow: /
    
    User-agent: SpamBayes
     disallow: /
    
    User-agent: SpamBayes/1.1a3+
     disallow: /
    
    User-agent: spbot
     disallow: /
    
    User-agent: spbot/4.4.2
     disallow: /
    
    User-agent: spiderbot
     disallow: /
    
    User-agent: SpiderLing
     disallow: /
    
    User-agent: Spiderbot/Nutch-1.7
     disallow: /
    
    User-agent: spray-can
     disallow: /
    
    User-agent: spray-can/1.2.1
     disallow: /
    
    User-agent: SSG/3.0
     disallow: /
    
    User-agent: Statastico
     disallow: /
    
    User-agent: Statastico/4.0
     disallow: /
    
    User-agent: Steeler
     disallow: /
    
    User-agent: Steeler/3.5
     disallow: /
    
    User-agent: Stratagems Kumo
     disallow: /
    
    User-agent: Stratagems
     disallow: /
    
    User-agent: StudioFACA Search
     disallow: /
    
    User-agent: StudioFACA
     disallow: /
    
    User-agent: sukibot
     disallow: /
    
    User-agent: sukibot_heritrix
     disallow: /
    
    User-agent: sukibot_heritrix/3.1.1
     disallow: /
    
    User-agent: SurveyBot
     disallow: /
    
    User-agent: Synapse
     disallow: /
    
    User-agent: Synthesio Crawler release MonaLisa
     disallow: /
    
    User-Agent: tbot-nutch/Nutch-1.10
     disallow: /
    
    User-Agent: Traackr.com bot
     disallow: /
    
    User-Agent: trendictionbot
     disallow: /
    
    User-Agent: Trendiction-Bot
     disallow: /
    
    User-Agent: TrueBot
     disallow: /
    
    User-Agent: TrueBot/1.0
     disallow: /
    
    User-Agent: TulipChain/5.xx
     disallow: /
    
    User-Agent: TWMBot/0.1
     disallow: /
    
    User-Agent: Typhoeus
     disallow: /
    
    User-Agent: UCMore Crawler App
     disallow: /
    
    User-Agent: uMBot-LN
     disallow: /
    
    User-Agent: uMBot-LN/1.0
     disallow: /
    
    User-Agent: updown_tester
     disallow: /
    
    User-Agent: URLChecker
     disallow: /
    
    User-agent: V1.0/1.2
     disallow: /
    
    User-agent: w3af.org
     disallow: /
    
    User-agent: WASALive
     disallow: /
    
    User-agent: WASALive-Bot
     disallow: /
    
    User-agent: vBSEO
     disallow: /
    
    User-agent: WBSearchBot
     disallow: /
    
    User-agent: WBSearchBot/1.1
     disallow: /
    
    User-agent: WeAreNotEvil
     disallow: /
    
    User-agent: WebAlta
     disallow: /
    
    User-agent: WebAlta Crawler
     disallow: /
    
    User-agent: Web corpus crawler
     disallow: /
    
    User-agent: WebCookies
     disallow: /
    
    User-agent: WebCookies/1.0
     disallow: /
    
    User-agent: WebCopier vx.xa
     disallow: /
    
    User-agent: Webnest 0.9
     disallow: /
    
    User-agent: WebQL
     disallow: /
    
    User-agent: Webscout
     disallow: /
    
    User-agent: Webscout/1.0
     disallow: /
    
    User-agent: Web-sniffer
     disallow: /
    
    User-agent: Web-sniffer/1.1.0
     disallow: /
    
    User-agent: Webster Pro V3.4
     disallow: /
    
    User-agent: WebTarantula.com Crawler
     disallow: /
    
    User-agent: WeCrawlForThePeace
     disallow: /
    
    User-agent: VegeBot
     disallow: /
     
     User-agent: Vegi bot
     disallow: /
    
    User-agent: WeLikeLinks
     disallow: /
    
    User-agent: VeriCiteCrawler
     disallow: /
    
    User-agent: VeriCiteCrawler/Nutch-1.9
     disallow: /
    
    User-agent: WhatWeb
     disallow: /
    
    User-agent: WhatWeb/0.4.8-dev
     disallow: /
    
    User-agent: Visited by http://tools.geek-tools.org
     disallow: /
    
    User-agent: Voila Robot
     disallow: /
    
    User-agent: voltron
     disallow: /
    
    User-agent: woobot
     disallow: /
    
    User-agent: woobot/1.1
     disallow: /
    
    User-agent: woobot/2.0
     disallow: /
    
    User-agent: Vorboss Web Crawler
     disallow: /
    
    User-agent: Vorboss Web Crawler/Nutch-2.3
     disallow: /
    
    User-agent: WorldBrewBot
     disallow: /
    
    User-agent: WorldBrewBot/2.1
     disallow: /
    
    User-agent: worldwebheritage.org
     disallow: /
    
    User-agent: worldwebheritage.org/1.0
     disallow: /
    
    User-agent: wscheck.com
     disallow: /
    
    User-agent: wscheck.com/1.0.0
     disallow: /
    
    User-agent: www.deadlinkchecker.com
     disallow: /
    
    User-agent: www.petitsage.fr site detector 0.4
     disallow: /
    
    User-agent: WWW-Mechanize
     disallow: /
    
    User-agent: WWW-Mechanize/1.74
     disallow: /
    
    User-agent: Xenu Link Sleuth
     disallow: /
    
    User-agent: Xenu's Link Sleuth
     disallow: /
    
    User-agent: XoviBot
     disallow: /
    
    User-agent: XoviBot/2.0
     disallow: /
    
    User-agent: XSpider
     disallow: /
    
    User-agent: Yandex Robot
     disallow: /
    
    User-agent: Yandex
     disallow: /
    
    User-agent: Yetibot
     disallow: /
    
    User-agent: YisouSpider
     disallow: /
    
    User-agent: yoozBot
     disallow: /
    
    User-agent: yoozBot-2.2
     disallow: /
    
    User-agent: zgrab/0.x
     disallow: /
    
    User-agent: zzabmbot
     disallow: /
    
    User-agent: zzabmbot/1.0
     disallow: /

    Nota: è stato bloccato anche Yandex. Se al vostro sito interessa essere presente sul motore di ricerca russo, allora rimuovetelo. Suggerimenti e aggiunte sono ben accetti.