Un crawler, detto anche bot oppure spider, è un software che analizza i contenuti di un sito, per raccogliere informazioni (collect data). In sostanza visitano i siti presenti sul server, raccolgono dati, pagine, informazioni e li inviano ai loro server di provenienza, per essere elaborati e archiviati. Parlando in maniera semplicistica, sono come degli ambasciatori che vengono a vedere casa vostra o il vostro negozio. Sono indispensabili al funzionamento dei motori di ricerca, in quanto raccolgono (collect) tutti i dati del vostro sito per poterli poi restituire agli utenti che fanno ricerche (se i loro algoritmi decidono che i vostri dati possono essere utili all’utente che ha effettuato la ricerca). Ma dietro questa nobile attività vi sono due tipi di problemi:
- gli spider dei motori di ricerca possono consumare molte risorse del vostro sito, sia per quanto riguarda la bandwith (traffico dati), sia per quanto riguarda il carico del server
- non sempre si tratta di bot dei motori di ricerca, ma spesso di altre tipologie di siti che vogliono utilizzare i dati del vostro sito per altri scopi (copiatura, analisi da parte della concorrenza)
Spider e consumo risorse del sito
Ogni volta che lo spider visita il vostro sito, generalmente lo visita tutto o almeno tenta di collezionare le informazioni del maggior numero di pagine possibile. Questa procedura consuma bandwith: questa rappresenta il traffico dati (in entrata e in uscita) concesso al vostro sito. Ogni piano hosting lo prevede (anche quando trovate in certe offerte bandwith illimitata c’è in realtà un limite). Anche se oggigiorno questo limite mensile di banda dati è aumentato rispetto al passato, esiste e va considerato, sopratutto se avete un hosting economico. Gli spider sono ingordi, gli piace leggere e rileggere tutti i siti. Tutti insieme consumano. Gli stessi motori di ricerca ammettono questa cosa: Google, ad esempio, attraverso il Google Webmaster Tool (o Search Console) permette di ridurre la frequenza di queste scansioni da parte del loro bot. E’ un’opzione semplice da utilizzare e comunque da considerare a seconda del tipo di sito che abbiamo. Un sito di notizie, aggiornato più volte al giorno, va scansionato spesso, per indicizzare subito le novità. Stesso discorso per un forum. Un sito più statico, nel senso che posta news con minor frequenza, può benissimo impostare una scansione meno frequente. E risparmiare bandwith. E non solo: a volte l’insieme dei bot concorre ad aumentare il carico del server, provocando rallentamenti al sito. Se è vero che i rallentamenti di un server (e dei siti che ospita) dipendono sopratutto dalla configurazione (errata) o dagli script (malscritti o non aggiornati), la coincidenza di più bot contemporaneamente è un fattore che in alcuni casi provoca high cpu usage , cosa che manda in crash/black out tutto quando si tratta di attacchi ddos.
Come dicevamo, i bot che visitano il sito sono inviati anche da altri siti che non sono motori di ricerca, ma che hanno scopi totalmente differenti dal collezioare dati per restituirli nei risultati di ricerca. Tra questi siti che “copiano” le vostre pagine: dal quasi legittimo Google News che legge le vostre notizie e le riporta sul suo aggregatore (o come Trivago o Momondo che analizzano ed estraggono dati relativi alle tariffe hotels o alle offerte di viaggi), ai veri e propri siti scraper (che ri-copiano nei loro siti), fino ai siti per analisi seo (search engine oriented) che leggono il vostro sito simulando il motore di ricerca, ma per capire quali parole chiave avete, che densità hanno, come sono linkate le pagine, chi vi linka, ecc. in modo da aggregare ai dati e far capire alla concorrenza quali sono i vostri punti di forza. Alcuni esempi trai i più famosi: Ahrefs, SiteExplorer, Moz.
Conoscere quali spiders/bot contattano i siti ospitati sul server
Se avete accesso alla console SSH del server, allora ecco uno script già pronto per conoscere: nome dello spider, indirizzo ip (da quale server è stato lanciato), numero di volte ha contattato il sito. Copiatelo, aprite la console SSH, incollatelo e premete invio. Dal momento che lancia un processo (di calcolo) intensivo, ci impiegherà qualche minuto per restituire i dati che ci interessano (presi dal domainlogs, dalla mezzanotte precedente). Ecco lo script:
echo -e "\n\e[1;31m=== Bots (robots or crawlers) ===\e[0m\n"; find /usr/local/apache/domlogs/*/ -type f|grep -v -E $'(_|-)log|.gz'|xargs grep -H "" | perl -ne 'if (/$DATE/ && /\/usr\/local\/apache\/domlogs\/.*\/(.*):(\d{1,3}(?:\.\d{1,3}){3}).*\((?:.*?;)*([^;]*(?:b(?:ot|ing)|crawl|yahoo|google|spider)[^;]*);/i) { print ("$1\t$2\t$3\n")}'|sort|uniq -c|sort -rn|awk '{print $1" "$3" "$4" "$2}'|column -t|head
Il risultato sarà come il seguente:
2735 162.158.78.71 SemrushBot/1.2~bl ###ar.it
62 141.101.105.133 AhrefsBot/5.2 ##zar.it
124 88.198.66.230 MJ12bot/v1.4.7 tuttoblog.com
82 5.9.63.162 MJ12bot/v1.4.7 tuttoblog.com
56 198.204.243.138 MJ12bot/v1.4.7 tuttoblog.com
76 162.158.74.178 bingbot/2.0 ##log.com
72 172.68.58.42 bingbot/2.0 ##log.com
Notare ad esempio quanto sia vorace Semrush (noto tool di analisi siti), e come ad esempio il bot del motore di ricerca Bing arrivi da diversi IP (i motori di ricerca ne utilizzano centinaia). E’ normale vedere più ip (in quanto se il server ne blocca uno, ne hanno altri da cui far partire l’analisi al nostro sito)
Bloccare gli spider indesiderati
Abbiamo diverse possibilità per bloccare i bot che non ci interessano, e che anzi possono solo danneggiarci (provocando rallentamenti al sito, consumando risorse, copiando i nostri dati per la concorrenza), ovvero inserire delle istruzioni apposite. Possiamo scoraggiarli inserendo l’istruzione nel file robots.txt del sito (maniera soft) oppure bloccando tali bot direttamente tramite il server (istruzioni nel file .htaccess)
Di seguito una lista di spider da bloccare già pronta all’uso, solo da copiare ed incollare nel vostro file robots.txt Due note importanti: è una lista molto ampia, che ovviamente esclude i motori di ricerca, ma è bene controllare che non vi siano servizi che invece vi interessano al suo interno, perchè finireste per bloccarli. E secondo, ognuno la usa sotto la propria responsabilità, proprio perchè state decidendo di scoraggiare la raccolta dei dati del vostro sito a questi spider. Se non avete un file robots, andate nel file manager del vostro sito web, create un file robots.txt e copiate questa lista. Se esiste già, dopo le istruzioni già presenti, potete aggiungere questa lista:
User-agent: 1 2 3 Submit PRO
disallow: /
User-agent: 200PleaseBot
disallow: /
User-agent: 2ADAMbot
disallow: /
User-agent: 2ADAMbot/1.0
disallow: /
User-agent: 360Spider
disallow: /
user-agent: Abonti
disallow: /
user-agent: Abonti/0.92
disallow: /
user-agent: abot v1.0
disallow: /
user-agent: aboutthedomain
disallow: /
user-agent: Add Catalog
disallow: /
user-agent: Add Catalog/2.1
disallow: /
user-agent: AdvBot
disallow: /
user-agent: AdvBot/2.0
disallow: /
user-agent: AhrefsBot
disallow: /
user-agent: Ahrefs-Bot
disallow: /
user-agent: AhrefsBot/1.0
disallow: /
user-agent: Ahrefs-Bot/1.0
disallow: /
user-agent: Ahrefs-Bot/2.0
disallow: /
user-agent: Ahrefs-Bot/3.0
disallow: /
user-agent: Ahrefs-Bot/4.0
disallow: /
user-agent: Ahrefs-Bot/5.0
disallow: /
user-agent: aiHitBot
disallow: /
user-agent: aiHitBot/2.9
disallow: /
user-agent: Anonymous/0.0
disallow: /
user-agent: Arachnida
disallow: /
user-agent: Associative Spider
disallow: /
User-agent: Baiduspider
disallow: /
User-agent: Baidu Spider
disallow: /
User-agent: Battleztar Bazinga
disallow: /
User-agent: Battleztar Bazinga/0.01
disallow: /
User-agent: BDFetch
disallow: /
User-agent: betaBot
disallow: /
User-agent: bieshu
disallow: /
User-agent: Bigli SEO
disallow: /
User-agent: Blackboard Safeassign
disallow: /
User-agent: Blazer 1.0
disallow: /
User-agent: BLEXBot
disallow: /
User-agent: BLEXBot/1.0
disallow: /
User-agent: BLP_bbot
disallow: /
User-agent: BLP_bbot/0.1
disallow: /
User-agent: BOIA-Accessibility-Agent/PR 1.0
disallow: /
User-agent: BOT for JCE
disallow: /
User-agent: BOT/0.1 (BOT for JCE)
disallow: /
User-agent: BPImageWalker
disallow: /
User-agent: BPImageWalker/2.0
disallow: /
User-agent: BUbiNG
disallow: /
User-agent: BuiBui-Bot
disallow: /
User-agent: BuiBui-Bot/1.0
disallow: /
User-agent: ca-crawler
disallow: /
User-agent: ca-crawler/1.0
disallow: /
User-agent: CakePHP
disallow: /
User-agent: Calypso v/0.01
disallow: /
User-agent: Calypso
disallow: /
User-agent: CB/Nutch-1.7
disallow: /
User-agent: CCBot
disallow: /
User-agent: CCBot/2.0
disallow: /
User-agent: Checkbot
disallow: /
User-agent: checkgzipcompression.com
disallow: /
User-agent: chushou
disallow: /
User-agent: CloudServerMarketSpider
disallow: /
User-agent: CloudServerMarketSpider/1.0
disallow: /
User-agent: Clushbot/3.x-BinaryFury
disallow: /
User-agent: CMS Crawler
disallow: /
User-agent: CMS Crawler: http://www.cmscrawler.com
disallow: /
User-agent: coccoc
disallow: /
User-agent: CoinCornerBot
disallow: /
User-agent: CoinCornerBot/1.1
disallow: /
User-agent: Copyscape
disallow: /
User-agent: crawler4j
disallow: /
User-agent: CRAZYWEBCRAWLER 0.9.0
disallow: /
User-agent: CRAZYWEBCRAWLER 0.9.1
disallow: /
User-agent: CRAZYWEBCRAWLER 0.9.7
disallow: /
User-agent: CrazyWebCrawler
disallow: /
User-agent: CrazyWebCrawler-Spider
disallow: /
User-agent: Crowsnest
disallow: /
User-agent: Crowsnest/0.5
disallow: /
User-agent: Curious George - www.analyticsseo.com/crawler
disallow: /
User-agent: Curious George
disallow: /
User-agent: cuwhois
disallow: /
User-agent: cuwhois/1.0
disallow: /
User-agent: dahoms
disallow: /
User-agent: datagnionbot
disallow: /
User-agent: DeuSu/5.0.2
disallow: /
User-agent: Digincore
disallow: /
User-agent: Digincore bot
disallow: /
User-agent: Dispatch/0.11.0
disallow: /
User-agent: Domain Re-Animator Bot
disallow: /
User-agent: DomainAppender /1.0
disallow: /
User-agent: DomainAppender
disallow: /
User-agent: DomainCrawler/3.0
disallow: /
User-agent: DomainSigmaCrawler
disallow: /
User-agent: DomainSigmaCrawler/0.1
disallow: /
User-agent: Domnutch
disallow: /
User-agent: Domnutch-Bot
disallow: /
User-agent: Domnutch-Bot/Nutch
disallow: /
User-agent: Domnutch-Bot/Nutch-1.0
disallow: /
User-agent: dotbot
disallow: /
User-agent: ECCP/1.2.1
disallow: /
User-agent: eCommerceBot
disallow: /
User-agent: enlle punto com/Nutch-1.9
disallow: /
User-agent: EPiServer Link Checker
disallow: /
User-agent: EuripBot
disallow: /
User-agent: EuripBot/2.0
disallow: /
User-agent: evc/2.0
disallow: /
User-agent: evc-batch
disallow: /
User-agent: evc-batch/2.0
disallow: /
User-agent: Express WebPictures
disallow: /
User-agent: Faraday v0.8.8
disallow: /
User-agent: Faraday
disallow: /
User-agent: Findxbot
disallow: /
User-agent: Findxbot/1.0
disallow: /
User-agent: Flamingo_SearchEngine
disallow: /
User-agent: Flipboard Robot
disallow: /
User-agent: GetProxi.es-bot
disallow: /
User-agent: GetProxi.es-bot/1.1
disallow: /
User-agent: GigablastOpenSource
disallow: /
User-agent: GigablastOpenSource/1.0
disallow: /
User-agent: Girafabot
disallow: /
User-agent: Gluten Free Crawler
disallow: /
User-agent: Gluten Free Crawler/1.0
disallow: /
User-agent: GriffinBot
disallow: /
User-agent: GrifinBot/0.01
disallow: /
User-agent: GWPImages
disallow: /
User-agent: GWPImages/1.0
disallow: /
User-agent: Haiula
disallow: /
User-agent: Haiula/1.4
disallow: /
User-agent: HaosouSpider
disallow: /
User-agent: Hivemind
disallow: /
User-agent: HostHarvest
disallow: /
User-agent: HostHarvest/0.4.28
disallow: /
User-agent: HRCrawler
disallow: /
User-agent: HRCrawler/2.0
disallow: /
User-agent: http://git.io/tl_S2w
disallow: /
User-agent: http://www.checkprivacy.or.kr:6600/RS/PRIVACY_ENFAQ.jsp
disallow: /
User-agent: HubSpot Links Crawler 1.0
disallow: /
User-agent: HubSpot Webcrawler
disallow: /
User-agent: HubSpot
disallow: /
User-agent: hunchan
disallow: /
User-agent: HyperCrawl
disallow: /
User-agent: HyperCrawl/0.2
disallow: /
User-agent: ICAP-IOD
disallow: /
User-agent: ICC-Crawler
disallow: /
User-agent: ICC-Crawler/2.0
disallow: /
User-agent: Ichiro Robot
disallow: /
User-agent: image.coccoc/1.0
disallow: /
User-agent: Image2play
disallow: /
User-agent: Image2play/0.1
disallow: /
User-agent: Indy Library
disallow: /
User-agent: InsightsCollector
disallow: /
User-agent: InsightsCollector/0.1
disallow: /
User-agent: InsightsCollector/0.1beta
disallow: /
User-agent: integrity/5
disallow: /
User-agent: InterNaetBoten
disallow: /
User-agent: InterNaetBoten/0.99
disallow: /
User-agent: IRL Crawler
disallow: /
User-agent: James BOT - WebCrawler
disallow: /
User-agent: James BOT
disallow: /
User-agent: JamesBOT
disallow: /
User-agent: JetBrains 5.0
disallow: /
User-agent: JetBrains
disallow: /
User-agent: Kraken
disallow: /
User-agent: Kraken/0.1
disallow: /
User-agent: Kyoto-Tohoku-Crawler/v1
disallow: /
User-agent: larbin
disallow: /
User-agent: lechenie
disallow: /
User-agent: libwww-perl
disallow: /
User-agent: link checker
disallow: /
User-agent: Link/1.0
disallow: /
User-agent: linkCheck
disallow: /
User-agent: linkCheckV3.0
disallow: /
User-agent: Linkdex
disallow: /
User-agent: linkdex.com/v2.0
disallow: /
User-agent: linkdex.com/v2.1
disallow: /
User-agent: LinkdexBot
disallow: /
User-agent: linkdexbot/2.0
disallow: /
User-agent: linkdexbot/2.1
disallow: /
User-agent: linkdexbot-mobile/2.1
disallow: /
User-agent: LinkpadBot
disallow: /
User-agent: LinkpadBot/1.06
disallow: /
User-agent: LinqiaScrapeBot
disallow: /
User-agent: LinqiaScrapeBot/1.0
disallow: /
User-agent: Lipperhey SEO Service
disallow: /
User-agent: Lipperhey
disallow: /
User-agent: Lipperhey-Kaus-Australis
disallow: /
User-agent: Lipperhey-Kaus-Australis/5.0
disallow: /
User-agent: listicka
disallow: /
User-agent: LSSRocketCrawler
disallow: /
User-agent: LSSRocketCrawler/1.0 LightspeedSystems
disallow: /
User-agent: LSSRocketCrawler/1.0
disallow: /
User-agent: ltx71
disallow: /
User-agent: LWNutch/Nutch-1.4
disallow: /
User-agent: Mail.RU
disallow: /
User-agent: Mail.RU_Bot
disallow: /
User-agent: Mail.RU_Bot/2.0
disallow: /
User-agent: Mail.RU_Bot/Fast/2.0
disallow: /
User-agent: md5sum
disallow: /
User-agent: md5sum\x22
disallow: /
User-agent: meanpathbot
disallow: /
User-agent: MegaIndex.ru
disallow: /
User-agent: MegaIndex.ru/2.0
disallow: /
User-agent: mezhpozvonochnoi
disallow: /
User-agent: Mike-Crawler
disallow: /
User-agent: MixBot
disallow: /
User-agent: MixrankBot
disallow: /
User-agent: MJ12bot
disallow: /
User-agent: Monkeybot/0.1
disallow: /
User-agent: my crawler
disallow: /
User-agent: My Nutch Spider/Nutch-1.9
disallow: /
User-agent: mycrowl/Nutch-1.9
disallow: /
User-agent: MyGreatUA/2.0
disallow: /
User-agent: MyIPTest
disallow: /
User-agent: NameProtect Robot
disallow: /
User-agent: NerdyBot
disallow: /
User-agent: Netcraft Spider
disallow: /
User-agent: netEstate NE Crawler
disallow: /
User-agent: NetLyzer FastProbe
disallow: /
User-agent: NetResearchServer
disallow: /
User-agent: NetResearchServer/4.0
disallow: /
User-agent: Nmap Scripting Engine
disallow: /
User-agent: node.io
disallow: /
User-agent: node.js
disallow: /
User-agent: Node/simplecrawler 0.5.2
disallow: /
User-agent: Node/simplecrawler
disallow: /
User-agent: oBot/2.3.1
disallow: /
User-agent: omgilibot
disallow: /
User-agent: omgilibot/0.4
disallow: /
User-agent: Online Domain Tools - Online Website Link Checker
disallow: /
User-agent: Online Domain Tools - Online Website Link Checker/1.2
disallow: /
User-agent: Openfind Robot
disallow: /
User-agent: OpenHoseBot
disallow: /
User-agent: OpenHoseBot/2.1
disallow: /
User-agent: Openstat
disallow: /
User-agent: Openstat/0.1
disallow: /
User-agent: OptimizationCrawler
disallow: /
User-agent: OptimizationCrawler/0.2
disallow: /
User-agent: Page Analyzer v4.0
disallow: /
User-agent: Page Analyzer
disallow: /
User-agent: PageAnalyzer
disallow: /
User-agent: PageAnalyzer/1.1
disallow: /
User-agent: PageAnalyzer/1.5
disallow: /
User-agent: PagesInventory
disallow: /
User-agent: Pagespeed/1.1 Fetcher
disallow: /
User-agent: Pagespeed/1.1
disallow: /
User-agent: Pagespeedbot
disallow: /
User-agent: Perl LWP
disallow: /
User-agent: PHPCrawl
disallow: /
User-agent: phpSiteCheck 1.0
disallow: /
User-agent: phpSiteCheck
disallow: /
User-agent: Plukkie
disallow: /
User-agent: POGS/2.0
disallow: /
User-agent: Powermarks
disallow: /
User-agent: PowerPivot
disallow: /
User-agent: PRIVACY_ENFAQ.jsp
disallow: /
User-agent: Prlog
disallow: /
User-agent: Prlog/1.0
disallow: /
User-agent: publiclibraryarchive.org
disallow: /
User-agent: publiclibraryarchive.org/1.0
disallow: /
User-agent: Pu_iN Crawler
disallow: /
User-agent: Putin
disallow: /
User-agent: Putin spider
disallow: /
User-agent: qingdao
disallow: /
User-agent: QlikView
disallow: /
User-agent: quipu
disallow: /
User-agent: quipu/1.0
disallow: /
User-agent: quipu/2.0
disallow: /
User-agent: R6_CommentReader
disallow: /
User-agent: R6_FeedFetcher
disallow: /
User-agent: Riddler
disallow: /
User-agent: RivalSeek.com-Bot
disallow: /
User-agent: rogerbot
disallow: /
User-agent: rogerbot/1.0
disallow: /
User-agent: rootlink
disallow: /
User-agent: RU_Bot/2.0
disallow: /
User-agent: Scopia
disallow: /
User-agent: Scopia crawler
disallow: /
User-agent: Scopia crawler 1.0
disallow: /
User-agent: Scopia crawler 1.1
disallow: /
User-agent: Scopia crawler 1.2
disallow: /
User-agent: Scrapy
disallow: /
User-agent: Scrapy/0.16.5
disallow: /
User-agent: Scrapy/0.24.4
disallow: /
User-agent: Scrapy/0.24.5
disallow: /
User-agent: Scrapy/0.24.6
disallow: /
User-agent: Scrapy/1.0.1
disallow: /
User-agent: Screaming Frog SEO Spider
disallow: /
User-agent: Screaming Frog SEO Spider/2,55
disallow: /
User-agent: Screaming Frog SEO Spider/2.55
disallow: /
User-agent: Screaming Frog SEO Spider/3.1
disallow: /
User-agent: Screaming Frog SEO Spider/3.3
disallow: /
User-agent: Screaming Frog SEO Spider/4.1
disallow: /
User-agent: Screaming Frog SEO Spider/5.0
disallow: /
User-agent: Screaming Frog SEO Spider/5.1
disallow: /
User-agent: Screaming Frog SEO Spider/5.1 Beta 2
disallow: /
User-agent: scrutiny/4
disallow: /
User-agent: SemrushBot
disallow: /
User-agent: SemrushBot-SA
disallow: /
User-agent: SEOdiver/1.0
disallow: /
User-agent: SEOkicks
disallow: /
User-agent: SEOkicks-Robot
disallow: /
User-agent: SEOlyticsCrawler
disallow: /
User-agent: SEOlyticsCrawler/3.0
disallow: /
User-agent: seoscanners
disallow: /
User-agent: seoscanners.net/1
disallow: /
User-agent: SEOstats 2.1.0
disallow: /
User-agent: Seosys/Nutch-2.3
disallow: /
User-agent: SetCronJob/1.0
disallow: /
User-agent: SeznamBot
disallow: /
User-agent: SheerBoredom.Experimental.Robot
disallow: /
User-agent: SheerBoredom.Experimental.Robot/0.2
disallow: /
User-agent: ShowyouBot
disallow: /
User-agent: Simplecrawler
disallow: /
User-agent: SISTRIX Crawler
disallow: /
User-agent: sistrix
disallow: /
User-agent: SiteBot
disallow: /
User-agent: SiteBot/0.1
disallow: /
User-agent: SiteExplorer
disallow: /
User-agent: SiteExplorer/1.0
disallow: /
User-agent: SiteExplorer/1.0b
disallow: /
User-agent: Siteluxbot
disallow: /
User-agent: Siteluxbot/1.0
disallow: /
User-agent: SkimBot
disallow: /
User-agent: SkimBot/1.0
disallow: /
User-agent: sky nutch crawler/Nutch-1.9
disallow: /
User-agent: SMTBot
disallow: /
User-agent: SMTBot/1.0
disallow: /
User-agent: SNK Screenshot Bot
disallow: /
User-agent: SNK Screenshot Bot/0.20
disallow: /
User-agent: Sogou Spider
disallow: /
User-agent: Sogou web spider
disallow: /
User-agent: SpamBayes
disallow: /
User-agent: SpamBayes/1.1a3+
disallow: /
User-agent: spbot
disallow: /
User-agent: spbot/4.4.2
disallow: /
User-agent: spiderbot
disallow: /
User-agent: SpiderLing
disallow: /
User-agent: Spiderbot/Nutch-1.7
disallow: /
User-agent: spray-can
disallow: /
User-agent: spray-can/1.2.1
disallow: /
User-agent: SSG/3.0
disallow: /
User-agent: Statastico
disallow: /
User-agent: Statastico/4.0
disallow: /
User-agent: Steeler
disallow: /
User-agent: Steeler/3.5
disallow: /
User-agent: Stratagems Kumo
disallow: /
User-agent: Stratagems
disallow: /
User-agent: StudioFACA Search
disallow: /
User-agent: StudioFACA
disallow: /
User-agent: sukibot
disallow: /
User-agent: sukibot_heritrix
disallow: /
User-agent: sukibot_heritrix/3.1.1
disallow: /
User-agent: SurveyBot
disallow: /
User-agent: Synapse
disallow: /
User-agent: Synthesio Crawler release MonaLisa
disallow: /
User-Agent: tbot-nutch/Nutch-1.10
disallow: /
User-Agent: Traackr.com bot
disallow: /
User-Agent: trendictionbot
disallow: /
User-Agent: Trendiction-Bot
disallow: /
User-Agent: TrueBot
disallow: /
User-Agent: TrueBot/1.0
disallow: /
User-Agent: TulipChain/5.xx
disallow: /
User-Agent: TWMBot/0.1
disallow: /
User-Agent: Typhoeus
disallow: /
User-Agent: UCMore Crawler App
disallow: /
User-Agent: uMBot-LN
disallow: /
User-Agent: uMBot-LN/1.0
disallow: /
User-Agent: updown_tester
disallow: /
User-Agent: URLChecker
disallow: /
User-agent: V1.0/1.2
disallow: /
User-agent: w3af.org
disallow: /
User-agent: WASALive
disallow: /
User-agent: WASALive-Bot
disallow: /
User-agent: vBSEO
disallow: /
User-agent: WBSearchBot
disallow: /
User-agent: WBSearchBot/1.1
disallow: /
User-agent: WeAreNotEvil
disallow: /
User-agent: WebAlta
disallow: /
User-agent: WebAlta Crawler
disallow: /
User-agent: Web corpus crawler
disallow: /
User-agent: WebCookies
disallow: /
User-agent: WebCookies/1.0
disallow: /
User-agent: WebCopier vx.xa
disallow: /
User-agent: Webnest 0.9
disallow: /
User-agent: WebQL
disallow: /
User-agent: Webscout
disallow: /
User-agent: Webscout/1.0
disallow: /
User-agent: Web-sniffer
disallow: /
User-agent: Web-sniffer/1.1.0
disallow: /
User-agent: Webster Pro V3.4
disallow: /
User-agent: WebTarantula.com Crawler
disallow: /
User-agent: WeCrawlForThePeace
disallow: /
User-agent: VegeBot
disallow: /
User-agent: Vegi bot
disallow: /
User-agent: WeLikeLinks
disallow: /
User-agent: VeriCiteCrawler
disallow: /
User-agent: VeriCiteCrawler/Nutch-1.9
disallow: /
User-agent: WhatWeb
disallow: /
User-agent: WhatWeb/0.4.8-dev
disallow: /
User-agent: Visited by http://tools.geek-tools.org
disallow: /
User-agent: Voila Robot
disallow: /
User-agent: voltron
disallow: /
User-agent: woobot
disallow: /
User-agent: woobot/1.1
disallow: /
User-agent: woobot/2.0
disallow: /
User-agent: Vorboss Web Crawler
disallow: /
User-agent: Vorboss Web Crawler/Nutch-2.3
disallow: /
User-agent: WorldBrewBot
disallow: /
User-agent: WorldBrewBot/2.1
disallow: /
User-agent: worldwebheritage.org
disallow: /
User-agent: worldwebheritage.org/1.0
disallow: /
User-agent: wscheck.com
disallow: /
User-agent: wscheck.com/1.0.0
disallow: /
User-agent: www.deadlinkchecker.com
disallow: /
User-agent: www.petitsage.fr site detector 0.4
disallow: /
User-agent: WWW-Mechanize
disallow: /
User-agent: WWW-Mechanize/1.74
disallow: /
User-agent: Xenu Link Sleuth
disallow: /
User-agent: Xenu's Link Sleuth
disallow: /
User-agent: XoviBot
disallow: /
User-agent: XoviBot/2.0
disallow: /
User-agent: XSpider
disallow: /
User-agent: Yandex Robot
disallow: /
User-agent: Yandex
disallow: /
User-agent: Yetibot
disallow: /
User-agent: YisouSpider
disallow: /
User-agent: yoozBot
disallow: /
User-agent: yoozBot-2.2
disallow: /
User-agent: zgrab/0.x
disallow: /
User-agent: zzabmbot
disallow: /
User-agent: zzabmbot/1.0
disallow: /
Nota: è stato bloccato anche Yandex. Se al vostro sito interessa essere presente sul motore di ricerca russo, allora rimuovetelo. Suggerimenti e aggiunte sono ben accetti.