Come sapere quali bots/spider rallentano il server (e come bloccarli)
Un crawler, detto anche bot oppure spider, è un software che analizza i contenuti di un sito, per raccogliere informazioni (collect data). In sostanza visitano i siti presenti sul server, raccolgono dati, pagine, informazioni e li inviano ai loro server di provenienza, per essere elaborati e archiviati. Parlando in maniera semplicistica, sono come degli ambasciatori che vengono a vedere casa vostra o il vostro negozio. Sono indispensabili al funzionamento dei motori di ricerca, in quanto raccolgono (collect) tutti i dati del vostro sito per poterli poi restituire agli utenti che fanno ricerche (se i loro algoritmi decidono che i vostri dati possono essere utili all’utente che ha effettuato la ricerca). Ma dietro questa nobile attività vi sono due tipi di problemi:
- gli spider dei motori di ricerca possono consumare molte risorse del vostro sito, sia per quanto riguarda la bandwith (traffico dati), sia per quanto riguarda il carico del server
- non sempre si tratta di bot dei motori di ricerca, ma spesso di altre tipologie di siti che vogliono utilizzare i dati del vostro sito per altri scopi (copiatura, analisi da parte della concorrenza)
Spider e consumo risorse del sito
Ogni volta che lo spider visita il vostro sito, generalmente lo visita tutto o almeno tenta di collezionare le informazioni del maggior numero di pagine possibile. Questa procedura consuma bandwith: questa rappresenta il traffico dati (in entrata e in uscita) concesso al vostro sito. Ogni piano hosting lo prevede (anche quando trovate in certe offerte bandwith illimitata c’è in realtà un limite). Anche se oggigiorno questo limite mensile di banda dati è aumentato rispetto al passato, esiste e va considerato, sopratutto se avete un hosting economico. Gli spider sono ingordi, gli piace leggere e rileggere tutti i siti. Tutti insieme consumano. Gli stessi motori di ricerca ammettono questa cosa: Google, ad esempio, attraverso il Google Webmaster Tool (o Search Console) permette di ridurre la frequenza di queste scansioni da parte del loro bot. E’ un’opzione semplice da utilizzare e comunque da considerare a seconda del tipo di sito che abbiamo. Un sito di notizie, aggiornato più volte al giorno, va scansionato spesso, per indicizzare subito le novità. Stesso discorso per un forum. Un sito più statico, nel senso che posta news con minor frequenza, può benissimo impostare una scansione meno frequente. E risparmiare bandwith. E non solo: a volte l’insieme dei bot concorre ad aumentare il carico del server, provocando rallentamenti al sito. Se è vero che i rallentamenti di un server (e dei siti che ospita) dipendono sopratutto dalla configurazione (errata) o dagli script (malscritti o non aggiornati), la coincidenza di più bot contemporaneamente è un fattore che in alcuni casi provoca high cpu usage , cosa che manda in crash/black out tutto quando si tratta di attacchi ddos.
Come dicevamo, i bot che visitano il sito sono inviati anche da altri siti che non sono motori di ricerca, ma che hanno scopi totalmente differenti dal collezioare dati per restituirli nei risultati di ricerca. Tra questi siti che “copiano” le vostre pagine: dal quasi legittimo Google News che legge le vostre notizie e le riporta sul suo aggregatore (o come Trivago o Momondo che analizzano ed estraggono dati relativi alle tariffe hotels o alle offerte di viaggi), ai veri e propri siti scraper (che ri-copiano nei loro siti), fino ai siti per analisi seo (search engine oriented) che leggono il vostro sito simulando il motore di ricerca, ma per capire quali parole chiave avete, che densità hanno, come sono linkate le pagine, chi vi linka, ecc. in modo da aggregare ai dati e far capire alla concorrenza quali sono i vostri punti di forza. Alcuni esempi trai i più famosi: Ahrefs, SiteExplorer, Moz.
Conoscere quali spiders/bot contattano i siti ospitati sul server
Se avete accesso alla console SSH del server, allora ecco uno script già pronto per conoscere: nome dello spider, indirizzo ip (da quale server è stato lanciato), numero di volte ha contattato il sito. Copiatelo, aprite la console SSH, incollatelo e premete invio. Dal momento che lancia un processo (di calcolo) intensivo, ci impiegherà qualche minuto per restituire i dati che ci interessano (presi dal domainlogs, dalla mezzanotte precedente). Ecco lo script:
echo -e "\n\e[1;31m=== Bots (robots or crawlers) ===\e[0m\n"; find /usr/local/apache/domlogs/*/ -type f|grep -v -E $'(_|-)log|.gz'|xargs grep -H "" | perl -ne 'if (/$DATE/ && /\/usr\/local\/apache\/domlogs\/.*\/(.*):(\d{1,3}(?:\.\d{1,3}){3}).*\((?:.*?;)*([^;]*(?:b(?:ot|ing)|crawl|yahoo|google|spider)[^;]*);/i) { print ("$1\t$2\t$3\n")}'|sort|uniq -c|sort -rn|awk '{print $1" "$3" "$4" "$2}'|column -t|head
Il risultato sarà come il seguente:
2735 162.158.78.71 SemrushBot/1.2~bl ###ar.it 62 141.101.105.133 AhrefsBot/5.2 ##zar.it 124 88.198.66.230 MJ12bot/v1.4.7 tuttoblog.com 82 5.9.63.162 MJ12bot/v1.4.7 tuttoblog.com 56 198.204.243.138 MJ12bot/v1.4.7 tuttoblog.com 76 162.158.74.178 bingbot/2.0 ##log.com 72 172.68.58.42 bingbot/2.0 ##log.com
Notare ad esempio quanto sia vorace Semrush (noto tool di analisi siti), e come ad esempio il bot del motore di ricerca Bing arrivi da diversi IP (i motori di ricerca ne utilizzano centinaia). E’ normale vedere più ip (in quanto se il server ne blocca uno, ne hanno altri da cui far partire l’analisi al nostro sito)
Bloccare gli spider indesiderati
Abbiamo diverse possibilità per bloccare i bot che non ci interessano, e che anzi possono solo danneggiarci (provocando rallentamenti al sito, consumando risorse, copiando i nostri dati per la concorrenza), ovvero inserire delle istruzioni apposite. Possiamo scoraggiarli inserendo l’istruzione nel file robots.txt del sito (maniera soft) oppure bloccando tali bot direttamente tramite il server (istruzioni nel file .htaccess)
Di seguito una lista di spider da bloccare già pronta all’uso, solo da copiare ed incollare nel vostro file robots.txt Due note importanti: è una lista molto ampia, che ovviamente esclude i motori di ricerca, ma è bene controllare che non vi siano servizi che invece vi interessano al suo interno, perchè finireste per bloccarli. E secondo, ognuno la usa sotto la propria responsabilità, proprio perchè state decidendo di scoraggiare la raccolta dei dati del vostro sito a questi spider. Se non avete un file robots, andate nel file manager del vostro sito web, create un file robots.txt e copiate questa lista. Se esiste già, dopo le istruzioni già presenti, potete aggiungere questa lista:
User-agent: 1 2 3 Submit PRO disallow: / User-agent: 200PleaseBot disallow: / User-agent: 2ADAMbot disallow: / User-agent: 2ADAMbot/1.0 disallow: / User-agent: 360Spider disallow: / user-agent: Abonti disallow: / user-agent: Abonti/0.92 disallow: / user-agent: abot v1.0 disallow: / user-agent: aboutthedomain disallow: / user-agent: Add Catalog disallow: / user-agent: Add Catalog/2.1 disallow: / user-agent: AdvBot disallow: / user-agent: AdvBot/2.0 disallow: / user-agent: AhrefsBot disallow: / user-agent: Ahrefs-Bot disallow: / user-agent: AhrefsBot/1.0 disallow: / user-agent: Ahrefs-Bot/1.0 disallow: / user-agent: Ahrefs-Bot/2.0 disallow: / user-agent: Ahrefs-Bot/3.0 disallow: / user-agent: Ahrefs-Bot/4.0 disallow: / user-agent: Ahrefs-Bot/5.0 disallow: / user-agent: aiHitBot disallow: / user-agent: aiHitBot/2.9 disallow: / user-agent: Anonymous/0.0 disallow: / user-agent: Arachnida disallow: / user-agent: Associative Spider disallow: / User-agent: Baiduspider disallow: / User-agent: Baidu Spider disallow: / User-agent: Battleztar Bazinga disallow: / User-agent: Battleztar Bazinga/0.01 disallow: / User-agent: BDFetch disallow: / User-agent: betaBot disallow: / User-agent: bieshu disallow: / User-agent: Bigli SEO disallow: / User-agent: Blackboard Safeassign disallow: / User-agent: Blazer 1.0 disallow: / User-agent: BLEXBot disallow: / User-agent: BLEXBot/1.0 disallow: / User-agent: BLP_bbot disallow: / User-agent: BLP_bbot/0.1 disallow: / User-agent: BOIA-Accessibility-Agent/PR 1.0 disallow: / User-agent: BOT for JCE disallow: / User-agent: BOT/0.1 (BOT for JCE) disallow: / User-agent: BPImageWalker disallow: / User-agent: BPImageWalker/2.0 disallow: / User-agent: BUbiNG disallow: / User-agent: BuiBui-Bot disallow: / User-agent: BuiBui-Bot/1.0 disallow: / User-agent: ca-crawler disallow: / User-agent: ca-crawler/1.0 disallow: / User-agent: CakePHP disallow: / User-agent: Calypso v/0.01 disallow: / User-agent: Calypso disallow: / User-agent: CB/Nutch-1.7 disallow: / User-agent: CCBot disallow: / User-agent: CCBot/2.0 disallow: / User-agent: Checkbot disallow: / User-agent: checkgzipcompression.com disallow: / User-agent: chushou disallow: / User-agent: CloudServerMarketSpider disallow: / User-agent: CloudServerMarketSpider/1.0 disallow: / User-agent: Clushbot/3.x-BinaryFury disallow: / User-agent: CMS Crawler disallow: / User-agent: CMS Crawler: http://www.cmscrawler.com disallow: / User-agent: coccoc disallow: / User-agent: CoinCornerBot disallow: / User-agent: CoinCornerBot/1.1 disallow: / User-agent: Copyscape disallow: / User-agent: crawler4j disallow: / User-agent: CRAZYWEBCRAWLER 0.9.0 disallow: / User-agent: CRAZYWEBCRAWLER 0.9.1 disallow: / User-agent: CRAZYWEBCRAWLER 0.9.7 disallow: / User-agent: CrazyWebCrawler disallow: / User-agent: CrazyWebCrawler-Spider disallow: / User-agent: Crowsnest disallow: / User-agent: Crowsnest/0.5 disallow: / User-agent: Curious George - www.analyticsseo.com/crawler disallow: / User-agent: Curious George disallow: / User-agent: cuwhois disallow: / User-agent: cuwhois/1.0 disallow: / User-agent: dahoms disallow: / User-agent: datagnionbot disallow: / User-agent: DeuSu/5.0.2 disallow: / User-agent: Digincore disallow: / User-agent: Digincore bot disallow: / User-agent: Dispatch/0.11.0 disallow: / User-agent: Domain Re-Animator Bot disallow: / User-agent: DomainAppender /1.0 disallow: / User-agent: DomainAppender disallow: / User-agent: DomainCrawler/3.0 disallow: / User-agent: DomainSigmaCrawler disallow: / User-agent: DomainSigmaCrawler/0.1 disallow: / User-agent: Domnutch disallow: / User-agent: Domnutch-Bot disallow: / User-agent: Domnutch-Bot/Nutch disallow: / User-agent: Domnutch-Bot/Nutch-1.0 disallow: / User-agent: dotbot disallow: / User-agent: ECCP/1.2.1 disallow: / User-agent: eCommerceBot disallow: / User-agent: enlle punto com/Nutch-1.9 disallow: / User-agent: EPiServer Link Checker disallow: / User-agent: EuripBot disallow: / User-agent: EuripBot/2.0 disallow: / User-agent: evc/2.0 disallow: / User-agent: evc-batch disallow: / User-agent: evc-batch/2.0 disallow: / User-agent: Express WebPictures disallow: / User-agent: Faraday v0.8.8 disallow: / User-agent: Faraday disallow: / User-agent: Findxbot disallow: / User-agent: Findxbot/1.0 disallow: / User-agent: Flamingo_SearchEngine disallow: / User-agent: Flipboard Robot disallow: / User-agent: GetProxi.es-bot disallow: / User-agent: GetProxi.es-bot/1.1 disallow: / User-agent: GigablastOpenSource disallow: / User-agent: GigablastOpenSource/1.0 disallow: / User-agent: Girafabot disallow: / User-agent: Gluten Free Crawler disallow: / User-agent: Gluten Free Crawler/1.0 disallow: / User-agent: GriffinBot disallow: / User-agent: GrifinBot/0.01 disallow: / User-agent: GWPImages disallow: / User-agent: GWPImages/1.0 disallow: / User-agent: Haiula disallow: / User-agent: Haiula/1.4 disallow: / User-agent: HaosouSpider disallow: / User-agent: Hivemind disallow: / User-agent: HostHarvest disallow: / User-agent: HostHarvest/0.4.28 disallow: / User-agent: HRCrawler disallow: / User-agent: HRCrawler/2.0 disallow: / User-agent: http://git.io/tl_S2w disallow: / User-agent: http://www.checkprivacy.or.kr:6600/RS/PRIVACY_ENFAQ.jsp disallow: / User-agent: HubSpot Links Crawler 1.0 disallow: / User-agent: HubSpot Webcrawler disallow: / User-agent: HubSpot disallow: / User-agent: hunchan disallow: / User-agent: HyperCrawl disallow: / User-agent: HyperCrawl/0.2 disallow: / User-agent: ICAP-IOD disallow: / User-agent: ICC-Crawler disallow: / User-agent: ICC-Crawler/2.0 disallow: / User-agent: Ichiro Robot disallow: / User-agent: image.coccoc/1.0 disallow: / User-agent: Image2play disallow: / User-agent: Image2play/0.1 disallow: / User-agent: Indy Library disallow: / User-agent: InsightsCollector disallow: / User-agent: InsightsCollector/0.1 disallow: / User-agent: InsightsCollector/0.1beta disallow: / User-agent: integrity/5 disallow: / User-agent: InterNaetBoten disallow: / User-agent: InterNaetBoten/0.99 disallow: / User-agent: IRL Crawler disallow: / User-agent: James BOT - WebCrawler disallow: / User-agent: James BOT disallow: / User-agent: JamesBOT disallow: / User-agent: JetBrains 5.0 disallow: / User-agent: JetBrains disallow: / User-agent: Kraken disallow: / User-agent: Kraken/0.1 disallow: / User-agent: Kyoto-Tohoku-Crawler/v1 disallow: / User-agent: larbin disallow: / User-agent: lechenie disallow: / User-agent: libwww-perl disallow: / User-agent: link checker disallow: / User-agent: Link/1.0 disallow: / User-agent: linkCheck disallow: / User-agent: linkCheckV3.0 disallow: / User-agent: Linkdex disallow: / User-agent: linkdex.com/v2.0 disallow: / User-agent: linkdex.com/v2.1 disallow: / User-agent: LinkdexBot disallow: / User-agent: linkdexbot/2.0 disallow: / User-agent: linkdexbot/2.1 disallow: / User-agent: linkdexbot-mobile/2.1 disallow: / User-agent: LinkpadBot disallow: / User-agent: LinkpadBot/1.06 disallow: / User-agent: LinqiaScrapeBot disallow: / User-agent: LinqiaScrapeBot/1.0 disallow: / User-agent: Lipperhey SEO Service disallow: / User-agent: Lipperhey disallow: / User-agent: Lipperhey-Kaus-Australis disallow: / User-agent: Lipperhey-Kaus-Australis/5.0 disallow: / User-agent: listicka disallow: / User-agent: LSSRocketCrawler disallow: / User-agent: LSSRocketCrawler/1.0 LightspeedSystems disallow: / User-agent: LSSRocketCrawler/1.0 disallow: / User-agent: ltx71 disallow: / User-agent: LWNutch/Nutch-1.4 disallow: / User-agent: Mail.RU disallow: / User-agent: Mail.RU_Bot disallow: / User-agent: Mail.RU_Bot/2.0 disallow: / User-agent: Mail.RU_Bot/Fast/2.0 disallow: / User-agent: md5sum disallow: / User-agent: md5sum\x22 disallow: / User-agent: meanpathbot disallow: / User-agent: MegaIndex.ru disallow: / User-agent: MegaIndex.ru/2.0 disallow: / User-agent: mezhpozvonochnoi disallow: / User-agent: Mike-Crawler disallow: / User-agent: MixBot disallow: / User-agent: MixrankBot disallow: / User-agent: MJ12bot disallow: / User-agent: Monkeybot/0.1 disallow: / User-agent: my crawler disallow: / User-agent: My Nutch Spider/Nutch-1.9 disallow: / User-agent: mycrowl/Nutch-1.9 disallow: / User-agent: MyGreatUA/2.0 disallow: / User-agent: MyIPTest disallow: / User-agent: NameProtect Robot disallow: / User-agent: NerdyBot disallow: / User-agent: Netcraft Spider disallow: / User-agent: netEstate NE Crawler disallow: / User-agent: NetLyzer FastProbe disallow: / User-agent: NetResearchServer disallow: / User-agent: NetResearchServer/4.0 disallow: / User-agent: Nmap Scripting Engine disallow: / User-agent: node.io disallow: / User-agent: node.js disallow: / User-agent: Node/simplecrawler 0.5.2 disallow: / User-agent: Node/simplecrawler disallow: / User-agent: oBot/2.3.1 disallow: / User-agent: omgilibot disallow: / User-agent: omgilibot/0.4 disallow: / User-agent: Online Domain Tools - Online Website Link Checker disallow: / User-agent: Online Domain Tools - Online Website Link Checker/1.2 disallow: / User-agent: Openfind Robot disallow: / User-agent: OpenHoseBot disallow: / User-agent: OpenHoseBot/2.1 disallow: / User-agent: Openstat disallow: / User-agent: Openstat/0.1 disallow: / User-agent: OptimizationCrawler disallow: / User-agent: OptimizationCrawler/0.2 disallow: / User-agent: Page Analyzer v4.0 disallow: / User-agent: Page Analyzer disallow: / User-agent: PageAnalyzer disallow: / User-agent: PageAnalyzer/1.1 disallow: / User-agent: PageAnalyzer/1.5 disallow: / User-agent: PagesInventory disallow: / User-agent: Pagespeed/1.1 Fetcher disallow: / User-agent: Pagespeed/1.1 disallow: / User-agent: Pagespeedbot disallow: / User-agent: Perl LWP disallow: / User-agent: PHPCrawl disallow: / User-agent: phpSiteCheck 1.0 disallow: / User-agent: phpSiteCheck disallow: / User-agent: Plukkie disallow: / User-agent: POGS/2.0 disallow: / User-agent: Powermarks disallow: / User-agent: PowerPivot disallow: / User-agent: PRIVACY_ENFAQ.jsp disallow: / User-agent: Prlog disallow: / User-agent: Prlog/1.0 disallow: / User-agent: publiclibraryarchive.org disallow: / User-agent: publiclibraryarchive.org/1.0 disallow: / User-agent: Pu_iN Crawler disallow: / User-agent: Putin disallow: / User-agent: Putin spider disallow: / User-agent: qingdao disallow: / User-agent: QlikView disallow: / User-agent: quipu disallow: / User-agent: quipu/1.0 disallow: / User-agent: quipu/2.0 disallow: / User-agent: R6_CommentReader disallow: / User-agent: R6_FeedFetcher disallow: / User-agent: Riddler disallow: / User-agent: RivalSeek.com-Bot disallow: / User-agent: rogerbot disallow: / User-agent: rogerbot/1.0 disallow: / User-agent: rootlink disallow: / User-agent: RU_Bot/2.0 disallow: / User-agent: Scopia disallow: / User-agent: Scopia crawler disallow: / User-agent: Scopia crawler 1.0 disallow: / User-agent: Scopia crawler 1.1 disallow: / User-agent: Scopia crawler 1.2 disallow: / User-agent: Scrapy disallow: / User-agent: Scrapy/0.16.5 disallow: / User-agent: Scrapy/0.24.4 disallow: / User-agent: Scrapy/0.24.5 disallow: / User-agent: Scrapy/0.24.6 disallow: / User-agent: Scrapy/1.0.1 disallow: / User-agent: Screaming Frog SEO Spider disallow: / User-agent: Screaming Frog SEO Spider/2,55 disallow: / User-agent: Screaming Frog SEO Spider/2.55 disallow: / User-agent: Screaming Frog SEO Spider/3.1 disallow: / User-agent: Screaming Frog SEO Spider/3.3 disallow: / User-agent: Screaming Frog SEO Spider/4.1 disallow: / User-agent: Screaming Frog SEO Spider/5.0 disallow: / User-agent: Screaming Frog SEO Spider/5.1 disallow: / User-agent: Screaming Frog SEO Spider/5.1 Beta 2 disallow: / User-agent: scrutiny/4 disallow: / User-agent: SemrushBot disallow: / User-agent: SemrushBot-SA disallow: / User-agent: SEOdiver/1.0 disallow: / User-agent: SEOkicks disallow: / User-agent: SEOkicks-Robot disallow: / User-agent: SEOlyticsCrawler disallow: / User-agent: SEOlyticsCrawler/3.0 disallow: / User-agent: seoscanners disallow: / User-agent: seoscanners.net/1 disallow: / User-agent: SEOstats 2.1.0 disallow: / User-agent: Seosys/Nutch-2.3 disallow: / User-agent: SetCronJob/1.0 disallow: / User-agent: SeznamBot disallow: / User-agent: SheerBoredom.Experimental.Robot disallow: / User-agent: SheerBoredom.Experimental.Robot/0.2 disallow: / User-agent: ShowyouBot disallow: / User-agent: Simplecrawler disallow: / User-agent: SISTRIX Crawler disallow: / User-agent: sistrix disallow: / User-agent: SiteBot disallow: / User-agent: SiteBot/0.1 disallow: / User-agent: SiteExplorer disallow: / User-agent: SiteExplorer/1.0 disallow: / User-agent: SiteExplorer/1.0b disallow: / User-agent: Siteluxbot disallow: / User-agent: Siteluxbot/1.0 disallow: / User-agent: SkimBot disallow: / User-agent: SkimBot/1.0 disallow: / User-agent: sky nutch crawler/Nutch-1.9 disallow: / User-agent: SMTBot disallow: / User-agent: SMTBot/1.0 disallow: / User-agent: SNK Screenshot Bot disallow: / User-agent: SNK Screenshot Bot/0.20 disallow: / User-agent: Sogou Spider disallow: / User-agent: Sogou web spider disallow: / User-agent: SpamBayes disallow: / User-agent: SpamBayes/1.1a3+ disallow: / User-agent: spbot disallow: / User-agent: spbot/4.4.2 disallow: / User-agent: spiderbot disallow: / User-agent: SpiderLing disallow: / User-agent: Spiderbot/Nutch-1.7 disallow: / User-agent: spray-can disallow: / User-agent: spray-can/1.2.1 disallow: / User-agent: SSG/3.0 disallow: / User-agent: Statastico disallow: / User-agent: Statastico/4.0 disallow: / User-agent: Steeler disallow: / User-agent: Steeler/3.5 disallow: / User-agent: Stratagems Kumo disallow: / User-agent: Stratagems disallow: / User-agent: StudioFACA Search disallow: / User-agent: StudioFACA disallow: / User-agent: sukibot disallow: / User-agent: sukibot_heritrix disallow: / User-agent: sukibot_heritrix/3.1.1 disallow: / User-agent: SurveyBot disallow: / User-agent: Synapse disallow: / User-agent: Synthesio Crawler release MonaLisa disallow: / User-Agent: tbot-nutch/Nutch-1.10 disallow: / User-Agent: Traackr.com bot disallow: / User-Agent: trendictionbot disallow: / User-Agent: Trendiction-Bot disallow: / User-Agent: TrueBot disallow: / User-Agent: TrueBot/1.0 disallow: / User-Agent: TulipChain/5.xx disallow: / User-Agent: TWMBot/0.1 disallow: / User-Agent: Typhoeus disallow: / User-Agent: UCMore Crawler App disallow: / User-Agent: uMBot-LN disallow: / User-Agent: uMBot-LN/1.0 disallow: / User-Agent: updown_tester disallow: / User-Agent: URLChecker disallow: / User-agent: V1.0/1.2 disallow: / User-agent: w3af.org disallow: / User-agent: WASALive disallow: / User-agent: WASALive-Bot disallow: / User-agent: vBSEO disallow: / User-agent: WBSearchBot disallow: / User-agent: WBSearchBot/1.1 disallow: / User-agent: WeAreNotEvil disallow: / User-agent: WebAlta disallow: / User-agent: WebAlta Crawler disallow: / User-agent: Web corpus crawler disallow: / User-agent: WebCookies disallow: / User-agent: WebCookies/1.0 disallow: / User-agent: WebCopier vx.xa disallow: / User-agent: Webnest 0.9 disallow: / User-agent: WebQL disallow: / User-agent: Webscout disallow: / User-agent: Webscout/1.0 disallow: / User-agent: Web-sniffer disallow: / User-agent: Web-sniffer/1.1.0 disallow: / User-agent: Webster Pro V3.4 disallow: / User-agent: WebTarantula.com Crawler disallow: / User-agent: WeCrawlForThePeace disallow: / User-agent: VegeBot disallow: / User-agent: Vegi bot disallow: / User-agent: WeLikeLinks disallow: / User-agent: VeriCiteCrawler disallow: / User-agent: VeriCiteCrawler/Nutch-1.9 disallow: / User-agent: WhatWeb disallow: / User-agent: WhatWeb/0.4.8-dev disallow: / User-agent: Visited by http://tools.geek-tools.org disallow: / User-agent: Voila Robot disallow: / User-agent: voltron disallow: / User-agent: woobot disallow: / User-agent: woobot/1.1 disallow: / User-agent: woobot/2.0 disallow: / User-agent: Vorboss Web Crawler disallow: / User-agent: Vorboss Web Crawler/Nutch-2.3 disallow: / User-agent: WorldBrewBot disallow: / User-agent: WorldBrewBot/2.1 disallow: / User-agent: worldwebheritage.org disallow: / User-agent: worldwebheritage.org/1.0 disallow: / User-agent: wscheck.com disallow: / User-agent: wscheck.com/1.0.0 disallow: / User-agent: www.deadlinkchecker.com disallow: / User-agent: www.petitsage.fr site detector 0.4 disallow: / User-agent: WWW-Mechanize disallow: / User-agent: WWW-Mechanize/1.74 disallow: / User-agent: Xenu Link Sleuth disallow: / User-agent: Xenu's Link Sleuth disallow: / User-agent: XoviBot disallow: / User-agent: XoviBot/2.0 disallow: / User-agent: XSpider disallow: / User-agent: Yandex Robot disallow: / User-agent: Yandex disallow: / User-agent: Yetibot disallow: / User-agent: YisouSpider disallow: / User-agent: yoozBot disallow: / User-agent: yoozBot-2.2 disallow: / User-agent: zgrab/0.x disallow: / User-agent: zzabmbot disallow: / User-agent: zzabmbot/1.0 disallow: /
Nota: è stato bloccato anche Yandex. Se al vostro sito interessa essere presente sul motore di ricerca russo, allora rimuovetelo. Suggerimenti e aggiunte sono ben accetti.