最近(jin)發現(xian)一些(xie)國(guo)外垃圾(ji)蜘蛛頻繁抓我網站頁面(mian),白浪費消耗服(fu)務(wu)器性能。所(suo)以要屏蔽他們這(zhe)些(xie)垃圾(ji)蜘蛛抓取,這(zhe)里介紹兩種方法一同操作進行屏蔽:
第一種方法:直接(jie)在(zai)根目錄下(xia)robots.txt文(wen)件里面(mian)屏(ping)蔽掉相(xiang)關垃圾蜘蛛:
User-agent: SemrushBot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: AhrefsBot
Disallow: /
User-agent: MauiBot
Disallow: /
User-agent: MegaIndex.ru
Disallow: /
User-agent: BLEXBot
Disallow: /
User-agent: ZoominfoBot
Disallow: /
User-agent: ExtLinksBot
Disallow: /
User-agent: hubspot
Disallow: /
User-agent: leiki
Disallow: /
User-agent: webmeup
Disallow: /
User-agent: Googlebot
Disallow: /
User-agent: googlebot-image
Disallow: /
User-agent: googlebot-mobile
Disallow: /
User-agent: yahoo-mmcrawler
Disallow: /
User-agent: yahoo-blogs/v3.9
Disallow: /
User-agent: Slurp
Disallow: /
User-agent: twiceler
Disallow: /
User-agent: AhrefsBot
Disallow: /
User-agent: psbot
Disallow: /
User-agent: YandexBot
Disallow: /
第二種方法,寶塔面板網站設置——配(pei)置文件(jian),將(jiang)需要(yao)屏蔽的蜘蛛(zhu)寫進配(pei)置文件(jian)代碼里:
#屏蔽垃圾蜘蛛
if ($http_user_agent ~* (SemrushBot|DotBot|MJ12bot|AhrefsBot|MauiBot|MegaIndex.ru|BLEXBot|ZoominfoBot|ExtLinksBot|hubspot|leiki|webmeup)) {
return 403;
}
第三(san)種方法防(fang)火墻里加過濾規則 再來抓就送你吃(chi)403!
常見的搜索引擎爬蟲
1、Googlebot(屏蔽!沒毛(mao)用)
Googlebot是(shi)(shi)谷歌(ge)的網(wang)絡爬(pa)(pa)蟲,其UA標識為“(compatible;Googlebot/2.1;+//www.google.com/bot.html)”。對大部分網(wang)站,Googlebot應該是(shi)(shi)爬(pa)(pa)取最(zui)勤快的爬(pa)(pa)蟲,能給優質博(bo)客(ke)帶(dai)來大量流量。
除了(le)爬(pa)(pa)取網頁的(de)Googlebot,常見(jian)的(de)還(huan)有圖片爬(pa)(pa)蟲(chong)Googlebot-Image、移(yi)動廣告爬(pa)(pa)蟲(chong)Mediapartners-Google等(deng)。
2、Baiduspider
Baiduspider是百(bai)度的網頁爬蟲,中(zhong)文(wen)站很(hen)常見。其UA標識為“(compatible;Baiduspider/2.0;+//www.baidu.com/search/spider.html)”。
除(chu)了(le)網(wang)頁(ye)爬(pa)蟲,手機百度爬(pa)蟲Baiduboxapp、渲染抓取Baiduspider-render等。
3、bingbot
bingbot是微(wei)軟bing搜索的爬蟲(chong),其(qi)UA標識為(wei)“(compatible;bingbot/2.0;+//www.bing.com/bingbot.htm)”。
自(zi)微軟推廣bing搜索品(pin)牌(pai)后,微軟原來(lai)(lai)的爬蟲MSNBot越(yue)來(lai)(lai)越(yue)少見到了(le)。
4、360Spider
360Spider是(shi)360搜索的爬蟲(chong),其UA標識(shi)為“Mozilla/5.0(Windows NT 10.0;Win64;x64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/71.0.3578.98 Safari/5 37.36;360Spider”。
目前360搜索份額較(jiao)少,這個爬蟲(chong)不是很常見。
5、Sogou web spider
Sogou web spider是搜狗搜索的網(wang)頁爬蟲,其(qi)UA標識(shi)為“Sogou web spider/4.0(+//www.sogou.com/docs/help/webmasters.htm#07)”。背靠騰訊,搜狗目(mu)前市場份額(e)在(zai)上升,因此其(qi)網(wang)絡爬蟲比較勤快,經常能看到(dao)。
訪問日志搜索Sogou,除了Sogou web spider,還常(chang)見SogouMSE、SogouMobileBrowser。這是搜狗手機瀏覽器的UA標識(shi),不是爬(pa)蟲。
6、YisouSpider
YisouSpider是(shi)(shi)神馬(ma)搜索的爬蟲,UA標識是(shi)(shi)“Mozilla/5.0(Windows NT 6.1;Win64;x64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/69.0.3497.81 YisouSpider/5.0 Safari/537.36”。
神馬成立初期太瘋狂(kuang)抓取(qu)網頁導致一(yi)些小網站(zhan)崩潰(kui)而惹的天(tian)怒人怨。隨著市(shi)場份額提升和數據完善(shan),目(mu)前YisouSpider還算克制,不再瘋狂(kuang)抓取(qu)。
從名字上看(kan),神馬搜(sou)索(suo)的發音類似于(yu)宜(yi)搜(sou),但和(he)專(zhuan)注(zhu)小說搜(sou)索(suo)的“宜(yi)搜(sou)(//easou.com/)”不是(shi)(shi)同(tong)一家(jia)公司。神馬搜(sou)索(suo)是(shi)(shi)UC合(he)并到阿里(li)后推出的移動搜(sou)索(suo)引擎,而宜(yi)搜(sou)在(zai)2G wap時代就已經名聲在(zai)外。
7、YandexBot(屏蔽!沒毛用)
YandexBot是俄羅斯最大搜索引擎和互聯(lian)網(wang)(wang)巨頭Yandex的網(wang)(wang)頁爬蟲,其UA標識是“(compatible;YandexBot/3.0;+//yandex.com/bots)”。
Yandex提(ti)供中(zhong)文(wen)界面和中(zhong)文(wen)搜索(suo),也是少數(shu)目前能(neng)直接(jie)打開的國外(wai)搜索(suo)引(yin)擎。隨著越來(lai)越多中(zhong)國人知道(dao)Yandex,YandexBot在(zai)中(zhong)文(wen)網站日志里越來(lai)越常見。
8、DuckDuckGo
DuckDuckGo是DuckDuckGo的網頁爬蟲,其UA標識是“Mozilla/5.0(Linux;Android 10)AppleWebK it/537.36(KHTML,like Gecko)Version/4.0 Chrome/81.0.4044.138 Mobile Safari/537.36 DuckDuckGo/5”。
DuckDuckGo主打隱(yin)私、安全(quan)、不(bu)監控用戶(hu)記錄,界面(mian)簡潔,也提供中文搜索界面(mian)。
除了上(shang)述搜(sou)索引擎(qing)爬(pa)(pa)蟲,WordPress等提供(gong)feed訂閱的網站(zhan)還常見(jian)newblur和feedly的訪(fang)問(wen)記錄。這兩個不是爬(pa)(pa)蟲,而是訂閱軟件,也能(neng)給網站(zhan)帶來流量。
常見(jian)的(de)網(wang)絡惡意垃圾爬蟲(chong)蜘蛛
上面說(shuo)的搜索引(yin)擎爬蟲能給網站帶來(lai)流(liu)量(liang),也有許多(duo)爬蟲除了增加服務器負擔(dan),對網站沒任(ren)何(he)好處,應該屏(ping)蔽掉。
1、MJ12Bot
MJ12Bot是英國著名SEO公司Majestic的網(wang)(wang)絡爬蟲,其抓取網(wang)(wang)頁(ye)給(gei)(gei)需要(yao)做(zuo)SEO的人用,不會給(gei)(gei)網(wang)(wang)站帶來流(liu)量(liang)。
2、AhrefsBot
AhrefsBot是知名SEO公司(si)Ahrefs的網頁爬蟲。其(qi)同(tong)樣抓取網頁給SEO專業人士用,不會給網站帶來流(liu)量(liang)。
3、SEMrushBot
SEMrushBot也是(shi)SEO、營銷公(gong)司的(de)網絡爬蟲。
4、DotBot
DotBot是(shi)Moz.com的網(wang)頁(ye)爬蟲,抓取數據用來支持Moz tools等(deng)工(gong)具。
5、MauiBot
MauiBot不(bu)同于其他爬蟲,這個(ge)(ge)爬蟲連(lian)網站都沒有,UA只顯(xian)示一(yi)(yi)個(ge)(ge)郵箱:”MauiBot(crawler.feedback+wc gm ail.com)“。神奇的(de)是(shi)(shi)這個(ge)(ge)看(kan)起來(lai)是(shi)(shi)個(ge)(ge)人爬蟲,竟然遵循robots協議(yi),算得上垃圾爬蟲的(de)一(yi)(yi)股清流。
6、MegaIndex.ru
這是一個提供反向鏈接查詢的(de)(de)網(wang)站的(de)(de)蜘蛛,因此(ci)它爬網(wang)站主要是分(fen)析鏈接,并沒有什么作用。遵循robots協議。
7、BLEXBot
這個(ge)是(shi)webmeup下(xia)面的(de)蜘蛛,作用是(shi)收集網站上面的(de)鏈接,對我們來說(shuo)并沒有用處。遵循robots協(xie)議。
SemrushBot,這是semrush下面的(de)一(yi)個蜘(zhi)蛛,是一(yi)家做搜索引(yin)擎優化的(de)公(gong)司,因此它抓取網(wang)頁的(de)目的(de)就很明(ming)顯(xian)了(le)。這種蜘(zhi)蛛對網(wang)站沒(mei)有任(ren)何(he)用處,好在(zai)它還(huan)遵循robots協議,因此可以直接在(zai)robots屏蔽(bi)。
DotBot,這是moz旗下(xia)的,作用是提供seo服務的蜘蛛,但是對我們并沒(mei)有什么用處。好在遵循(xun)robots協議,可以使用robots屏蔽
AhrefsBot,這是ahrefs旗(qi)下的蜘蛛,作(zuo)用(yong)是提供seo服(fu)務(wu),對我們沒有(you)任何用(yong)處,遵(zun)循robots協(xie)議(yi)。
MJ12bot,這是英國的一個搜索引擎(qing)蜘蛛,但是對中文站(zhan)站(zhan)點就沒有用(yong)處(chu)了(le),遵循robots協議(yi)。
MauiBot,這個不太清楚是什么,但是有(you)時候很瘋狂,好在遵循(xun)robots協(xie)議(yi)。
MegaIndex.ru,這(zhe)是一個提供(gong)反向鏈(lian)接查詢的網(wang)(wang)站的蜘蛛,因此它爬網(wang)(wang)站主要是分(fen)析(xi)鏈(lian)接,并沒有什么(me)作用(yong)。遵循robots協議。
BLEXBot,這(zhe)個是webmeup下面(mian)的蜘(zhi)蛛,作用是收(shou)集網站上面(mian)的鏈接(jie),對我們來說并沒有用處。遵循robots協議(yi)
等等……………
主要是(shi)將從(cong)網(wang)站日志中發現(xian)的一(yi)些(xie)(xie)異常抓取(qu)的蜘蛛(zhu)屏蔽掉(diao),我上面列舉的是(shi)一(yi)些(xie)(xie)常見(jian)的對我們(men)網(wang)站沒啥用處的蜘蛛(zhu),將這(zhe)些(xie)(xie)蜘蛛(zhu)屏蔽掉(diao)就好了。
第二種方法屏蔽的效(xiao)果:
谷歌(ge)一個ip來(lai)不了(le),沒毛用!一天來(lai)抓幾千次,浪費寬帶。