屏蔽國外垃圾無用蜘蛛，防止大量抓取導致網站崩潰浪費帶寬

2024-12-13 09:34 技術文檔

最近(jin)發現(xian)一些(xie)國(guo)外垃圾(ji)蜘蛛頻繁抓我網站頁面(mian)，白浪費消耗服(fu)務(wu)器性能。所(suo)以要屏蔽他們這(zhe)些(xie)垃圾(ji)蜘蛛抓取，這(zhe)里介紹兩種方法一同操作進行屏蔽：

第一種方法：直接(jie)在(zai)根目錄下(xia)robots.txt文(wen)件里面(mian)屏(ping)蔽掉相(xiang)關垃圾蜘蛛：

User-agent: SemrushBot

Disallow: /

User-agent: DotBot

Disallow: /

User-agent: MJ12bot

Disallow: /

User-agent: AhrefsBot

Disallow: /

User-agent: MauiBot

Disallow: /

User-agent: MegaIndex.ru

Disallow: /

User-agent: BLEXBot

Disallow: /

User-agent: ZoominfoBot

Disallow: /

User-agent: ExtLinksBot

Disallow: /

User-agent: hubspot

Disallow: /

User-agent: leiki

Disallow: /

User-agent: webmeup

Disallow: /

User-agent: Googlebot

Disallow: /

User-agent: googlebot-image

Disallow: /

User-agent: googlebot-mobile

Disallow: /

User-agent: yahoo-mmcrawler

Disallow: /

User-agent: yahoo-blogs/v3.9

Disallow: /

User-agent: Slurp

Disallow: /

User-agent: twiceler

Disallow: /

User-agent: AhrefsBot

Disallow: /

User-agent: psbot

Disallow: /

User-agent: YandexBot

Disallow: /

第二種方法，寶塔面板網站設置——配(pei)置文件(jian)，將(jiang)需要(yao)屏蔽的蜘蛛(zhu)寫進配(pei)置文件(jian)代碼里：

#屏蔽垃圾蜘蛛

if ($http_user_agent ~* (SemrushBot|DotBot|MJ12bot|AhrefsBot|MauiBot|MegaIndex.ru|BLEXBot|ZoominfoBot|ExtLinksBot|hubspot|leiki|webmeup)) {

return 403;

}

第三(san)種方法防(fang)火墻里加過濾規則再來抓就送你吃(chi)403！

常見的搜索引擎爬蟲

1、Googlebot（屏蔽！沒毛(mao)用）

Googlebot是(shi)(shi)谷歌(ge)的網(wang)絡爬(pa)(pa)蟲，其UA標識為“(compatible;Googlebot/2.1;+//www.google.com/bot.html)”。對大部分網(wang)站，Googlebot應該是(shi)(shi)爬(pa)(pa)取最(zui)勤快的爬(pa)(pa)蟲，能給優質博(bo)客(ke)帶(dai)來大量流量。

除了(le)爬(pa)(pa)取網頁的(de)Googlebot，常見(jian)的(de)還(huan)有圖片爬(pa)(pa)蟲(chong)Googlebot-Image、移(yi)動廣告爬(pa)(pa)蟲(chong)Mediapartners-Google等(deng)。

2、Baiduspider

Baiduspider是百(bai)度的網頁爬蟲，中(zhong)文(wen)站很(hen)常見。其UA標識為“(compatible;Baiduspider/2.0;+//www.baidu.com/search/spider.html)”。

除(chu)了(le)網(wang)頁(ye)爬(pa)蟲，手機百度爬(pa)蟲Baiduboxapp、渲染抓取Baiduspider-render等。

3、bingbot

bingbot是微(wei)軟bing搜索的爬蟲(chong)，其(qi)UA標識為(wei)“(compatible;bingbot/2.0;+//www.bing.com/bingbot.htm)”。

自(zi)微軟推廣bing搜索品(pin)牌(pai)后，微軟原來(lai)(lai)的爬蟲MSNBot越(yue)來(lai)(lai)越(yue)少見到了(le)。

4、360Spider

360Spider是(shi)360搜索的爬蟲(chong)，其UA標識(shi)為“Mozilla/5.0(Windows NT 10.0;Win64;x64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/71.0.3578.98 Safari/5 37.36;360Spider”。

目前360搜索份額較(jiao)少，這個爬蟲(chong)不是很常見。

5、Sogou web spider

Sogou web spider是搜狗搜索的網(wang)頁爬蟲，其(qi)UA標識(shi)為“Sogou web spider/4.0(+//www.sogou.com/docs/help/webmasters.htm#07)”。背靠騰訊，搜狗目(mu)前市場份額(e)在(zai)上升，因此其(qi)網(wang)絡爬蟲比較勤快，經常能看到(dao)。

訪問日志搜索Sogou，除了Sogou web spider，還常(chang)見SogouMSE、SogouMobileBrowser。這是搜狗手機瀏覽器的UA標識(shi)，不是爬(pa)蟲。

6、YisouSpider

YisouSpider是(shi)(shi)神馬(ma)搜索的爬蟲，UA標識是(shi)(shi)“Mozilla/5.0(Windows NT 6.1;Win64;x64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/69.0.3497.81 YisouSpider/5.0 Safari/537.36”。

神馬成立初期太瘋狂(kuang)抓取(qu)網頁導致一(yi)些小網站(zhan)崩潰(kui)而惹的天(tian)怒人怨。隨著市(shi)場份額提升和數據完善(shan)，目(mu)前YisouSpider還算克制，不再瘋狂(kuang)抓取(qu)。

從名字上看(kan)，神馬搜(sou)索(suo)的發音類似于(yu)宜(yi)搜(sou)，但和(he)專(zhuan)注(zhu)小說搜(sou)索(suo)的“宜(yi)搜(sou)(//easou.com/)”不是(shi)(shi)同(tong)一家(jia)公司。神馬搜(sou)索(suo)是(shi)(shi)UC合(he)并到阿里(li)后推出的移動搜(sou)索(suo)引擎，而宜(yi)搜(sou)在(zai)2G wap時代就已經名聲在(zai)外。

7、YandexBot（屏蔽！沒毛用）

YandexBot是俄羅斯最大搜索引擎和互聯(lian)網(wang)(wang)巨頭Yandex的網(wang)(wang)頁爬蟲，其UA標識是“(compatible;YandexBot/3.0;+//yandex.com/bots)”。

Yandex提(ti)供中(zhong)文(wen)界面和中(zhong)文(wen)搜索(suo)，也是少數(shu)目前能(neng)直接(jie)打開的國外(wai)搜索(suo)引(yin)擎。隨著越來(lai)越多中(zhong)國人知道(dao)Yandex，YandexBot在(zai)中(zhong)文(wen)網站日志里越來(lai)越常見。

8、DuckDuckGo

DuckDuckGo是DuckDuckGo的網頁爬蟲，其UA標識是“Mozilla/5.0(Linux;Android 10)AppleWebK it/537.36(KHTML,like Gecko)Version/4.0 Chrome/81.0.4044.138 Mobile Safari/537.36 DuckDuckGo/5”。

DuckDuckGo主打隱(yin)私、安全(quan)、不(bu)監控用戶(hu)記錄，界面(mian)簡潔，也提供中文搜索界面(mian)。

除了上(shang)述搜(sou)索引擎(qing)爬(pa)(pa)蟲，WordPress等提供(gong)feed訂閱的網站(zhan)還常見(jian)newblur和feedly的訪(fang)問(wen)記錄。這兩個不是爬(pa)(pa)蟲，而是訂閱軟件，也能(neng)給網站(zhan)帶來流量。

常見(jian)的(de)網(wang)絡惡意垃圾爬蟲(chong)蜘蛛

上面說(shuo)的搜索引(yin)擎爬蟲能給網站帶來(lai)流(liu)量(liang)，也有許多(duo)爬蟲除了增加服務器負擔(dan)，對網站沒任(ren)何(he)好處，應該屏(ping)蔽掉。

1、MJ12Bot

MJ12Bot是英國著名SEO公司Majestic的網(wang)(wang)絡爬蟲，其抓取網(wang)(wang)頁(ye)給(gei)(gei)需要(yao)做(zuo)SEO的人用，不會給(gei)(gei)網(wang)(wang)站帶來流(liu)量(liang)。

2、AhrefsBot

AhrefsBot是知名SEO公司(si)Ahrefs的網頁爬蟲。其(qi)同(tong)樣抓取網頁給SEO專業人士用，不會給網站帶來流(liu)量(liang)。

3、SEMrushBot

SEMrushBot也是(shi)SEO、營銷公(gong)司的(de)網絡爬蟲。

4、DotBot

DotBot是(shi)Moz.com的網(wang)頁(ye)爬蟲，抓取數據用來支持Moz tools等(deng)工(gong)具。

5、MauiBot

MauiBot不(bu)同于其他爬蟲，這個(ge)(ge)爬蟲連(lian)網站都沒有，UA只顯(xian)示一(yi)(yi)個(ge)(ge)郵箱：”MauiBot(crawler.feedback+wc gm ail.com)“。神奇的(de)是(shi)(shi)這個(ge)(ge)看(kan)起來(lai)是(shi)(shi)個(ge)(ge)人爬蟲，竟然遵循robots協議(yi)，算得上垃圾爬蟲的(de)一(yi)(yi)股清流。

6、MegaIndex.ru

這是一個提供反向鏈接查詢的(de)(de)網(wang)站的(de)(de)蜘蛛，因此(ci)它爬網(wang)站主要是分(fen)析鏈接，并沒有什么作用。遵循robots協議。

7、BLEXBot

這個(ge)是(shi)webmeup下(xia)面的(de)蜘蛛，作用是(shi)收集網站上面的(de)鏈接，對我們來說(shuo)并沒有用處。遵循robots協(xie)議。

SemrushBot，這是semrush下面的(de)一(yi)個蜘(zhi)蛛，是一(yi)家做搜索引(yin)擎優化的(de)公(gong)司，因此它抓取網(wang)頁的(de)目的(de)就很明(ming)顯(xian)了(le)。這種蜘(zhi)蛛對網(wang)站沒(mei)有任(ren)何(he)用處，好在(zai)它還(huan)遵循robots協議，因此可以直接在(zai)robots屏蔽(bi)。

DotBot,這是moz旗下(xia)的，作用是提供seo服務的蜘蛛，但是對我們并沒(mei)有什么用處。好在遵循(xun)robots協議，可以使用robots屏蔽

AhrefsBot，這是ahrefs旗(qi)下的蜘蛛，作(zuo)用(yong)是提供seo服(fu)務(wu)，對我們沒有(you)任何用(yong)處，遵(zun)循robots協(xie)議(yi)。

MJ12bot，這是英國的一個搜索引擎(qing)蜘蛛，但是對中文站(zhan)站(zhan)點就沒有用(yong)處(chu)了(le)，遵循robots協議(yi)。

MauiBot，這個不太清楚是什么，但是有(you)時候很瘋狂，好在遵循(xun)robots協(xie)議(yi)。

MegaIndex.ru，這(zhe)是一個提供(gong)反向鏈(lian)接查詢的網(wang)(wang)站的蜘蛛，因此它爬網(wang)(wang)站主要是分(fen)析(xi)鏈(lian)接，并沒有什么(me)作用(yong)。遵循robots協議。

BLEXBot,這(zhe)個是webmeup下面(mian)的蜘(zhi)蛛，作用是收(shou)集網站上面(mian)的鏈接(jie)，對我們來說并沒有用處。遵循robots協議(yi)

等等……………

主要是(shi)將從(cong)網(wang)站日志中發現(xian)的一(yi)些(xie)(xie)異常抓取(qu)的蜘蛛(zhu)屏蔽掉(diao)，我上面列舉的是(shi)一(yi)些(xie)(xie)常見(jian)的對我們(men)網(wang)站沒啥用處的蜘蛛(zhu)，將這(zhe)些(xie)(xie)蜘蛛(zhu)屏蔽掉(diao)就好了。

第二種方法屏蔽的效(xiao)果：

谷歌(ge)一個ip來(lai)不了(le)，沒毛用！一天來(lai)抓幾千次，浪費寬帶。

又狂又色又刺激又爽的视频,国产精品VA在线观看无码不卡,唐三?小舞18禁污污,香蕉大战欧美一级理论片,性爱国产,色国产色无码色综合,欧美强奸在线,超碰人人欧美,2016亚洲国产网址,欧美综合亚洲日韩精品二区

幫助

屏蔽國外垃圾無用蜘蛛，防止大量抓取導致網站崩潰浪費帶寬

相關推薦

產品

服務

幫助

關于

又狂又色又刺激又爽的视频,国产精品VA在线观看无码不卡,唐三?小舞18禁污污,香蕉大战欧美一级理论片,性爱国产,色国产色无码色综合,欧美强奸在线,超碰人人欧美,2016亚洲国产网址,欧美综合亚洲日韩精品二区

幫助

屏蔽國外垃圾無用蜘蛛，防止大量抓取導致網站崩潰浪費帶寬

相關推薦

產品

服務

幫助

關于

又狂又色又刺激又爽的视频,国产精品VA在线观看无码不卡,唐三?小舞18禁污污,香蕉大战欧美一级理论片,性爱国产,色国产色无码色综合,欧美强奸在线,超碰人人欧美,2016亚洲国产网址,欧美综合亚洲日韩精品二区