詳解搜索軟件蜘蛛IP
發(fā)布日期:2015-10-23 00:00 來(lái)源:http://m.0851xb.cn 點(diǎn)擊:
搜索軟件蜘蛛是什么?搜索軟件蜘蛛是搜索軟件搜索引擎的一個(gè)爬行程序,搜索軟件蜘蛛的作用是手機(jī)互聯(lián)網(wǎng)的文字網(wǎng)頁(yè)、圖片、視頻、等內(nèi)容,然后將這些內(nèi)容分類(lèi)建立索引數(shù)據(jù)庫(kù)排名,使用戶能在搜索軟件搜索中看到你相應(yīng)的結(jié)果!筆者也在網(wǎng)上找了很久,都沒(méi)找到比較詳細(xì)搜索軟件蜘蛛IP以及其原理的深入淺出介紹,特意整理下網(wǎng)上的資料加上筆者本人的一些見(jiàn)解整理出這篇詳解搜索軟件蜘蛛!
從搜索軟件官方站長(zhǎng)平臺(tái)上可以看出官方說(shuō)是沒(méi)有所謂的高權(quán)重和低權(quán)重的蜘蛛IP分別的!不要亂聽(tīng)信網(wǎng)上那些說(shuō)的千篇一律的蜘蛛IP解釋,其實(shí)搜索軟件的蜘蛛IP據(jù)不完全統(tǒng)計(jì)都有差不多上百個(gè),可以確定的是每個(gè)IP都有其不同的作用!
如果要知道一個(gè)搜索軟件蜘蛛的是好是壞,首先要了解搜索軟件常用抓取返回碼示意和搜索軟件支持的返回碼(返回碼在網(wǎng)站日志里面可以看到,如果不知道怎么查看網(wǎng)站日志或者怎么分析網(wǎng)站日志請(qǐng)看:SEO之網(wǎng)站日志詳解):
一:網(wǎng)站日志里面常見(jiàn)的返回值是404,這個(gè)代表網(wǎng)頁(yè)已經(jīng)失效找不到,已經(jīng)在庫(kù)中被刪除了,在段時(shí)間內(nèi)如果蜘蛛發(fā)現(xiàn)這條URL也不會(huì)去抓取這個(gè)URL!
二:返回值503代表網(wǎng)頁(yè)臨時(shí)不可以訪問(wèn),如果網(wǎng)站臨時(shí)關(guān)閉或者寬度有限的情況可能會(huì)產(chǎn)生這種情況,如果返回503代碼,搜索軟件蜘蛛不會(huì)將這條URL直接刪除,同時(shí)在短時(shí)間內(nèi)會(huì)訪問(wèn)該URL幾次,如果該頁(yè)面已經(jīng)恢復(fù),那么蜘蛛會(huì)正常抓取,如果頁(yè)面URL繼續(xù)返回503的話,那么這條URL會(huì)被蜘蛛認(rèn)為是失效鏈接,從而從數(shù)據(jù)庫(kù)里面刪除!
三:返回值如果是403的話代表網(wǎng)頁(yè)當(dāng)前是禁止訪問(wèn)的,這個(gè)時(shí)候就要檢查下自己的robots.txt看看是不是禁止抓取了當(dāng)前頁(yè)面,如果是條新的URL,蜘蛛會(huì)暫時(shí)不抓取,會(huì)在短期內(nèi)訪問(wèn)該URL幾次,如果是已經(jīng)收錄的,那么在訪問(wèn)幾次后,如果能正常訪問(wèn)的話就抓取,如果還是禁止訪問(wèn)的話,該URL就會(huì)被認(rèn)為是無(wú)效鏈接,從搜索引擎庫(kù)中刪除!
四:如果返回值是301的話代表是網(wǎng)頁(yè)重定向到新的URL,這個(gè)大部分站長(zhǎng)都懂就不贅續(xù)了!
五:如果返回值是200的話,就代表是正常訪問(wèn),正常爬取該URL!
六:返回碼是304的話就代表,蜘蛛有來(lái)爬取但是爬取的頁(yè)面跟庫(kù)中的頁(yè)面是一致的那么返回就是304,一般情況下如果是靜態(tài)頁(yè)面不更新的話,那么極有可能就是返回304代碼!如果一個(gè)網(wǎng)站被搜索引擎抓取的次數(shù)以及頻率越多那么他是越有利于排名的,但是如果你的網(wǎng)站出現(xiàn)太多的304,那么一定會(huì)降低搜索引擎的抓取頻率以及次數(shù),從而讓自己的網(wǎng)站排名比別人落一步
日志分析實(shí)例
2014-9-18 23:45:33 W3SVC7499849XX 61.145.116.XX GET /asyj/1112_5544.html – 80 – 123.125.71.78 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://***.baidu.coX/search/spider.html[1] ) 304 0 0
其實(shí)這段文字是這樣理解的。
2014-9-18 23:45:33 ——代表訪問(wèn)的日期和時(shí)間。W3SVC7499849XX ——代表虛擬主機(jī)的名稱61.145.116.XX ——代表訪問(wèn)ip,GET ——代表訪問(wèn)的方法, /asyj/1112_5544.html——代表具體訪問(wèn)的文件 80 ——代表訪問(wèn)的端口 123.125.71.78 ——代表來(lái)源ip
Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://***.baidu.coX/search/spider.html) ——代表訪問(wèn)來(lái)源;這里是代表搜索軟件蜘蛛。注*換為w ,304 ——304返回碼。這個(gè)也是這里介紹的重點(diǎn)。這里表示客戶端已經(jīng)執(zhí)行了GET,但文件未變化 ,前一個(gè)0 ——代表服務(wù)端傳送到客戶端的字節(jié)大小 ,后一個(gè)0 ——代表客戶端傳送到服務(wù)端的字節(jié)大小
從這一段日志。我們可以看出這次搜索軟件蜘蛛訪問(wèn)的結(jié)果的返回了一個(gè)304狀態(tài)碼。那么搜索引擎就不會(huì)對(duì)我們的頁(yè)面進(jìn)行再次抓取了
詳解搜索軟件蜘蛛IP之搜索軟件IP分析:剛上面搜索軟件官方平臺(tái)說(shuō)了沒(méi)有什么降權(quán)蜘蛛和提權(quán)蜘蛛的分別,權(quán)重上升的過(guò)程中也不乏出現(xiàn)所謂的降權(quán)蜘蛛,如果你仔細(xì)觀察你的蜘蛛IP在對(duì)比網(wǎng)上所謂的提權(quán)和降權(quán)蜘蛛發(fā)現(xiàn)很多根本都是說(shuō)不通的!
一:搜索軟件服務(wù)器有N個(gè),同樣搜索軟件的蜘蛛IP也是有很多而且全國(guó)的線路都不一樣,移動(dòng)電信等等都有,所以肯定會(huì)有不同線路的IP段!
二、不同線路蜘蛛ip來(lái)了后,對(duì)網(wǎng)站的體驗(yàn)是不一樣的(比如電信蜘蛛讀數(shù)據(jù)超時(shí)、移動(dòng)線路蜘蛛ip太胖爬行慢數(shù)據(jù)滯后),可能獲取多個(gè)不一樣的網(wǎng)頁(yè)快照,因此搜索軟件就需要按一定算法,將這些快照進(jìn)行存儲(chǔ)到不同的地方,之后根據(jù)情況調(diào)整一些ip,比如電信蜘蛛讀數(shù)據(jù)超時(shí)再來(lái)爬行還是超時(shí),那么可能持續(xù)一段時(shí)間這個(gè)ip會(huì)一直來(lái)(或者換其他電信ip來(lái)),當(dāng)達(dá)到一定門(mén)閥值,再結(jié)合普通電信用戶的訪問(wèn)情況來(lái)看,如果其他電信用戶同樣訪問(wèn)超時(shí),各種指標(biāo)偏低,那么決定你的網(wǎng)站在電信這條線路來(lái)看是不可靠的。這樣就會(huì)形成上述所說(shuō)的一些seoer看到了網(wǎng)站搜索量下降或排名下降的現(xiàn)象,這時(shí)這個(gè)超時(shí)的搜索軟件電信蜘蛛ip就被當(dāng)成降權(quán)蜘蛛。換一種思路,如果搜索軟件換另一個(gè)電信ip來(lái)檢查你網(wǎng)站的訪問(wèn)情況,結(jié)果這個(gè)蜘蛛ip現(xiàn)在是訪問(wèn)良好的,其他普通電信用戶訪問(wèn)指標(biāo)也改善了,搜索軟件就決定你的網(wǎng)站質(zhì)量可靠了,那么你的網(wǎng)站搜索量上升或排名上升。當(dāng)然這僅僅是以蜘蛛ip訪問(wèn)超時(shí)的情況來(lái)說(shuō)明,網(wǎng)頁(yè)的質(zhì)量因素較多,不再綜合來(lái)說(shuō)。
因此研究特定段搜索軟件蜘蛛的ip是沒(méi)有多大價(jià)值的,建議研究不同線路的搜索軟件蜘蛛ip的訪問(wèn)情況以及結(jié)合各線路的普通用戶的訪問(wèn)情況,這樣才是價(jià)值王道。
詳解搜索軟件蜘蛛IP:本文沒(méi)有對(duì)搜索軟件各個(gè)蜘蛛IP的詳細(xì)解說(shuō),但是說(shuō)出了本人的觀點(diǎn),其實(shí)確實(shí)沒(méi)有所謂的降權(quán)提權(quán)蜘蛛,只要你把SEO個(gè)方面做好,打好基礎(chǔ),做好細(xì)節(jié),不管爬過(guò)來(lái)的是什么蜘蛛你的排名流量照樣能做上來(lái)!