爱啪啪影视_色多多污网站_免费在线欧美_大炕强伦**

旗下網站

互聯網新聞

報道公司事件 · 傳播行業(yè)動態(tài)

搜索引擎訪問網站返回碼最全解答

發(fā)布日期:2018-06-26    發(fā)布者:消息

  當搜索引擎蜘蛛抓取網站的時候,每一次都會有一個返回碼,表示本條內容抓取的狀態(tài),我們可以通過網站日志中查看這些返回碼信息,來提升青島網站建設的優(yōu)化效果。

  你把IIS日志從空間下到自己電腦,然后用文本工具打開;

  2010-05-14 15:52:03 W3SVC1 121。187。5。143 GET /category-8-b0-min1100-max2200.html - 80 - 220.181.7.74 Baiduspider+(+baidu/search/spider.htm) 200 0 0

  分析下 200 0 0組成部分 sc-status(協(xié)議狀態(tài)) sc-substatus(協(xié)議子狀態(tài)) sc-win32-status(Win32狀態(tài)碼)

  sc-status(協(xié)議狀態(tài)): 200 連接成功

  sc-substatus(協(xié)議子狀態(tài)) :0 成功

  sc-win32-status(Win32狀態(tài)碼):0 代表抓取成功并帶回數據庫 ; 64 指定的網絡名不再可用

  1: 在這個訪問記錄里面121.187.5.143是你服務器的IP地址,220.181.7.74 是bd蜘蛛的IP,/category-8-b0-min1100-max2200.html 為蜘蛛訪問你的頁面 80是端口 GET是打開方式 W3SVC1是記錄的文件夾,這里說明,bd蜘蛛已經訪問了你的category-8-b0-min1100-max2200.html 這個頁面,那么最重要的是最后面的這個參數200 0 0。

  2、200 0 0 成功訪問該頁面,0代表抓取成功并帶回數據庫。這個時候你就放心了,這個頁面已經被bd收錄,但是還沒有釋放出來,bd更新時就可能釋放出來。

  3:200 0 64 網絡上流傳著這么三種解釋

  第164為K站的前兆。

  第264的出現只是64位操作系統(tǒng)。

  第三:網絡不可達,由于某種原因無法完全打開頁面,或者網絡不穩(wěn)定這些原因,導致蜘蛛無法帶回頁面或者說不抓取該頁面,

  所以200 0 64的解釋也應該為:訪問了該頁面,但并沒有任何抓取也沒有帶回數據庫。這種原因多為空間不穩(wěn)定、服務器不穩(wěn)定。

  或者說是蜘蛛訪問了但快照不更新

  4:304 0 0這個返回碼代表蜘蛛訪問的頁面沒有更新,和他之前來的時候是一樣的,所以看到這個不要擔心,蜘蛛來過,只不過你沒有更新,所以他也不愿意帶走這個頁面。

  5:404 0 0這個是代表404頁面,但是有個很嚴重的問題,這個返回碼告訴我們,蜘蛛來到了404頁面并把他帶走了

  ,要是這樣的話基本上你要倒霉了,要你有太多的404,那么蜘蛛就會不斷是抓取,不斷的帶走,這樣會造成無數的重復頁面,最終導致K站或者降權,

  正確的返回碼是404 0 64 這就代表蜘蛛沒有抓取你這個頁面。 (好像是內容有死鏈的意思)

  6:500錯誤500錯誤是服務器內部錯誤,是由程序的錯誤造成的,我不懂程序,但是500錯誤是會給你減分的,這點基本的邏輯都可以想的到,要發(fā)現500錯誤,馬上查看是哪個頁面的,然后去修正以下錯誤吧!

  7:302要在日志中發(fā)現302的返回碼也是需要注意的,302為臨時重定向,要你是長期的將這個頁面重定向到另一個頁面,麻煩你使用301永久重定向,要是302的話bd蜘蛛下次來還會訪問這個頁面,這樣又會造成復制大量頁面的問題,結果肯定是K,所以,抽空檢查以下。

  每個網絡蜘蛛都有自己的名字,在抓取網頁的時候,都會向網站標明自己的身份。網絡蜘蛛在抓取網頁的時候會發(fā)送一個請求,這個請求中就有一個字段為User-agent,用于標識此網絡蜘蛛的身份。例如Google網絡蜘蛛的標識為GoogleBot,Baidu網絡蜘蛛的標識為BaiDuSpider,Yahoo網絡蜘蛛的標識為Inktomi Slurp。

  返回碼大全:

  2xx 成功

  200 正常;請求已完成。

  201 正常;緊接 POST 命令。

  202 正常;已接受用于處理,但處理尚未完成。

  203 正常;部分信息 — 返回的信息只是一部分。

  204 正常;無響應 — 已接收請求,但不存在要回送的信息。

  3xx 重定向

  301 已移動 — 請求的數據具有新的位置且更改是永久的。

  302 已找到 — 請求的數據臨時具有不同 URI。

  303 請參閱其它 — 可在另一 URI 下找到對請求的響應,且應使用 GET 方法檢索此響應。

  304 未修改 — 未按預期修改文檔。

  305 使用代理 — 必須通過位置字段中提供的代理來訪問請求的資源。

  306 未使用 — 不再使用;保留此代碼以便將來使用。

  4xx 客戶機中出現的錯誤

  400 錯誤請求 — 請求中有語法問題,或不能滿足請求。

  401 未授權 — 未授權客戶機訪問數據。

  402 需要付款 — 表示計費系統(tǒng)已有效。

  403 禁止 — 即使有授權也不需要訪問。

  404 找不到 — 服務器找不到給定的資源;文檔不存在。

  407 代理認證請求 — 客戶機首先必須使用代理認證自身。

  415 介質類型不受支持 — 服務器拒絕服務請求,因為不支持請求實體的格式。

  5xx 服務器中出現的錯誤

  500 內部錯誤 — 因為意外情況,服務器不能完成請求。

  501 未執(zhí)行 — 服務器不支持請求的工具。

  502 錯誤網關 — 服務器接收到來自上游服務器的無效響應。

  503 無法獲得服務 — 由于臨時過載或維護,服務器無法處理請求。

  如果在網站上有訪問日志記錄,網站管理員就能知道,哪些搜索引擎的網絡蜘蛛過來過,什么時候過來的,以及讀了多少數據等等。

  根據不同的IP我們可以分析網站是個怎樣的狀態(tài).下面就按照我IIS日記上的百度蜘蛛IP為例:

  123.125.68.*這個蜘蛛經常來,別的來的少,表示網站可能要進入沙盒了,或被者降權。

  220.181.68.*每天這個IP 段只增不減很有可能進沙盒或K站。

  220.181.7.*、123.125.66.* 代表百度蜘蛛IP造訪,準備抓取你東西。

  121.14.89.*這個ip段作為度過新站考察期。

  203.208.60.*這個ip段出現在新站及站點有不正常現象后。

  210.72.225.*這個ip段不間斷巡邏各站。

  125.90.88.* 廣東茂名市電信也屬于百度蜘蛛IP 主要造成成分,是新上線站較多,還有使用過站長工具,或SEO綜合檢測造成的。

  220.181.108.95這個是百度抓取首頁的專用IP,如是220.181.108段的話,基本來說你的網站會天天隔夜快照,絕對錯不了的,我保證。

  220.181.108.92 同上98%抓取首頁,可能還會抓取其他 (不是指內頁)220.181段屬于權重IP段此段爬過的文章或首頁基本24小時放出來。

  123.125.71.106 抓取內頁收錄的,權重較低,爬過此段的內頁文章不會很快放出來,因不是原創(chuàng)或采集文章。

  220.181.108.91屬于綜合的,主要抓取首頁和內頁或其他,屬于權重IP 段,爬過的文章或首頁基本24小時放出來。

  220.181.108.75重點抓取更新文章的內頁達到90%,8%抓取首頁,2%其他。權重IP 段,爬過的文章或首頁基本24小時放出來。

  220.181.108.86專用抓取首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。

  123.125.71.95 抓取內頁收錄的,權重較低,爬過此段的內頁文章不會很快放出來,因不是原創(chuàng)或采集文章。

  123.125.71.97 抓取內頁收錄的,權重較低,爬過此段的內頁文章不會很快放出來,因不是原創(chuàng)或采集文章。

  220.181.108.89專用抓取首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。

  220.181.108.94專用抓取首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。

  220.181.108.97專用抓取首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。

  220.181.108.80專用抓取首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。

  220.181.108.77 專用抓首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。

  123.125.71.117 抓取內頁收錄的,權重較低,爬過此段的內頁文章不會很快放出來,因不是原創(chuàng)或采集文章。

  220.181.108.83專用抓取首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。

  注:以上IP尾數還有很多,但段位一樣的123.125.71.*段IP 代表抓取內頁收錄的權重比較低.可能由于你采集文章或拼文章暫時被收錄但不

  放出來.(意思也就是說待定)。

  220.181.108.*段IP主要是抓取首頁占80%,內頁占30%,這此爬過的文章或首頁,絕對24小時內放出來和隔夜快照的,這點我可以保證!

  一般成功抓取返回代碼都是 200 0 0返回304 0 0代表網站沒更新,蜘蛛來過,如果是 200 0 64別擔心這不是K站,可能是網站是動態(tài)的,

  所以返回就是這個代碼。

Copyright 大連網龍科技 版權所有 遼ICP備14006349號  html - txt - xml

遼公網安備 21021702000140號

電話
客服