什么是百度spider?
百度spider是百度搜索引擎的自動(dòng)程序,主要是訪問(wèn)互聯(lián)網(wǎng)上的網(wǎng)頁(yè),建立索引數(shù)據(jù)庫(kù),讓用戶在百度搜索引擎中能訪問(wèn)到你的網(wǎng)站。
?
百度spider遇到的問(wèn)題有哪些?
1、為什么spider一直抓取網(wǎng)站?
答:如果你的網(wǎng)站上不斷的產(chǎn)生新的頁(yè)面,spider就會(huì)持續(xù)的抓取??梢酝ㄟ^(guò)觀察網(wǎng)絡(luò)日志spider訪問(wèn)是否正常,會(huì)出現(xiàn)惡意冒充spider來(lái)抓取網(wǎng)站,如果發(fā)現(xiàn)異常,可以在百度搜索資源平臺(tái)反饋中心反饋。
?
2、網(wǎng)站上某些頁(yè)面不想被spider訪問(wèn),要怎么處理?
答:網(wǎng)站不想被spider抓取的頁(yè)面,可以利用robots.txt文件禁止spider訪問(wèn)。
?
3、網(wǎng)站已經(jīng)加了robots.txt,為什么還能在百度搜索出來(lái)?
答:搜索引擎索引數(shù)據(jù)庫(kù)更新需要時(shí)間。雖然網(wǎng)站上設(shè)置了robots.txt禁止spider訪問(wèn),但在百度搜索引擎數(shù)據(jù)庫(kù)中已經(jīng)建立的網(wǎng)頁(yè)索引信息,短時(shí)間內(nèi)不能快速清除的,也可以檢查robots設(shè)置是否正確。
?
4、網(wǎng)站的內(nèi)容只想被百度索引,不想被快照保存。
答:可以使用meta robots協(xié)議。在網(wǎng)頁(yè)中設(shè)置meta,百度顯示只對(duì)該網(wǎng)頁(yè)建索引,不會(huì)在搜索結(jié)果中顯示網(wǎng)頁(yè)快照。
?
5、為什么spider抓取會(huì)造成寬帶堵塞?
答:正常抓取的情況下是不會(huì)造成寬帶堵塞的現(xiàn)象,除非是有人冒充spider抓取網(wǎng)站。如果遇到這類現(xiàn)象,提供網(wǎng)站該時(shí)段的訪問(wèn)日志給百度搜索資源平臺(tái)反饋中心。
?
百度spider會(huì)遇到的問(wèn)題總結(jié)了以上五點(diǎn),問(wèn)題是源源不斷的,后續(xù)還會(huì)繼續(xù)給大家總結(jié)更多的問(wèn)題以及解決方案。
閱讀本文的人還可以閱讀: