主體內(nèi)容不能空短,空短內(nèi)容也會(huì)被判斷為無價(jià)值內(nèi)容。
?
舉個(gè)例子:某網(wǎng)站反饋網(wǎng)站內(nèi)容未被建索引,分析發(fā)現(xiàn),網(wǎng)站抓取沒有問題,但被抓取到的頁面,都提示需要輸入驗(yàn)證碼才能查看全部頁面,這類頁面被判斷為空短頁面,這類頁面在抓取后,會(huì)被判定為垃圾內(nèi)容。
?
網(wǎng)站主體內(nèi)容太短被判斷無價(jià)值內(nèi)容原因:
1、蜘蛛對(duì)一個(gè)網(wǎng)站抓取后發(fā)現(xiàn)大面積都是低值的空短頁面時(shí),爬蟲會(huì)認(rèn)為這個(gè)站點(diǎn)的整體價(jià)值比較低,導(dǎo)致針對(duì)該站點(diǎn)的頁面更新會(huì)比較慢,進(jìn)而抓取甚至建索引庫也會(huì)比較慢。
?
2、網(wǎng)站內(nèi)容未全部搭建完成,未對(duì)外開放,但已被蜘蛛爬取發(fā)現(xiàn)。針對(duì)這種情況,建議網(wǎng)站在邀請測試階段使用robots封禁。
?
3、有些網(wǎng)站,設(shè)置用戶查看權(quán)限,如需用戶登陸才能查看全部內(nèi)容,這樣的行為對(duì)搜索引擎也極不友好,蜘蛛無法模擬用戶登陸,僅能抓取網(wǎng)站已展示頁面,可能會(huì)導(dǎo)致抓取頁面為空短的現(xiàn)象。
閱讀本文的人還可以閱讀: