午夜精品久久久久久久第一页|97超碰中文字幕久久精品|久九九久福利精品视频视频|AV天堂午夜精品一区,久久综合狠狠综合久久综合88 ,欧美精品一线一区二区三区,欧美精品束缚一区二区三区

高端定制,品牌設(shè)計(jì)

指南針2005 - 2016作品集

指南針網(wǎng)絡(luò)科技有限公司

搜索引擎抓取網(wǎng)頁(yè)的方式

13-04-02 09:12:08 · 搜索引擎 ·

  做seo就是為了取悅搜索引擎那么我們必須要了解搜索引擎抓取頁(yè)面的方式 搜索引擎不可能一次性抓取到網(wǎng)站中所有的頁(yè)面而且網(wǎng)站中頁(yè)面的數(shù)量也會(huì)不斷地變化內(nèi)容也在不斷地更新。因此搜索引擎還需要對(duì)已經(jīng)抓取的頁(yè)面進(jìn)行維護(hù)、更新以便能及時(shí)獲取頁(yè)面中最新的信息及抓取更多的新頁(yè)面。常見頁(yè)面維護(hù)方式包括定期抓取、增量抓取及分類定位抓取。

  ●定期抓取 定期抓取也稱為周期性抓取即搜索引擎周期性地對(duì)網(wǎng)站中已收錄的頁(yè)面進(jìn)行全面更新。更新的時(shí)候把抓取到的新頁(yè)面替換原有的舊頁(yè)面刪除不存在的頁(yè)面并存儲(chǔ)新發(fā)現(xiàn)的頁(yè)面。周期性更新針對(duì)的是全部已收錄的頁(yè)面因此更新周期會(huì)比較長(zhǎng)。例如Google-般是3060天才會(huì)對(duì)已收錄的頁(yè)面進(jìn)行更新。 定期抓取算法的實(shí)現(xiàn)相對(duì)簡(jiǎn)單。由于每次更新涉及到網(wǎng)站中所有已經(jīng)收錄的頁(yè)面因此頁(yè)面權(quán)重的再分配也是同步進(jìn)行的。這種方式適用于維護(hù)頁(yè)面比較少、內(nèi)容更新緩慢的網(wǎng)站例如普通的企業(yè)網(wǎng)站。但是由于更新周期十分漫長(zhǎng)這就導(dǎo)致不能及時(shí)向用戶反映更新其間頁(yè)面的變化情況。例如某個(gè)頁(yè)面的內(nèi)容更新以后至少需要3060天才能在搜索引擎上有所體現(xiàn)。

  ●增量抓取 增量抓取是通過(guò)對(duì)已抓取的頁(yè)面進(jìn)行定時(shí)監(jiān)控實(shí)現(xiàn)對(duì)頁(yè)面的更新及維護(hù)。但是對(duì)網(wǎng)站中的每個(gè)頁(yè)面都進(jìn)行定時(shí)監(jiān)控的做法是不現(xiàn)實(shí)的。基于重要頁(yè)面攜帶重要內(nèi)容的思想以及80/20法則搜索引擎只需對(duì)網(wǎng)站中部分重要頁(yè)面進(jìn)行定時(shí)的監(jiān)控即可獲取網(wǎng)站中相對(duì)重要的信息。因此增量抓取只針對(duì)網(wǎng)站中某些重要的頁(yè)面而非所有已經(jīng)收錄的頁(yè)面這也是為什么搜索引擎對(duì)重要頁(yè)面的更新周期會(huì)更短的原因。例如內(nèi)容經(jīng)常更新的頁(yè)面搜索引擎也會(huì)經(jīng)常對(duì)其進(jìn)行更新從而可以及時(shí)發(fā)現(xiàn)新內(nèi)容、新鏈接并刪除不存在的信息。 由于增量抓取是在原有頁(yè)面的基礎(chǔ)上進(jìn)行的因此會(huì)大大縮減搜索引擎的抓取時(shí)間而且還可以及時(shí)向用戶展示頁(yè)面中最新的內(nèi)容。

  ●分類定位抓取 與增量抓取由頁(yè)面重要性決定不同分類定位抓取是指根據(jù)頁(yè)面的類別或性質(zhì)而制定相應(yīng)更新周期的頁(yè)面監(jiān)控方式。例如對(duì)于“新聞資訊”與“資源下載”這兩類頁(yè)面新聞資訊類頁(yè)面的更新周期可以精確到每分鐘而下載類頁(yè)面更新周期就可以定為一天或更長(zhǎng)。 分類定位抓取對(duì)不同類別的頁(yè)面進(jìn)行分開處理這樣就可以節(jié)省大量的抓取時(shí)間并大大提高頁(yè)面內(nèi)容的實(shí)時(shí)性也增強(qiáng)頁(yè)面抓取的靈活性。但是按照類別而制定頁(yè)面更新周期的方式比較籠統(tǒng)很難跟蹤頁(yè)面的更新情況。因?yàn)榧词故窍嗤悇e的頁(yè)面在不同的網(wǎng)站上內(nèi)容的更新周期也會(huì)存在很大的差別。例如新聞?lì)愴?yè)面在大型門戶網(wǎng)站中內(nèi)容的更新速度就會(huì)比其他小型網(wǎng)站快得多。

  所以還需要結(jié)合其他的方式例如增量抓取等對(duì)頁(yè)面進(jìn)行監(jiān)控、更新。 實(shí)際上搜索引擎對(duì)網(wǎng)站中頁(yè)面的維護(hù)也是結(jié)合多種方式進(jìn)行相當(dāng)于間接為每一個(gè)頁(yè)面選擇最合適的維護(hù)方式。這樣既可以減少搜索引擎的負(fù)擔(dān)又可以為用戶提供及時(shí)的信息。 例如在一個(gè)網(wǎng)站中會(huì)存在多種不同性質(zhì)的頁(yè)面常見的包括首頁(yè)、論壇頁(yè)面、內(nèi)容頁(yè)面等。對(duì)于更新比較頻繁的頁(yè)面例如首頁(yè)可以使用增量抓取方式對(duì)其進(jìn)行監(jiān)控這樣就可以對(duì)網(wǎng)站中相對(duì)重要的頁(yè)面進(jìn)行及時(shí)更新而對(duì)于實(shí)時(shí)性非常高的論壇頁(yè)面則可以采用分類定位的抓取方式而為了防止遺漏網(wǎng)站中的某些頁(yè)面還需要采用定期抓取的方式。

推薦閱讀

居然麗家裝飾城

2016-07-1210

河北世航科技有限公司

2016-07-1212

石家莊指南針網(wǎng)絡(luò)科技有限公司

2016-07-126

石家莊大地種業(yè)有限公司

2016-07-127