搜索引擎的抓取是搜索引擎最基礎(chǔ)的工作,為后續(xù)的一切工作做鋪墊。抓取的少,抓取太多重復(fù)信息,抓取能力差直接影響用戶的使用體驗(yàn)。連抓取能力都做不好也不用談后面的信息提取、分析了。因此,搜索引擎?zhèn)円恢倍荚谔岣咦约旱淖ト∧芰Α?/span>
一,頁面抓取流程。
搜索引擎通過自己原有的域名列表,來進(jìn)入網(wǎng)站,再抓取網(wǎng)頁,在通過頁面的鏈接,再進(jìn)到下一層網(wǎng)頁,從而建立起龐大的域名列表、URL列表。
二,頁面抓取的方式
1, 廣度優(yōu)先
廣度優(yōu)先:是指將網(wǎng)站的主欄目抓取之后,然后再抓取主欄目下面的子欄目。廣度優(yōu)先要注意以下幾點(diǎn):
(1)重要網(wǎng)頁離主站點(diǎn)的一般比較近
(2)寬度優(yōu)先規(guī)則有利于多個(gè)爬蟲合作爬取,先抓站內(nèi)后抓站外,封閉性強(qiáng)
(3)萬維網(wǎng)的深度并不是想像中的深
2,深度優(yōu)先
與廣度優(yōu)先正好相反,這種首先會(huì)選擇某個(gè)分支,繼而深入到不能深入的情況下才考慮其他分支的策略。通過這種方式能抓取到比較隱蔽的頁面,從而實(shí)現(xiàn)更多用戶的檢索要求
3網(wǎng)頁重訪
由于頁面的更新的問題,所以需要重新訪問
4不重復(fù)抓取
搜索引擎不會(huì)抓取信息幾乎一樣的兩個(gè)網(wǎng)頁。它會(huì)給原創(chuàng)的網(wǎng)頁予以更高權(quán)重。如何判斷原創(chuàng)?搜索引擎會(huì)根據(jù)修改時(shí)間,網(wǎng)站權(quán)重等因素綜合考慮。