日期:2017-08-27 瀏覽次數(shù):226
搜索引擎爬蟲,也稱作搜索引擎蜘蛛、機(jī)器人。是一種遍歷抓取頁面的程序。搜索引擎爬蟲以其不同的應(yīng)用,分為批量型爬蟲、增量型爬蟲和垂直型爬蟲。不同的搜索引擎爬蟲蜘蛛實(shí)現(xiàn)方式不同,但一個(gè)優(yōu)秀的搜索引擎爬蟲應(yīng)該具備哪些特性?中山網(wǎng)絡(luò)公司
1、搜索引擎特性:高性能
所謂的搜索引擎高性能是指爬蟲抓取網(wǎng)頁的速度,單位時(shí)間內(nèi)能夠下載的網(wǎng)頁數(shù)量越多,則爬蟲的性能就越高。
提高搜索爬蟲的性能,在設(shè)計(jì)時(shí)程序訪問磁盤的操作方法和具體實(shí)現(xiàn)時(shí)的數(shù)據(jù)結(jié)構(gòu)的選擇有很大的關(guān)系。例如對(duì)于待抓取的url隊(duì)列和已抓取得url隊(duì)列,因?yàn)閡rl的數(shù)量非常大,不同的實(shí)現(xiàn)方式所表現(xiàn)出來的性能參差不齊,所以,高效的數(shù)據(jù)結(jié)構(gòu)隊(duì)爬蟲的性能影響很大。
2、搜索引擎特性:可擴(kuò)展性
正如上面所描述的那樣,爬蟲需要抓取的數(shù)量之大,是不可想象的。即使單個(gè)的搜索機(jī)器人性能再高,要將所有的網(wǎng)頁都下載,也是需要相當(dāng)長(zhǎng)的周期的。為了盡可能的簡(jiǎn)短搜索引擎抓取網(wǎng)頁的周期,爬蟲系統(tǒng)程序應(yīng)該有很強(qiáng)的可擴(kuò)展性。也就是說很容易通過增加抓取服務(wù)器和爬蟲的數(shù)量來打到這個(gè)目的。
3、搜索引擎特性:健壯性
爬蟲所面臨的網(wǎng)站類型千差萬別,可能會(huì)遇到HTML代碼不規(guī)范,服務(wù)器宕機(jī),甚至是爬蟲陷阱等狀況。爬蟲是否能對(duì)各種異常情況進(jìn)行及時(shí)正確的處理很重要。健壯的搜索引擎爬蟲程序應(yīng)該能做到,在再次啟動(dòng)爬蟲時(shí),能夠恢復(fù)之前抓取的內(nèi)容和數(shù)據(jù)結(jié)構(gòu),而不是再次啟動(dòng)爬蟲程序的時(shí)候,還是從頭部開始,這也是爬蟲健壯性的一種體現(xiàn)。
4、搜索引擎特性:友好性
爬蟲的友好性包含以下兩個(gè)含義:第一就是保護(hù)網(wǎng)站的部分私密性。就是要很好的遵守搜索引擎的禁爬協(xié)議robots協(xié)議。第二就是減少被抓取網(wǎng)站的網(wǎng)頁負(fù)載。
8年
500多家
1000多家
8技術(shù)
品牌咨詢熱線:
13450950128