咨詢熱線:13313028229
售后:0312-6791400
售后:0312-6791126
網(wǎng)址:www.7t24h.net
地址:保定朝陽大街國貿(mào)大廈8樓808室
搜索引擎的工作區(qū)域主要分為四大部分,下載系統(tǒng)、分析系統(tǒng)、檢索系統(tǒng)、查詢系統(tǒng),這一篇文章就來講一下下載系統(tǒng)的那些事,希望看官能夠時(shí)常結(jié)合高手級(jí)SEO不告訴你的搜索原理的系列文章,對搜索引擎能有一個(gè)初步的看法,這樣就會(huì)避免掉很多錯(cuò)誤觀念的影響。
蜘蛛下載過程與瀏覽器類似,不同點(diǎn)在于蜘蛛僅下載HTML文件,不對文件進(jìn)行渲染,不加載圖片、Flash等內(nèi)容,一般情況下不加載JS。
蜘蛛在采集網(wǎng)站信息時(shí)會(huì)考慮網(wǎng)站的網(wǎng)絡(luò)負(fù)載,根據(jù)網(wǎng)站的網(wǎng)絡(luò)帶寬來控制抓取量。一般情況下,負(fù)載是基于IP控制的。故而,增加網(wǎng)站的帶寬是有利于SEO的。當(dāng)然,如果是共享IP的網(wǎng)站,這點(diǎn)很難控制。
下載過程大致可分為四個(gè)步驟:DNS解析、TCP連接、服務(wù)器計(jì)算、HTML下載。
DNS解析主要跟DNS服務(wù)器性能有關(guān),另外與解析方式也有一定關(guān)系。對于SEO而言,可以通過測試選擇專業(yè)的DNS服務(wù)商。在這個(gè)步驟最容易出現(xiàn)的情況是運(yùn)營部門屏蔽蜘蛛IP,因?yàn)橹┲肱廊∵^程很類似DOS攻擊。
TCP連接速度主要取決于Web服務(wù)器能否快速接入請求,一般而言,當(dāng)服務(wù)器同時(shí)接入大量請求信息時(shí)會(huì)產(chǎn)生擁堵甚至拒絕接入的情況,接入量越大TCP連接速度越慢。當(dāng)然,也跟所選WEB服務(wù)器程序(如IIS、Apache、Nginx等)有關(guān)。針對大型網(wǎng)站,可通過增加配置解決問題。針對采用合租服務(wù)器方式的小型網(wǎng)站,要避免和論壇、下載站等訪問量大、消耗帶寬大的網(wǎng)站共享服務(wù)器。
服務(wù)器計(jì)算速度主要取決于網(wǎng)站程序構(gòu)架、數(shù)據(jù)庫執(zhí)行效率、程序語言效率等(針對動(dòng)態(tài)內(nèi)容),同時(shí)與并行處理量等有關(guān)。在這一過程最常見的問題就是數(shù)據(jù)庫執(zhí)行效率低下,因而會(huì)導(dǎo)致網(wǎng)站速度降低甚至出現(xiàn)頁面訪問出錯(cuò)的情況。
楊子的網(wǎng)站服務(wù)器就經(jīng)常因?yàn)橥粫r(shí)間訪問量過大而出現(xiàn)數(shù)據(jù)庫錯(cuò)誤的情況,另人相當(dāng)郁悶。針對該過程進(jìn)行優(yōu)化主要是運(yùn)營的事情了,要么換好一點(diǎn)的程序要么換好一點(diǎn)的工程師。
HTML下載速度主要取決文件的大小及網(wǎng)絡(luò)帶寬(針對大型網(wǎng)站較明顯),對于SEO而言,可對HTML代碼進(jìn)行優(yōu)化。很多網(wǎng)站HTML代碼都存在冗長的問題,甚至通篇代碼而文本內(nèi)容僅占極小一部分。我曾經(jīng)接手的網(wǎng)站使用過的頁面功能,在去除后仍保留代碼,或者某一“更多”按鈕下隱藏著該功能全部的鏈接(都體現(xiàn)在HTML里,內(nèi)容甚至超過了頁面主體的內(nèi)容量!)。針對HTML優(yōu)化,看源碼是個(gè)好習(xí)慣。