昨天我們聊了SEO的定義,大致知道了SEO的中文意思是“搜索引擎優(yōu)化”,是在研究搜索引擎工作原理的基礎(chǔ)上,對(duì)我們自己的網(wǎng)站進(jìn)行合理的內(nèi)部?jī)?yōu)化與外部?jī)?yōu)化,使網(wǎng)站的關(guān)鍵詞排在搜索引擎的前面,為網(wǎng)站帶來目標(biāo)流量,產(chǎn)生
銷售額與品牌收益。
那么,我們今天就來分析一下,搜索引擎的工作原理,為我們后期SEO的學(xué)習(xí)打下堅(jiān)實(shí)基礎(chǔ)。
一、 搜索引擎是什么時(shí)候誕生的呢?
搜索引擎的誕生,不是一個(gè)偶然,而是一個(gè)必然。因?yàn)?,隨著互聯(lián)
網(wǎng)絡(luò)的形成,
網(wǎng)絡(luò)上會(huì)出現(xiàn)越來越的多的網(wǎng)站頁面。上網(wǎng)的用戶,面對(duì)這么多的信息,就得考慮,怎么去查找我們想要的信息呢?
在幾千年之前,我們的古人就已經(jīng)發(fā)明了“搜索引擎”,比如《本草綱目》,上面有成千上萬的藥材條目,為了方便用戶查找,就在書的前面加上了“索引目錄”,其實(shí),這就是搜索引擎技術(shù)的一個(gè)思維原形。
1. 早在1993年之前,就出現(xiàn)了算不上搜索引擎的搜索引擎,當(dāng)時(shí)的搜索引擎是查詢FTP文件服務(wù)器上的相關(guān)文件,還不能搜索網(wǎng)站頁面文件。
2. 1994年David Filo和楊致遠(yuǎn)共同創(chuàng)辦了超級(jí)目錄索引——人工編緝的雅虎目錄
3. 1998年9月Google公司正式成立!
4. 2001年,百度做為搜索引擎正式上線,并提供搜索服務(wù)。
5. 2003年-2009年微軟的搜索引擎成立,并 改名為必應(yīng)——Bing
6. 2004年,8月, Google上市!
7. 2005年,8月,百度上市!
8. 2010年8月25日,雅虎徹底結(jié)束了它自己的搜索時(shí)代,正式使用Bing搜索數(shù)據(jù)。
9. 2010年,8月,國(guó)際上的搜索
市場(chǎng),排名第一的谷歌占84%、第二的雅虎占6.35%、第三位的百度占3.31%(主要是因?yàn)橹袊?guó)人品眾多)、第四位是Bing占3.30%(應(yīng)該是第三位)
時(shí)至今日,主流的搜索引擎,就是上面四個(gè)了。而中文搜索引擎的霸主,當(dāng)然就是百度了,從世界范圍來看,百度還有很長(zhǎng)的坡要爬,更何況,現(xiàn)如今,各個(gè)中文搜索引擎都在發(fā)力競(jìng)爭(zhēng)中文搜索
市場(chǎng)。
二、 搜索引擎工作原理的三大步:
第一步:爬行和抓取 :簡(jiǎn)單地說,就是每個(gè)搜索引擎都會(huì)派出自己的一個(gè)程序(蜘蛛或機(jī)器人),沿著自己知道的網(wǎng)址庫(kù),去跟蹤網(wǎng)頁上面的所有鏈接,抓取互聯(lián)網(wǎng)上面網(wǎng)站頁面的HTML數(shù)據(jù),并存入數(shù)據(jù)庫(kù)。當(dāng)然,在這個(gè)過程中,會(huì)進(jìn)行一次簡(jiǎn)單的去重,也就是將重復(fù)的網(wǎng)頁內(nèi)容去掉。
這個(gè)步驟里面,有幾個(gè)名詞:
1. 蜘蛛或機(jī)器人指的是搜索引擎編寫的一個(gè)小程序,這個(gè)程序的主要任務(wù)是每天多次去互聯(lián)網(wǎng)上的各個(gè)網(wǎng)站上去爬行,看是否有能發(fā)現(xiàn)新的網(wǎng)站,或能否發(fā)現(xiàn)老網(wǎng)站上添加了新的文章內(nèi)容,一旦發(fā)現(xiàn)了新的內(nèi)容,則會(huì)將其拍照,并帶回搜索引擎的數(shù)據(jù)庫(kù)。雖然說叫“爬行”,但實(shí)際是,這個(gè)蜘蛛程序是不知疲倦地以光速在互聯(lián)網(wǎng)上穿梭,尋找新的信息。
2. 地址庫(kù):指的存放是蜘蛛程序計(jì)劃去互聯(lián)網(wǎng)訪問的網(wǎng)站地址。這就好比你要出遠(yuǎn)門旅游時(shí),要帶上一本地圖手冊(cè)一樣。
3. 抓取的HTML數(shù)據(jù)是什么樣子呢?你把任何一個(gè)網(wǎng)頁打開,在左右兩邊的空白處,點(diǎn)右鍵,“查看源文件”,你看到的這個(gè)內(nèi)容就是HTML數(shù)據(jù),包括了很多代碼和方字。
4. 去重:指的是,互聯(lián)網(wǎng)上,有很多人喜歡把別人網(wǎng)站上的文章,直接發(fā)到自己網(wǎng)站上去。完成相同HTML數(shù)據(jù),搜索引擎是不會(huì)都存到數(shù)據(jù)庫(kù)的。會(huì)將重復(fù)的、相同的網(wǎng)頁數(shù)據(jù)去掉。
第二步:建立索引:就是對(duì)抓取的數(shù)據(jù)做一個(gè)預(yù)處理的過程。為什么要做預(yù)處理呢?因?yàn)椋瑒傋ト』氐腍TML數(shù)據(jù)是不能直接參與排名的,里面有很多代碼和重復(fù)的內(nèi)容。
1、首先,將HTML數(shù)據(jù)里的文字與代碼分離。留下文字,去除代碼。這個(gè)可以用站長(zhǎng)工具里的“模擬蜘蛛或機(jī)器人抓取”功能查詢看到。
2、其次,去除代碼后,看到的就是一堆網(wǎng)頁里的文字,其次,搜索引擎運(yùn)用自己的一個(gè)相當(dāng)于新華詞典的虛擬詞典,去對(duì)照比較,看這個(gè)網(wǎng)頁里的文字中,哪些是一個(gè)詞語;另一種方法就是基于統(tǒng)計(jì)分析,看哪幾個(gè)字經(jīng)常在一起,則基本可以判斷為一個(gè)詞語。這就叫做中文分詞。
只有把一堆文字,分成一個(gè)一個(gè)的詞語,才可以分析出這個(gè)文章跟哪個(gè)詞的相關(guān)性高。
3、再其次,為了更準(zhǔn)確地了解這個(gè)HTML數(shù)據(jù)所反應(yīng)的實(shí)際內(nèi)容,了解這個(gè)內(nèi)容是跟哪些詞相關(guān),還得將網(wǎng)頁中經(jīng)常出現(xiàn)的高頻率助詞去掉,將網(wǎng)頁中相關(guān)的頭部和底部,或左側(cè)內(nèi)容去掉,只留下網(wǎng)頁中的文章正文內(nèi)容。去掉無關(guān)文章意思的助和和網(wǎng)頁中重復(fù)的版塊內(nèi)容后,再將這個(gè)文件與其它文件對(duì)比分析,看是否這個(gè)文件,之前是否已收錄過。
4、然后,建立索引,也就是經(jīng)過上面的步驟后,分析有哪些關(guān)鍵詞是這個(gè)文件里的核心詞。一個(gè)文件會(huì)重點(diǎn)對(duì)應(yīng)幾個(gè)核心詞建立主索引,建好了這個(gè)主索引后,當(dāng)有用戶在搜索這個(gè)文件里的主核心詞時(shí),這個(gè)主索引就會(huì)將相應(yīng)的文件展示出來;但是,當(dāng)用戶在搜索一個(gè)非核心的詞語時(shí),剛才建立的主索引就用不上了。所以,除了主索引外,還得針對(duì)利用分詞技術(shù)分出來的文件里的所有詞,建立一個(gè)次索引。
5、最后,經(jīng)過上面的工作后,基本可以判斷抓取的文件內(nèi)容是和哪幾個(gè)關(guān)鍵詞相關(guān),但是,在建立索引時(shí),僅憑文件自身中的一些關(guān)鍵詞的高頻率是不能準(zhǔn)備判斷這個(gè)文件與哪個(gè)關(guān)鍵詞最相關(guān)。文件自身關(guān)鍵詞的頻率是自己可以隨便增加的(在2008年以前,很多做SEO的前輩都是用“關(guān)鍵詞堆砌”的手法來操作排名),所以,搜索引為了尋找一個(gè)更科學(xué)的方法來判斷這個(gè)網(wǎng)頁文件與某幾個(gè)關(guān)鍵詞的相關(guān)性,引入了“鏈接關(guān)系計(jì)算”,通過從其它網(wǎng)頁上鏈接到你網(wǎng)頁的鏈接文字來判斷,你這個(gè)網(wǎng)頁是和哪個(gè)詞相關(guān)。
其實(shí),這就好比是美國(guó)選總統(tǒng),首先自己上臺(tái)做競(jìng)選演講,然后讓民眾來投票。光聽自己說怎么好,是不科學(xué)的,如果很多人都說你好,那才更能說明問題。鏈接關(guān)系就好比是其它網(wǎng)頁對(duì)你這個(gè)頁面的投票評(píng)比。
6、再最后,就是對(duì)抓取文件中的一些特殊文件做處理,比如:除了HTML外,還有PDF、Word、WPS、XLS、PPT、TXT文件等等,目前不能處理圖片、視頻、FLASH、腳本程序。
第三步:顯示排名結(jié)果:這個(gè)步驟是我們看得見的,是用戶直接操作的。
首先,做為用戶,我們?cè)诎俣壤镙斎搿八阉饕鎯?yōu)化
培訓(xùn)”,這里百度的搜索程序,第一步要做的不是去索引數(shù)據(jù)庫(kù)里查找相關(guān)文件。
1、 對(duì)“搜索引擎優(yōu)化
培訓(xùn)”這句話,做中文分詞處理,確定用戶搜索的是“搜索”、“引擎”、“優(yōu)化”、“
培訓(xùn)”這四個(gè)詞,還是“搜索引擎優(yōu)化
培訓(xùn)”這一個(gè)詞。
2、 要將用戶輸入的這句話里面的助詞、符號(hào)和無意義的詞去掉
3、 其次,還會(huì)判斷用戶輸入的詞中是否有錯(cuò)別字,發(fā)現(xiàn)錯(cuò)字,還得提醒。比如:輸入“唐醋排骨”,提示如下:您要找的是不是: 糖醋排骨。
4、 最后就是開始到索引庫(kù)里去查找相應(yīng)信息
其次,搜索引擎開始查找用戶真正想查找的正確的關(guān)鍵詞,找到相匹配的相關(guān)文件,這個(gè)文件的數(shù)量,將是非常巨大的,因?yàn)?,在互?lián)網(wǎng)上,針對(duì)每一個(gè)詞,都會(huì)有N多個(gè)網(wǎng)頁文件。
不過,搜索引擎不會(huì)將這N多的文件拿來計(jì)算,應(yīng)該誰排在前面。而是在計(jì)算之前先選出一個(gè)了集,百度提供的搜索結(jié)果,最多有76頁。這樣算來的話,大概參與最終排名結(jié)果應(yīng)該有700多個(gè)記錄,谷歌提供100頁的記錄,就也就有1000多個(gè)文件參與某一個(gè)關(guān)鍵詞的排名。
再其次,選出這些子集后,這700多個(gè)或者1000多個(gè)文件,倒底哪個(gè)文件應(yīng)該排在前面呢?這就應(yīng)該先分析這個(gè)關(guān)鍵詞在文件中出現(xiàn)的次數(shù),出現(xiàn)的位置,有哪些文字鏈接向這個(gè)文件等等一些方法來了解文件與某個(gè)關(guān)鍵詞的相關(guān)性。
然后,搜索引擎除了會(huì)跟據(jù)上面說的來計(jì)算相關(guān)性以外,還會(huì)對(duì)某些關(guān)鍵詞做特殊處理,特殊處理,主要是指對(duì)少數(shù)網(wǎng)站做相應(yīng)的懲罰,指的是用不正當(dāng)、不合理的手段,為了獲取排名而做排名的網(wǎng)站。比如:百度11位(百度將你網(wǎng)站的關(guān)鍵詞長(zhǎng)期定格在了第二頁的第一名也就是自然排名的第11名),、谷歌的負(fù)6、負(fù)30、負(fù)950(也就是將你網(wǎng)站的各個(gè)關(guān)鍵詞統(tǒng)一下降6、30、950位)等算法。
然后,經(jīng)過了上面步驟以后,就可以顯示用戶的搜索結(jié)果了,我們可以看到,搜索任何一個(gè)關(guān)鍵詞,看到的每一個(gè)條目里,都可以看到,網(wǎng)站的標(biāo)題(title)、描述(Description
)、百度快照、時(shí)間等等信息。
最后,在上面的步驟里,已經(jīng)提供了用戶的搜索結(jié)果 ,按道理,整個(gè)搜索過程已經(jīng)完成,但搜索引搜索的工作還沒有完成,搜索引擎會(huì)為了節(jié)省用戶的搜索時(shí)間,而做一個(gè)統(tǒng)計(jì),統(tǒng)計(jì)有哪些詞,是很多用戶會(huì)經(jīng)常搜索的詞,將這些詞的索引,做一個(gè)緩存。以后,當(dāng)有用戶搜索這個(gè)詞時(shí),搜索引擎能夠更快速地提供搜索結(jié)果。
后續(xù)服務(wù),搜索引擎為了做好售后服務(wù),它還會(huì)跟蹤用戶對(duì)某個(gè)排在前面的搜索結(jié)果,做相應(yīng)的點(diǎn)擊次數(shù)、停留時(shí)間的統(tǒng)計(jì),來分析用戶對(duì)于搜索引擎的這個(gè)排名結(jié)果,做一個(gè)分析??纯词欠穸枷矚g點(diǎn)擊排在前面的結(jié)果,而且點(diǎn)擊進(jìn)去以后停留很長(zhǎng)的時(shí)間。如果能做到這些,說明用戶是喜歡搜索引擎的這些排名結(jié)果的。反之,搜索引擎會(huì)思考,是否得改變一下排名規(guī)則,將排在后面的,用戶更喜歡的結(jié)果排到前面來。
這個(gè)原理也說明了,我們網(wǎng)站做了百度競(jìng)價(jià)能提高網(wǎng)站關(guān)鍵詞排名,一旦你不做百度競(jìng)價(jià),有可能你的排名會(huì)下降,只是有可能,并不一定,這個(gè)因素不是影響排名的主要因素。之前聽說一些客戶,自己不接百度客服的電話,或者說,自己對(duì)百度客服人員的態(tài)度不好,結(jié)果導(dǎo)致自己網(wǎng)站在百度里搜索不到,說是百度人為故意把自己網(wǎng)站刪除了。其實(shí),了解了搜索引擎的工作原理,應(yīng)該知道,這個(gè)人為控制排名的可能性是很小的,因?yàn)榘俣葲]那么多的精力來關(guān)注你那個(gè)針整個(gè)互聯(lián)網(wǎng)來說,一個(gè)微不足道的網(wǎng)站。
到此為止,我們了解了搜索引擎的工作原理,我們通過分析了解搜索引擎的工作原理,無非就是為了更好地做好SEO。
我個(gè)人認(rèn)為,通過分析搜索引擎的工作原理,我們至少應(yīng)該明白了,做SEO,應(yīng)該注意以下一些事項(xiàng):
1、 在
網(wǎng)絡(luò)上抄襲別人的文章發(fā)到自己網(wǎng)站上去,百度是不會(huì)收錄的。因?yàn)?,在第一步抓取的過程中,有一次去重。在第二步索引時(shí)又有一次去重,所以重復(fù)的內(nèi)容是很難被百度收錄的。其實(shí),我們?cè)诰W(wǎng)上查資料時(shí),我們自己也很不喜歡看到幾個(gè)網(wǎng)站上都有同一篇文章。
2、 簡(jiǎn)單的,現(xiàn)在的搜索引擎不會(huì)將簡(jiǎn)單的關(guān)鍵詞堆砌的文章排到搜索引擎的前面,還會(huì)利用鏈接關(guān)系來計(jì)算相關(guān)性。
3、 關(guān)鍵詞在網(wǎng)頁中的出現(xiàn)的頻次固然重要,關(guān)鍵詞在網(wǎng)頁中出現(xiàn)的位置也很重要。
4、 鏈連關(guān)系計(jì)算時(shí),外部鏈接比內(nèi)部鏈接重為重要。