SEO優化 > 網站優化 / 百度搜索引擎工作原理解讀
作為seo工作人員,搜索引擎運行原理是必須要了解的,包括頁面質量白皮書、搜索引擎優化指南,今天重點解讀下搜索引擎整個工作原理過程分析?! ∷阉饕娴闹饕ぷ鬟^程包括:抓取、存儲、頁面分析、索引、檢索等幾個主要過程。也就是常說的抓取、過濾、收錄、排序四個過程,下面詳解的...
作為seo工作人員,搜索引擎運行原理是必須要了解的,包括頁面質量白皮書、搜索引擎優化指南,今天重點解讀下搜索引擎整個工作原理過程分析。
搜索引擎的主要工作過程包括:抓取、存儲、頁面分析、索引、檢索等幾個主要過程。也就是常說的抓取、過濾、收錄、排序四個過程,下面詳解的講解每個過程,及有哪些影響
一、搜索引擎抓取
Spider抓取系統是搜索引擎數據來源的重要保證,如果把web理解為一個有向圖,那么spider的工作過程可以認為是對這個有向圖的遍歷。從一些重要的種子 URL開始,通過頁面上的超鏈接關系,不斷的發現新URL并抓取,盡最大可能抓取到更多的有價值網頁。
影響抓取的因素
1、抓取友好性
互聯網資源龐大的數量級,這就要求抓取系統盡可能的高效利用帶寬,在有限的硬件和帶寬資源下盡可能多的抓取到有價值資源。
2、用抓取返回碼示意
簡單介紹幾種百度支持的返回碼:
1)最常見的404代表“NOT FOUND”,認為網頁已經失效,通常將在庫中刪除,同時短期內如果spider再次發現這條url也不會抓??;
2)503代表“Service Unavailable”,認為網頁臨時不可訪問,通常網站臨時關閉,帶寬有限等會產生這種情況。
3)403代表“Forbidden”,認為網頁目前禁止訪問。如果是新url,spider暫時不抓取,短期內同樣會反復訪問幾次;如果是已收錄url,不會直接刪除,短期內同樣反復訪問幾次。如果網頁正常訪問,則正常抓??;如果仍然禁止訪問,那么這條url也會被認為是失效鏈接,從庫中刪除。
4)301代表是“Moved Permanently”,認為網頁重定向至新url。當遇到站點遷移、域名更換、站點改版的情況時,我們推薦使用301返回碼,同時使用站長平臺網站改版工具,以減少改版對網站流量造成的損失。
3、取優先級調配
由于互聯網資源規模的巨大以及迅速的變化,對于搜索引擎來說全部抓取到并合理的更新保持一致性幾乎是不可能的事情,因此這就要求抓取系統設計一套合理的抓取優先級調配策略。主要包括:深度優先遍歷策略、寬度優先遍歷策略、pr優先策略、反鏈策略、社會化分享指導策略等等
4、取反作弊
spider在抓取過程中往往會遇到所謂抓取黑洞或者面臨大量低質量頁面的困擾,這就要求抓取系統中同樣需要設計一套完善的抓取反作弊系統
對于網站抓取頻次的斷斷原則
1,網站更新頻率:更新快多來,更新慢少來,直接影響Baiduspider的來訪頻率
2,網站更新質量:更新頻率提高了,僅僅是吸引了Baiduspier的注意,Baiduspider對質量是有嚴格要求的,如果網站每天更新出的大量內容都被Baiduspider判定為低質頁面,依然沒有意義。
3,連通度:網站應該安全穩定、對Baiduspider保持暢通,經常給Baiduspider吃閉門羹可不是好事情
4,站點評價:百度搜索引擎對每個站點都會有一個評價,且這個評價會根據站點情況不斷變化,是百度搜索引擎對站點的一個基礎打分
二、搜索引擎過濾垃圾內容
1, 重復內容的網頁:互聯網上已有的內容,百度必然沒有必要再收錄。
2, 主體內容空短的網頁
1)有些內容使用了百度spider無法解析的技術,如JS、AJAX等,雖然用戶訪問能看到豐富的內容,依然會被搜索引擎拋棄
2)加載速度過慢的網頁,也有可能被當作空短頁面處理,注意廣告加載時間算在網頁整體加載時間內。
3)很多主體不突出的網頁即使被抓取回來也會在這個環節被拋棄。
3, 部分作弊網頁
4、各種過濾,舉例可能包含過濾掉死鏈、重復數據、色情、垃圾結果以及你懂的;
三、如何更好的被收錄,建立索引
哪些網頁可以進入優質索引庫呢。其實總的原則就是一個:對用戶的價值。包括卻不僅于:
1,有時效性且有價值的頁面:在這里,時效性和價值是并列關系,缺一不可。有些站點為了產生時效性內容頁面做了大量采集工作,產生了一堆無價值面頁,也是百度不愿看到的.
2,內容優質的專題頁面:專題頁面的內容不一定完全是原創的,即可以很好地把各方內容整合在一起,或者增加一些新鮮的內容,比如觀點和評論,給用戶更豐富全面的內容。
3,高價值原創內容頁面:百度把原創定義為花費一定成本、大量經驗積累提取后形成的文章。千萬不要再問我們偽原創是不是原創。
4,重要個人頁面:這里僅舉一個例子,科比在新浪微博開戶了,即使他不經常更新,但對于百度來說,它仍然是一個極重要的頁面。
四、百度搜索引擎排序影響因素
1,相關性:網頁內容與用戶檢索需求的匹配程度,比如網頁包含的用戶檢查關鍵詞的個數,以及這些關鍵詞出現的位置;外部網頁指向該頁面所用的錨文本等
2,權威性:用戶喜歡有一定權威性網站提供的內容,相應的,百度搜索引擎也更相信優質權威站點提供的內容。
3,時效性:時效性結果指的是新出現的網頁,且網頁內承載了新鮮的內容。目前時效性結果在搜索引擎中日趨重要。
4,重要性:網頁內容與用戶檢查需求匹配的重要程度或受歡迎程度
5,豐富度:豐富度看似簡單卻是一個覆蓋范圍非常廣的命題??梢岳斫鉃榫W頁內容豐富,可以完全滿足用戶需求;不僅可以滿足用戶單一需求,還可以滿足用戶的延展需求。
6,受歡迎程度:指該網頁是不是受歡迎。
7、終排序,將最能滿足用戶需求的結果排序在最前,可能包括的有用信息如:網站的整體評價、網頁質量、內容質量、資源質量、匹配程度、分散度、時效性等
總結:這整個過程就是搜索引擎抓取到排名結果頁的計算過程,當然其中影響排名的因素還有很多,這個是網頁分析技術,但網站的總體得分是由每個網頁組成,所以說要做好每個網頁的細節優化,做好用戶用戶體驗,提升網站排名。
- 上一篇:SEO優化不得不知的長尾關鍵詞策略
- 下一篇:百度是如何記錄點擊行為的?【五一大招】
猜你喜歡
- 2019-06-17 移動代碼適配 虛擬空間怎么添加Vary HTTP標頭
- 2019-04-02 推廣人員都容易走入的渠道篩選誤區,你是否也迷茫過
- 2018-11-28 做seo的常見誤區,都是比較常見但非常重要的點
- 2018-10-17 【百度搜索下載站質量規范】推薦!
- 2018-06-08 網站的整個建站流程你知道嗎?來學學把
- 2018-05-21 自媒體偽原創應該怎么做
- 2018-05-17 淘寶商品的seo應該怎么做?
- 2018-05-16 老域名在SEO中的優勢
- 2018-05-09 做seo為何總是差強人意
- 2018-05-08 網站設計架構與SEO的關系
- 搜索
-
- 06-17移動代碼適配 虛擬空間怎么添加Vary HTTP標頭
- 11-28做seo的常見誤區,都是比較常見但非常重要的點
- 08-10好久不見,寫了一篇近期優化心得
- 05-24百度的更多的商業變現模式
- 05-23百度SEO優化最重要的5大影響因素
- 05-22淘寶seo:真正的標題優化原來是這樣做的
- 05-21自媒體偽原創應該怎么做
- 05-18搜索引擎在尋找什么?
- 05-17淘寶商品的seo應該怎么做?
- 05-16老域名在SEO中的優勢
- 05-15seo的逐漸發展,趨勢在哪兒?
- 05-12淘寶SEO,選品、數據的精準性是怎么影響轉化的
- 05-10seo的一些小技巧
- 05-09做seo為何總是差強人意
- 05-08網站設計架構與SEO的關系
- 05-07新站從創建到上線需要注意哪些SEO優化內容
- 05-06那天晚上,我沒忍住
- 05-05SEO重點 關鍵詞如何定位
- 05-02我是怎么把關鍵詞做上去的?
- 05-01百度是如何記錄點擊行為的?【五一大招】
- 04-27百度搜索引擎工作原理解讀
- 04-26SEO優化不得不知的長尾關鍵詞策略
- 04-25那些關于seo的事情
- 04-24新媒體運營的工作前景怎么樣?
- 04-23如何進行有效的偽原創?
- 04-21SEO 網站優化的步驟和技巧有哪些?
- 04-20SEM和SEO的區別?
- 04-18谷歌算法都不知道,你還做什么英文SEO?
- 04-16常見的一些seo的方面
- 04-15服務器和SEO的關系
- 2040℃百度SEO全面升級,關鍵詞vpn被封禁!
- 1734℃真實的北京:大部分人不吃不喝也買不起房
- 1651℃如何查看域名歷史快照
- 1575℃百度小白近日公布ROM30將于06月24日發布
- 1384℃網站seo優化中常會用到的幾個搜索指令
- 1367℃seo和sem的區別
- 1358℃新站的SEO優化注意事情的項目
- 1305℃網站優化不一定非要添加關鍵詞和描述
- 1305℃父親節的網絡營銷市場
- 1304℃網站優化我們該避免進入哪些誤區
- 1300℃百度推廣賬戶預算調整每日最多修改30次
- 1295℃seo篇章為什么要換域名
- 1292℃seo建站篇(二):建立一個站點的八大步驟
- 1287℃網絡營銷之四大搜索引擎在站長圈的發展走向
- 1278℃如何按照百度要求全面性的優化網站
- 1273℃網絡營銷之核心競爭力讓用戶求著你
- 1266℃SEO越來越難做的4大原因?
- 1265℃提升自己網站的品牌詞指數的幾種方式
- 1257℃隨便談談nofollow和網站優化之間的聯系
- 1253℃突破SEO優化技術瓶頸的一些小心得
- 1250℃網站長久不更新會有哪些不利的影響
- 1249℃導致網站排名不穩定的原因
- 1246℃SEO優化之sitemap權限大放送—百萬sitemap邀請開始啦
- 1222℃為何明明感覺優化都到位了網站還是沒有排名
- 1216℃百度搜索Spider3.0升級對站點有什么好處
- 1212℃百度快照的今天,我如何尋找seo圖標素材
- 1212℃網站seo該怎么拓展有效的長尾關鍵詞
- 1211℃上海SEO博客剛開始建時站內優化操作
- 1207℃如何認識和看待買賣鏈接行為
- 1197℃閱讀《SEO的藝術(原書第2版)》
- 03-15知乎是怎么把 SEO 做起來的?(圖文)
- 11-21關于驚雷算法的看法
- 11-05如何做好網站專區/專題?
- 11-04網站文章如何寫比較好?這些技巧你意想不到!
- 11-03移動端域名的選擇以及三大標簽
- 11-02淺談“關鍵詞”布局、密度、存放位置
- 11-01網站被K之后快速恢復技巧(下)
- 10-31網站被K之后快速恢復技巧(上)
- 10-30淺談網站中的布局與建網站的注意事項
- 10-29網站優化發展歷史
- 10-28認識網站優化中的404以及注意事項
- 12-05說說百度人工干預排名
- 11-26SEO五大問題解答,個個干貨!
- 11-24網站地址怎么來做網站優化呢?
- 11-23我們應當如何看待移動SEO?
- 11-20網站優化最難能可貴的是堅持
- 11-16怎么有效的對百度權重優化?
- 11-13快速排名如何點擊?每個站長都該知道!
- 11-12百度快照的更新時間與權重之間存在什么關系?
- 11-09企業站如何做seo,又如何調整
- 11-08想做好SEO必須學會堅持并且付諸于實踐
- 11-05SEO幽默一笑:弟弟攻擊?是DDOS攻擊!
- 11-052016年SEO人員如何寫出適合網站優化的TDK
- 10-04篇章教你怎么看精準網站外鏈
- 10-03別人為什么不想跟你換友情鏈接?原因在這!
- 10-02教你如何找搜索引擎的高質量原創文章!
- 09-30做了這么久的seo,你知道怎么快速找有用的分類目錄嗎?
- 09-20更新保護網站最好要合適的幾個處理辦法
- 09-20為什么確實感受優化都到位了網站仍然沒有名次
- 09-20SEO篇章:新站忽然排名全無是什么狀況?
- 標簽列表