學習搜索引擎優化,搜索引擎的工作原理是必須要了解的,今天我們要說的是百度搜索引擎的工作原理,在了解了搜索引擎的工作原理之后,就會涉及到收錄方面的一些問題,那么網站不收錄又與那些因素有關系呢?
我們先來了解一下什么是搜索引擎蜘蛛?搜索引擎蜘蛛是抓取信息的程序。各大搜索引擎所對應的蜘蛛又有所不同。
百度蜘蛛:baiduspider
谷歌蜘蛛:Googlebot
360蜘蛛:360spider
搜狗蜘蛛:sogounewsspider
……


一、搜索引擎工作流程
1、抓?。喉樦溄优佬?,抓取頁面信息。
蜘蛛順著鏈接爬行,然后抓取,又分深度和廣度抓取。廣度抓?。鹤ナ醉?,欄目頁,欄目頁里面的分頁,一級一級的抓取。深度抓?。菏醉摚瑱谀宽?,欄目頁分頁,欄目頁)蜘蛛順著鏈接抓取。
2、過濾:若內容質量不行就過濾,比如:采集的內容,文不對題的內容,不豐富的內容。若一些質量好的內容遲遲不收錄,是因為需要一個周期,過一段時間之后就會收錄的。
3、儲存索引庫:把有質量的信息提取和組織建立索引庫。
4、展現:存放臨時索引庫里面的內容,經過一些算法的排序,用戶在搜索某一關鍵詞的時候,檢索器根據用戶輸入的查詢關鍵字,在索引庫中快速檢測出有價值的內容給予展現。
二、網站出現不收錄的原因
1、是否允許蜘蛛抓取。首先要看的就是是否有蜘蛛來你網站抓取,然后再分析其它原因。Robots文件中禁止蜘蛛抓取,蜘蛛就不會來抓取。
2、需要一個周期。好的內容放在臨時索引庫里面,經過一些算法排序。若一些質量好的內容遲遲不收錄,是因為這也是需要一個周期的。
3、內容質量不行。在過濾的時候就直接被過濾了。
4、蜘蛛無法進行識別的東西,那么蜘蛛直接就過濾了。蜘蛛無法識別的有哪些呢?
(1)Js蜘蛛識別不了,建議只用一兩處即可。
(2)圖片上的內容,人眼可識別,但蜘蛛不能識別,需要加alt屬性。
(3)Flash比如說視頻。需在視頻的上下文解釋一下這個視頻的主要內容。
(4)iframe框架。層級比較多。
(5)嵌套table。
5、需要登錄的信息頁面。蜘蛛無法進入這樣的頁面。
三、注意事項
1、已收錄的內容,不要改動整篇文章內容尤其是標題,不要移動,不要刪除,否則就會形成死鏈。
2、展現結果需要一定的時間(2個月之內都是正常的)。網站上線一個星期了還沒收錄,這是需要一個周期時間的。
3、內容的豐富度。文字、圖片、視頻等。
4、吸引蜘蛛。主動向搜索引擎提交(可重復提交),鏈接。主動出擊。
5、蜘蛛的跟蹤,網站IIS日志。
版權聲明:本文內容由互聯網用戶自發貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如發現本站有涉嫌抄襲侵權/違法違規的內容, 請發送郵件至 舉報,一經查實,本站將立刻刪除。