什麽是搜索引擎中文分詞技術原理

什麽是搜索引擎中文分詞技術原理

>很多從事seo優化的朋友都對搜索引擎分詞感興趣,因爲如果了解中文分詞的原理,掌握一定的搜索引擎分詞技術,對網站上seo優化的長尾關鍵詞的布局會很有幫助。今天,石家莊搜索引擎優化博客将與朋友們談論什麽是中文分詞技術。

搜索引擎分詞技術是中文搜索引擎特有的關鍵詞技術支撐。中文關鍵詞和英文關鍵詞的區别在于英文單詞之間用空格隔開,而中文沒有空格鍵。因此,搜索引擎必須将一個完整的句子分爲小單位關鍵詞和長尾關鍵詞。比如石家莊seo博客這個詞可以分爲石家莊,石家莊seo,seo博客等。因此,分詞技術的效率将直接影響整個搜索引擎系統的搜索結果顯示效率。

一般來說,分詞有兩種方法,一種是基于字符串匹配的,另一種是基于統計的。

1.基于字符串匹配的分詞方法根據匹配方向的不同分爲正向匹配、反向匹配和最小分詞。同時,這三種分詞方法可以一起使用,也就是說,可以通過正向最大匹配、反向最大匹配、正向最小匹配和反向最小匹配進行分詞。

a、正最大匹配分詞原則:假設詞典中最長的字數爲m,首先根據中文标點符号和特征詞将中文句子分成若幹個短語,然後取該短語的前m個詞,搜索該詞在詞庫中是否存在,如果存在,則從短語中去除該詞;如果不存在,則去掉這m個單詞的最後一個單詞,然後檢查剩下的單詞是否是單字,如果是,則輸出這個單詞并從短語中去掉,如果不是,則繼續判斷這個單詞是否存在于單詞庫中。這樣,重複檢測,直到輸出一個單詞,然後取出剩餘短語的前m個單詞并重複,從而可以将一個短語分成單詞組合。

這個可能很多朋友都不太理解,下面就用一個例子來說明一下。以“我是好人”爲例。假設字典中最長的單詞爲三個,正向最大匹配順序爲:a .取出短語“我是一個”,檢查字典中是否存在“我是一個”或單個單詞,處理方法是去掉最後一個單詞“一個”;b .檢查“我是”這個短語是存在于詞典中還是單個單詞。處理方法是去掉“是”字;c、檢查單詞“我”在字典中是否存在或者是單個單詞,因爲“我”是單個單詞,所以輸出單詞“我”;d .然後繼續取“是一”這個詞,檢查“是一”是詞典中存在的還是單個詞。處理方法是去掉最後一個字“哥”;通過這樣的反複檢查,最終輸出的結果是我,對,一,好人。

b反向最大匹配分詞原理:分詞的方法是從句尾開始,反向最大匹配分詞技術最大的作用是消歧。比如“一個培訓線下聚會在一個城市舉行”的分詞結果肯定是一定的,培訓,線下,聚會,現在,城市,很不理想。使用反向最大匹配分詞技術可以更大程度上滿足句子的本意。比如一個分詞節點大小設爲6,很明顯“hold”會被分割成“hold in a city”,剩下的就是“meet in a city”。

一般來說,正向最小匹配和反向最小匹配很少使用。事實上,反向匹配的精度高于正向匹配。

2.基于統計分詞技術的原理

直接調用分詞詞典中的一些詞進行匹配,利用統計技術對一些新詞進行識别,使所有的統計結果進行匹配,充分發揮分詞的最高效率。

分詞詞典是搜索引擎判斷單詞的依據,基本包含了漢語詞典中所有的單詞。如果我們在搜索引擎中輸入“我想減肥”,那麽“減肥”這個詞就會被判斷爲一個詞。現在網絡上經常出現新造的流行語,比如“神馬”“犀利哥”“浮雲”等等。這樣的詞肯定會被搜索引擎慢慢收錄,加入分詞詞典,這也是爲了滿足用戶需求而不斷更新分詞詞典的結果。

原文鏈接:https://www.5biaozhun.com/1445.html,轉載請注明出處。

0

評論0

沒有賬号?注冊  忘記密碼?