搜索引擎:基礎(chǔ)原理全景介紹及產(chǎn)品應(yīng)用場景

但網(wǎng)站內(nèi)部的搜索功能,基本每家公司都在做,大家但凡使用的成熟一點的互聯(lián)網(wǎng)APP或者網(wǎng)站,都會提供搜索服務(wù),搜索已經(jīng)成為信息檢索的主流手段了。


 簡單聊聊搜索引擎相關(guān)的內(nèi)容。


好久沒有聊關(guān)于模型、算法相關(guān)的內(nèi)容了。四年前,我主導(dǎo)做過一款金融垂直搜索引擎的產(chǎn)品,對搜索有一些簡單的了解。因此后面會嘗試分享幾篇搜索推薦相關(guān)的算法,本篇以搜索的基礎(chǔ)原理切入,簡單聊聊搜索的基礎(chǔ)內(nèi)容,適合小白入門。



01

什么是搜索引擎


是的,提到搜索引擎,我想大家應(yīng)該都能想到【百度】、【谷歌】,他們都是搜索引擎。



例如上圖,左側(cè)呈現(xiàn)的內(nèi)容便是搜索結(jié)果list。


其實,還有一種搜索引擎,雖然大家也一直在用,但真的關(guān)注過嘛?例如像京東的商品搜索:



因此,總結(jié)下來,搜索引擎主要包括兩類:一類是類似百度、Google這種的專門的搜索引擎,搜索即公司的主要業(yè)務(wù);另一類是作為網(wǎng)站內(nèi)部的一個功能模塊,用于服務(wù)主流業(yè)務(wù)的。


目前專職做搜索引擎的公司,其實也不是很多了,國內(nèi)主要就是百度、搜狗搜索、360搜索這些,行業(yè)的集中度已經(jīng)很高了。(下圖僅供參考)



但網(wǎng)站內(nèi)部的搜索功能,基本每家公司都在做,大家但凡使用的成熟一點的互聯(lián)網(wǎng)APP或者網(wǎng)站,都會提供搜索服務(wù),搜索已經(jīng)成為信息檢索的主流手段了。不信大家打開手機(jī)的美團(tuán)、知乎、騰訊視頻等等,首頁核心位置都會提供搜索入口。



專業(yè)的搜索引擎和站內(nèi)搜索功能,異同點有哪些呢?


  • 差異點:主要是兩者的檢索目標(biāo)內(nèi)容是有差別的。專業(yè)搜索引擎更加綜合,目標(biāo)是滿足用戶對于信息(尤其是文本信息)的檢索訴求;站內(nèi)搜索主要的檢索對象基本就是網(wǎng)站的服務(wù)內(nèi)容。視頻網(wǎng)站搜索的就是視頻,外賣網(wǎng)站搜索的就是店鋪,電商網(wǎng)站搜索的就是商品等。由于檢索的內(nèi)容、不同網(wǎng)站的業(yè)務(wù)目標(biāo)都有差別,因此各個網(wǎng)站內(nèi)部的搜索邏輯肯定也是千差萬別。


  • 相同點:就是都是搜索引擎。核心的技術(shù)及大的框架都是基本一致的。



02


搜索服務(wù)的核心過程


下面我們聊聊一個搜索服務(wù)的核心流程都有哪些。


(1)數(shù)據(jù)的獲取+處理


對于專門的搜索引擎來講,數(shù)據(jù)及信息的獲取主要指的是爬蟲的操作。即下圖的sp左側(cè)部分。



各位朋友有沒有想過,百度可以實時返回你查詢的關(guān)鍵詞或者句子,是怎么做到的呢?比如你百度搜索【數(shù)據(jù)科學(xué)】,是實時去全網(wǎng)上全找一圈嗎?當(dāng)然不是。哪怕計算資源再多、計算效率再快,也不可能在短時間內(nèi)告訴你靠譜的結(jié)果。


因此,為了解決效率的問題,所有的搜索引擎都是提前將各類網(wǎng)站的數(shù)據(jù)爬下來,進(jìn)行處理加工,等待用戶的查詢操作。


這里需要做的數(shù)據(jù)處理加工工作其實是非常多的,比如需要對網(wǎng)頁的重復(fù)內(nèi)容進(jìn)行去重,比如需要對所有的網(wǎng)頁進(jìn)行文本解析、語義識別,比如需要對文本進(jìn)行索引的建立以便于后續(xù)的關(guān)鍵詞檢索等等。這里就不展開了,后面我們有機(jī)會逐一分享。


而對于網(wǎng)站內(nèi)部的搜索功能模塊來講,數(shù)據(jù)的獲取其實是比較容易的,不需要爬取,都是自己公司數(shù)據(jù)庫中現(xiàn)成的數(shù)據(jù)。我們以電商網(wǎng)站的搜索舉例,要搜索的都是商品,因此主要針對商品數(shù)據(jù)進(jìn)行處理就好。而商品的數(shù)據(jù)肯定有商品表,基礎(chǔ)信息已經(jīng)很豐富了,足夠滿足搜索的基礎(chǔ)應(yīng)用。相對專業(yè)搜索引擎而言,數(shù)據(jù)處理的難度是小了很多。


(2)搜索query解析


無論用戶是否進(jìn)行搜索,上面的第一個環(huán)節(jié)都是需要做的基礎(chǔ)工作。當(dāng)用戶進(jìn)行搜索操作時,需要進(jìn)行的處理的是本環(huán)節(jié):query解析。


所謂的query解析,就是理解和分析用戶輸入的搜索語句(query),到底是個啥意思。


比如輸入【數(shù)據(jù)科學(xué)家的主要工作內(nèi)容是啥】,搜索引擎只是冷冰冰的機(jī)器,它是不理解這句話是啥含義的,那它怎么能給你靠譜的答案呢?



其實很多朋友也能想到,直接基于關(guān)鍵詞進(jìn)行匹配唄~是的,大的邏輯沒毛病,但是真正落地就會發(fā)現(xiàn),有很多細(xì)節(jié)問題。


比如,關(guān)鍵詞匹配,那首先我得知道【數(shù)據(jù)科學(xué)家的主要工作內(nèi)容是啥】有哪些關(guān)鍵詞對不?這就得進(jìn)行分詞了。所謂的分詞,就是對query進(jìn)行切分為符合常識的關(guān)鍵詞,這是典型的NLP(自然語言處理)中的知識內(nèi)容。比如上面切分成【數(shù)據(jù)】+【科學(xué)】+【家的】+【主要】……還是【數(shù)據(jù)】+【科學(xué)家】+……這是完全不一樣的。


再比如下面的【研究生物學(xué)】的切分,更是五花八門了。分詞相關(guān)的NLP算法,后面詳細(xì)分享,這里只是拋個磚。



再比如,【數(shù)據(jù)科學(xué)家的主要工作內(nèi)容是啥】這句話,其中有【的】、【是啥】這種詞,如果進(jìn)行關(guān)鍵詞匹配是不是會有影響?畢竟這種語氣詞既沒有啥重要性,在網(wǎng)頁中出現(xiàn)的頻率又高。這里就涉及了核心關(guān)鍵詞的提取、權(quán)重判斷等。


再比如下面這個搜索【我和我的爺輩】,可能是我輸入錯了,但是query猜出我可能搜的是【我和我的父輩】,進(jìn)行了糾正,如果一根筋的搜索,是不可能出來這個結(jié)果的。



綜上,在query解析這個環(huán)節(jié),主要需要搞定的是用戶輸入的語句,如何對語句進(jìn)行處理,使得機(jī)器能夠理解語句的含義,便于后續(xù)高效地搜索到相關(guān)的結(jié)果。


當(dāng)然,基于關(guān)鍵詞是比較基礎(chǔ)的了,現(xiàn)在更多地朝著知識圖譜、問答的方向邁進(jìn),更加符合真正的搜索需求。


(3)內(nèi)容檢索召回+排序


上面兩個環(huán)節(jié),一個環(huán)節(jié)是從服務(wù)端出發(fā),進(jìn)行數(shù)據(jù)的處理加工;一個環(huán)節(jié)是從用戶端出發(fā),進(jìn)行用戶搜索語句的理解。


下面就到了第三個重要環(huán)節(jié):基于處理后的用戶的搜索內(nèi)容,到處理完的庫中檢索結(jié)果,把相關(guān)的內(nèi)容都找出來,并按照一定的規(guī)則進(jìn)行排序。


這個內(nèi)容是搜索引擎的核心內(nèi)容。因此不同的公司、不同網(wǎng)站的搜索引擎邏輯都會差別比較大,而排序邏輯更是千差萬別。


需要排序這個事情應(yīng)該比較好理解,理論上,我們是給匹配到檢索內(nèi)容的結(jié)果進(jìn)行打分,分值高的排在前面。用戶肯定是想要看到最相關(guān)、或者我們想讓用戶看到最重要的內(nèi)容在前面,越往后用戶看到的幾率越小。


因此,針對如何提升排序這個事情,就誕生了一個專門的行業(yè)、職位:SEO優(yōu)化(Search Engine Optimization),即提升相關(guān)內(nèi)容的網(wǎng)站排名。對于淘寶賣家而言,需要提升自己家商品在淘寶天貓的搜索排名,會進(jìn)行各種關(guān)鍵詞、指標(biāo)的優(yōu)化;網(wǎng)站為了提升自己的百度搜索排名,也會進(jìn)行各種標(biāo)題等優(yōu)化。



所以為了保障網(wǎng)站的排名公平,防止大家針對排序規(guī)則鉆空子,往往各家網(wǎng)站的搜索排序規(guī)則、打分權(quán)重等都是比較保密的。


(4)搜索結(jié)果呈現(xiàn)


最后一個環(huán)節(jié),主要就是產(chǎn)品功能層面的內(nèi)容了,即針對搜索返回的排序好的結(jié)果,進(jìn)行良好的產(chǎn)品化呈現(xiàn)。


比如知乎搜索【薇婭】:



在首頁(綜合)模塊都是各類型搜索結(jié)果的top合集:包括討論相關(guān)的內(nèi)容、問答相關(guān)的內(nèi)容、視頻相關(guān)等。這種呈現(xiàn)方式是多類型網(wǎng)站比較主流的混合呈現(xiàn)方式。因此,對于搜索而言,每種不同方式也是一個單獨的搜索引擎,然后不同的結(jié)果進(jìn)行產(chǎn)品化的merge。


當(dāng)然,隨著技術(shù)的越發(fā)完善,用戶體驗不斷提升,搜索也會有了各種特型呈現(xiàn)。比如我們在百度搜索【北京青島】:



這里不再是按照上面的環(huán)節(jié)進(jìn)行單純的檢索,而是對某些特定類型的關(guān)鍵詞進(jìn)行了特殊化呈現(xiàn),這屬于在基礎(chǔ)搜索服務(wù)上的補充。上面這個案例的規(guī)則應(yīng)該是用戶輸入的query中包含2個城市名稱,則觸發(fā)該特型呈現(xiàn)。感興趣的朋友可以自己試試【山東山西】、【中國日本】、【北京深圳青島】等,都是沒有特型的,哈哈。


特型呈現(xiàn)對于用戶的體驗而言是巨大的提升,但對于搜索引擎而言,需要不斷的積累,不斷地增加,是個很長期的事情。


當(dāng)然,不止搜索引擎有特型,其他網(wǎng)站內(nèi)部搜索也是可以有特型呈現(xiàn)的。比如下面淘寶搜索某個品牌名稱,除了商品list,還會增加旗艦店店鋪的大流量入口(雖然這是個廣告位)。



關(guān)于搜索相關(guān)的技術(shù)內(nèi)容,今天就先介紹這些。搜索涉及的內(nèi)容非常龐大,不是一篇文章可以講清楚的,這篇文章主要目的是對搜索的整體框架有個簡單的了解,明白搜索的基礎(chǔ)工作原理。后面有機(jī)會我們再一一展開,分享更多細(xì)節(jié)的內(nèi)容。也是比較有趣的。今天的文章就這些,感謝大家關(guān)注~



文章來源:作者:NK冬至。公眾號:首席數(shù)據(jù)科學(xué)家。

圖片來源:部分圖片來源網(wǎng)絡(luò),版權(quán)歸原作者所有,不為商業(yè)用途,如有侵犯,敬請作者與我們聯(lián)系。文章為作者獨立觀點,不代表135編輯器立場。


文章申明:本文章轉(zhuǎn)載自互聯(lián)網(wǎng)公開渠道,如有侵權(quán)請聯(lián)系我們刪除
文章評價
登錄后可以評論
立即登錄
比格設(shè)計
熱門工具
135編輯器
領(lǐng)先的在線圖文編輯平臺原創(chuàng)樣式素材,一鍵套用
筆格設(shè)計
受歡迎的在線作圖網(wǎng)站,新媒體配圖、手機(jī)海報應(yīng)有盡有
筆格PPT
輸入主題,AI一鍵生成PPT;上傳本地文件秒變PPT
管小助
企業(yè)營銷、私域流量運營——站式營銷管理平臺
推薦文章
用戶運營平臺產(chǎn)品設(shè)計指南
淺談用戶運營中的用戶分層
內(nèi)容運營:戴上寫作的六頂思考帽
5000字方法論:4個細(xì)節(jié),決定私域能不能賺錢
一個案例說明白用戶分析怎么用
22條視頻,漲粉12.6萬,一個女孩子在抖音靠洗車也能月入過萬!
高價值社群的5大核心關(guān)鍵
抖音賬號內(nèi)容自檢清單!
決定離職后,3天拿到offer的總結(jié)與反思!
【135早資訊】:教育部將徹查教材插圖問題;抖音6月1日起將對本地生活商家收取服務(wù)費
熱門素材樣式
運營導(dǎo)航
運營工具
分享到