當今社會已經(jīng)進入了信息時代,其主要表現(xiàn)形式為互聯(lián)網(wǎng)帶來的信息爆炸:互聯(lián)網(wǎng)作為第四大媒體不僅打破了廣播、電視、報紙的壟斷,而且還融合了廣播、電視、報紙的功能,甚至有取代的趨勢:隨著移動智能終端和3G業(yè)務的快速普及,移動互聯(lián)網(wǎng)悄然而至,帶給人們更加便捷的視頻、游戲、定位等體驗。
目前,移動互聯(lián)網(wǎng)在全球已經(jīng)成為最具潛力的市場之一,隨之而來的移動互聯(lián)網(wǎng)領域的信息挖掘也顯得日益重要。電信運營商通過對移動互聯(lián)網(wǎng)中各項數(shù)據(jù)進行挖掘和分析,能夠對用戶的使用行為、興趣愛好、發(fā)展趨勢等進行全面了解,從而指導運營商進行有效的價值拓展。
1.需求分析
3G網(wǎng)絡的不斷優(yōu)化,讓用戶可以隨時、隨地高速訪問無線數(shù)據(jù)業(yè)務:電信運背商抓住了這個契機,為3G用戶提供豐富多彩的移動互聯(lián)網(wǎng)數(shù)據(jù)業(yè)務,如手機音樂、手機電視、手機閱讀、手機郵箱等,數(shù)據(jù)流量也隨之與日俱增,這是增值業(yè)務收入提高的重要來源。面對如此眾多的增值業(yè)務,如何讓用戶快速找到自己感興趣的業(yè)務,運營商又如何去對用戶進行分類,根據(jù)用戶的興趣愛好有效地推薦業(yè)務,這將是各大運營商面臨的一個重大問題。因此,只有知道用戶在什么地方,什么時間,訪問了什么內(nèi)容,才能及時準確地把握用戶需求。要做到這一點,就需要對移動互聯(lián)網(wǎng)信息進行深度挖掘和分析,了解用戶興趣點和訪問習慣等,再通過有針對性的營銷手段,通過合適的渠道,快速將業(yè)務信息有效地推廣到用戶終端,促使用戶訪問所感興趣的內(nèi)容,同時避免對用戶的重復打擾,這樣才能真正實現(xiàn)移動互聯(lián)網(wǎng)時代精細化運營的目標。
2.移動互聯(lián)網(wǎng)信息挖掘方式
信息挖掘是通過分析用戶數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律的技術,主要有數(shù)據(jù)準備、規(guī)律尋找和規(guī)律表示等步驟。移動互聯(lián)網(wǎng)數(shù)據(jù)具有數(shù)據(jù)量大、數(shù)據(jù)結構復雜、數(shù)據(jù)內(nèi)容分散等特點,呈現(xiàn)出爆炸性增長的趨勢。因此,為了從浩如煙海的數(shù)據(jù)中提取出有效信息,必須選擇合適的數(shù)據(jù)挖掘策略。
2.1 信息挖掘流程
信息挖掘是一個復雜的過程,需要進行大量的數(shù)據(jù)采集和運算等。按照基本功能,可以將整個信息挖掘流程劃分成內(nèi)容采集、內(nèi)容挖掘和行為分析3個環(huán)節(jié)(見如圖1)。
圖1 信息挖掘流程
2.1.1 內(nèi)容采集
不論是在政府、商業(yè)領域,還是在個人領域,進行數(shù)據(jù)分析和數(shù)據(jù)挖掘的基礎都要基于信息的真實性和有效性。運營商可以將網(wǎng)絡流量與用戶的真實身份進行對應。從而進行有效的數(shù)據(jù)挖掘和分析,有利于后續(xù)運營活動、網(wǎng)絡優(yōu)化的開展。內(nèi)容采集主要包括以下3個方面。
a)垃圾頁面過濾。系統(tǒng)每天從分組域網(wǎng)絡中獲取了TopN的數(shù)據(jù),而真正有效的內(nèi)容只有一部分,需要在前端排除過濾掉那些不關心的干擾信息、產(chǎn)品的垃圾頁面等。
b)頁面內(nèi)容爬取。這是將網(wǎng)頁的內(nèi)容通過爬詞引擎獲取的部分,分析頁面代碼格式,清除標簽,盡可能獲取內(nèi)容的標題、正文、段落、字體、顏色等信息。
c)頁面垃圾過濾。頁面中不可避免地會存在大量的垃圾信息,這些信息嚴重干擾到聚類的準確度,頁面垃圾過濾機制會找出包括廣告在內(nèi)的段落,并將其清除,不進入內(nèi)容挖掘部分。
2.1.2 內(nèi)容挖掘
內(nèi)容挖掘包括以下3個方面。
a)頁面內(nèi)容分析。把前置工作過濾完成的真實頁面內(nèi)容,交給內(nèi)容分析引擎,該引擎分析出信息的標題和正文,并將它們進行分詞處理,獲取整篇內(nèi)容的關鍵詞條,為內(nèi)容聚類提供基礎數(shù)據(jù)。
b)頁面內(nèi)容聚類。這是互聯(lián)網(wǎng)信息挖掘引擎的核心部分,把所有經(jīng)過內(nèi)容分析的頁面進行聚類分析,把若干相似度高的內(nèi)容聚類成一組,然后交給信息處理引擎分析各組內(nèi)容的相同與不同信息。
c)頁面信息處理。對聚成相同類別的各個頁面的信息,進行比對和統(tǒng)計,統(tǒng)計出這些相同或相似頁面之間的共性與異性,再結合頁面訪問信息、客戶信息等計算出相應的報表用于展示。
2.1.3 行為分析
客戶行為分析為內(nèi)容挖掘與客戶關聯(lián)部分提供數(shù)據(jù)支持,其包括以下2個部分。
a)客戶畫像。客戶畫像是對客戶的多維度描述,是一個客戶的信息與標簽,為相關數(shù)據(jù)分析提供依據(jù),同時也是一個個客戶群建立的基礎。客戶畫像的維度越多、越精準.就越能夠反映出用戶的興趣、習慣等。客戶畫像的維度可以包括基本信息維度、終端維度、流量維度、訪問維度、搜索維度、專題維度、應用維度、產(chǎn)品維度、消費維度等。
b)客戶洞察。客戶洞察是對單一客戶或客戶群的深度描述。洞察訪問是在個體的客戶畫像的基礎上,洞察客戶訪問“熱點內(nèi)容”或“熱點標題”的客戶特征。客戶洞察要求從不同的角度進行,包括基本屬性、社會屬性、業(yè)務屬性、電信屬性、消費能力等方面。根據(jù)洞察條件,對客戶進行深度挖掘,挖掘出“熱點內(nèi)容”或“熱點標題”的客戶特征,即要洞察出客戶的基本流量、趨勢、習慣、終端、訪問、搜索、音樂、視頻、圖片、下載、游戲、閱讀、房產(chǎn)、汽車等特征。
2.2信息挖掘熱點技術
2.2.1頁面過濾
在一個網(wǎng)站中,存在很多如廣告、導航頁面、功能頁面、提示頁面等沒有實際主題的頁面,這些頁面不應該參與到內(nèi)容(熱點內(nèi)容)挖掘中來,否則將會給分析帶來巨大的誤差。因此,必須預先對這些頁面進行過濾:實際上,過濾過程是一個知識積累的過程。因此,需要建立內(nèi)容過濾的知識庫,在知識庫中保存了需要過濾內(nèi)容的規(guī)則。如:廣告頁面直接過濾掉即可,而導航頁面則不進行內(nèi)容的文本切詞等后續(xù)挖掘,但需要提取頁面上的所有鏈接以獲取下一級頁面等。對于一個有效頁面,依然需要對其進行內(nèi)容清洗,去掉頁面中的廣告、格式等無效數(shù)據(jù),僅保留主題內(nèi)容。
2.2.2 文本切詞
文本切詞,就是對過濾和清洗后的主題內(nèi)容迸行詞組劃分,獲取i亥主題的所有關鍵詞,即將一個文章的主題內(nèi)容漢字序列切分成一個個單獨的詞。目前的分側箅法可以分為三大類,分別是基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法。目前并不能斷言哪種方法的準確率更高,因此對于任何一個成熟的分詞系統(tǒng)來說,不可能單獨依靠某一種算法來實現(xiàn),都需要綜合不同的算法。
a)字符串匹配分詞:又被稱為機械分詞方法,是按照一定的策略將待分析的漢字串與一個充分大的機器詞典中的詞條進行匹配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。目前,該種方法已經(jīng)存在多種較為成熟的算法和模型。應用較為廣泛。
b)基于理解的分詞:通過讓計算機模擬人對句子的理解,達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。由于漢語語言的復雜性,目前基于理解的分詞系統(tǒng)還處住研究階段。
c)基于統(tǒng)計的分詞:這種方法只需對語料中的字組頻度進行統(tǒng)計,不需要切分詞典,但這種方法也有一定的局限性,會經(jīng)常抽出一些出現(xiàn)頻度高,但并不是詞的常用字組等。
2.2.3 內(nèi)容聚類
聚類分析是人們認識和探索事物內(nèi)在聯(lián)系的一種手段,其目的就是將一個數(shù)據(jù)集劃分為若干聚類并使得同一個聚類內(nèi)的數(shù)據(jù)對象具有較高的相似度。而不同聚類中的數(shù)據(jù)對象則是不相似的。
不同于內(nèi)容(頁面)分類的把各個貝面分成各個類別。內(nèi)容聚類是將相同類別,相同內(nèi)容或相似內(nèi)容的頁面聚合在一起。把其作為比較的對象,提供最終的內(nèi)容展示基礎。聚類分析是面向實際應用的技術,因此聚類的定義與待處理的數(shù)據(jù)類型有關。基于不同的模型構造思想,目前學術界提出了一系列很具體化的定義,如距離模型、質(zhì)心模型、連接模型、密度模型、相似性模型等。以相似性模型為例。相同類別的頁面,通過對內(nèi)容標題或正文的分詞,比較不同文章分詞的相似度,通過聚類算法,滿足條件的文章,被認為是聚合的。這里,數(shù)據(jù)(內(nèi)容)對象之間的相似度由相似系數(shù)確定,而對象之間是否相似則必須通過預設的閾值來加以規(guī)定,相似系數(shù)大于閾值的對象之間是相似的,否則就是不相似的。
2.2.4 熱點挖掘
熱點挖掘除了對熱點網(wǎng)站、熱點內(nèi)容、熱點標題等通過聚類分析等進行挖掘,還需要對一些未知的熱點信息和熱點關聯(lián)信息進行分析。
a)不確定網(wǎng)絡熱點主題發(fā)現(xiàn)。數(shù)據(jù)挖掘的魅力在于“發(fā)現(xiàn)”,“發(fā)現(xiàn)”即為事先不可預知的事物。在網(wǎng)絡上,發(fā)現(xiàn)新的熱點主題是系統(tǒng)實現(xiàn)的一項重要技術特征。“不確定網(wǎng)絡熱點主題發(fā)現(xiàn)”不事先定義主題,也不事先定義任何關鍵字,是一種無監(jiān)督、無指導的自然聚類過程。通過無指導的自然聚類,得到一系列網(wǎng)絡主題,然后提取代表詞,呈現(xiàn)給用戶,用戶通過觀察再賦予主題名。
b)熱點關聯(lián)分析。關聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘中最活躍的研究方向之一,它反映了大量數(shù)據(jù)中項目之間有趣的關聯(lián)或相關關系。通過應用數(shù)據(jù)挖掘技術中的關聯(lián)分析技術,給出關鍵詞之間的關聯(lián)關系。計算任兩個關鍵詞存在關聯(lián)的支持度和置信度,從而當某一關鍵詞出現(xiàn)時可以預測到與其存在關聯(lián)關系的其他關鍵詞出現(xiàn)的概率。這點在敏感信息監(jiān)控方面尤其重要,可以提前預判到敏感信息的出現(xiàn),從而提前做出相應的處理措施。
3.業(yè)務應用
目前,基于移動互聯(lián)網(wǎng)的信息挖掘,結合運營商的業(yè)務發(fā)展情況,可以開展針對性業(yè)務推薦和定向廣告的應用探索。其巾,針對性業(yè)務推薦是根據(jù)用戶特征推薦可能感興趣的業(yè)務。可以涵蓋運營商的自有業(yè)務、合作業(yè)務以及第三方業(yè)務等;定向廣告是基于用戶信息的挖掘分析進行精確投放,既節(jié)約,資源,又可以達到良好的投放效果。
3.1 針對性業(yè)務推薦
移動互聯(lián)網(wǎng)時代。用戶對信息的獲取需求更為迫切,為用戶推薦合適的內(nèi)容,有利于增加用戶黏性,降低流失率。如用戶訪問門戶網(wǎng)站時,為其推薦適合的書籍、游戲、視頻等。國外運營商很早就重視將用戶行為分析技術應用于針對性營銷,并開展了多種嘗試。例如,Vodafone通過用戶信息挖掘進行精確營銷,對產(chǎn)品銷售提升最高可達400%?
國內(nèi)運營商也建設了相關平臺,通過信息挖掘,對用戶進行細分,營銷人員根據(jù)營銷目標,結合產(chǎn)品匹配模型,實現(xiàn)針對性業(yè)務推薦和精確營銷的目的,此外,存新產(chǎn)品開發(fā)過程中,也逐漸重視用戶分析的應用和實踐,針對不同的用戶群體,開發(fā)不同的產(chǎn)品,制定不同的套餐標準等,并及時發(fā)現(xiàn)現(xiàn)有產(chǎn)品或業(yè)務流程的小合理之處。進行優(yōu)化和改進,提高客戶體驗。
針對性業(yè)務推薦可以基于多種方式。如營業(yè)廳實體渠道、門戶個性化展現(xiàn)、電話營銷、以及傳統(tǒng)的短信、彩信和WAP PUSH推廣等。以下是某省通過WAP PUSH推送炫鈴“音樂盒”的營銷案例,采用相同的推廣內(nèi)容和渠道。但隨著目標用戶群提取方式的不同,營銷效果和營銷成本都有巨大差異。
方式一:隨機選取10000個3G手機上網(wǎng)的出賬用戶,推送“音樂盒”業(yè)務,用戶訂購率為0.8%。
方式二:根據(jù)訪問和搜索“興趣點”,選取標有“音樂類”特征的3 000個3G用戶進行推送,用戶訂購率為7.6%。
對比以上2種方式發(fā)現(xiàn).經(jīng)過用戶信息挖掘后的針對性營銷,可以大幅提升成功率,節(jié)約營銷資源。
3.2 定向廣告
通過對用戶瀏覽、搜索內(nèi)容的分析,有針對性地投放廣告。以達到最好的廣告效果。目前這種定向廣告在互聯(lián)網(wǎng)領域應用非常廣泛,例如Google的Adwords,根據(jù)用戶當前閱讀的內(nèi)容投放精確廣告;騰訊利用其QQ用戶的行為和偏好信息開展游戲等相關業(yè)務的精準營銷。
以手機終端或業(yè)務為載體的移動廣告形式多種多樣,如短信廣告、彩信廣告、WAP廣告、程序嵌入式廣告、位置廣告、手機視頻廣告、搜索廣告等。因此,利用手機用戶的信息挖掘和行為分析,基于移動廣告的多種形式,結合相應的推薦模型。可以通過精準友好的方式及時推送有效的手機廣告。
在移動通信領域,很多國外運營商都開展了定向廣告服務,如美國spint通過對用戶位置信息分布的分析,為廣告商,商場提供最佳廣告/開店位置服務;新加坡電信業(yè)也通過用戶信息和位置信息提供廣告服務;英國新興運營商Blyk通過精準營銷廣告運作,使最高用戶響應率達51%(普通方式投放的響應率不足1%)。
4.結束語
移動互聯(lián)網(wǎng)是目前移動通信發(fā)展的趨勢。是運營商需要重點關注的領域。借助有效的信息挖掘技術。提取用戶信息,分析用戶的特征,從而有針對性地開展運營和服務,并根據(jù)營銷結果進行進一步的信息挖掘和分析,從而形成良性的閉環(huán)營銷體系。如何開展好高效的信息挖掘工作,充分發(fā)揮運營商的智能管道優(yōu)勢,持續(xù)做好流量和業(yè)務運營將是運營商探索的一個方向。
核心關注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務領域、行業(yè)應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業(yè)務領域的管理,全面涵蓋了企業(yè)關注ERP管理系統(tǒng)的核心領域,是眾多中小企業(yè)信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網(wǎng)http://www.lukmueng.com/
本文標題:移動互聯(lián)網(wǎng)信息挖掘的實現(xiàn)及應用淺析
本文網(wǎng)址:http://www.lukmueng.com/html/consultation/10839511094.html