1.引言
當今,社會信息化和網絡化的發展導致數據爆炸式增長。據統計,平均每秒有200萬用戶在使用谷歌搜索,Facebook用戶每天共享的東西超過40億,Twitter每天處理的推特數量超過3.4億。同時,科學計算、醫療衛生、金融、零售業等各行業也有大量數據在不斷產生。2012年全球信息總量已經達到2.7 ZB,而到2015年這一數值預計會達到8 ZB。這一現象引發了人們的廣泛關注。在學術界,圖靈獎獲得者Jim Gray提出了科學研究的第四范式,即以大數據為基礎的數據密集型科學研究;2008年《Nature))推出了大數據專刊對其展開探討;2011年《Science》也推出類似的數據處理專刊。IT產業界行動更為積極,持續關注數據再利用,挖掘大數據的潛在價值。目前,大數據已成為繼云計算之后信息技術領域的另一個信息產業增長點。據Gartner預測,2013年大數據將帶動全球IT支出340億美元,到2016年全球在大數據方面的總花費將達到2320億美元。Gartner將“大數據”技術列入2012年對眾多公司和組織機構具有戰略意義的十大技術與趨勢之一。不僅如此,作為國家和社會的主要管理者,各國政府也是大數據技術推廣的主要推動者。2009年3月美國政府上線了data.gov網站,向公眾開放政府所擁有的公共數據。隨后,英國、澳大利亞等政府也開始了大數據開放的進程,截至目前,全世界已經正式有35個國家和地區構建了自己的數據開放門戶網站。美國政府聯合6個部門宣布了2億美元的“大數據研究與發展計劃”。在我國,2012年中國通信學會、中國計算機學會等重要學術組織先后成立了大數據專家委員會,為我國大數據應用和發展提供學術咨詢。
目前大數據的發展仍然面臨著許多問題,安全與隱私問題是人們公認的關鍵問題之一。當前,人們在互聯網上的一言一行都掌握在互聯網商家手中,包括購物習慣、好友聯絡情況、閱讀習慣、檢索習慣等等。多項實際案例說明,即使無害的數據被大量收集后,也會暴露個人隱私。事實上,大數據安全含義更為廣泛,人們面臨的威脅并不僅限于個人隱私泄漏。與其它信息一樣,大數據在存儲、處理、傳輸等過程中面臨諸多安全風險,具有數據安全與隱私保護需求。而實現大數據安全與隱私保護,較以往其它安全問題(如云計算中的數據安全等)更為棘手。這是因為在云計算中,雖然服務提供商控制了數據的存儲與運行環境,但是用戶仍然有些辦法保護自己的數據,例如通過密碼學的技術手段實現數據安全存儲與安全計算,或者通過可信計算方式實現運行環境安全等。而在大數據的背景下,Facebook等商家既是數據的生產者,又是數據的存儲、管理者和使用者,因此,單純通過技術手段限制商家對用戶信息的使用,實現用戶隱私保護是極其困難的事。
當前很多組織都認識到大數據的安全問題,并積極行動起來關注大數據安全問題。2012年云安全聯盟CSA組建了大數據工作組,旨在尋找針對數據中心安全和隱私問題的解決方案。本文在梳理大數據研究現狀的基礎上,重點分析了當前大數據所帶來的安全挑戰,詳細闡述了當前大數據安全與隱私保護的關鍵技術。需要指出的是,大數據在引人新的安全問題和挑戰的同時,也為信息安全領域帶來了新的發展契機,即基于大數據的信息安全相關技術可以反過來用于大數據的安全和隱私保護。本文在第5節對其進行了初步分析與探討。
2.大數據研究概述
2.1 大數據來源與特征
普遍的觀點認為,大數據是指規模大且復雜、以至于很難用現有數據庫管理工具或數據處理應用來處理的數據集。大數據的常見特點包括大規模(volume)、高速性(velocity)和多樣性(variety)。根據來源的不同,大數據大致可分為如下幾類:
(1)來自于人。人們在互聯網活動以及使用移動互聯網過程中所產生的各類數據,包括文字、圖片、視頻等信息;
(2)來自于機。各類計算機信息系統產生的數據,以文件、數據庫、多媒體等形式存在,也包括審計、日志等自動生成的信息;
(3)來自于物。各類數字設備所采集的數據。如攝像頭產生的數字信號、醫療物聯網中產生的人的各項特征值、天文望遠鏡所產生的大量數據等。
2.2 大數據分析目標
目前大數據分析應用于科學、醫藥、商業等各個領域,用途差異巨大。但其目標可以歸納為如下幾類:
(1)獲得知識與推測趨勢
人們進行數據分析由來已久,最初且最重要的目的就是獲得知識、利用知識。由于大數據包含大量原始、真實信息,大數據分析能夠有效地摒棄個體差異,幫助人們透過現象、更準確地把握事物背后的規律。基于挖掘出的知識,可以更準確地對自然或社會現象進行預測。典型的案例是Google公司的Google Flu Trends網站。它通過統計人們對流感信息的搜索,查詢Google服務器日志的IP地址判定搜索來源,從而發布對世界各地流感情況的預測。又如,人們可以根據Twitter信息預測股票行情等。
(2)分析掌握個性化特征
個體活動在滿足某些群體特征的同時,也具有鮮明的個性化特征。正如“長尾理論”中那條細長的尾巴那樣,這些特征可能千差萬別。企業通過長時間、多維度的數據積累,可以分析用戶行為規律,更準確地描繪其個體輪廓,為用戶提供更好的個性化產品和服務,以及更準確的廣告推薦。例如Google通過其大數據產品對用戶的習慣和愛好進行分析,幫助廣告商評估廣告活動效率,預估在未來可能存在高達到數千億美元的市場規模。
(3)通過分析辨識真相
錯誤信息不如沒有信息。由于網絡中信息的傳播更加便利,所以網絡虛假信息造成的危害也更大。例如,2013年4月24日,美聯社Twitter帳號被盜,發布虛假消息稱總統奧巴馬遭受恐怖襲擊受傷。雖然虛假消息在幾分鐘內被禁止,但是仍然引發了美國股市短暫跳水。由于大數據來源廣泛及其多樣性,在一定程度上它可以幫助實現信息的去偽存真。目前人們開始嘗試利用大數據進行虛假信息識別。例如,社交點評類網站Yelp利用大數據對虛假評論進行過濾,為用戶提供更為真實的評論信息;Yahoo和Thinkmail等利用大數據分析技術來過濾垃圾郵件。
2.3 大數據技術框架
大數據處理涉及數據的采集、管理、分析與展示等。圖1是相關技術示意圖。
圖1 大數據技術架構
(1)數據采集與預處理(Data Acquisition & Preparation)
大數據的數據源多樣化,包括數據庫、文本、圖片、視頻、網頁等各類結構化、非結構化及半結構化數據。因此,大數據處理的第一步是從數據源采集數據并進行預處理操作,為后繼流程提供統一的高質量的數據集。
由于大數據的來源不一,可能存在不同模式的描述,甚至存在矛盾。因此,在數據集成過程中對數據進行清洗,以消除相似、重復或不一致的數據是非常必要的。文獻中數據清洗和集成技術針對大數據的特點,提出非結構化或半結構化數據的清洗以及超大規模數據的集成。
數據存儲與大數據應用密切相關。某些實時性要求較高的應用,如狀態監控,更適合采用流處理模式,直接在清洗和集成后的數據源上進行分析。而大多數其它應用則需要存儲,以支持后繼更深度的數據分析流程。為了提高數據吞吐量,降低存儲成本,通常采用分布式架構來存儲大數據。這方面有代表性的研究包括:文件系統GFSE、HDFS和Haystack等;NoSQL數據庫Mongodb、CouchDB、HBase、Redis、Neo4j等。
(2)數據分析(Data Analysis)
數據分析是大數據應用的核心流程。根據不同層次大致可分為3類:計算架構、查詢與索引以及數據分析和處理。
在計算架構方面,MapReduce是當前廣泛采用的大數據集計算模型和框架。為了適應一些對任務完成時間要求較高的分析需求,文獻對其性能進行了優化;文獻提出了一種基于MapReduce架構的數據流分析解決方案MARISSA,使其能夠支持實時分析任務;文獻則提出了基于時間的大數據分析方案Mastiff;文獻也針對廣告推送等實時性要求較高的應用,提出了基于MapReduce的TiMR框架來進行實時流處理。
在查詢與索引方面,由于大數據中包含了大量的非結構化或半結構化數據,傳統關系型數據庫的查詢和索引技術受到限制,而NoSQL類數據庫技術得到更多關注。例如,文獻提出了一個混合的數據訪問架構HyDB以及一種并發數據查詢及優化方法。文獻對key-value類型數據庫的查詢進行了性能優化。
在數據分析與處理方面,主要涉及的技術包括語義分析與數據挖掘等。由于大數據環境下數據呈現多樣化特點,所以對數據進行語義分析時,就較難統一術語進而挖掘信息。文獻針對大數據環境,提出了一種解決術語變異問題的高效術語標準化方法。文獻對語義分析中語義本體的異質性展開了研究。傳統數據挖掘技術主要針對結構化數據,因此迫切需要對非結構化或半結構化的數據挖掘技術展開研究。文獻提出了一種針對圖片文件的挖掘技術,文獻提出了一種大規模TEXT文件的檢索和挖掘技術。
(3)數據解釋(Data IntERPretation)
數據解釋旨在更好地支持用戶對數據分析結果的使用,涉及的主要技術為可視化和人機交互。目前已經有了一些針對大規模數據的可視化研究,通過數據投影、維度降解或顯示墻等方法來解決大規模數據的顯示問題。由于人類的視覺敏感度限制了更大屏幕顯示的有效性,以人為中心的人機交互設計也將是解決大數據分析結果展示的一種重要技術。
(4)其它支撐技術(Data Transmission & Virtual Cluster)
雖然大數據應用強調以數據為中心,將計算推送到數據上執行,但是在整個處理過程中,數據的傳輸仍然是必不可少的,例如一些科學觀測數據從觀測點向數據中心的傳輸等。文獻針對大數據特征研究高效傳輸架構和協議。
此外,由于虛擬集群具有成本低、搭建靈活、便于管理等優點,人們在大數據分析時可以選擇更加方便的虛擬集群來完成各項處理任務。因此需要針對大數據應用展開的虛擬機集群優化研究。
3.大數據帶來的安全挑戰
科學技術是一把雙刃劍。大數據所引發的安全問題與其帶來的價值同樣引人注目。而最近爆發的“棱鏡門”事件更加劇了人們對大數據安全的擔憂。與傳統的信息安全問題相比,大數據安全面臨的挑戰性問題主要體現在以下幾個方面。
3.1 大數據中的用戶隱私保護
大量事實表明,大數據未被妥善處理會對用戶的隱私造成極大的侵害。根據需要保護的內容不同,隱私保護又可以進一步細分為位置隱私保護、標識符匿名保護、連接關系匿名保護等。
人們面臨的威脅并不僅限于個人隱私泄漏,還在于基于大數據對人們狀態和行為的預測。一個典型的例子是某零售商通過歷史記錄分析,比家長更早知道其女兒已經懷孕的事實,并向其郵寄相關廣告信息。而社交網絡分析研究也表明,可以通過其中的群組特性發現用戶的屬性。例如通過分析用戶的Twitter信息,可以發現用戶的政治傾向、消費習慣以及喜好的球隊等。
當前企業常常認為經過匿名處理后,信息不包含用戶的標識符,就可以公開發布了。但事實上,僅通過匿名保護并不能很好地達到隱私保護目標。例如,AOL公司曾公布了匿名處理后的3個月內部分搜索歷史,供人們分析使用。雖然個人相關的標識信息被精心處理過,但其中的某些記錄項還是可以被準確地定位到具體的個人。紐約時報隨即公布了其識別出的1位用戶。編號為4417 749的用戶是1位62歲的寡居婦人,家里養了3條狗,患有某種疾病,等等。另一個相似的例子是,著名的DVD租賃商Netflix曾公布了約50萬用戶的租賃信息,懸賞100萬美元征集算法,以期提高電影推薦系統的準確度。但是當上述信息與其它數據源結合時,部分用戶還是被識別出來了。研究者發現,Netflix中的用戶有很大概率對非topl00、top500、topl000的影片進行過評分,而根據對非top影片的評分結果進行去匿名化(de-anonymizing)攻擊的效果更好。
目前用戶數據的收集、存儲、管理與使用等均缺乏規范,更缺乏監管,主要依靠企業的自律。用戶無法確定自己隱私信息的用途。而在商業化場景中,用戶應有權決定自己的信息如何被利用,實現用戶可控的隱私保護。例如用戶可以決定自己的信息何時以何種形式披露,何時被銷毀。包括:(1)數據采集時的隱私保護,如數據精度處理;(2)數據共享、發布時的隱私保護,如數據的匿名處理、人工加擾等;(3)數據分析時的隱私保護;(4)數據生命周期的隱私保護;(5)隱私數據可信銷毀等。
3.2 大數據的可信性
關于大數據的一個普遍的觀點是,數據自己可以說明一切,數據自身就是事實。但實際情況是,如果不仔細甄別,數據也會欺騙,就像人們有時會被自己的雙眼欺騙一樣。
大數據可信性的威脅之一是偽造或刻意制造的數據,而錯誤的數據往往會導致錯誤的結論。若數據應用場景明確,就可能有人刻意制造數據、營造某種“假象”,誘導分析者得出對其有利的結論。由于虛假信息往往隱藏于大量信息中,使得人們無法鑒別真偽,從而做出錯誤判斷。例如,一些點評網站上的虛假評論,混雜在真實評論中使得用戶無法分辨,可能誤導用戶去選擇某些劣質商品或服務。由于當前網絡社區中虛假信息的產生和傳播變得越來越容易,其所產生的影響不可低估。用信息安全技術手段鑒別所有來源的真實性是不可能的。
大數據可信性的威脅之二是數據在傳播中的逐步失真。原因之一是人工干預的數據采集過程可能引入誤差,由于失誤導致數據失真與偏差,最終影響數據分析結果的準確性。此外,數據失真還有數據的版本變更的因素。在傳播過程中,現實情況發生了變化,早期采集的數據已經不能反映真實情況。例如,餐館電話號碼已經變更,但早期的信息已經被其它搜索引擎或應用收錄,所以用戶可能看到矛盾的信息而影響其判斷。
因此,大數據的使用者應該有能力基于數據來源的真實性、數據傳播途徑、數據加工處理過程等,了解各項數據可信度,防止分析得出無意義或者錯誤的結果。
密碼學中的數字簽名、消息鑒別碼等技術可以用于驗證數據的完整性,但應用于大數據的真實性時面臨很大困難,主要根源在于數據粒度的差異。例如,數據的發源方可以對整個信息簽名,但是當信息分解成若干組成部分時,該簽名無法驗證每個部分的完整性。而數據的發源方無法事先預知哪些部分被利用、如何被利用,難以事先為其生成驗證對象。
3.3 如何實現大數據訪問控制
訪問控制是實現數據受控共享的有效手段。由于大數據可能被用于多種不同場景,其訪問控制需求十分突出。
大數據訪問控制的特點與難點在于:
(1)難以預設角色,實現角色劃分。由于大數據應用范圍廣泛,它通常要為來自不同組織或部門、不同身份與目的的用戶所訪問,實施訪問控制是基本需求。然而,在大數據的場景下,有大量的用戶需要實施權限管理,且用戶具體的權限要求未知。面對未知的大量數據和用戶,預先設置角色十分困難。
(2)難以預知每個角色的實際權限。由于大數據場景中包含海量數據,安全管理員可能缺乏足夠的專業知識,無法準確地為用戶指定其所可以訪問的數據范圍。而且從效率角度講,定義用戶所有授權規則也不是理想的方式。以醫療領域應用為例,醫生為了完成其工作可能需要訪問大量信息,但對于數據能否訪問應該由醫生來決定,不應該需要管理員對每個醫生做特別的配置。但同時又應該能夠提供對醫生訪問行為的檢測與控制,限制醫生對病患數據的過度訪問。
此外,不同類型的大數據中可能存在多樣化的訪問控制需求。例如,在Web2.0個人用戶數據中,存在基于歷史記錄的訪問控制;在地理地圖數據中,存在基于尺度以及數據精度的訪問控制需求;在流數據處理中,存在數據時間區間的訪問控制需求,等等。如何統一地描述與表達訪問控制需求也是一個挑戰性問題。
4.大數據安全與隱私保護關鍵技術
當前亟需針對前述大數據面l臨的用戶隱私保護、數據內容可信驗證、訪問控制等安全挑戰,展開大數據安全關鍵技術研究。本節選取部分重點相關研究領域予以介紹。
4.1 數據發布匿名保護技術
對于大數據中的結構化數據(或稱關系數據)而言,數據發布匿名保護是實現其隱私保護的核心關鍵技術與基本手段,目前仍處于不斷發展與完善階段。以典型的k匿名方案為例。早期的方案及其優化方案通過元組泛化、抑制等數據處理,將準標識符分組。每個分組中的準標識符相同且至少包含k個元組,因而每個元組至少與k-1個其它元組不可區分。由于是匿名模型是針對所有屬性集合而言,對于具體的某個屬性則未加定義,容易出現某個屬性匿名處理不足的情況。若某等價類中某個敏感屬性上取值一致,則攻擊者可以有效地確定該屬性值。針對該問題研究者提出l多樣化(l-diversity)匿名。其特點是在每一個匿名屬性組里敏感數據的多樣性滿足要大于或等于l。實現方法包括基于裁剪算法的方案以及基于數據置換的方案等。此外,還有一些介于志匿名與l多樣化之間的方案。進一步的,由于l-diversity只是能夠盡量使敏感數據出現的頻率平均化。當同一等價類中數據范圍很小時,攻擊者可猜測其值。t貼近性(t-closeness)方案要求等價類中敏感數據的分布與整個數據表中數據的分布保持一致。其它工作包括(k,e)匿名模型(X,Y)匿名模型等。上述研究是針對靜態、一次性發布情況。而現實中,數據發布常面臨數據連續、多次發布的場景。需要防止攻擊者對多次發布的數據聯合進行分析,破壞數據原有的匿名特性。
在大數據場景中,數據發布匿名保護問題較之更為復雜:攻擊者可以從多種渠道獲得數據,而不僅僅是同一發布源。例如,在前所提及的Netflix應用中,人們發現攻擊者可通過將數據與公開可獲得的imdb相對比,從而識別出目標在Netflix的賬號。并據此獲取用戶的政治傾向與宗教信仰等(通過用戶的觀看歷史和對某些電影的評論和打分分析獲得)。此類問題有待更深入的研究。
4.2 社交網絡匿名保護技術
社交網絡產生的數據是大數據的重要來源之一,同時這些數據中包含大量用戶隱私數據。截至2012年10月Facebook的用戶成員就已達10億。由于社交網絡具有圖結構特征,其匿名保護技術與結構化數據有很大不同。
社交網絡中的典型匿名保護需求為用戶標識匿名與屬性匿名(又稱點匿名),在數據發布時隱藏了用戶的標識與屬性信息;以及用戶問關系匿名(又稱邊匿名),在數據發布時隱藏用戶間的關系。而攻擊者試圖利用節點的各種屬性(度數、標簽、某些具體連接信息等),重新識別出圖中節點的身份信息。
目前的邊匿名方案大多是基于邊的增刪。隨機增刪交換邊的方法可以有效地實現邊匿名。其中文獻在匿名過程中保持鄰接矩陣的特征值和對應的拉普拉斯矩陣第二特征值不變,文獻根據節點的度數分組,從度數相同的節點中選擇符合要求的進行邊的交換,類似的還有文獻。這類方法的問題是隨機增加的噪音過于分散稀少,存在匿名邊保護不足問題。
另一個重要思路是基于超級節點對圖結構進行分割和集聚操作。如基于節點聚集的匿名方案、基于基因算法的實現方案、基于模擬退火算法的實現方案哺們以及先填充再分割超級節點的方案。文獻所提出的k-security概念,通過k個同構子圖實現圖匿名保護。基于超級節點的匿名方案雖然能夠實現邊的匿名,但是與原始社交結構圖存在較大區別,以犧牲數據的可用性為代價。
社交網絡匿名方案面臨的重要問題是,攻擊者可能通過其它公開的信息推測出匿名用戶,尤其是用戶之間是否存在連接關系。例如,可以基于弱連接對用戶可能存在的連接進行預測,適用于用戶關系較為稀疏的網絡;根據現有社交結構對人群中的等級關系進行恢復和推測;針對微博型的復合社交網絡進行分析與關系預測;基于限制隨機游走方法,推測不同連接關系存在的概率,等等。研究表明,社交網絡的集聚特性對于關系預測方法的準確性具有重要影響,社交網絡局部連接密度增長,集聚系數增大,則連接預測算法的準確性進一步增強。因此,未來的匿名保護技術應可以有效抵抗此類推測攻擊。
4.3 數據水印技術
數字水印是指將標識信息以難以察覺的方式嵌入在數據載體內部且不影響其使用的方法,多見于多媒體數據版權保護。也有部分針對數據庫和文本文件的水印方案。
由數據的無序性、動態性等特點所決定,在數據庫、文檔中添加水印的方法與多媒體載體上有很大不同。其基本前提是上述數據中存在冗余信息或可容忍一定精度誤差。例如,Agrawal等人基于數據庫中數值型數據存在誤差容忍范圍,將少量水印信息嵌入到這些數據中隨機選取的最不重要位上。而Sion等人提出一種基于數據集合統計特征的方案,將一比特水印信息嵌入在一組屬性數據中,防止攻擊者破壞水印。此外,通過將數據庫指紋信息嵌入水印中,可以識別出信息的所有者以及被分發的對象,有利于在分布式環境下追蹤泄密者;通過采用獨立分量分析技術(簡稱ICA),可以實現無需密鑰的水印公開驗證。若在數據庫表中嵌人脆弱性水印,可以幫助及時發現數據項的變化。
文本水印的生成方法種類很多,可大致分為基于文檔結構微調的水印,依賴字符間距與行間距等格式上的微小差異;基于文本內容的水印,依賴于修改文檔內容,如增加空格、修改標點等;以及基于自然語言的水印。通過理解語義實現變化,如同義詞替換或句式變化等。
上述水印方案中有些可用于部分數據的驗證。例如在文獻中,殘余元組數量達到閾值就可以成功驗證出水印。該特性在大數據應用場景下具有廣闊的發展前景,例如:強健水印類(RobustWatermark)可用于大數據的起源證明,而脆弱水印類(Fragile Watermark)可用于大數據的真實性證明。存在問題之一是當前的方案多基于靜態數據集,針對大數據的高速產生與更新的特性考慮不足,這是未來亟待提高的方向。
4.4 數據溯源技術
如前所述,數據集成是大數據前期處理的步驟之一。由于數據的來源多樣化,所以有必要記錄數據的來源及其傳播、計算過程,為后期的挖掘與決策提供輔助支持。
早在大數據概念出現之前,數據溯源(Data Provenance)技術就在數據庫領域得到廣泛研究。其基本出發點是幫助人們確定數據倉庫中各項數據的來源,例如了解它們是由哪些表中的哪些數據項運算而成,據此可以方便地驗算結果的正確性,或者以極小的代價進行數據更新。數據溯源的基本方法是標記法,如在口文獻中通過對數據進行標記來記錄數據在數據倉庫中的查詢與傳播歷史。后來概念進一步細化為why和where兩類,分別側重數據的計算方法以及數據的出處。除數據庫以外,它還包括XML數據、流數據與不確定數據的溯源技術。
數據溯源技術也可用于文件的溯源與恢復。例如文獻通過擴展Linux內核與文件系統,創建了一個數據起源存儲系統原型系統,可以自動搜集起源數據。此外也有其在云存儲場景中的應用。
未來數據溯源技術將在信息安全領域發揮重要作用。在2009年呈報美國國土安全部的“國家網絡空間安全”的報告中,將其列為未來確保國家關鍵基礎設施安全的3項關鍵技術之一。然而,數據溯源技術應用于大數據安全與隱私保護中還面I臨如下挑戰:
(1)數據溯源與隱私保護之間的平衡。一方面,基于數據溯源對大數據進行安全保護首先要通過分析技術獲得大數據的來源,然才能更好地支持安全策略和安全機制的工作;另一方面,數據來源往往本身就是隱私敏感數據。用戶不希望這方面的數據被分析者獲得。因此,如何平衡這兩者的關系是值得研究的問題之一。
(2)數據溯源技術自身的安全性保護。當前數據溯源技術并沒有充分考慮安全問題,例如標記自身是否正確、標記信息與數據內容之間是否安全綁定等等。而在大數據環境下,其大規模、高速性、多樣性等特點使該問題更加突出。
4.5 角色挖掘
基于角色的訪問控制(RBAC)是當前廣泛使用的一種訪問控制模型。通過為用戶指派角色、將角色關聯至權限集合,實現用戶授權、簡化權限管理。早期的RBAC權限管理多采用“自頂向下”的模式:即根據企業的職位設立角色分工。當其應用于大數據場景時,面臨需大量人工參與角色劃分、授權的問題(又稱為角色工程)。
后來研究者們開始關注“自底向上”模式,即根據現有“用戶一對象”授權情況,設計算法自動實現角色的提取與優化,稱為角色挖掘。簡單來說,就是如何設置合理的角色。典型的工作包括:以可視化的形式,通過用戶權限二維圖的排序歸并的方式實現角色提取;通過子集枚舉以及聚類的方法提取角色等非形式化方法;也有基于形式化語義分析、通過層次化挖掘來更準確提取角色的方法。
總體來說,挖掘生成最小角色集合的最優算法時間復雜度高,多屬于NP一完全問題。因而也有研究者關注在多項式時間內完成的啟發式算法。在大數據場景下,采用角色挖掘技術可根據用戶的訪問記錄自動生成角色,高效地為海量用戶提供個性化數據服務。同時也可用于及時發現用戶偏離日常行為所隱藏的潛在危險。但當前角色挖掘技術大都基于精確、封閉的數據集,在應用于大數據場景時還需要解決數據集動態變更以及質量不高等特殊問題。
4.6 風險自適應的訪問控制
在大數據場景中,安全管理員可能缺乏足夠的專業知識,無法準確地為用戶指定其可以訪問的數據。風險自適應的訪問控制是針對這種場景討論較多的一種訪問控制方法。Jason的報告描述了風險量化和訪問配額的概念。隨后,Cheng等人提出了一個基于多級別安全模型的風險自適應訪問控制解決方案。Ni等人提出了另一個基于模糊推理的解決方案,將信息的數目和用戶以及信息的安全等級作為進行風險量化的主要參考參數。當用戶訪問的資源的風險數值高于某個預定的門限時,則限制用戶繼續訪問。文獻提出了一種針對醫療數據提供用戶隱私保護的可量化風險自適應訪問控制。通過利用統計學和信息論的方法,定義了量化算法,從而實現基于風險的訪問控制。但同時,在大數據應用環境中,風險的定義和量化都較之以往更加困難。
5.大數據服務與信息安全
5.1 基于大數據的威脅發現技術
由于大數據分析技術的出現,企業可以超越以往的“保護-檢測-響應-恢復”(PDRR)模式,更主動地發現潛在的安全威脅。例如,IBM推出了名為IBM大數據安全智能的新型安全工具,可以利用大數據來偵測來自企業內外部的安全威脅,包括掃描電子郵件和社交網絡,標示出明顯心存不滿的員工,提醒企業注意,預防其泄露企業機密。“棱鏡”計劃也可以被理解為應用大數據方法進行安全分析的成功故事。通過收集各個國家各種類型的數據,利用安全威脅數據和安全分析形成系統方法發現潛在危險局勢,在攻擊發生之前識別威脅。相比于傳統技術方案,基于大數據的威脅發現技術具有以下優點。
(1)分析內容的范圍更大
傳統的威脅分析主要針對的內容為各類安全事件。而一個企業的信息資產則包括數據資產、軟件資產、實物資產、人員資產、服務資產和其它為業務提供支持的無形資產。由于傳統威脅檢測技術的局限性,其并不能覆蓋這六類信息資產,因此所能發現的威脅也是有限的。而通過在威脅檢測方面引入大數據分析技術,可以更全面地發現針對這些信息資產的攻擊。例如通過分析企業員工的即時通信數據、Email數據等可以及時發現人員資產是否面臨其它企業“挖墻腳”的攻擊威脅。再比如通過對企業的客戶部訂單數據的分析,也能夠發現一些異常的操作行為,進而判斷是否危害公司利益。可以看出,分析內容范圍的擴大使得基于大數據的威脅檢測更加全面。
(2)分析內容的時間跨度更長
現有的許多威脅分析技術都是內存關聯性的,也就是說實時收集數據,采用分析技術發現攻擊。分析窗口通常受限于內存大小,無法應對持續性和潛伏性攻擊。而引入大數據分析技術后,威脅分析窗口可以橫跨若干年的數據,因此威脅發現能力更強,可以有效應對APT類攻擊。
(3)攻擊威脅的預測性
傳統的安全防護技術或工具大多是在攻擊發生后對攻擊行為進行分析和歸類,并做出響應。而基于大數據的威脅分析,可進行超前的預判。它能夠尋找潛在的安全威脅,對未發生的攻擊行為進行預防。
(4)對未知威脅的檢測
傳統的威脅分析通常是由經驗豐富的專業人員根據企業需求和實際情況展開,然而這種威脅分析的結果很大程度上依賴于個人經驗。同時,分析所發現的威脅也是已知的。而大數據分析的特點是側重于普通的關聯分析,而不側重因果分析,因此通過采用恰當的分析模型,可發現未知威脅。
雖然基于大數據的威脅發現技術具有上述的優點,但是該技術目前也存在一些問題和挑戰,主要集中在分析結果的準確程度上。一方面,大數據的收集很難做到全面,而數據又是分析的基礎,它的片面性往往會導致分析出的結果的偏差。為了分析企業信息資產面臨的威脅,不但要全面收集企業內部的數據,還要對一些企業外的數據進行收集,這些在某種程度上是一個大問題。另一方面,大數據分析能力的不足影響威脅分析的準確性。例如,紐約投資銀行每秒會有5000次網絡事件,每天會從中捕捉25TB數據。如果沒有足夠的分析能力,要從如此龐大的數據中準確地發現極少數預示潛在攻擊的事件,進而分析出威脅是幾乎不可能完成的任務。
5.2 基于大數據的認證技術
身份認證是信息系統或網絡中確認操作者身份的過程。傳統的認證技術主要通過用戶所知的秘密,例如口令,或者持有的憑證,例如數字證書,來鑒別用戶。這些技術面臨著如下兩個問題。
首先,攻擊者總是能夠找到方法來騙取用戶所知的秘密,或竊取用戶持有的憑證,從而通過認證機制的認證。例如攻擊者利用釣魚網站竊取用戶口令,或者通過社會工程學方式接近用戶,直接騙取用戶所知秘密或持有的憑證。
其次,傳統認證技術中認證方式越安全往往意味著用戶負擔越重。例如,為了加強認證安全,而采用的多因素認證。用戶往往需要同時記憶復雜的口令,還要隨身攜帶硬件USBKey。一旦忘記口令或者忘記攜帶USBKey,就無法完成身份認證。為了減輕用戶負擔,一些生物認證方式出現,利用用戶具有的生物特征,例如指紋等,來確認其身份。然而,這些認證技術要求設備必須具有生物特征識別功能,例如指紋識別。因此很大程度上限制了這些認證技術的廣泛應用。
而在認證技術中引入大數據分析則能夠有效地解決這兩個問題。基于大數據的認證技術指的是收集用戶行為和設備行為數據,并對這些數據進行分析,獲得用戶行為和設備行為的特征,進而通過鑒別操作者行為及其設備行為來確定其身份。這與傳統認證技術利用用戶所知秘密,所持有憑證,或具有的生物特征來確認其身份有很大不同。具體地,這種新的認證技術具有如下優點。
(1)攻擊者很難模擬用戶行為特征來通過認證,因此更加安全。利用大數據技術所能收集的用戶行為和設備行為數據是多樣的,可以包括用戶使用系統的時間、經常采用的設備、設備所處物理位置,甚至是用戶的操作習慣數據。通過這些數據的分析能夠為用戶勾畫一個行為特征的輪廓。而攻擊者很難在方方面面都模仿到用戶行為,因此其與真正用戶的行為特征輪廓必然存在一個較大偏差,無法通過認證。
(2)減小了用戶負擔。用戶行為和設備行為特征數據的采集、存儲和分析都由認證系統完成。相比于傳統認證技術,極大地減輕了用戶負擔。
(3)可以更好地支持各系統認證機制的統一基于大數據的認證技術可以讓用戶在整個網絡空間采用相同的行為特征進行身份認證,而避免不同系統采用不同認證方式,且用戶所知秘密或所持有憑證也各不相同而帶來了種種不便。
雖然基于大數據的認證技術具有上述優點,但同時也存在一些問題和挑戰亟待解決。
(1)初始階段的認證問題。基于大數據的認證技術是建立在大量用戶行為和設備行為數據分析的基礎上,而初始階段不具備大量數據。因此,無法分析出用戶行為特征,或者分析的結果不夠準確。
(2)用戶隱私問題。基于大數據的認證技術為了能夠獲得用戶的行為習慣,必然要長期持續地收集大量的用戶數據。那么如何在收集和分析這些數據的同時,確保用戶隱私也是亟待解決的問題。它是影響這種新的認證技術是否能夠推廣的主要因素。
5.3 基于大數據的數據真實性分析
目前,基于大數據的數據真實性分析被廣泛認為是最為有效的方法。許多企業已經開始了這方面的研究工作,例如Yahoo和Thinkmail等利用大數據分析技術來過濾垃圾郵件;Yelp等社交點評網絡用大數據分析來識別虛假評論;新浪微博等社交媒體利用大數據分析來鑒別各類垃圾信息等。
基于大數據的數據真實性分析技術能夠提高垃圾信息的鑒別能力。一方面,引入大數據分析可以獲得更高的識別準確率。例如,對于點評網站的虛假評論,可以通過收集評論者的大量位置信息、評論內容、評論時問等進行分析,鑒別其評論的可靠性。如果某評論者為某品牌多個同類產品都發表了惡意評論,則其評論的真實性就值得懷疑;另一方面,在進行大數據分析時,通過機器學習技術,可以發現更多具有新特征的垃圾信息。然而該技術仍然面臨一些困難,主要是虛假信息的定義、分析模型的構建等。
5.4 大數據與“安全一即一服務(Security-as-a-Service)”
前面列舉了部分當前基于大數據的信息安全技術,未來必將涌現出更多、更豐富的安全應用和安全服務。由于此類技術以大數據分析為基礎,因此如何收集、存儲和管理大數據就是相關企業或組織所面臨的核心問題。除了極少數企業有能力做到之外,對于絕大多數信息安全企業來說,更為現實的方式是通過某種方式獲得大數據服務,結合自己的技術特色領域,對外提供安全服務。一種未來的發展前景是,以底層大數據服務為基礎,各個企業之間組成相互依賴、相互支撐的信息安全服務體系,總體上形成信息安全產業界的良好生態環境。
6.小結
大數據帶來了新的安全問題,但它自身也是解決問題的重要手段。本文從大數據的隱私保護、信任、訪問控制等角度出發,梳理了當前大數據安全與隱私保護相關關鍵技術。但總體上來說,當前國內外針對大數據安全與隱私保護的相關研究還不充分。只有通過技術手段與相關政策法規等相結合,才能更好地解決大數據安全與隱私保護問題。
轉載請注明出處:拓步ERP資訊網http://www.lukmueng.com/
本文標題:大數據安全與隱私保護