<menu id="ycqsw"></menu><nav id="ycqsw"><code id="ycqsw"></code></nav>
<dd id="ycqsw"><menu id="ycqsw"></menu></dd>
  • <nav id="ycqsw"></nav>
    <menu id="ycqsw"><strong id="ycqsw"></strong></menu>
    <xmp id="ycqsw"><nav id="ycqsw"></nav>
  • 社交網絡分析與挖掘(社交網絡所有知識點解讀)


    面向大社交數據的深度分析與挖掘

    摘要社交網絡在線化是大數據時代的典型特點, 也是大數據產生的重要原因之一. 本文從大數據的特點著手, 結合互聯網絡尤其是在線社交網絡的發展趨勢, 介紹大數據在提升國家信息產業科學化水平、引領新型互聯網經濟發展、推動社會學與信息科學交叉發展等方面帶來的重大機遇; 分析在線社會網絡中存在的關鍵問題, 闡述網絡大數據研究在語義理解與分析、多模態關聯與融合、群體行為分析與挖掘、多維分析與可視化、系統的研發與集成等方面面臨的巨大技術挑戰, 以及當前國內外在大數據分析和在線社交網絡領域的主要研究工作; 總結和展望網絡大數據研究的未來方向和前景.

    隨著互聯網的迅速發展和廣泛普及, 網絡數據資源呈爆炸式增長, 各國政府高度重視大數據將帶來的時代性變革. 2012年3月, 美國總統奧巴馬親自主持召開會議, 將“大數據研究”上升為國家戰略. 同年, 奧巴馬競選團隊通過大數據的收集和分析, 幫助奧巴馬總統成功連任, 此舉標示著政府領域的大數據時代已經到來. 英國政府計劃未來兩年內投資1.89億英鎊用于大數據建設, 要求不失時機地做好迎接大數據革命的準備. 當今世界, 互聯網(特別是移動互聯網)、物聯網和云計算的快速崛起, 包括文本、圖像、音頻、視頻等各種網絡大數據迅速增長, 以大數據為代表的第3次工業革命正在向我們走來, 大數據必將成為全世界下一個創新、競爭和生產率提高的前沿.

    另一方面, 在線社交網絡取得飛速發展, 眾多社交網站如臉譜(Facebook)、推特(Twitter)以及國內的新浪微博、人人網、騰訊網等迅速崛起. 2004年成立的Facebook公司已經有超過13億的注冊用戶, 相當于世界人口數第二多的“國家”; 2006年發布的Twitter也有超過6億的注冊用戶; 國內的騰訊公司則擁有超過8億活躍用戶; 而新浪最新公布的數據表明新浪微博的注冊用戶數已經超過5.6億. 表1列出了國際流行在線社交網站以及國內對應網站用戶數的統計情況.

    據報道, 在美國, 16%用戶的上網停留在Facebook上, 這一數字超過了人們使用傳統搜索引擎(如谷歌)的10%. 毫無疑問, 在線社交網絡已經成為連接物理社交世界和虛擬網絡空間的橋梁. 網絡用戶和信息的交互以及用戶之間的交互在社交網絡上留下了各種“足跡”, 直接促成了網絡大數據時代的到來. 在線社交網絡存儲了大量用戶資料、用戶之間的社交關系以及用戶之間的交互, 這些海量社交數據有著巨大的研究價值, 同時也在廣告、推薦系統等方面具有廣闊的應用前景.

    社交網絡為用戶提供了一個交互和傳播信息的平臺, 同時為大規模社交網絡的研究提供了數據基礎. 現有的社交網絡研究包括網絡結構拓撲分析(如ER模型[1]、small-world模型[2]、Barabási-Albert模型[3]等)、網絡演化分析(如網絡微觀演化[4]), 社交關系和影響分析(如鏈接預測[5]、影響力分析[6~9]、社交紐帶關系推斷[10])以及用戶行為預測[11,12]等.

    1 大數據帶來的機遇

    一方面, 大數據研究已經成為提高國家信息產業科學化水平的支撐點. 隨著網絡媒體技術的日益普及, 公眾參與并產生大量網絡數據, 其中包含著公眾在社會生活、金融服務、醫療衛生等各個方面的需求表達. 準確、及時地獲取并理解這些數據而得到的信息, 可成為相關政府部門發現和處理民生問題、制定有效政策提供重要的輔助決策依據.

    面向大社交數據的深度分析與挖掘

    另一方面, 大數據必將是引領新型互聯網經濟發展的制高點. 巨量的網絡數據中蘊含著豐富的客戶行為信息及個性化需求信息, 通過智能服務系統將網絡媒體內容轉化為政府管理的可用信息, 來提高政府在行業規劃、地方經濟戰略布局等方面的決策和服務水平. 在經濟全球化和商業競爭日益激烈的今天, 誰率先掌握人類社會活動的基本規律(包括個體興趣偏好、群體消費趨勢、關系和行為分析等), 誰就可以在市場營銷、商業計劃、社會規劃、經濟建設中做到有的放矢. 例如, 通過分析微博中信息傳播微觀機理, 可以對信息傳播的影響規模和速度進行預先判定, 從而為企業的產品推廣選擇最好的投放目標用戶群和種子用戶; 通過分析社交網絡用戶的社會關系和在線商店中用戶的瀏覽、點擊、購買行為, 可以為商家提供精準的產品推薦和優質的在線配送, 更好地滿足用戶的消費需求和提高用戶對商家的滿意度; 通過對網絡空間的用戶消費行為感知, 就可以在產品策劃、設計和營銷過程中做到有的放矢; 通過網絡輿情分析了解社會民生, 就可以為國家的經濟建設和社會管理科學化提供決策支持.

    最后, 大數據研究將是推動社會學與信息科學交叉發展的著力點. 信息技術的發展帶來了現實人類社會與虛擬網絡空間的深度融合,人們的工作和生活在信息化環境中留下的數字足跡匯聚形成了可感知、可計算的關系多樣的社會關系網絡. 大數據完整記錄了數以10億計用戶的所言所行、記錄了用戶間形成的種類繁多的社會關系、記錄了用戶產生的海量網絡信息的傳播軌跡, 這些人類社會活動的真實記錄為研究社交網絡及其上的信息傳播規律提供了寶貴的基礎數據, 為科學研究帶來了很多全新的挑戰, 必將極大地促進信息科學與社會科學交叉領域及其相關方向(包括模式識別、數據挖掘、人工智能、信息檢索等)的革新與發展, 具有重大的學科發展意義.

    2 大數據研究面臨的科學挑戰

    大數據研究在以下幾個方面面臨著巨大的科學挑戰:

    (ⅰ) 網絡大數據的語義理解與分析.以文本、圖像、音頻和視頻等為載體的網絡大數據已成為一種主要的形式. 谷歌、百度等通用搜索引擎在很大程度上可以幫助用戶快速檢索圖像等信息, YouTube、優酷網等則提供了視頻檢索機制, 可以搜索網絡上的視頻數據, Facebook、Twitter、新浪微博、微信等社交媒體網站通過用戶共享的形式也包含了海量的圖像、視頻等數據. 海量的網絡大數據帶來了存儲、檢索、管理等多方面的挑戰. 百度、谷歌、YouTube 等商用搜索引擎均基于網絡數據的文本描述進行檢索; 在網絡大數據的背景下, 很多數據缺乏文本描述, 需要算法自動分析并理解可視化或者音頻內容, 因此現有的完全基于文本的技術將很難應用, 需要網絡大數據的語義進行全面的分析.

    (ⅱ) 網絡大數據的多模態關聯與融合.隨著各種模態媒體信息的不斷增加, 面臨著“信息多但用不了, 有信息但找不到”的重要問題, 為異構媒體的研究與應用帶來了新的機遇和挑戰. 如何實現異構媒體的關聯與模式發現成為了研究和應用的關鍵問題. 然而, 目前常用的以文搜文、以圖搜圖等單媒體檢索方式返回結果局限于單媒體數據, 異構媒體內容形式多樣, 一般包括圖像、視頻、音頻和文本等, 基于內容的單媒體檢索忽略了共存的異構網絡數據相關性, 不能很好地理解異構網絡數據語義. 如何跨越不同媒體, 利用異構媒體之間的語義關系來實現異構網絡大數據的模式發現技術, 從而支持異構媒體關聯和大數據模式發現, 是數字媒體行業發展面臨的重要問題, 是下一代搜索引擎所需的核心技術. 盡管目前異構媒體的關聯與挖掘技術已經有了一些相關研究, 但仍然困難重重, 很多關鍵問題還沒有解決, 包括準確性及可用性差、媒體類型有限、評測數據集缺乏等, 這嚴重阻礙了異構媒體的關聯與模式發現等技術的研究及應用.

    (ⅲ) 社交網絡大數據的群體行為分析與挖掘.社交網絡的快速發展構建了網絡化、數字化、虛擬化的工作和生活環境, 給人們帶來了前所未有的信息自主權, 人類社會的信息化水平進入了一個全新階段. 社交網絡的快速發展在使人們信息交流需求極大釋放的同時, 也帶來了信息產生社會化、信息內容碎片化和信息傳播網絡化的問題, 這對網絡信息環境的科學管理和合理利用帶來了新的挑戰. 圖靈獎獲得者Hopcroft教授提到, 社交網絡的不確定性使得傳統物理學中的復雜動力學方程不再適用[13]. 社交網絡中的群體行為模式尚未得到深刻理解和充分掌握, 導致社交網絡在信息的可信性、傳播的可預測性、群體行為的可控性等方面仍處于一種無序狀態, 造成人們創造大量社會數據卻對其知之甚少的現狀. 深入分析社交網絡結構演化及群體行為的原動力和本質特征, 對于提高社交網絡管理的科學化水平、培育文明理性的網絡環境都具有廣泛的現實意義.

    (ⅳ) 網絡大數據的多維分析與可視化.隨著網絡媒體的發展, 各種新聞、論壇、博客、微博、社交網站等新媒體平臺迅猛發展, 大量媒體內容產生. 現有的媒體信息呈現方式一般采用簡單羅列方式, 如搜索引擎往往按照相關程度順序排列結果, 新聞網站采用人工編輯方式按類別分塊呈現. 這些媒體信息之間往往是孤立和單一的, 瀏覽效率比較低下, 無法滿足網絡大數據呈現的需求. 上述問題導致人們無法快速感知網絡熱點信息的發生和進行全面準確地了解. 因此, 迫切需要對網絡大數據的聚合與呈現技術進行研發, 這將能大大改變網絡大數據的分析與理解, 從而在很大程度上提高網絡大數據的使用效率和效果.

    (ⅴ) 網絡大數據系統的研發與集成.網絡數據具有海量、異構、多樣復雜等特性, 這些特性給數據的采集、整合、存儲管理以及相應的分析挖掘帶來諸多的挑戰.

    基于上網數據、社交數據、網頁數據、多媒體數據、海外新聞數據、用戶行為數據等網絡大數據, 通過對各種信息源的分析, 實現廣義通用的民意分析, 提供從事件發現、事件分析、事件處理到事件總結的一條龍政府決策服務. 通過進一步的應用層研究(如: 熱點預判、多媒體數據分析預警、熱點事件提取、社交網絡分析、深度學習大數據的語義分析等高層應用), 使網絡大數據的研究應用到具體的政府工作中, 實現網絡大數據智能服務的落地.

    接下來本文將主要從社交網絡大數據的角度詳細闡述大數據分析相關技術的在國內外的研究現狀及發展趨勢.

    3 國內外研究現狀和發展趨勢

    面向社交網絡大數據的內容深度分析與理解的關鍵技術涉及到網絡媒體數據本身的概念表示和多角度語義描述, 以及面向社交網絡的用戶社會關系分析, 海量異構信息的協同關聯挖掘, 以及多層次信息的聚合與呈現, 下面從這幾個方面介紹國內外研究現狀.

    3.1 網絡大數據的語義理解與分析技術

    大數據語義分析技術將為基于網絡大數據理解提供關鍵支持, 是眾多大數據應用的基礎. 這里面主要的問題是隨著網絡異構數據快速產生, 數據本身以不同媒體形式存在, 如何從異構媒體中識別對應的概念成為研究熱點. Yang等人[14]設計了領域自適應算法, 即在目標領域視頻數量有限的情況下, 如何從已有領域的模型獲得目標領域的模型; 同時, 如何再從已有領域的模型挑選最適合目標領域的模型. 此外, 對于高維海量的網絡數據, 主要問題之一是新數據缺乏標記信息. 解決這一問題的有效途徑之一是半監督學習(semi-supervised learning)方法, 即同時使用有標記(labeled)和無標記(unlabeled)樣本訓練模型. 目前半監督學習所使用的主要研究方法有: 生成式模型, 主要涉及對條件密度的估計; 判別式模型, 包括基于低密度分離的半監督學習方法和基于圖的半監督學習方法.

    對于網絡大數據概念間關系的利用, Bart等人[15]提出使用非參貝葉斯的方法構建圖像和概念間的層次關系, 使得視覺上相似的圖像和概念分布在相同或者相近的子樹中, 并呈現了一副與人類視覺感知基本一致的樹狀關系圖. 但是, 概念間關系的發掘并不僅僅為了驗證計算得到的概念間關系是否與人類的認知一致, 更是為了利用這些關系優化模型訓練的各個環節. 因此, 為了應對大數據的類別和概念數量多的問題, 以及因此產生的巨大測試代價, 有研究者提出利用模型間關系構建多類分類器樹, 使得模型的測試環節的效率大大提升. 另一種發掘和使用模型間關系的方式是: 在訓練時, 根據學習得到的概念間的關系, 使相近的概念共享特征、屬性和模型, 而使相差較大的概念所使用的特征、屬性和模型差異更大.

    深度學習是最新的研究熱點, 其主要思想是通過神經網絡模擬人腦的學習過程, 并進一步模擬人腦的多層抽象機制來實現對數據的抽象表達, 將特征學習和分類器學習整合到統一的學習框架中. “深度學習”這一概念在2006年被Hinton首先提出[16], 算法目的是通過模型的輸入來訓練整個模型的參數, 從而使得模型逐步的形成對于數據相關的“概念”. 很多成熟的理論或技術被用在構建深度學習系統中. Salakhutdinov和Hinton[17]將玻爾茲曼機(Boltzmann machines)應用到逐層構建的深度網絡中, 并且使用變分法逐層優化參數. 當深度網絡的所有隱層網絡都被構建后, 使用有監督的細優化(fine-tuning)完成深度網絡的訓練. 之后, Vincent等人[18]使用計算更為簡單方便的自動編碼器替代玻爾茲曼機, 實現對深度網絡中隱層網絡的構建. 關于深度網絡在實際問題中的應用, 直到最近兩年才取得了較大的進展, 使用深度網絡構建的特征提取和分類算法在圖像識別和語音識別中都取得了非常好的成績. Dean等人[19]詳細報道了采用深度網絡在大規模圖像識別任務中所采用的技術和所取得的突破性的進展. 為了能夠更好地應對大規模數據, 深度網絡的學習算法一般都采用并行化方式進行, 有些同時采用了并行化的一階梯度和二階梯度優化算法, 并在一定程度上同時實現了模塊和數據的并行化[19].

    目前, 包括微軟、谷歌、IBM等許多知名的IT公司都致力于開發商用化的深度學習系統. 由Andrew Ng教授主導開發的Google Brain就是通過16000個CPU以及GPU加速實現的大規模深度學習系統, 該系統可以訓練具有幾十億個參數的神經網絡, 并且通過著名的ImageNet數據集進行測試表明, 該系統的表現超過了所有現存的機器學習算法.

    3.2 基于多模態特征融合的大數據模式發現技術

    基于多模態特征融合的大數據模式發現技術主要研究異構媒體的統一表示、相似性計算和語義關聯分析方法, 為項目最終目標提供數據關聯基礎和關鍵技術支撐. 目前國內外已經有了一些相關研究, 下面從異構媒體的統一表示、異構媒體相似性計算和異構語義關聯分析方法3個方面分別來闡述國內外研究現狀.

    特征表示是異構媒體關聯與管理的重要基礎, 其中一個關鍵問題是研究不同模態數據的特征融合方法, 即如何以統一的方式表示不同模態的內容. 比較廣泛的做法是基于子空間的映射技術, 這一類方法以典型相關分析(canonical correlation analysis, CCA)為代表, 學習出映射子空間, 使得在子空間中兩組變量的相關性最大. Wu等人[20,21]通過CCA將音頻和圖像兩種不同媒體的數據映射到子空間中, 從而能夠度量不同媒體內容的相似性. 然而, 這些方法往往只考慮了數據之間的一一對應關系, 例如通過CCA或者CFA學習出映射子空間, 使得原始的一一對應的異構數據之間的相關性最大. 但它們不能挖掘更加豐富的語義信息, 例如跨網絡數據的語義類別信息. 在Rasiwasia等人[22]的研究中, 跨網絡數據之間的關聯信息通過CCA進行學習, 高層抽象通過邏輯回歸將文本或圖像表示為具有相同維度的語義概念向量, 其中每一維表示該多媒體數據屬于對應類別的概率. 然而該方法獨立表示每種媒體類型, 無法充分挖掘特征之間的關聯, 且只局限于兩種媒體.

    如何基于內容度量不同媒體的相似性是異構媒體關聯和管理的核心問題. 現有的異構媒體相似性度量方法主要有兩類:

    第一類是基于圖模型的相似性度量方法[23,24];

    第二類是基于學習的相似性度量方法[25,26].基于圖模型的相似性度量方法大多基于共生性假設: 如果兩個跨媒體文檔包含同一個媒體對象, 那么這兩個跨媒體文檔就具有相同的語義信息. Yang等人[23]提出了以跨媒體文檔為結點的圖結構, 稱為跨媒體文檔語義圖模型(Multimedia Docu-ment Semantic Graph, MMDSG). 由于基于圖的方法存在大量參數, 參數的設置也是一個難題. 因此Yang等人[25]提出了一種對參數不敏感的基于局部回歸和全局校正(Local Regression and Global Align-ment, LRGA)的學習算法, 可以學習出拉普拉斯矩陣用于排序. Jia等人[26]提出了一種多媒體文檔隨機場來挖掘不同媒體對象之間的關聯關系. 這類方法對參數不敏感, 但是依賴共生性假設, 如果兩個多媒體文檔包含同一個媒體對象, 那么就具有相同的語義信息.

    3.3 網絡群體行為分析與事件態勢感知技術

    基于行為心理動力學模型的群體行為分析與事件態勢感知技術主要研究多模態異構社交網絡數據融合、社交網絡群體行為的心理動力學模型、社交網絡結構的微觀演化機理、社交網絡影響力多尺度度量模型、基于多元信息搜索和群體行為分析技術, 為項目最終目標提供群體行為分析與事件態勢感知的理論與技術支撐. 基于Web的社交網絡研究具有重大的科學意義和較高的實際應用價值, 因而受到了國內外學術界和產業界的廣泛關注. 但由于社交網絡服務的興起還不足10年, 因此面向社交網絡的理論研究尚處于起步階段. 下面從社交網絡的相關研究關鍵技術點來闡述國內外研究現狀.

    在社交網絡基礎理論方面, 傳統社會網絡的社會學研究已有相當長的研究積累. 最典型的理論有二級傳播、弱連帶優勢、強連帶優勢以及結構洞理論等. Lazarsfeld等人[27]提出了二級傳播理論, 描述了人類社會中信息從媒介到受眾的通常過程; Grano-vetter[28]提出了弱連帶優勢理論, 認為關系較疏遠的人可能擁有差別較大的有用信息; Krackhardt[29]提出了強連帶優勢理論, 認為強連帶提供了人們彼此相互信任的基礎; 社會學家Burt[30]提出了結構洞理論, 研究社會關系網絡的結構形態.

    在社交網絡的結構分析方面, 主要包括宏觀、中觀和微觀3個層面的結構分析. 宏觀結構分析主要關注網絡的統計特性. Barabási和Bonabeau[31]提出了無標度網絡模型; Watts和Strogatz[2]研究了網絡小世界特性產生的機制. 中觀結構分析主要以社區結構分析為主. Newman和Girvan[32]提出了基于模塊度的社區度量和社區發現方法; Palla等人[33]提出了基于網絡滲流的重疊社區度量和社區發現方法; Rosvall和Bergstrom[34]提出了基于網絡壓縮編碼的社區度量和發現方法; Arenas等人[35]提出了基于網絡同步動力學的社區結構度量和發現方法. 微觀結構分析研究網絡中的顯著微觀結構模式及其對網絡功能的影響. Marvela等人[36]分析了微觀三角形結構對網絡演化的影響; Milo等人[37]研究了網絡構件的顯著微觀結構模式; Kleinberg等人[38]從博弈論的角度闡述了結構洞的作用.

    在社交網絡關系的理論分析方面, Leskovec等人[39]定義了符號網絡, 并從結構平衡和社交狀態理論的角度揭示了社交網絡中正向和負向關系的形成機理. 從機器學習的角度, 目前的研究主要集中在社交關系的預測, 如Adamic和Adar[40]通過個人主頁之間的鏈接關系推斷現實世界中人與人之間的關系; Wang等人[41]通過論文合著關系預測社交網絡中的合作; Liben-Nowell和Kleinberg[5]綜述了社交網絡中的鏈接關系預測問題.

    在社交網絡用戶行為分析方面, 主要包括心理動因分析、個體用戶行為分析和群體行為分析, 以及個體和群體的偏好分析. 語義空間表征技術包括潛在語義分析(LSA)和自動化語篇分析(Coh-Metrix)等為研究心理動因提供了有效的工具. 在個體用戶行為分析方面, Zeng等人[42]提出利用隱馬爾可夫模型對個體用戶行為建模, Scott[43]使用圖結構對個體用戶的性質進行度量. 在群體用戶的聚集行為方面, Maia等人[44]對YouTube的用戶屬性進行聚類分析; Backstrom等人[45]研究了虛擬社區中的自然群組行為; Tan等人[12]通過時間狀態模型對用戶行為進行預測; Tang等人[46]分析了社交網絡中的從眾現象. 用戶偏好建模主要分析用戶個體或者群體的對Web數據內容的感興趣程度, 目前主要有顯式和隱式兩類建模方式.

    在社會網絡信息傳播規律方面, 傳統信息傳播模型大多基于疾病傳染模型, 研究社交網絡的宏觀特征, 如Moore和Newman[47]的SIR模型、Kuperman和Abramson[48]的SIRS模型. 研究者們也注意到信息傳播過程與社會影響力之間的密切聯系. 1967年Milgram[49]提出了六度分離理論、Christakis和Fowler[50]提出了三度影響理論、Kempe等人[6]提出了信息傳播的通用閾值和級聯模型、Zhang等人[51]研究了信息傳播中的從眾現象、Yang等人[52]提出了基于角色的信息傳播模型. 由于疾病傳播與信息傳播的性質具有明顯的差異, 這方面的研究工作存在著一定的缺陷, 還存在對個體用戶的差異性研究不夠系統深入的問題.

    在社交網絡搜索方面, 目前主要包括大規模異構社交網絡數據的整合和索引、社交網絡搜索在線應用等研究. 數據融合過程中采用了文本數據的相似性連接、實體抽取、圖數據結構感知的相似性匹配等技術, 但對數據的語義信息的利用還不夠. 自動推薦近年在Amazon等電子商務網站和Netflix, Hulu等視頻服務網站中有廣泛的應用. 如何準確地尋找用戶感興趣的商品和服務、如何挖掘可用數據極少的不活躍用戶(冷啟動問題)、如何高效處理快速增長的海量數據, 是目前推薦系統研究的3個主要熱點問題, 社交網絡的興起給推薦系統帶來新的活力和挑戰.

    在社交網絡分析平臺與系統方面, 不僅著名科研機構致力于社交網絡分析研究, 各大網絡公司也紛紛建立自己的社交網絡分析工具, 如斯坦福大學的SNAP系統、卡內基梅隆大學的AutoMap系統、Google公司的Pregel系統(表2). 但大部分系統還只是支持網絡宏觀分析, 如網絡結構分析和可視化分析, 而忽視了網絡微觀分析(如個體用戶行為分析、影響力分析等), 此外大部分系統都忽視了內容分析和高效索引的重要性, 因此難以支撐大規模社交網絡的信息傳播分析需求.

    面向大社交數據的深度分析與挖掘

    通過國內外發展現狀分析, 可以發現社交網絡的研究還存在以下問題:

    (1) 現有網絡結構分析大都從宏觀層面展開, 很少關注網絡結構的微觀變化;

    (2) 社交網絡的信息傳播模型主要基于傳染病模型, 沒有考慮用戶在信息傳播中的個人角色、心理動因和不確定性;

    (3) 影響力分析通常只考慮網絡節點的全局影響力, 忽視了“影響力”的尺度多樣性;

    (4) 用戶行為分析主要從宏觀層面研究群體用戶行為, 缺少對個體行為的建模;

    (5) 盡管國內外研發了很多社交網絡應用系統, 但總體上仍舊缺乏能夠對社交網絡信息進行科學管理和有效引導的應用系統.

    3.4 網絡信息聚合與呈現技術

    多層次多維度信息聚合與呈現技術主要研究多源異構數據的統一表示, 媒體信息的語義聚合和熱點事件信息發現, 主要關注多源動態信息的聚合和管理以及網絡熱點事件的挖掘與呈現, 目前在這兩方面已有一些研究, 相關國內外研究現狀和發展趨勢具體如下.

    多源海量動態信息的異構性、實時性和不確定性特點為信息的模型定義、預處理與集成、存儲與索引、查詢分析處理帶來了很大的困難, 設計有效的方法和策略, 進行多源海量動態信息的聚合和管理已經成為信息領域研究的當務之急[53]. 以不確定性信息的管理和使用為例, 由于物理信息系統中不僅包含數量信息, 而且包含大量的位置和空間信息, 這些信息的異構性和不確定性為多源海量動態信息的聚合與管理帶來了很大的困難. 在實際應用中, 如何有效管理物理信息系統產生的信息、消除不確定性信息產生的矛盾, 對行業的發展具有深遠影響.

    目前, 對信息聚合服務的研究主要集中在聚合標準、信息聚合對互聯網發展的影響、聚合技術在各領域的應用等幾個方面. 以RSS為代表的信息聚合平臺可以集成多家信息來源, 自動瀏覽和監視這些來源網站的內容, 將最新內容及時傳送給用戶. 英國劍橋大學聯合利華分子信息學中心、倫敦皇家學院化學系以及荷蘭Nijmegen大學分析化學實驗室研究人員研究了如何將RSS l.0規范與CM化學標記語言(chemical marked language)結合起來, 用以實現一種基于元數據的提示服務(a metadata based alerting service). 一些企業, 如谷歌、臉譜公司等已經注意到這方面巨大的應用前景, 并進行了相關的分析綜合嘗試, 如谷歌公司推出的Google+, 針對手機、移動設備用戶信息交流的“扎客”平臺等. 但是, 這些嘗試還比較初級, 只是將各種信息簡單分析后堆砌在一起, 缺乏對于各種平臺數據之間本質聯系的深層次分析.

    網絡熱點事件的掌控需要人們對事件進行全方位的分析, 因此有必要采用適當的方式將事件呈現出來. 現有的方法大多基于數據可視化的策略進行信息呈現. 針對不同目的, 信息呈現的方法也不一樣. 如微軟亞洲研究院的“人立方”關系搜索系統(http://renlifang.msra.cn), 采用了任務關系圖的策略進行結果的呈現, Yu等人[54]則提出了一種異質網絡中檢索詞驅動的語義相似子圖發現的策略.

    雖然研究者已經進行了大量的相關研究, 但該領域仍有若干關鍵技術有待進一步探討, 包括:

    (ⅰ) 異構媒體信息的語義關聯方面. 內容關聯方式單一, 難以適應跨平臺網絡事件挖掘的需求, 偏重于基于物理鏈接的挖掘而忽略潛在因素的關聯, 導致挖掘的事件不夠全面.

    (ⅱ) 網絡事件挖掘方面.主要依賴于搜索方式, 利用網絡數據相似度的匹配與排序, 而沒有充分考慮到事件潛在的語義結構.

    (ⅲ) 媒體內容呈現方面. 往往只針對單一平臺網絡數據進行分析, 缺乏平臺間、異質媒體間的協同呈現.

    3.5 網絡大數據智能服務系統

    大數據智能服務系統及應用示范集成前4點的關鍵技術, 主要研究如下內容.

    3.5.1 網絡數據采集、預處理與整合技術

    網絡數據的采集包括媒體內容的采集與媒體用戶行為數據的采集. 針對媒體內容的異構性, 媒體內容的采集需要對不同類型的內容分別進行處理, 提取有效信息. 用戶行為數據采集主要有兩種方式:

    一種方式是通過采集記錄內部系統日志來實現, 如Facebook的Scribe, Apache的Chukwa和Cloudera的Flume等;

    另一種方式是通過ISP來進行采集, 即通過ISP的路由器來收集數據報文, 并加以分類. 海量的報文數據, 以及報文數據的復雜性和實時性都給報文特征的提取帶來較大困難, 而分類算法的準確性是學術界研究的焦點問題. 用戶識別技術是用戶日志挖掘的基礎和研究熱點. 目前對用戶識別技術的研究主要集中在單個網站內的用戶識別, 采用的技術包括: 基于IP地址和瀏覽器信息的用戶識別; 基于cookie技術和擴充屬性的用戶識別; 基于用戶IP、用戶代理(agent)、用戶會話(session)和引用頁(refer)的用戶識別. 由于用戶上網環境的復雜性, 如何將用戶在不同時間、不同地點甚至不同媒體上的行為進行關聯仍然是用戶識別的一大難題.

    3.5.2 面向海量數據的數據存儲與處理技術

    (ⅰ) 面向海量數據的數據存儲技術.

    傳統關系數據庫保證了強一致性(ACID)和高可用性(側重AC), 在高可伸縮性方面存在難以克服的缺陷, 因此無法應付海量數據的高效存儲和高并發訪問. 針對該問題, NoSQL技術被提出, 并得到迅速發展.NoSQL 數據庫的基本思想是通過犧牲強一致性, 使得系統達到高伸縮性和高可用性(側重AP), 即在一致性和系統可用性之間做出權衡. 根據存儲模型的不同, 目前主流的NoSQL可以分為4類: 基于鍵/值存儲的NoSQL數據庫(如Redis)、面向列族的NoSQL數據庫(如Hbase, Cassandra)、面向文檔的NoSQL數據庫(如MongoDB)和基于圖的NoSQL數據庫(如Neo4J).

    異構資源檢索平臺對數字資源的保存及方便用戶對數字資源的使用都有著極其重要的作用. 在數字資源越來越豐富、種類越來越多的今天, 更簡潔、更實用、功能更強的異構資源統一檢索平臺的構建無疑有著重要的實用價值. 數據可以分為3種類型: 結構化、半結構化和無結構化數據, 它們在應用中分別主要體現為關系數據、XML數據和全文數據. 對于這3種類型的數據, 當前都有較成熟的索引模型和查詢方法, 并且這些模型和方法在大部分數據庫產品中占據了主流地位. 但是實際應用中的數據在很多情況下并不單純是一種類型, 而且3種數據的異構性導致它們的索引模型之間也存在一定程度的異構性, 所以如何處理混合類型的數據還是一個亟需解決的問題.

    (ⅱ) 面向海量數據的數據并行處理技術.

    MapReduce是2004年由谷歌公司提出的一個用來進行并行處理和生成大數據集的編程模型.

    Hadoop是MapReduce的開源實現, 受到了產業界和學術界共同關注. Hadoop分布式平臺采用Shared-nothing結構, 節點之間彼此獨立, 具有高容錯性, 能夠容忍節點的高失敗率. 因此, Hadoop能夠部署到由中低端計算機組成的大規模機群中, 并且其可伸縮性在業界已經得到有力驗證.

    MapReduce框架能夠較好地處理大規模的數據計算, 但是在實現需要迭代類算法時, 效率比較低. 針對該問題, 也出現了一些支持迭代計算的框架, 它們或者基于MapReduce進行修改, 或者借鑒了其計算思想進行設計. 典型的有由加州大學伯克利分校開發的Spark, 用來解決MapReduce所不擅長的兩類計算: 迭代計算和交互式分析. 基本思想是將數據存在內存, 避免重復的加載.

    如何有效地分布式地處理各種海量復雜數據也是目前的研究熱點, 也出現了一些針對這些具體任務的計算框架, 它們一般以Hadoop平臺為基礎, 提供了許多任務特定的操作或功能. 例如, 為了支持海量圖數據的查詢與匹配, 谷歌公司開發了Pregel, 可以在通用分布式服務器上處理PB級別圖數據, 與之對應產業界也推出了開源項目GraphLab. 為滿足海量數據的流處理需求, Twitter, Yahoo等公司都各自研發了代表性的流處理平臺. Yahoo的S4(Simple Scalable Streaming System)是一個分布式、可擴展、分區容錯、可插拔的流式系統. Twitter開源的Storm實時流處理平臺為分布式實時計算提供了一組通信原語, 可用于流處理、持續計算和分布式遠程程序調用.

    (ⅲ) 面向海量數據的數據并行挖掘技術.

    數據挖掘通常需要遍歷訓練數據獲得相關的統計信息, 用于求解或優化模型參數, 在大規模數據上進行頻繁的數據訪問需要耗費大量運算時間. 數據挖掘領域長期受益于并行算法和架構的使用, 使得性能逐漸提升. 過去15年來, 效果尤其顯著. 試圖將這些進步結合起來, 并且提煉, 使得計算能力呈幾何級數增長. 即便是圖形處理、游戲編程是公認的復雜, 它們也從并行化受益頗多. 研究顯示數據挖掘、圖遍歷、有限狀態機是并行化未來的熱門方向.

    MapReduce框架已經被證明是運行數據挖掘算法性能的重要工具. 國內中國科學院計算技術研究所2008年底開發的基于Hadoop的并行分布式數據挖掘平臺, 也已用于中國移動通信企業TB級實際數據的挖掘.

    (ⅳ) 面向海量數據的數據查詢與分析技術.

    近年來, 傳統數據倉庫技術難以適應海量數據查詢與分析的問題, 受到學術界和工業界的密切關注. 一些工作例如EMC Greenplum, HP Vertica等, 基于傳統數據庫技術, 并結合并行數據庫與OLAP分析型數據庫各自的優點, 來實現海量數據的實時查詢與分析. 但是, 這種方式在可伸縮性與容錯性方面存在不足. 另一方面, 針對MapReduce框架中要求程序員自己實現用于完成具體查詢和分析的Map和Reduce任務, 負擔過重的問題, 一些工作開始關注基于MapReduce的數據倉庫研究, 例如Facebook的Hive、雅虎的Pig、谷歌的Sawzall等, 其基本思想都是通過解析器將用戶的查詢語句解析為一系列MapReduce任務.

    與基本的MapReduce系統相比, 高層查詢語言更加容易使用, 但是存在效率不足的問題. 與此同時, 一些工作開始嘗試數據庫技術與MapReduce框架的結合. 希望結合兩者的優點來實現海量數據的高效查詢與分析, 例如Cloudera推出的Impala項 目不再使用Hive+ MapReduce批處理的思想, 而是通過采用與商用并行關系數據庫中類似的分布式查詢引擎, 可以直接從HDFS或者HBase中用SELECT, JOIN和統計函數查詢數據, 從而大大降低了延遲.

    3.5.3 面向海量數據的數據智能分析技術

    在社區結構的挖掘通常被描述為圖聚類問題. 由于群體行為和興趣的多樣性, 重疊社區結構的研究逐漸成為網絡用戶社區的研究重點. 模糊C均值、非負矩陣分解、派系過濾算法等方法已經被應用于重疊用戶社區的聚類分析. 用戶興趣的變化、交互行的改變等因素會導致用戶社區隨時間發生演化. 基于普聚類、張量分析、貝葉斯估計的多種社區演變分析方法得到了深入研究.

    4 結論和展望

    綜上所述, 面向社交網絡的大數據分析呈現出以下幾點趨勢:

    (1) 數據網絡化是大社交數據分析的基礎. 現有工作大都從宏觀層面對社交網絡結構開展研究工作, 很少關注網絡結構微觀變化對信息傳播的動態影響;

    (2) 理解數據空間和社交空間之間的交互是理解數據的重要手段. 一方面, 用戶間的社會影響是信息傳播的原動力, 現有的影響力分析通??紤]網絡節點在全局中的影響力, 而忽視了“影響力”本身的尺度多樣性, 例如, 同一節點在不同的社區、不同地域中具有不同的影響力;

    (3) 盡管國內外研究單位開展了相當數量的大數據和社交網絡應用系統的研究, 但總體而言, 仍舊缺乏對大社交數據進行科學管理和有效管理的實用系統.

    近些年, 社交網絡在我國得到了迅猛的發展, 積累了大量的用戶數據, 為深度挖掘和分析海量異構社交網絡帶來了巨大的機遇. 我國在計算社會學、網絡科學、數據挖掘、數據庫和機器學習等相關領域的基礎研究和技術積累、研究基地和隊伍建設基礎, 都為大社交數據分析和管理的基礎理論及其應用研提供了良好的學科基礎. 未來, 針對這方面的深入研究, 有助于我們在大數據和社交網絡時代占領技術制高點, 提升網絡信息管理與應用水平.

    版權聲明:本文內容由互聯網用戶自發貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如發現本站有涉嫌抄襲侵權/違法違規的內容, 請發送郵件至 舉報,一經查實,本站將立刻刪除。

    發表評論

    登錄后才能評論
    国产精品区一区二区免费