AG8九游会

    電話:0551-65837935

    地址:安徽省合肥市政務區潛山路                         華潤大廈B座

    Spark大數據分析框架的核心部件

    2016年12月07日 來源:轉載www.mamicode.com

      Spark大數據分析框架的核心部件包含RDD內存數據結構、Streaming流計算框架、GraphX圖計算與網狀數據挖掘、MLlib機器學習支持框架、Spark SQL數據檢索語言、Tachyon文件係統、SparkR計算引擎等主要部件。這裏做一個簡單的介紹。

      一、RDD內存數據結構

      大數據分析係統一般包括數據獲取、數據清洗、數據處理、數據分析、報表輸出等子係統。Spark為了方便數據處理、提升性能,專門引入了RDD數據內存結構,這一點與R的機製非常類似。用戶程序隻需要訪問RDD的結構,與存儲係統的數據調度、交換都由提供者驅動去實現。RDD可以與Haoop的 HBase、HDFS等交互,用作數據存儲係統,當然也可以通過擴展支持很多其它的數據存儲係統。

      因為有了RDD,應用模型就與物理存儲分離開來,而且能夠更容易地處理大量數據記錄遍曆搜索的情況,這一點非常重要。因為Hadoop的結構主要適用於順序處理,要翻回去反複檢索數據的話效率就非常低下,而且缺乏一個統一的實現框架,由算法開發者自己去想辦法實現。毫無疑問,這具有相當大的難度。 RDD的出現,使這一問題得到了一定程度的解決。但正因為RDD是核心部件、實現難度大,這一塊的性能、容量、穩定性直接決定著其它算法的實現程度。從目前看,還是經常會出現RDD占用的內存過載出問題的情況。

      二、Streaming流計算框架

      流是現在推特、微博、微信、圖片服務以及物聯網、位置服務等等的重要數據形態,因此流計算正顯得前所未有的重要。流計算框架是所有互聯網服務商的核心基礎架構,Amazon、Microsoft都已經推出了Event消息總線雲服務平台,而facebook\twitter等更是將自己的流計算框架開源。

      Spark Streaming專門設計用於處理流式數據。通過Spark Streaming,可以快速地將數據推入處理環節,猶如流水線一樣進行快速的加工,並在最短的時間反饋給使用。

      三、GraphX圖計算與網狀數據挖掘

      物理網絡的拓撲結構,社交網絡的連接關係,傳統數據庫的E-R關係,都是典型的圖(Graph)數據模型。Hadoop主要適用於“數據量”很大的場合,對於關係的處理幾乎沒有支持,Hbase也是非常弱的關係處理能力。圖數據結構往往需要快速多次對數據進行掃描式遍曆,RDD的引入使Spark可以更高效地處理基於圖的數據結構,從而使存儲和處理大規模的圖網絡成為可能。類似的專用於圖的係統還有neo4j等。

      GraphX相對於傳統數據庫的關係連接,可以處理更大規模、更深度的拓撲關係,可以在多個集群節點上進行運算,確實是現代數據關係研究的利器。

      四、MLlib機器學習支持框架

      通過把機器學習的算法移植到Spark架構上,一方麵可以利用底層的大規模存儲和RDD的數據快速訪問能力,還可以利用圖數據結構和集群計算的處理能力,使機器學習的運算可以在大規模的集群係統上展開,即大力拓展了機器學習算法的應用能力。

      五、Spark SQL數據檢索語言

      這個跟基於Hive的實現有些類似,但是基於RDD理論上能提供更好的性能,同時能更方便處理如join和關係檢索等操作。這個被設計為與用戶交互的一個標準化入口。

      六、Tachyon文件係統

      Tachyon是一個類似於HDFS的實現,不過感覺上更加接近於使用者,而HDFS主要是麵向存儲塊的。

      七、SparkR計算引擎

      將R語言的能力應用到Spark基礎計算架構上,為其提供算法引擎。

    電話:0551-65837935 郵箱:Phemon.Xu@gzlk1688.com地址:安徽省合肥市政務區潛山路110號華潤大廈B座

    Copyright © 2016 安徽省AG8九游会數據研究有限公司 All Right Reserved

    轉載內容版權歸作者及來源網站所有,本站原創內容轉載請注明來源,商業媒體及紙媒請先聯係:Phemon.Xu@gzlk1688.com