欧美阿v视频在线大全_亚洲欧美中文日韩V在线观看_www性欧美日韩欧美91_亚洲欧美日韩久久精品

主頁 > 知識庫 > 解析百度開放云分布式計(jì)算平臺對大數(shù)據(jù)的處理

解析百度開放云分布式計(jì)算平臺對大數(shù)據(jù)的處理

熱門標(biāo)簽:廣安電銷外呼系統(tǒng) 勝威電話外呼系統(tǒng)密碼 百度高德騰訊地圖標(biāo)注公司 七臺河商家地圖標(biāo)注注冊 個(gè)人家庭地圖標(biāo)注教程 徐州穩(wěn)定外呼系統(tǒng)代理商 威海語音外呼系統(tǒng)廠家 搜地圖標(biāo)注怎么找店鋪 百度地圖標(biāo)注不能編輯

在百度開放云總經(jīng)理劉旸看來,當(dāng)今世界正面臨著由技術(shù)突破帶來的全行業(yè)升級,在這場商業(yè)劇變中,背后是三個(gè)重要的「重新定義」:第一,云計(jì)算重新定義了「IT」。它改變了企業(yè)所需要的 IT 資源的擁有與供給的方式,基于互聯(lián)網(wǎng)級的資源管理平臺,徹底改變了傳統(tǒng)企業(yè)的 IT 模式,為新的商業(yè)創(chuàng)新提供了可能;

第二,大數(shù)據(jù)重定義了「資產(chǎn)」,相較于以往的重資產(chǎn),企業(yè)在經(jīng)營中不斷生成的數(shù)據(jù),將成為企業(yè)未來繼續(xù)生存并保持競爭力的砝碼;第三,人工智能重定義了「效率」,通過語音、圖像、視頻、自然語言識別和智能處理等技術(shù),讓傳統(tǒng)的計(jì)算機(jī)具備更為強(qiáng)大的能力,大幅提升工作效率。

基于以上三個(gè)重新定義,百度開放云的重新堆棧也分為三層:云計(jì)算層、大數(shù)據(jù)應(yīng)用層、和人工智能層。

處理大數(shù)據(jù)無非以下四個(gè)步驟:

收集:原始數(shù)據(jù)種類多樣,格式、位置、存儲、時(shí)效性等迥異。數(shù)據(jù)收集從異構(gòu)數(shù)據(jù)源中收集數(shù)據(jù)并轉(zhuǎn)換成相應(yīng)的格式方便處理。
存儲:收集好的數(shù)據(jù)需要根據(jù)成本、格式、查詢、業(yè)務(wù)邏輯等需求,存放在合適的存儲中,方便進(jìn)一步的分析。
變形:原始數(shù)據(jù)需要變形與增強(qiáng)之后才適合分析,比如網(wǎng)頁日志中把IP地址替換成省市、傳感器數(shù)據(jù)的糾錯(cuò)、用戶行為統(tǒng)計(jì)等。
分析:通過整理好的數(shù)據(jù)分析what happened、why it happened、what is happening和what will happen,幫助企業(yè)決策。

其實(shí),如果涉及到“大數(shù)據(jù)”,不得不提百度最大的業(yè)務(wù)——搜索。百度搜索已經(jīng)收錄全世界超過一萬億的網(wǎng)頁,每天響應(yīng)中國網(wǎng)民大約幾十億次的請求。除此之外,百度還有另外20多個(gè)用戶過億的產(chǎn)品線,而且各個(gè)產(chǎn)品底層的大規(guī)模數(shù)據(jù)處理,都需要使用百度團(tuán)隊(duì)維護(hù)的大數(shù)據(jù)處理平臺。

百度分布式計(jì)算平臺:離線引擎優(yōu)化

關(guān)于MapReduce

首先介紹主要的離線計(jì)算模型——MapReduce,百度從2007年開始引進(jìn)Hadoop 0.15.1,隨后快速發(fā)展,2011年百度的MR單集群規(guī)模達(dá)到5000臺,到2013年已經(jīng)多達(dá)1.3萬臺,這也是截止到目前為止全世界最大的單集群。Hadoop全集群規(guī)模為10萬量級, 作業(yè)量達(dá)到了百萬量級,日均CPU利用率超過80%,遠(yuǎn)超業(yè)界同行,百度開放云(http://cloud.baidu.com)底層依賴的大規(guī)模集群調(diào)度、資源隔離等技術(shù)能力世界領(lǐng)先。除了在規(guī)模方面不斷擴(kuò)大,百度一直在Hadoop性能分析方面進(jìn)行了大量的優(yōu)化。2013年的測試結(jié)果顯示,百度內(nèi)部MR實(shí)現(xiàn)相比于開源Hadoop性能提升30%。典型優(yōu)化,例如Hadoop中的Shuffle,百度將其做成一個(gè)統(tǒng)一的shuffle服務(wù),不再占用Map或Reduce槽位。比如對關(guān)鍵熱點(diǎn)函數(shù)采用SSE向量化等。

2014年,百度繼續(xù)對計(jì)算引擎做了大幅優(yōu)化, Native C++實(shí)現(xiàn)的DAG引擎正式上線。下圖是一個(gè) 4輪MR Job實(shí)現(xiàn)的典型業(yè)務(wù)流示例,DAG引擎上線后,可以優(yōu)化成一個(gè)DAG作業(yè),可以避免3次Reduce寫多副本引入的磁盤IO及網(wǎng)絡(luò)IO,還可以規(guī)避2次Map讀HDFS的IO以及處理耗費(fèi)。

下圖是一個(gè)真實(shí)業(yè)務(wù)由SQL計(jì)算表示層翻譯下來的,基于MR引擎時(shí),SQL會翻譯成25個(gè)MR JOB,如果百度把它優(yōu)化成DAG,能夠避免很多次磁盤IO操作。在優(yōu)化之后,運(yùn)行時(shí)間直接縮減到1個(gè)小時(shí),優(yōu)化前后的差異非常顯著。

內(nèi)存流式Shuffle

2014年,百度對Shuffle進(jìn)行重大重構(gòu),初期實(shí)習(xí)生同學(xué)完成的Demo以BaiduSort名義參與了2014年Sort BenchMark大數(shù)據(jù)排序國際大賽,并獲得冠軍(2015年百度沒再參加,國內(nèi)其他公司以同樣技術(shù)通過更大規(guī)模集群刷新記錄)。2015年,新Shuffle技術(shù)完成全面上線。Hadoop默認(rèn)Shuffle實(shí)現(xiàn)為基于磁盤Pull模式,計(jì)算過程顯式分成Map、Shuffle、Reduce過程;Baidu研發(fā)的新Shuffle采用內(nèi)存流式Push模式,Map端完成部分記錄處理后直接從內(nèi)存中將計(jì)算結(jié)果推送給下游。

舉例來說,Map處理256MB輸入數(shù)據(jù),在內(nèi)存流式Shuffle模式下,處理完100條記錄以后,直接通過內(nèi)存推送到下游,這樣就形成流水線方式處理。不再有顯式的Shuffle階段。

目前,該Shuffle組件為通用組件,正逐步推廣到其他分布式計(jì)算平臺中。

百度分布式計(jì)算平臺:系統(tǒng)架構(gòu)演進(jìn)

前面重點(diǎn)介紹了百度開放云BMR服務(wù)中涉及到的規(guī)模、性能方面優(yōu)化思路和效果,接下來跟大家一起分享一下,百度遇到的整體架構(gòu)方面挑戰(zhàn)以及優(yōu)化思路。

2012年系統(tǒng)架構(gòu)中,最主要的兩個(gè)離線計(jì)算平臺,左邊是以MapReduce模型為主的批量計(jì)算平臺BMR,右邊是MPI /BSP模型為主的大規(guī)模機(jī)器學(xué)習(xí)平臺BML。從最下面可以看到,MapReduce和MPI模型底層硬件就有較大差異。Hadoop分布式文件系統(tǒng)多副本以及強(qiáng)大的故障處理機(jī)制,使得Raid卡完全沒有必要,采用多塊超大容量SATA硬盤非常適合。

而MPI差別較大,MPI是一個(gè)消息傳輸框架,它在設(shè)計(jì)之初就沒有考慮太多異常處理,因此它對底層系統(tǒng)可靠性要求非常高。百度采用了非常高配置的服務(wù)器,例如帶Raid卡的sas硬盤,超大內(nèi)存、萬兆互聯(lián)等。

BMR Hadoop由大量SATA硬盤的服務(wù)器構(gòu)成,存儲系統(tǒng)為HDFS,資源調(diào)度層面百度有自研的調(diào)度器ARK(與社區(qū)Yarn比較類似)。而BML大規(guī)模機(jī)器學(xué)習(xí)平臺上,支持的業(yè)務(wù)樣本超過數(shù)百億計(jì)量級,特征規(guī)模也遠(yuǎn)超百億。百度在運(yùn)行機(jī)器學(xué)習(xí)時(shí),需要先啟動(dòng)MapReduce,然后再將數(shù)據(jù)從HDFS分發(fā)到各個(gè)MPI節(jié)點(diǎn),這種方式對網(wǎng)絡(luò)帶寬的要求很高。

系統(tǒng)部同事持續(xù)改進(jìn)內(nèi)網(wǎng)帶寬的同時(shí),BML平臺層面也在思考應(yīng)該如何解決跨MR和MPI倆大集群間的日益嚴(yán)重的網(wǎng)絡(luò)帶寬問題。

另外還有一個(gè)需求:MPI是一種事務(wù)性調(diào)度模型,比如一個(gè)業(yè)務(wù)需要200臺機(jī)器,如果平臺此時(shí)只有199臺機(jī)器空閑,實(shí)際也很難用起來(除非修改提交參數(shù),但涉及輸入數(shù)據(jù)重新分塊處理等比較復(fù)雜)。另外MPI計(jì)算往往顯式分為計(jì)算、傳輸、計(jì)算等階段(即BSP模型),因此資源利用波動(dòng)性較大,例如CPU計(jì)算階段,網(wǎng)絡(luò)空閑;網(wǎng)絡(luò)傳輸或全局同步階段,CPU空閑。為解決這個(gè)問題,百度在MPI集群中引入IDLE計(jì)算,IDLE業(yè)務(wù)資源占用充分可控,典型的IDLE任務(wù)如MapReduce任務(wù),而執(zhí)行MR任務(wù)又會進(jìn)一步加劇MR集群和MPI集群間網(wǎng)絡(luò)帶寬問題。

基于以上考慮,百度正式將MPI底層硬件替換為替換成高配置存儲型服務(wù)器,硬盤同構(gòu),文件系統(tǒng)都采用HDFS,BML算法輸入和輸出均通過HDFS,不再是本地文件系統(tǒng)。

BML機(jī)器學(xué)習(xí)執(zhí)行引擎層面,百度基于MPI封裝了DVCE(Distributed VectorComputingEngine)分布式向量計(jì)算引擎,屏蔽MPI過于低層的編程接口,通過高層抽象自動(dòng)翻譯為MPI任務(wù),這就是百度第二代專門針對“并行計(jì)算”開發(fā)的系統(tǒng)框架。

2014年,BML機(jī)器學(xué)習(xí)執(zhí)行引擎遷移到ELF第三代并行計(jì)算框架, ELF采用ParameterServer架構(gòu),大幅降低機(jī)器學(xué)習(xí)算法開發(fā)代價(jià),對比于百度的第二代框架DVCE,在開發(fā)效率方面有大幅度的提升。離線計(jì)算方面,完成了Native C++ DAG引擎上線,百度內(nèi)部叫DCE(Distributed ComputingEngine)。

2014年BMR和BML底層都采用Matrix完成資源分配與隔離,其他平臺如小批量計(jì)算系統(tǒng)TaskManager和毫秒級計(jì)算延遲的Dstream系統(tǒng),都基于業(yè)務(wù)需求特殊性,采用獨(dú)立的資源隔離和調(diào)度系統(tǒng)。

2015年的架構(gòu)改進(jìn),主要是將所有的計(jì)算模型均遷移到Matrix+Normandy架構(gòu)。Normandy兼容社區(qū)Yarn調(diào)度接口,開源社區(qū)新型興計(jì)算平臺可以很輕松的接入到百度的計(jì)算生態(tài)里。

百度已經(jīng)介紹了百度大數(shù)據(jù)分析和挖掘平臺主要的底層引擎和架構(gòu),接下來談一下最新思考。

系統(tǒng)底層是IDC硬件,接著是Matrix,再是Normandy,然后是幾個(gè)主要的引擎。之前介紹底層架構(gòu)的統(tǒng)一,比如在硬件、調(diào)度、存儲等方面的統(tǒng)一。實(shí)際上各個(gè)系統(tǒng)對外的結(jié)果,都有自己的接口,如果要使用MR,很多人寫MR程序都是直接調(diào)用Hadoop原生接口,配置涉及到的多個(gè)參數(shù)。部分業(yè)務(wù)還需要流式系統(tǒng)完成日志清洗,在經(jīng)過MapReduce模型批量預(yù)處理,隨后通過ELF完成機(jī)器學(xué)習(xí)模型訓(xùn)練,最后再通過MapReduce模型完成模型評估,可見一個(gè)業(yè)務(wù)需要跨越多個(gè)模型,需要業(yè)務(wù)線同學(xué)同時(shí)熟悉很多模型和平臺,而每一個(gè)模型又有各自特點(diǎn)和接口。只有足夠了解模型的細(xì)節(jié)和接口后,才能真正的利用好該模型。

于是百度正式立項(xiàng)BigFlow項(xiàng)目(原項(xiàng)目名DataFlow,圖片未來及修改),將模型的細(xì)節(jié)屏蔽。平臺自動(dòng)決定選擇合適的并發(fā)度,甚至智能選擇應(yīng)該把這個(gè)翻譯到哪個(gè)計(jì)算模型。BigFlow可以支持多個(gè)不同的計(jì)算引擎(每個(gè)引擎在其適合的領(lǐng)域做到極致),充分發(fā)揮各引擎性能和功能。所以用戶使用同一套接口,便能對應(yīng)到不同的任務(wù)。由于采用高層抽象,業(yè)務(wù)開發(fā)效率獲得大幅提升,代碼量大幅減少,其維護(hù)成本也大幅降低。BigFlow集成常見優(yōu)化手段,因此將大幅提升平臺有效資源占用。

百度開放云——大數(shù)據(jù)+智能

最后,向大家簡要介紹百度開放云。2014年,百度正式?jīng)Q定將服務(wù)內(nèi)部業(yè)務(wù)多年的云計(jì)算技術(shù)正式對外提供服務(wù),即百度開放云,對應(yīng)官網(wǎng)http://cloud.baidu.com。百度開放云大數(shù)據(jù)方面,BMR已經(jīng)對外開放,而更多的大數(shù)據(jù)分析和服務(wù)都還未對外開放。BMR集群上可以做到按需部署,用戶專享,更關(guān)鍵的是完全兼容開源的Hadoop/Spark平臺,開放云客戶基于Hadoop、Spark、Hbase等已經(jīng)實(shí)現(xiàn)的大數(shù)據(jù)業(yè)務(wù)幾乎不用修改就可以平滑遷移到云上。多維分析服務(wù)Palo,它完全兼容MySQL網(wǎng)絡(luò)協(xié)議,因此,客戶朋友們熟悉的Mysql Client的工具均可使用。

同時(shí),Palo支持JDBC、ODBC的編程接口,如果已有程序采用的是JDBC、ODBC,那么遷移成本幾乎為零。最后看到它與業(yè)界主流的BI工具商業(yè)分析的工具對接的,比如Tableau、Saiku、BIEE、R。

最后再介紹機(jī)器學(xué)習(xí)云服務(wù)BML,BML中提供的深度學(xué)習(xí)技術(shù),曾獲得2014年百度最高獎(jiǎng)。BML提供端到端的解決方案,里面提供的算法均服務(wù)百度內(nèi)部業(yè)務(wù)多年,典型如網(wǎng)頁搜索、百度推廣(鳳巢、網(wǎng)盟CTR預(yù)估等)、百度地圖、百度翻譯等。

使用開放云BMR和BML、Palo等,就可以立刻、直接享用與百度搜索同等品質(zhì)的大數(shù)據(jù)分析和挖掘服務(wù)!

標(biāo)簽:臨沂 云浮 三明 昭通 滁州 婁底 威海 吳忠

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《解析百度開放云分布式計(jì)算平臺對大數(shù)據(jù)的處理》,本文關(guān)鍵詞  解析,百度,開放,云,分布式,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《解析百度開放云分布式計(jì)算平臺對大數(shù)據(jù)的處理》相關(guān)的同類信息!
  • 本頁收集關(guān)于解析百度開放云分布式計(jì)算平臺對大數(shù)據(jù)的處理的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章
    欧美阿v视频在线大全_亚洲欧美中文日韩V在线观看_www性欧美日韩欧美91_亚洲欧美日韩久久精品
  • <rt id="w000q"><acronym id="w000q"></acronym></rt>
  • <abbr id="w000q"></abbr>
    <rt id="w000q"></rt>
    国产毛片一区二区| 色偷偷久久人人79超碰人人澡| 色婷婷激情一区二区三区| 国产亚洲自拍一区| 美女视频第一区二区三区免费观看网站| 欧洲成人午夜精品无码区久久| 中文字幕另类日韩欧美亚洲嫩草| 久久欧美一区二区| 精品亚洲国内自在自线福利| 欧美熟妇一区二区| 日韩精品在线网站| 免费成人在线网站| 日本黄色特级片| 日韩一区二区三区电影| 亚洲18色成人| 中文字幕精品久久久| 日韩一区二区免费电影| 奇米影视7777精品一区二区| 国产成人av无码精品| 在线播放国产精品二区一二区四区 | 亚洲国产成人在线| 国产一区在线不卡| 激情五月激情综合| 国产精品萝li| 97精品国产露脸对白| 精品视频123区在线观看| 亚洲午夜三级在线| 午夜一区二区三区免费| 亚洲精品一区二区三区精华液 | 极品尤物av久久免费看| 亚洲毛片亚洲毛片亚洲毛片| 国产欧美精品国产国产专区| 丰满少妇久久久久久久| 日本韩国欧美一区二区三区| 亚洲综合色自拍一区| 中文字幕在线播放视频| 欧美电影免费观看高清完整版在 | 成人av电影在线| 色婷婷综合久久久久中文| 一个色综合av| 疯狂揉花蒂控制高潮h| 国产丝袜美腿一区二区三区| www.日韩av| 欧美日韩国产首页| 麻豆国产一区二区| 丁香花五月激情| 亚洲一区二区三区美女| 久久精品一区二区免费播放 | 四虎永久免费影院| 国产天堂亚洲国产碰碰| 欧美体内she精高潮| 欧美一区二区性放荡片| 国产精品一区二区果冻传媒| 91福利在线导航| 日日嗨av一区二区三区四区| 国产欧美小视频| 亚洲男女毛片无遮挡| 亚洲一区二区三区四区五区六区| 国产亚洲综合在线| 亚洲精品久久久久久| 精品va天堂亚洲国产| www.在线成人| 欧美一级黄色录像| 国产成人精品一区二区三区网站观看| 欧美日精品一区视频| 久久99九九99精品| 91黄色免费版| 九九在线精品视频| 欧美在线综合视频| 久久99精品国产麻豆不卡| 日本韩国欧美在线| 激情成人综合网| 欧美视频在线播放| 国产精品影视网| 这里只有精品99re| 成人午夜电影小说| 精品国产a毛片| 91美女视频网站| 久久久久国产精品麻豆| 91精品国产高清91久久久久久| 26uuu亚洲| 精品人妻二区中文字幕| 国产欧美在线观看一区| 最近中文字幕无免费| 综合精品久久久| 欧美 日韩 成人| 亚洲国产一区二区在线播放| 裸体武打性艳史| 久久国产三级精品| 欧美福利视频一区| 91在线云播放| 国产精品欧美久久久久一区二区| 亚洲欧美日本一区| 一区二区三区中文字幕精品精品| 国产又黄又粗又猛又爽的| 天天免费综合色| 欧洲精品一区二区三区在线观看| 国产精品一区二区在线观看不卡 | 久久精品国产一区二区三| 欧美三片在线视频观看| 成人一二三区视频| 荫蒂被男人添免费视频| 中文字幕第一页久久| 九色porny自拍视频| 亚洲bt欧美bt精品| 欧美亚洲另类激情小说| 白白色 亚洲乱淫| 国产精品美女一区二区| 黄色三级生活片| 全国精品久久少妇| 欧美一区三区二区| 久久aaaa片一区二区| 中文字幕一区二区三区不卡| 成人欧美精品一区二区| 最新不卡av在线| 中国一级片在线观看| 国产一区二区在线视频| 精品日产卡一卡二卡麻豆| 中文字幕日韩三级片| 午夜成人免费视频| 欧美精品一二三区| 国产人妖在线观看| 亚洲国产精品久久久久秋霞影院| 在线观看免费一区| 91丝袜呻吟高潮美腿白嫩在线观看| 中文字幕av不卡| 日本精品在线免费观看| 国产乱子伦一区二区三区国色天香| 精品免费日韩av| av电影在线不卡| 国产综合色在线| 国产视频一区二区三区在线观看| 色欲AV无码精品一区二区久久| 黄色日韩三级电影| 欧美极品少妇xxxxⅹ高跟鞋 | 97人妻精品一区二区免费| 免费看日韩a级影片| 欧美电视剧免费观看| 国产成人av一区二区三区不卡| 久久国产精品色| 国产亚洲欧美日韩俺去了| 国产亚洲精品精品精品| 国产东北露脸精品视频| 国产精品久久久久久久蜜臀| 欧美黑人猛猛猛| 91在线播放网址| 亚洲国产精品一区二区www在线| 91精品国产一区二区| 极品人妻一区二区三区| 国内久久婷婷综合| 国产精品污www在线观看| 亚洲一级免费毛片| 91精品人妻一区二区三区四区| 婷婷国产在线综合| 久久亚洲一级片| 国产精品白丝喷水在线观看| 91亚洲精品乱码久久久久久蜜桃 | 1000部国产精品成人观看| 欧美午夜精品一区二区三区| 无码任你躁久久久久久老妇| 青娱乐精品在线视频| 国产亚洲欧美色| 欧洲一区二区三区在线| 变态另类丨国产精品| 国产九色sp调教91| 亚洲精品成人悠悠色影视| 88在线观看91蜜桃国自产| 日本一级免费视频| 成人av在线资源| 亚洲成人av中文| 久久―日本道色综合久久| 91精彩视频在线观看| 国产精品成人一区二区三区电影毛片 | 亚洲国产高清不卡| 在线观看av一区二区| 国产精品偷伦视频免费观看了 | 在线观看精品一区| 丝袜美腿中文字幕| 国产不卡在线一区| 亚洲国产成人porn| 久久久国产精华| 在线视频国产一区| 免费看污黄网站在线观看| 成人成人成人在线视频| 日日夜夜免费精品视频| 日本一区二区三区久久久久久久久不| 欧洲精品视频在线观看| www.久久国产| 99精品久久只有精品| 秋霞午夜av一区二区三区| 亚洲同性gay激情无套| 欧美成人一区二区三区片免费 | 日本一级大毛片a一| 国产精品88av| 天天色天天爱天天射综合| 中文字幕制服丝袜成人av | 国产精品国产a| 欧美一区二区三区男人的天堂| 艳妇荡乳欲伦69影片| 亚洲综合自拍网|