spark和flink比較 Spark SQL和Shark在架構(gòu)上有哪些區(qū)別?
Spark SQL和Shark在架構(gòu)上有哪些區(qū)別?Spark shark |即hive onsparkA.它將HQL轉(zhuǎn)換為Spark上的RDD操作,然后通過(guò)hive的元數(shù)據(jù)獲取數(shù)據(jù)庫(kù)中的表信息,sha
Spark SQL和Shark在架構(gòu)上有哪些區(qū)別?
Spark shark |即hive onspark
A.它將HQL轉(zhuǎn)換為Spark上的RDD操作,然后通過(guò)hive的元數(shù)據(jù)獲取數(shù)據(jù)庫(kù)中的表信息,shark在HDFS上獲取數(shù)據(jù)和文件夾,在spark上進(jìn)行操作
B.它最大的特點(diǎn)是速度快,與hive完全兼容
C.shark在最終物理計(jì)劃執(zhí)行階段使用hive的API實(shí)現(xiàn)查詢parsing和邏輯計(jì)劃,spark代替Hadoop Mr
d.通過(guò)配置shark參數(shù),shark可以自動(dòng)將特定的RDD緩存在內(nèi)存中,實(shí)現(xiàn)數(shù)據(jù)重用,進(jìn)而加快特定數(shù)據(jù)集的檢索速度。
e.Shark通過(guò)UDF實(shí)現(xiàn)了一個(gè)特定的數(shù)據(jù)分析學(xué)習(xí)算法,它結(jié)合了SQL數(shù)據(jù)查詢和操作分析,最大限度地重用RDD。
Spark SQL
A.是一種基于catalyst引擎的交互式大數(shù)據(jù)SQL技術(shù)。它使用schemardd來(lái)操作SQL,并支持比shark更高級(jí)的查詢表達(dá)式。
b.支持hive | HBase | Oracle
從普通程序員到高級(jí)架構(gòu)師是一個(gè)從量變到質(zhì)變的過(guò)程。除了內(nèi)部晉升機(jī)制或跳槽機(jī)會(huì),最重要的是個(gè)人能力的增長(zhǎng)。在軟件行業(yè)工作了十多年,我想給你一些建議。
1. 不斷豐富理論知識(shí)。從廣度和深度兩個(gè)維度,不斷拓展和挖掘基礎(chǔ)理論、領(lǐng)先技術(shù)、行業(yè)解決方案、優(yōu)化方法。
2. 熟悉業(yè)務(wù)知識(shí)。沒(méi)有業(yè)務(wù),純技術(shù)就無(wú)法實(shí)現(xiàn)。比如說(shuō),編寫(xiě)財(cái)務(wù)軟件的人要有財(cái)務(wù)知識(shí),編寫(xiě)電子軟件的人要有電氣知識(shí),編寫(xiě)通訊軟件的人要有通訊知識(shí)。
3. 多總結(jié),多提煉。將經(jīng)驗(yàn)轉(zhuǎn)化為經(jīng)驗(yàn),進(jìn)而轉(zhuǎn)化為知識(shí)力量。項(xiàng)目經(jīng)驗(yàn)不僅是經(jīng)驗(yàn),也是知識(shí)體系的重要組成部分。
4. 從全局性、前瞻性、擴(kuò)展性和系統(tǒng)性的角度來(lái)看待代碼體系和模塊,熟悉框架、消息、協(xié)議、標(biāo)準(zhǔn)和方案,經(jīng)常嘗試從不同的角度去審視、理解和消化。
5. 手上有密碼,心里卻沒(méi)有密碼。這是架構(gòu)師的高級(jí)領(lǐng)域,在這里理論和代碼可以相互通信。
我希望所有的程序員都能晉升為架構(gòu)師,甚至是專(zhuān)家、總工程師、首席技術(shù)官。非常感謝。
從程序員到高級(jí)系統(tǒng)架構(gòu)師該如何進(jìn)階?
Spark是一種工具,而深度學(xué)習(xí)是一種解決問(wèn)題的策略。如果做大數(shù)據(jù)分析,至少要熟練使用一種工具,深入了解常用的算法。對(duì)于大數(shù)據(jù)分析,您不需要在代碼級(jí)別和架構(gòu)級(jí)別熟悉spark。因?yàn)樗皇且粋€(gè)工具,你可以熟練地使用它。如果主題有很好的編程基礎(chǔ),一個(gè)月就足夠?qū)W好SPARKSQL和SPARKML了。算法學(xué)習(xí)需要花費(fèi)更多的精力。但如果受試者想學(xué)習(xí)深度學(xué)習(xí),則不建議學(xué)習(xí)spark。由于目前常用的CNN、RNN等模型通常使用GPU代替CPU進(jìn)行計(jì)算,而spark是一種內(nèi)存計(jì)算框架,主要在CPU上完成計(jì)算,因此計(jì)算效率不如GPU高。因此,如果將深度學(xué)習(xí)用于大數(shù)據(jù)分析,則可以使用tensorflow和其他框架。