成人AV在线无码|婷婷五月激情色,|伊人加勒比二三四区|国产一区激情都市|亚洲AV无码电影|日av韩av无码|天堂在线亚洲Av|无码一区二区影院|成人无码毛片AV|超碰在线看中文字幕

etl數(shù)據(jù)抽取工具 開(kāi)源etl工具比較,kettle和talend,都有什么優(yōu)勢(shì)和劣勢(shì)?

開(kāi)源etl工具比較,kettle和talend,都有什么優(yōu)勢(shì)和劣勢(shì)?幾種ETL工具(kettle、talent、Informatica、datapipeline等)的比較四種工具的比較主要從以下幾個(gè)方

開(kāi)源etl工具比較,kettle和talend,都有什么優(yōu)勢(shì)和劣勢(shì)?

幾種ETL工具(kettle、talent、Informatica、datapipeline等)的比較

四種工具的比較主要從以下幾個(gè)方面進(jìn)行:

1。成本:

軟件成本包括很多方面,包括軟件產(chǎn)品、售前培訓(xùn)、售后咨詢、技術(shù)支持等

開(kāi)源產(chǎn)品本身是免費(fèi)的,成本主要是培訓(xùn)和咨詢,所以成本始終保持在較低的水平。

商業(yè)產(chǎn)品的價(jià)格非常高,但通常會(huì)提供幾次免費(fèi)咨詢或支持,因此使用商業(yè)軟件的初始成本非常高,但會(huì)逐漸降低。

人工編碼初期成本不高,主要是人力成本,但后期維護(hù)工作量會(huì)越來(lái)越大。

2. 易用性:

datapipeline:GUI非常易于使用,具有豐富的視覺(jué)監(jiān)控;

kettle:GUI編碼;

Informatica:GUI編碼,具有GUI,但經(jīng)過(guò)特殊培訓(xùn);

talent:GUI編碼,具有GUI圖形界面,但具有eclipse 3。技能要求:

數(shù)據(jù)管道:操作簡(jiǎn)單,無(wú)技術(shù)要求;

水壺:ETL設(shè)計(jì),SQL,數(shù)據(jù)建模;

Informatica:ETL設(shè)計(jì),SQL,數(shù)據(jù)建模;

人才:需要編寫(xiě)Java;

4。底層架構(gòu):

datapipeline:分布式,水平可擴(kuò)展;

Ketter:主從結(jié)構(gòu)不高可用性;

有沒(méi)有擴(kuò)展性較好的ETL產(chǎn)品?

介紹我知道的常見(jiàn)ETL工具:dataX、Datastage、Informatica、Ketter、datapipeline。

阿里巴巴開(kāi)源軟件:dataX

dataX是一款針對(duì)異構(gòu)數(shù)據(jù)源的離線同步工具。致力于實(shí)現(xiàn)關(guān)系數(shù)據(jù)庫(kù)(mysql、Oracle等)、HDFS、hive、ODPs、HBase、FTP等異構(gòu)數(shù)據(jù)源之間穩(wěn)定高效的數(shù)據(jù)同步

Kettle開(kāi)源軟件:Kettle(中文名)

Kettle是國(guó)外開(kāi)源ETL工具,純Java編寫(xiě),可以在windows上運(yùn)行,Linux和UNIX,具有良好的可擴(kuò)展性和高效穩(wěn)定的數(shù)據(jù)抽取。主從結(jié)構(gòu),無(wú)高可用性。它不支持?jǐn)?shù)據(jù)的實(shí)時(shí)同步,也不支持?jǐn)帱c(diǎn)續(xù)航。

IBM商務(wù)軟件:Datastage

最專業(yè)的商務(wù)ETL工具,價(jià)格比較貴,但處理速度也能在大數(shù)據(jù)量下保持較快的處理速度和穩(wěn)定性。實(shí)時(shí)監(jiān)控也很不錯(cuò),可以看到數(shù)據(jù)提取的情況,運(yùn)行到哪一步,很直觀。強(qiáng)大的售后技術(shù)支持。

商務(wù)軟件:Informatica

專業(yè)ETL工具,價(jià)格比Datastage便宜一點(diǎn),需要安裝服務(wù)器和客戶端,處理速度與Datastage相同。分布式部署,支持實(shí)時(shí)性,但效率不高。技術(shù)支持主要在美國(guó),所以在中國(guó)使用較少。

國(guó)產(chǎn):datapipeline

國(guó)產(chǎn)充電工具,與dataX相比,datapipeline具有可視化的過(guò)程監(jiān)控,提供多樣化的圖標(biāo)、輔助操作和維護(hù),以及故障問(wèn)題的實(shí)時(shí)報(bào)警。DataX需要依賴工具日志來(lái)定位故障問(wèn)題。支持實(shí)時(shí),dataX是定時(shí)的。支持?jǐn)帱c(diǎn)延續(xù),但dataX不支持。體系結(jié)構(gòu)也是分布式的,支持水平擴(kuò)展。

水壺是一個(gè)小的數(shù)據(jù)要求,它唯一的優(yōu)勢(shì)是免費(fèi)的

1。沒(méi)有過(guò)程管理。當(dāng)表被鎖定時(shí),很難找到原因,并且無(wú)法終止進(jìn)程,也無(wú)法控制最大進(jìn)程數(shù)。

2. 數(shù)據(jù)抽取不能自動(dòng)分包,也沒(méi)有像ABAP這樣高效的查詢語(yǔ)句,比如select from。。所有入口都在。。大數(shù)據(jù)處理速度很慢,大量數(shù)據(jù)的日常處理無(wú)法完成。

3. 無(wú)法自動(dòng)處理指定字段的增量。

4. 無(wú)法調(diào)試,調(diào)試將不提取數(shù)據(jù)。

5. 在計(jì)劃處理鏈中指定命令非常麻煩。沒(méi)有接口操作。處理鏈中有錯(cuò)誤。無(wú)法繼續(xù)運(yùn)行或跳過(guò)處理。

6. 無(wú)法記錄每個(gè)處理詳細(xì)信息并記錄處理時(shí)間。

7. 無(wú)法共享字段。字段不關(guān)聯(lián)本位幣單位,沒(méi)有基礎(chǔ)資料字段的概念。

8. 沒(méi)有包處理的概念,沒(méi)有日志處理。

9. 沒(méi)有版本控制,聯(lián)機(jī)不是傳輸。

10. 另外,沒(méi)有外部發(fā)布WS、OData接口函數(shù)

更不用說(shuō)報(bào)表函數(shù),權(quán)限控制功能不強(qiáng),底層數(shù)據(jù)庫(kù)也不是多維信息立方體結(jié)構(gòu),字段也不區(qū)分指標(biāo)和特征。。。。。

ETL工具,Kettle和DataStage各自有什么優(yōu)缺點(diǎn),目前哪個(gè)更流行一些?

ETL工作的實(shí)質(zhì)是從各種數(shù)據(jù)源中提取數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換,最后通過(guò)數(shù)據(jù)倉(cāng)庫(kù)的維度建模,將數(shù)據(jù)加載并填充到表中。只有填寫(xiě)了這些維度/事實(shí)表,ETL工作才能完成。接下來(lái),分別闡述了提取、轉(zhuǎn)換和加載的三個(gè)步驟:數(shù)據(jù)倉(cāng)庫(kù)面向分析,操作數(shù)據(jù)庫(kù)面向應(yīng)用。顯然,并非所有用于支持業(yè)務(wù)系統(tǒng)的數(shù)據(jù)都是分析所必需的。因此,本階段主要根據(jù)數(shù)據(jù)倉(cāng)庫(kù)主題和主題字段確定從應(yīng)用數(shù)據(jù)庫(kù)中提取的編號(hào)。

在具體的開(kāi)發(fā)過(guò)程中,開(kāi)發(fā)人員必須經(jīng)常發(fā)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)建模后某些ETL步驟與表描述不匹配。這時(shí),需要重新檢查和設(shè)計(jì)需求,重新進(jìn)行ETL。正如本文在數(shù)據(jù)庫(kù)系列中提到的,任何涉及需求的更改都需要重新開(kāi)始并更新需求文檔。

轉(zhuǎn)換步驟主要是指轉(zhuǎn)換提取的數(shù)據(jù)結(jié)構(gòu)以滿足目標(biāo)數(shù)據(jù)倉(cāng)庫(kù)模型的過(guò)程。此外,轉(zhuǎn)換過(guò)程還對(duì)數(shù)據(jù)質(zhì)量負(fù)責(zé),這也稱為數(shù)據(jù)清洗。這里可以參考數(shù)據(jù)質(zhì)量的內(nèi)容。

在加載過(guò)程中,為確保數(shù)據(jù)質(zhì)量而提取和轉(zhuǎn)換的數(shù)據(jù)將加載到目標(biāo)數(shù)據(jù)倉(cāng)庫(kù)中。加載可以分為兩種類型:首次加載和刷新加載。其中,首次加載會(huì)涉及大量數(shù)據(jù),而刷新加載是一種微批量加載。

我們可以說(shuō),隨著各種分布式和云計(jì)算工具的興起,ETL實(shí)際上已經(jīng)成為ELT。也就是說(shuō),業(yè)務(wù)系統(tǒng)本身不會(huì)做轉(zhuǎn)換工作,而是將數(shù)據(jù)導(dǎo)入到分布式平臺(tái)進(jìn)行簡(jiǎn)單清洗后,讓平臺(tái)進(jìn)行清洗和轉(zhuǎn)換工作。這樣可以充分利用平臺(tái)的分布式特點(diǎn),使業(yè)務(wù)系統(tǒng)更加專注于業(yè)務(wù)本身。

數(shù)據(jù)倉(cāng)庫(kù)ETL到底是什么?

ETL只是數(shù)據(jù)處理的一個(gè)小分支。我以前做過(guò)數(shù)據(jù)中心產(chǎn)品。ETL工具使用開(kāi)源的kettle,這很容易使用。

但是僅僅用ETL來(lái)進(jìn)行數(shù)據(jù)收集和清理并不能使整個(gè)數(shù)據(jù)中心產(chǎn)品成為可能。如何提高海量數(shù)據(jù)處理的效率

如何審核數(shù)據(jù)的一致性,如何在多個(gè)屏幕上顯示和交互都有很大的知識(shí)。

如果我們只是做ETL,它有點(diǎn)太窄,而且未來(lái)的就業(yè)選擇不夠廣泛。

建議盡量選擇更廣泛的數(shù)據(jù)處理工作,如大數(shù)據(jù)處理技術(shù)。

個(gè)人建議,歡迎討論