kettle抽取數(shù)據(jù)實(shí)例 為什么建數(shù)據(jù)倉(cāng)庫(kù)需要使用ETL工具?
為什么建數(shù)據(jù)倉(cāng)庫(kù)需要使用ETL工具?數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)戰(zhàn)略集合,為各級(jí)決策過(guò)程提供各種數(shù)據(jù)支持。它是為分析報(bào)告和決策支持目的而創(chuàng)建的單個(gè)數(shù)據(jù)存儲(chǔ)。由于要獲取所有的數(shù)據(jù),必然涉及到多系統(tǒng)、多類(lèi)型數(shù)據(jù)庫(kù)的對(duì)接
為什么建數(shù)據(jù)倉(cāng)庫(kù)需要使用ETL工具?
數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)戰(zhàn)略集合,為各級(jí)決策過(guò)程提供各種數(shù)據(jù)支持。它是為分析報(bào)告和決策支持目的而創(chuàng)建的單個(gè)數(shù)據(jù)存儲(chǔ)。由于要獲取所有的數(shù)據(jù),必然涉及到多系統(tǒng)、多類(lèi)型數(shù)據(jù)庫(kù)的對(duì)接問(wèn)題,以及數(shù)據(jù)的提取和整理問(wèn)題。
此時(shí),ETL工具的功能體現(xiàn)在數(shù)據(jù)提取、轉(zhuǎn)換和加載的過(guò)程中,直至用于人們的分析。ETL是數(shù)據(jù)抽取、轉(zhuǎn)換和加載的過(guò)程。
在某些地方,可以先在轉(zhuǎn)換中選擇和加載ELT。對(duì)于日志倉(cāng)庫(kù),ETL首先要考慮業(yè)務(wù)需求,最后數(shù)據(jù)登陸模型要體現(xiàn)一定的主題。
一般來(lái)說(shuō),數(shù)據(jù)倉(cāng)庫(kù)就像一個(gè)大的池。水池的供水需要水泵和水管,ETL負(fù)責(zé)水泵和水管的功能。
ETL工具,Kettle和DataStage各自有什么優(yōu)缺點(diǎn),目前哪個(gè)更流行一些?
1. 首先,Datastage屬于商業(yè)軟件,而kettle是開(kāi)源軟件;源代碼軟件很受大眾歡迎,但執(zhí)行效率會(huì)比較慢!這需要以客戶為導(dǎo)向。
2. 在可操作性方面,DS和kettle都有GUI圖形界面,操作步驟相對(duì)簡(jiǎn)單易用;
3。從使用環(huán)境來(lái)看,一般來(lái)說(shuō),在大型傳統(tǒng)金融行業(yè),有一定數(shù)據(jù)管理規(guī)則的公司還是會(huì)選擇DS,效率高,大公司也有錢(qián)。
4. 另外,cattle是一個(gè)基于Java開(kāi)發(fā)的ETL工具,在使用過(guò)程中需要借助JVM。在數(shù)據(jù)提取速度和大數(shù)據(jù)處理能力方面,kettle遠(yuǎn)遠(yuǎn)不如DS
5。在穩(wěn)定性方面,DS有很大的優(yōu)勢(shì);
6釜的數(shù)據(jù)轉(zhuǎn)換過(guò)程比較靈活,可以手工編寫(xiě)SQL語(yǔ)句、java代碼、正則表達(dá)式等;DS當(dāng)然也支持SQL語(yǔ)句,兩者沒(méi)有明顯區(qū)別;
7。從數(shù)據(jù)來(lái)源來(lái)看,兩者沒(méi)有明顯區(qū)別