數(shù)據(jù)倉(cāng)庫(kù)建模的三種模式 統(tǒng)計(jì)建模和機(jī)器學(xué)習(xí)建模,有什么區(qū)別?
統(tǒng)計(jì)建模和機(jī)器學(xué)習(xí)建模,有什么區(qū)別?對(duì)于傳統(tǒng)的數(shù)據(jù)建模方法,如統(tǒng)計(jì)分析、回歸分析、機(jī)器學(xué)習(xí)等,都比較注重未知數(shù)據(jù)的建模,對(duì)數(shù)據(jù)量有一定的要求。統(tǒng)計(jì)建模是指基于統(tǒng)計(jì)知識(shí)的建模。常用的統(tǒng)計(jì)知識(shí)包括參數(shù)估計(jì)
統(tǒng)計(jì)建模和機(jī)器學(xué)習(xí)建模,有什么區(qū)別?
對(duì)于傳統(tǒng)的數(shù)據(jù)建模方法,如統(tǒng)計(jì)分析、回歸分析、機(jī)器學(xué)習(xí)等,都比較注重未知數(shù)據(jù)的建模,對(duì)數(shù)據(jù)量有一定的要求。
統(tǒng)計(jì)建模是指基于統(tǒng)計(jì)知識(shí)的建模。常用的統(tǒng)計(jì)知識(shí)包括參數(shù)估計(jì)、假設(shè)檢驗(yàn)、方差分析、回歸分析、時(shí)間序列、聚類(lèi)分析、主成分分析和因子分析,如下圖所示。
機(jī)器學(xué)習(xí)建模是指利用機(jī)器學(xué)習(xí)算法進(jìn)行建模。常用的機(jī)器學(xué)習(xí)算法有:k近鄰算法、決策樹(shù)、邏輯回歸、SVM、隨機(jī)林、聚類(lèi)分析、關(guān)聯(lián)分析等,實(shí)現(xiàn)這些算法的語(yǔ)言有Python和r,具體如下圖所示。!不管是統(tǒng)計(jì)建模還是機(jī)器學(xué)習(xí)建模,我們都需要有一個(gè)好的數(shù)學(xué)基礎(chǔ),主要是微積分、線(xiàn)性代數(shù)和概率論。
就是這樣!歡迎關(guān)注[數(shù)據(jù)科學(xué)孫斌],分享數(shù)據(jù)科學(xué)相關(guān)知識(shí)
數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)建模的幾種思路?
說(shuō)到建模,我們不得不說(shuō)有兩個(gè)好人,一個(gè)是數(shù)據(jù)倉(cāng)庫(kù)之父——inmon,他提倡ER模型,另一個(gè)是Kimball,他提倡維度模型。事實(shí)上,這兩種建模方法各有優(yōu)勢(shì)。ER模型是一種實(shí)體關(guān)系模型,對(duì)建模者要求高,實(shí)現(xiàn)周期長(zhǎng)。施工完成后,數(shù)據(jù)之間的關(guān)系清晰,沒(méi)有冗余。它在保證數(shù)據(jù)的一致性和準(zhǔn)確性方面有著天然的優(yōu)勢(shì),但不能應(yīng)對(duì)后期的業(yè)務(wù)變化。維度模型將業(yè)務(wù)數(shù)據(jù)分為維度表和事實(shí)表。維度表主要用于存儲(chǔ)一些不隨業(yè)務(wù)發(fā)展而變化的公共數(shù)據(jù),如員工信息、合同信息等事實(shí)表。用于存儲(chǔ)維度表的一些鍵值和度量值,如員工ID、交易金額等。維度建模不需要建模者了解全局?jǐn)?shù)據(jù),只需要了解相關(guān)數(shù)據(jù),在面對(duì)業(yè)務(wù)變化時(shí)具有天然的優(yōu)勢(shì)。另外,還有Inman在ER模型上改進(jìn)的datavault模型,但是datavault不能簡(jiǎn)單地稱(chēng)為一個(gè)模型,它是一個(gè)整體的解決方案。
統(tǒng)計(jì)建模與數(shù)學(xué)建模的區(qū)別?
事實(shí)上,大多數(shù)統(tǒng)計(jì)建模都是為了分析數(shù)據(jù),統(tǒng)計(jì)知識(shí)也會(huì)用到。但是,數(shù)學(xué)建模的范圍很廣,遇到的問(wèn)題也不盡相同,解決的方法也不盡相同,統(tǒng)計(jì)知識(shí)可能不會(huì)用到,遇到的問(wèn)題也多種多樣。