gbdt算法通俗理解 使用sklearn做文本分類,速度比較慢,有什么優(yōu)化方法?
使用sklearn做文本分類,速度比較慢,有什么優(yōu)化方法?首先,我想你可以打印出每一步的時間,看看哪一步需要更多的時間,并嘗試找到優(yōu)化方法。讓我先談談我想到的幾點。在sklearn的一些分類方法中,您
使用sklearn做文本分類,速度比較慢,有什么優(yōu)化方法?
首先,我想你可以打印出每一步的時間,看看哪一步需要更多的時間,并嘗試找到優(yōu)化方法。讓我先談談我想到的幾點。
在sklearn的一些分類方法中,您還可以嘗試在其參數(shù)中使用multi-process選項。
如果您的培訓數(shù)據(jù)很大,請先嘗試LSA、LDA和其他模型來降低維度。這兩種方法在sklearn中也可用。
此外,在countvectorizer中,設置mintf和maxtf參數(shù)以避免過多的字。雖然這可能對速度影響很小,但可能會對結(jié)果產(chǎn)生影響。
如果你在處理中文文本,必須有一個好的停止詞和字典。
暫時就這么多了。
找個咨詢關于機器學習算法分類的幾個問題?
小數(shù)據(jù)集不適合神經(jīng)網(wǎng)絡,因為數(shù)據(jù)集太小,很難訓練出理想的結(jié)果。對于小數(shù)據(jù)集,可以嘗試使用傳統(tǒng)的機器學習算法,如支持向量機、決策樹等。只要數(shù)據(jù)集的特征差異明顯,就很容易學習到合適的模型。