hive表遷移到另一張表 mysql表數據量太大,達到了1億多條數據,除了分庫分表之外,還有沒有其他的解決方式?
mysql表數據量太大,達到了1億多條數據,除了分庫分表之外,還有沒有其他的解決方式?在正常配置下,MySQL只能承載2000萬數據(同時讀寫,表中有大文本字段,單服務器)?,F在已經超過1億,而且還在
mysql表數據量太大,達到了1億多條數據,除了分庫分表之外,還有沒有其他的解決方式?
在正常配置下,MySQL只能承載2000萬數據(同時讀寫,表中有大文本字段,單服務器)?,F在已經超過1億,而且還在增加,建議按以下方式處理:
1子表。它可以按時間或一定的規(guī)則進行拆分,以便盡可能地查詢子表中的數據庫。這是最有效的方法。特別是寫,放入一個新表,并定期同步。如果記錄不斷更新,最好將寫入的數據放在redis中,并定期同步表3的大文本字段,將它們分隔成一個新的獨立表。對于較大的文本字段,可以使用NoSQL數據庫
4優(yōu)化體系結構,或者優(yōu)化SQL查詢,避免聯合表查詢,盡量不要使用count(*)、in、recursion等性能消耗語句
5使用內存緩存,或者在前端讀取時增加緩存數據庫。重復讀取時,直接從緩存中讀取。
以上是一種低成本的管理方法,基本上幾個服務器就可以做到,但是管理起來有點麻煩。
當然,如果總體數據量特別大,并且您不關心投資成本,請使用群集或tidb
謝謝!筆者剛剛簽了一份大數據挖掘工程師的合同,到了研究生階段才轉向大數據方向。目前大數據火爆,很多學生都想上交,但自學的學習路線因人而異。
以我自己為例,作者出生于Python數據分析領域,具有通用編程能力。因此,在此基礎上,他首先學習了Linux的基本操作命令,安裝了Ubuntu的雙系統,并進一步安裝了Hadoop和spark組件。在此基礎上,他利用pypark操作spark大數據框架進行學習。您可以推薦以下書籍:
pypark實用指南
,由淺入深,非常好用。