hive表遷移到另一張表 mysql表數據量太大，達到了1億多條數據，除了分庫分表之外，還有沒有其他的解決方式？

2021-03-12

2038

mysql表數據量太大，達到了1億多條數據，除了分庫分表之外，還有沒有其他的解決方式？在正常配置下，MySQL只能承載2000萬數據（同時讀寫，表中有大文本字段，單服務器）?，F在已經超過1億，而且還在

mysql表數據量太大，達到了1億多條數據，除了分庫分表之外，還有沒有其他的解決方式？

在正常配置下，MySQL只能承載2000萬數據（同時讀寫，表中有大文本字段，單服務器）?，F在已經超過1億，而且還在增加，建議按以下方式處理：

1子表。它可以按時間或一定的規(guī)則進行拆分，以便盡可能地查詢子表中的數據庫。這是最有效的方法。特別是寫，放入一個新表，并定期同步。如果記錄不斷更新，最好將寫入的數據放在redis中，并定期同步表3的大文本字段，將它們分隔成一個新的獨立表。對于較大的文本字段，可以使用NoSQL數據庫

4優(yōu)化體系結構，或者優(yōu)化SQL查詢，避免聯合表查詢，盡量不要使用count（*）、in、recursion等性能消耗語句

5使用內存緩存，或者在前端讀取時增加緩存數據庫。重復讀取時，直接從緩存中讀取。

以上是一種低成本的管理方法，基本上幾個服務器就可以做到，但是管理起來有點麻煩。

當然，如果總體數據量特別大，并且您不關心投資成本，請使用群集或tidb

謝謝！筆者剛剛簽了一份大數據挖掘工程師的合同，到了研究生階段才轉向大數據方向。目前大數據火爆，很多學生都想上交，但自學的學習路線因人而異。

以我自己為例，作者出生于Python數據分析領域，具有通用編程能力。因此，在此基礎上，他首先學習了Linux的基本操作命令，安裝了Ubuntu的雙系統，并進一步安裝了Hadoop和spark組件。在此基礎上，他利用pypark操作spark大數據框架進行學習。您可以推薦以下書籍：

pypark實用指南

，由淺入深，非常好用。