Đến với lập trình web thì chắc hẳn ai trong số chúng ta cũng đã từng làm việc với database. Đặc biệt là hệ quản trị cơ sở dữ liệu quan hệ như MySQL, PostgreSQL …
Với trường hợp nào thì nên dùng MySQL, trường hợp nào không nên dùng MySQL? Khi vận hành MySQL thì nên chú ý những thứ gì? …
Hôm nay mình chia sẻ với mọi người kinh nghiệm vận hành MySQL mà mình đã học được qua nhiều năm.
Để dễ hiểu thì mình lấy ra 1 ví dụ về đã dùng MySQL vào trong hệ thống chat với dữ liệu message cực lớn (Ví dụ như Facebook Messenger chẳng hạn)
Khi đó bảng để lưu message mình đoán sẽ kiểu như này:
Đương nhiên không chỉ có mỗi bảng này mà còn rất nhiều bảng khác nữa. Ví dụ như bảng usersđể lưu thông tin người dùng.
> Bảng attachments để quản lý thông tin file được đính kèm khi gửi.
> Bảng tags để lưu thông tin tag của người dùng…
Ngoài ra không chỉ có tính năng chat mà có khi chúng ta sẽ cần có cả tính năng phân tích hành vi của người dùng nữa. Nên lúc đó có thể chúng ta sẽ lưu access_log của người dùng vào MySQL (hoặc có thể lưu ở 1 số bộ phận storage bên ngoài như S3 chẳng hạn).
1 dãy các luồng xử lí như thế thì quả thực khi release xong, với số lượng người dùng ít thì tốc độ query sẽ rất nhanh. Và ít ai để ý đến vấn đề scaling sau này.
Vậy vấn đề ở đây là gì?
Giai đoạn đầu khi release, lượng dữ liệu sử dụng trên MySQL còn nhỏ, memory cấp phát cho cache có nhỏ đi chăng nữa thì cũng có thể đẩy dữ liệu lên đó được.
Thế nhưng sau 1 thời gian vận hành, lượng dữ liệu tăng khủng khiếp, số lượng access của người dùng cũng tăng lên. Dẫn đến tỉ lệ cache hit trên MySQL sẽ giảm xuống (vì không dủ memory để cache). Kết quả là phải đọc dữ liệu từ disk thay vì từ cache. Và làm cho tốc độ giảm xuống. (Đọc data trên memory nhanh gấp 200 lần HDD, và gấp 10 lần SSD).
Để giải quyết vấn đề này trong thời gian ngắn thì có 2 cách:
Cho dù thực hiện cách nào đi chăng nữa thì cost vận hành trên MySQL sẽ càng ngày càng tăng lên.
Đến 1 lúc nào đó cost này sẽ tăng đến 1 mức độ mà có khi tiền doanh thu hàng tháng không trả nổi tiền nuôi server.
Với tình trạng như này thì các bạn sẽ suy nghĩ gì?
Khi MySQL đang được chạy dưới cơ chế master-slave (dữ liệu luôn luôn được đồng bộ từ master sang slave). Chẳng may vì 1 lí do nào đó mà con master bị down. Khi đó MySQL sẽ thực hiện failover (chuyển con master bị down sang 1 con master dự phòng khác). Quá trình này sẽ mất vài phút (với trường hợp RDS của aws).
Với business yêu cầu khắt khe về mặt downtime (ví dụ như game chẳng hạn) thì có lẽ với case mất vài phút để thực hiện failover thì chắc khó có thể chấp nhận được.
Vậy thì ta nên giải quyết vấn đề đó như thế nào?
Để giải quyết được vấn đề này thì có lẽ ta nên chọn loại database khác không phải MySQL. Ví dụ như NoSQL chẳng hạn.
Nhưng khi dữ liệu của hệ thống đã to rồi thì việc chọn 1 database khác không phải là sự lựa chọn đúng đắn lắm vì có thể sẽ phải sửa code khá nhiều, thời gian migration từ database này sang database khác sẽ mất khá nhiều thời gian (có thể mấy ngày đến 1 tuần).
Do đó ngay trong giai đoạn thiết kế thì việc suy nghĩ chọn database nào phù hợp là 1 điều vô cùng quan trọng, đặc biệt cần suy nghĩ xem tương lai dữ liệu sẽ lớn đến mức độ nào.
Với NoSQL thì có vô số loại, ví dụ như Cassandra, DynamoDB.
Cả 2 loại này tính scalable của nó cực lớn, các ông lớn như Facebook, Discord, Instagram hiện tại cũng đang dùng nó.
Mình xin kể 1 số tính năng chính của 2 thằng này:
Cassandra:
DynamoDB:
==> Tóm lại việc chọn database nào đi chăng nữa thì điều quan trọng nhất là nó không làm mất đi tính trải nghiệm của người dùng.
Quay lại bài toán về hệ thống chat như ở bên trên, nếu số lượng người dùng tăng lên mà để trải nghiệm người dùng không bị mất đi thì chúng ta cần thiết kế hệ thống có tính scalable. Đặc biệt với database thì ta có thể kết hợp dùng cả mysql lẫn nosql chẳng hạn. Quan trọng là cách mình sử dụng sao cho đúng.
Các bạn thấy thế nào? Cũng hình dung được thằng MySQL và thằng NoSQL nó khác nhau như thế nào chưa?
Dựa vào từng bài toán mà chúng ta nên nghiên cứu và đưa ra quyết định đúng đắn. Để về sau maintain sẽ đơn giản hơn.
Nói thì dễ nhưng quả thực chưa 1 hệ thống to nào trên thế giới mà thiết kế 1 phát chạy được cả đời cả. Hầu như hệ thống nào cũng có cải tiến về mặt hệ thống cả. Ví dụ như Chatwork lúc đầu code bằng PHP sau đó đã chuyển sang Scala để hiệu năng tốt hơn …
TMA via ARTCODING