Data warehouse, Data lake và Microsoft Azure

Data warehouse, Data lake và Microsoft Azure

Ngày đăng: 15/11/2023

Trong thời đại kỹ thuật số hiện nay, các doanh nghiệp đang đối diện với lượng dữ liệu khổng lồ từ nhiều nguồn khác nhau. Để khai thác sức mạnh của lượng dữ liệu này, data warehouse đã xuất hiện như một giải pháp toàn diện. Trong bài viết này chúng ta cùng tìm hiểu về data warehouse và các dịch vụ từ Azure cho việc thu thập, lưu trữ, xử lý dữ liệu.  

So sánh Data warehouse VS Data lake 

Data lake (tạm dịch là “hồ” dữ liệu) là một kho dữ liệu trung tâm, lưu trữ cả dữ liệu có cấu trúc, bán cấu trúc và không có cấu trúc dưới định dạng gốc. Nó cho phép lưu trữ lượng dữ liệu khổng lồ, cung cấp tính linh hoạt cho việc khám phá và phân tích.

Ngược lại, data warehouse (hay kho dữ liệu) là một cơ sở dữ liệu có cấu trúc, quan hệ, tích hợp và tập trung dữ liệu từ nhiều nguồn để truy vấn và báo cáo một cách hiệu quả.  

So sánh Data warehouse VS Data lake 

Các dịch vụ liên quan Data warehouse mà Azure cung cấp 

Các dịch vụ Data warehouse mà Azure cung cấp 

Microsoft Azure cung cấp một loạt các dịch vụ được thiết kế đặc biệt cho kho dữ liệu hiện đại, cho phép tổ chức xây dựng giải pháp có khả năng mở rộng và tiết kiệm chi phí. Một số dịch vụ Azure quan trọng bao gồm:  

Azure Synapse Analytics

Trước đây được gọi là Azure SQL Data Warehouse, là một dịch vụ phân tích hoàn toàn quản lý và có khả năng mở rộng cao, tích hợp với cả nguồn dữ liệu có cấu trúc và không có cấu trúc.  

Azure Synapse Analytics

Azure Data Factory

Dịch vụ này cho phép thu thập dữ liệu từ nhiều nguồn, di chuyển dữ liệu và biến đổi nó thành kho dữ liệu.  

Azure Data Factory

Azure Databricks

Dịch vụ này cung cấp một nền tảng phân tích hợp tác dựa trên Apache Spark, cho phép xử lý dữ liệu, học máy và phân tích tiên tiến có khả năng mở rộng.

Azure Databricks

Nguồn ảnh: SQLShack.com 

Azure Analysis Services

Dịch vụ này cung cấp các mô hình phân tích nhanh, tương tác và có khả năng mở rộng cho thông tin kinh doanh và báo cáo.  

Azure Analysis Services

Mô hình data warehouse hiện đại sử dụng dịch vụ Azure 

Dưới đây mình có một mô hình miêu tả hành trình dữ liệu với các bước như: thu thập dữ liệu, ingest (nhập dữ liệu), prepare (chuẩn bị dữ liệu), transform & enrich (biến đổi & hoàn thiện dữ liệu), serve (dữ liệu sẵn sàng được sử dụng), store (lưu trữ) và visualize (trực quan hóa dữ liệu), theo mô hình data warehouse truyền thống sử dụng Azure. 

Mô hình data warehouse hiện đại sử dụng dịch vụ Azure 

Để phục vụ người dùng, Azure đã phát triển một dịch vụ gần như trọn gói chính là Azure Synapse Analytics, vừa có chức năng kết nối với nhiều nguồn dữ liệu, lưu trữ, xử lý, biến đổi, phân tích, có thể thay thế Azure Data Factory, Azure SQL Data warehouse ở mô hình truyền thống. 

Mô hình data warehouse hiện đại sử dụng dịch vụ Azure

Có thể thấy, Microsoft xây dựng hệ thống công cụ Azure sử dụng cho data warehouse rất mạnh mẽ. Kết hợp với công cụ phân tích & trực quan hóa dữ liệu “toàn năng” Power BI, các data analyst hay data engineer cũng khó có thể bỏ qua.

Học về Azure với khóa học chính thức từ Datapot và Microsoft

Trong khóa học Azure Data Fundamentals, tức khóa đầu tiên trong lộ trình Data Analytics Foundation của Datapot, học viên sẽ được giới thiệu về các nền tảng cơ sở dữ liệu Azure của Microsoft, ngoài ra còn được học về bản chất của dữ liệu cũng như cách chuẩn hóa, lưu trữ dữ liệu, các cơ sở dữ liệu và tổng quan về công việc trong ngành dữ liệu. Việc nắm chắc các kiến thức cơ bản về dữ liệu sẽ là nền tảng cho việc học về SQL, Power BI, Python cũng như việc phát triển sự nghiệp trong ngành dữ liệu sau này của học viên. 

Đặc biệt, sau khi hoàn thành khóa học này, bạn sẽ đủ điều kiện tham gia kỳ thi DP-900 lấy chứng chỉ Azure Data Fundamentals của Microsoft –  chứng chỉ được công nhận trên toàn thế giới. 

Tìm hiểu thêm về lộ trình dành riêng cho Data Analyst ngay tại đây:

Chia sẻ bài viết này

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *