Trong năm qua, chúng ta đã chứng kiến những trải nghiệm AI mang tính tổng hợp như ChatGPT và Microsoft Copilot đã gây bão trên toàn thế giới. Những trải nghiệm này có khả năng thay đổi cách thức làm việc của tất cả chúng ta, cho phép số lượng lớn nhân viên giao nhiệm vụ cho AI và giảm bớt khối lượng công việc của họ.
Khi bước vào một tương lai được xây dựng trên AI, bạn cần một kho dữ liệu có khả năng thúc đẩy sự đổi mới AI trong toàn tổ chức của mình.
Vì thế mà Microsoft Fabric ra đời, để cá nhân chúng ta hiểu rõ hơn về nền tảng này cũng như tính ứng dụng trong doanh nghiệp, hãy cùng DATAPOT tìm hiểu nhé.
Mục lục
Hiểu nhanh về Microsoft Fabric
- Nguyên nhân: Microsoft Fabric được phát triển dựa trên nhu cầu các doanh nghiệp cần có nền tảng thống nhất để quản lý và phân tích dữ liệu, từ dữ liệu đến khoa học dữ liệu, phân tích dữ liệu theo thời gian thực cho đến dự đoán cho dữ liệu.
- Giải pháp: Microsoft Fabric được ra đời, xây dựng trên nền tảng Phần mềm dưới dạng dịch vụ (SaaS) vào ngày 23 tháng 5 năm 2023.
- Mục tiêu: được thiết kế để có khả năng mở rộng, linh hoạt và để có thể phát triển cùng với doanh nghiệp, tùy chỉnh đáp ứng nhu cầu cụ thể của từng doanh nghiệp.
Có thể thấy, Fabric kết hợp những gì tốt nhất của Microsoft Power BI, Azure Synapse Analytics và Azure Data Factory để tạo ra một nền tảng phần mềm thống nhất, duy nhất dưới dạng dịch vụ (SaaS) với bảy workloads cốt lõi—mỗi workloads được xây dựng có mục đích cho các cá nhân cụ thể và các nhiệm vụ cụ thể.
Bằng cách tạo một nền tảng duy nhất với các công cụ dành cho mọi chuyên gia dữ liệu trong một kiến trúc và trải nghiệm thống nhất, Fabric có thể giảm chi phí và công sức khi tích hợp các dịch vụ phân tích và giúp đơn giản hóa kho dữ liệu của bạn.
Các thành phần cốt lõi của Microsoft Fabric
Kiến trúc Microsoft Fabric có bảy workloads chạy trên OneLake — lớp lưu trữ (storage layer) có thể lấy dữ liệu từ các nền tảng của Microsoft, Amazon S3 và cuối cùng là từ Google Cloud Platform.

Những workloads này bao gồm:
- Data Factory: cung cấp hơn 150 trình kết nối với các nguồn dữ liệu on-premises (các nguồn dữ liệu được lưu trữ và quản lý trên cơ sở hạ tầng máy chủ và lưu trữ trong nội bộ của một tổ chức hoặc doanh nghiệp) và trên cloud, bên cạnh đó Data Factory cung cấp khả năng kéo thả để chuyển đổi dữ liệu và sắp xếp data pipeline.
- Synapse Data Engineering: Một thành phần chính của Microsoft Fabric, chịu trách nhiệm xây dựng cơ sở hạ tầng sử dụng Synapse.
- Synapse Data Science: Cho phép những người thực hành khoa học dữ liệu làm việc liền mạch trên cùng một dữ liệu được quản lý và bảo mật, đồng thời cung cấp các công cụ để xây dựng và triển khai các mô hình học máy và AI.
- Synapse Data Warehousing: Cung cấp hiệu suất và quy mô hàng đầu trong ngành để hỗ trợ việc sử dụng dữ liệu.
- Synapse Real-Time Analytics: Cung cấp khả năng phân tích theo thời gian thực cho doanh nghiệp.
- Power BI: Cung cấp khả năng tích hợp liền mạch với Power BI, cho phép doanh nghiệp tạo báo cáo và trực quan hóa tương tác
- Data Activator: Cung cấp trải nghiệm thống nhất để kích hoạt dữ liệu, cho phép doanh nghiệp kích hoạt dữ liệu của họ và cung cấp dữ liệu đó để sử dụng trong các ứng dụng khác
Bên cạnh đó, hai yếu tố không thể thiếu trong Microsoft Fabric:
- OneLake: hồ dữ liệu đa đám mây, SaaS. Nó đơn giản hóa việc quản lý hồ dữ liệu bằng cách cung cấp một hệ thống lưu trữ tập trung với một trung tâm dữ liệu trực quan, lập chỉ mục để khám phá và quản trị cũng như khả năng chia sẻ dữ liệu trên các đám mây thông qua ảo hóa và các phím tắt.
- Copilot: một tính năng được hỗ trợ bởi AI trong Microsoft Fabric, hỗ trợ người dùng thực hiện nhiều tác vụ khác nhau liên quan đến dữ liệu như xây dựng đường dẫn dữ liệu, tạo mã và tạo mô hình học máy. Bằng cách tận dụng ngôn ngữ đàm thoại, Copilot hợp lý hóa quá trình phát triển và nâng cao năng suất

Tổng quan lại, Fabric đã cho thấy giao diện và mọi thứ đều có nút bấm sẵn, người dùng sẽ không cần phải tự code thêm. Từ đó đáp ứng mục tiêu low-code, dễ dàng xây dựng warehouse thuận tiện cho mọi người sử dụng.
Đơn cử việc tự động tạo dataset cho một data warehouse: Với data warehouse tạo ra có 3 bảng, thì nền tảng tự động xuất 3 bảng đó vào dataset mà không cần tự tạo.
Ưu điểm của Microsoft Fabric
- Onelake: Với hồ dữ liệu OneLake, các nhóm của bạn có thể kết nối với dữ liệu từ mọi nơi và tất cả đều hoạt động từ cùng một bản sao trên các công cụ.
- Fabric là các định dạng dữ liệu mở và lake-centric trên các dịch vụ phân tích: Một nền tảng duy nhất, ưu tiên lake để thống nhất dữ liệu.
- Copilot trong Fabric (Advance AI): Trong mọi trải nghiệm dữ liệu, người dùng có thể sử dụng ngôn ngữ đàm thoại để tạo luồng dữ liệu và đường dẫn dữ liệu, tạo mã và toàn bộ chức năng, xây dựng mô hình học máy hoặc trực quan hóa kết quả.
- Giảm chi phí: Việc mua và quản lý các tài nguyên phân tích khác nhau đã được đơn giản hóa trong Fabric cho phép bạn quản lý và giảm chi phí.
- Cải thiện tính bảo mật và quản trị: Fabric bao gồm khả năng tuân thủ và quản trị mạnh mẽ để đáp ứng các yêu cầu pháp lý và tiêu chuẩn ngành. Thật dễ dàng để quản lý tính bảo mật của tất cả các tài nguyên của bạn.
- Hỗ trợ đa đám mây: Fabric hỗ trợ cách tiếp cận đa đám mây và cung cấp hỗ trợ tích hợp cho dữ liệu từ Amazon S3 và Google Cloud Platform. Nền tảng nhấn mạnh các định dạng dữ liệu mở, đặc biệt là định dạng Apache Parquet, để lưu trữ và truy xuất dữ liệu.
Cách sử dụng Microsoft Fabric
Dưới đây là hướng dẫn từng bước để giúp bạn bắt đầu dùng thử Microsoft Fabric miễn phí trong 60 ngày:
Bước 1: Tạo tài khoản để thiết lập Fabric.
Bước 2: Chọn một trải nghiệm — Power BI, Data Factory, Synapse Data Engineering, Synapse Data Science, Synapse Data Warehouse hoặc Synapse Real-Time Analytics.
Bước 3: Chọn Bắt đầu dùng thử (Start Trial).

Microsoft Fabric trong thực tế: Khoa học dữ liệu và phân tích thời gian thực
Ứng dụng #1. Kho dữ liệu (Data Warehousing)
Sử dụng với kho dữ liệu liên quan đến việc lưu trữ, quản lý và phân tích khối lượng lớn dữ liệu có cấu trúc để xuất ra những insights giá trị.
Microsoft Fabric tăng cường chức năng này bằng kho dữ liệu được hỗ trợ bởi Synapse. Synapse, một phần của gia đình Microsoft Azure, là dịch vụ phân tích cho phép doanh nghiệp chạy các truy vấn phức tạp trên dữ liệu của họ.
Với sự tích hợp Synapse của Fabric, doanh nghiệp có thể quản lý và phân tích dữ liệu kho của mình.

Ứng dụng #2. Tích hợp dữ liệu (Data Integration)
Tích hợp dữ liệu là sự hợp nhất dữ liệu từ các nguồn khác nhau để trích xuất thông tin có ý nghĩa và có giá trị, từ đó mang lại cái nhìn toàn diện về dữ liệu của công ty.
Data Factory của Microsoft Fabric cho phép tích hợp dữ liệu bằng cách kết hợp các khả năng của Power Query và Azure Data Factory.
Power Query giúp dọn dẹp và sắp xếp dữ liệu trước khi phân tích, trong khi Azure Data Factory đóng vai trò là người kiểm soát lưu lượng — quản lý và điều hướng luồng dữ liệu từ nhiều nguồn khác nhau đến đích được chỉ định.
Như vậy, người thực hiện dữ liệu có thể khám phá nhiều nguồn dữ liệu khác nhau và sử dụng dữ liệu đó để đưa ra quyết định.
Data Factory cũng cung cấp các dịch vụ dựa trên đám mây có thể mở rộng để di chuyển và chuyển đổi dữ liệu nhằm giải quyết các tình huống của data factory và ETL (Extract, Transform, Load)

Ứng dụng #3. Đào tạo mô hình và trực quan hóa các dự đoán bằng một nền tảng
Dưới đây là cách nhà khoa học dữ liệu có thể sử dụng sổ ghi chép Microsoft Fabric để đào tạo mô hình và sau đó trực quan hóa kết quả bằng Power BI:
- Thiết lập sổ ghi chép Microsoft Fabric. Tùy chọn trải nghiệm Synapse Data Science.
- Nhập dữ liệu vào Lakehouse bằng Apache Spark.
- Làm sạch và chuyển đổi dữ liệu bằng Apache Spark.
- Tạo thử nghiệm và chạy để huấn luyện mô hình học máy.
- Đăng ký và theo dõi các mô hình được đào tạo bằng MLflow và Microsoft Fabric UI.
- Chạy tính điểm theo tỷ lệ và lưu dự đoán cũng như kết quả suy luận vào lakehouse.
- Trực quan hóa các dự đoán trong Power BI.

Ứng dụng #4: Tận dụng phân tích thời gian thực để diễn giải dữ liệu phát trực tuyến
Dưới đây là cách nhà phân tích dữ liệu có thể sử dụng Microsoft Fabric để quan sát dữ liệu được đưa vào từ các nguồn dữ liệu truyền trực tuyến:
- Tạo Cơ sở dữ liệu KQL (Ngôn ngữ truy vấn Kusto). Các tùy chọn trải nghiệm Real-Time Analytics.
- Tạo luồng sự kiện (Eventstream).
- Truyền dữ liệu từ Eventstream đến Cơ sở dữ liệu KQL.
- Kiểm tra dữ liệu của bạn bằng các truy vấn mẫu.
- Lưu truy vấn dưới dạng Bộ truy vấn KQL.
- Tạo báo cáo Power BI.

Tổng kết
Microsoft Fabric là một nền tảng thay đổi cuộc chơi, tập hợp nhiều công cụ và dịch vụ Azure dưới một hệ thống thống nhất.
Các tính năng cốt lõi của nó, chẳng hạn như OneLake và các khối lượng công việc khác nhau, hỗ trợ các doanh nghiệp và chuyên gia dữ liệu đưa ra các quyết định thông minh hơn, dựa trên dữ liệu. Cho dù bạn là nhà khoa học dữ liệu dày dạn kinh nghiệm hay nhà phân tích kinh doanh đang tìm cách khai thác sức mạnh của dữ liệu, Microsoft Fabric đều cung cấp giải pháp toàn diện giúp đơn giản hóa các tác vụ dữ liệu phức tạp.
Một trong những tích hợp quan trọng trong Microsoft Fabric là với Power BI, dịch vụ phân tích hàng đầu trong ngành của Microsoft. Nếu bạn muốn tìm hiểu sâu hơn về phân tích và trực quan hóa dữ liệu, hãy xem phần kỹ năng Cơ bản về Power BI của chúng tôi. Phần này sẽ trang bị cho bạn những kỹ năng cần thiết để biến dữ liệu thô thành thông tin chi tiết có ý nghĩa, một kỹ năng bổ sung hoàn hảo cho các khả năng của Microsoft Fabric.
