Ôn thi PL300 - Kết nối nguồn dữ liệu trong Power BI

Ôn thi PL300 phần 1: kết nối nguồn dữ liệu trong Power BI 

Ngày đăng: 17/11/2024

Nội dung ôn tập PL300: Connect to data sources

Phần ôn tập kiến thức của chúng ta trong bài sẽ xoay quanh chủ đề kết nối nguồn dữ liệu trong Power BI, tập trung vào:

  • Các phương thức kết nối tới các nguồn khác nhau vào Power BI
  • Cách xử lý khi có thay đổi ở nguồn dữ liệu như vị trí, tên
  • Các chế độ lưu trữ dữ liệu (storage modes) và ứng dụng của chúng cách xử lý
  • Cách xử lý các vấn đề về hiệu suất đối với nguồn dữ liệu và cách khắc phục những lỗi thường gặp trong quá trình này.

Tầm quan trọng

Kết nối với nguồn dữ liệu (connect to data sources) là một trong những kỹ năng quan trọng của một Data Analyst khi làm việc với Power BI. Nó có thể được xét ở 4 khía cạnh sau:

  1. Nền tảng cho xây dựng báo cáo và phân tích: việc tải đúng dữ liệu mình cần và tải đúng cách là bước đầu tiên để có một nguồn dữ liệu đang tin cậy, như vậy kết quả báo cáo mới có ý nghĩa.
  2. Tối ưu hiệu suất: hiểu về nguồn dữ liệu cần kết nối sẽ giúp có những giải pháp tôi ưu như giảm thời gian xử lý, tiết kiệm tài nguyên và tạo trải nghiệm mượt mà cho người dùng cuối.
  3. Khả năng mở rộng: khi dữ liệu gia tăng, một phương thức kết nối dữ liệu hợp lý sẽ giúp cho mô hình dữ liệu dễ dàng mở rộng khi cần và hạn chế được các gián đoạn có thể xẩy ra hoặc ảnh hưởng đến hiệu suất tải dữ liệu.
  4. Bảo mật dữ liệu: Kiểm soát được quá trình tải dữ liệu xuống từ nguồn có thể giúp đưa ra các giải pháp bảo vệ các thông tin nhật cảm và tuân thủ các tiêu chuẩn bảo mật dữ liệu.

Lý thuyết tổng quan

Các nguồn dữ liệu phổ biến (Common Sources):

Power BI hỗ trợ nhiều loại connectors để kết nối tới nhiều nguồn dữ liệu khác nhau, từ các tệp đơn giản đến các dịch vụ trực tuyến phức tạp. Để dễ hính dùng hơn, chúng ta có thể phân loại chúng như sau:

  • File:
    • Excel Workbook
    • Text/CSV
    • XML
    • JSON
    • Folder
    • PDF
    • Parquet
    • SharePoint folder
  • Database
    • SQL Server database
    • Access database
    • Oracle database
    • MySQL database
    • PostgreSQL database
    • Sybase database
    • Teradata database
    • MongoDB Atlas SQL
  • Microsoft Fabric
    • Power BI semantic models
    • Dataflows
    • Datamarts (preview)
    • Warehouses
    • Lakehouses
    • KQL Databases
  • Power Platform
    • Power BI dataflows (Legacy)
    • Common Data Service (Legacy)
    • Dataverse
    • Dataflows
  • Azure
    • Azure SQL Database
    • Azure Synapse Analytics SQL
    • Azure Analysis Services database
    • Azure Database for PostgreSQL
  • Online Services
    • Salesforce Objects
    • Salesforce Reports
    • Google Analytics
    • Adobe Analytics
  • Other
    • Web
    • SharePoint list
    • OData Feed

Tuy vậy, khi tổng kết lại, thực tế chúng sẽ có 3 nhóm connector đối với Power BI đó là:

Chi tiết về danh sách các data sources được hỗ trợ: Data sources in Power BI Desktop – Power BI | Microsoft Learn

Kết nối nguồn dữ liệu trong Power BI

Các chế lưu trữ dữ liệu (storage mode) trong Power BI

Thuật ngữ “storage mode” hay chế độ lưu trữ trong Power BI đề cập đến cách các bảng được lưu trữ và cách mà các truy vấn được gửi đến nguồn dữ liệu đã được kết nối. Điều quan trọng là cần hiểu được các chế độ lữu trữ hoạt động khác nhau như nào và chúng được sử dụng trong tình huống cụ thể nào.

Các chế độ lưu trữ dữ liệu trong Power BI gồm có

  • Import: Power BI sẽ tải dữ liệu xuống và lưu một bản copy trong bộ nhớ, bản copy này sẽ được làm mới mỗi khi refresh dữ liệu
  • DirectQuery: Power BI sẽ kết nối tới nguồn dữ liệu và truy vấn dữ liệu theo thời gian thực và sẽ không lưu dữ liệu trong bộ nhớ Power BI
  • LiveConnection: chỉ hỗ trợ với một số nguồn SQL Server Analysis Services, Power BI sẽ truy cập trực tiếp tới nguồn dữ liệu và không cần phải chờ làm mới dữ liệu
  • Dual: sử dụng chế độ này khi mô hình dữ liệu gồm các bảng nhỏ chỉ cần chế độ Import và một số bảng lớn lại cần đến chế độ DirectQuery do cần dữ liệu sát với thời gian thực.
Céc phL?dng thü'c két n6i
LiveConnection
Dänh cho giåi phäp doanh
nghiép
Khöng Ictu trü' dü' lieu trong bö
nhdtrong
• Bäo cäo däy dü
Khöng bién döi dCY lieu
Khöng mö hinh hÖa dCY lieu
Hiéu suät cao
Dü' lieu dogc ILtu tro tai nguön
Truy van duoc gdFi dén nguön
Khöng cän läm möi dü' lieu
DirectQuery
Bäo cäo däy dd
Khöng luu tro dü' liéu trong
nh6 trong
Khöng bién döi lieu
Mö hinh hÖa liéu han ché
Hiéu suät thäp hon
bö
Import
Bäo cäo däy dd
Luu trCY lieu trong bö nhö trong
Bién döi liéu toän dién
Mö hinh höa dü liéu hoän chinh
Hiéu suät cao
Dü liéu duoc Iou trtY tai bö nhd Power
Truy v4n khöng duec gdYi dén ngudn
dc-r liéu
can läm möi dtp lieu thudng xuyén
CO hö trq Q&A vä Quick Insights
Dual
• Két hop giLTa phtrcjng thffc
DQ & Import
• lieu kh6i IL-rqng Idn
Khöng hö trq Analysis
Services
DC? lieu duoc luu trCY tai nguön
Truy van dogc gdYi dén nguön
dü liéu
Khöng cän läm möi lieu
SQL.
Databases
e ee
Model
more Data
Connectors
Visuals
SQL
Data bases
60• more Data
Analysis Services
SQL
Databases
(Import)
Power Dataset
Model
111.
Visuals
e ee
Model
Visuals
Data
SQL
Databases
(DirectQuery)
111.
Visuals
Model

Cách thức thay đổi nguồn dữ liệu

Khi nguồn dữ liệu được di chuyển hoặc thay đổi, chúng ta sẽ cần cập nhật lại settings của nó trong Power BI để có thể tiếp tục duy trì kết nối. Dưới đây là một số cách thực hiện:

  • Thay đổi nguồn dữ liệu bằng Data Source Settings:
  • Truy cập vào Home > Transform Data > Data Source Settings trong Power BI Desktop.
  • Chọn nguồn dữ liệu cần thay đổi và nhấn Change Source để cập nhật đường dẫn mới hoặc thông tin kết nối.
  • Thay đổi nguồn dữ liệu bằng Parameter (Tham số):
  • Tạo Parameter để lưu trữ đường dẫn hoặc thông tin kết nối. Thay vì chỉ định trực tiếp đường dẫn trong nguồn dữ liệu, sử dụng Parameter này. Khi cần thay đổi, chỉ việc cập nhật giá trị của Parameter, và tất cả các kết nối sẽ được tự động cập nhật theo.
  • Thay đổi nguồn dữ liệu sử dụng Advanced Editor:
  • Mở Advanced Editor trong Power Query Editor và chỉnh sửa trực tiếp M Code để thay đổi đường dẫn hoặc thông tin kết nối. Cách này đòi hỏi hiểu biết về M Code nhưng mang lại sự linh hoạt cao.

Xử lý các vấn đề hiệu suất khi load data

Khi load data vào Power BI, vấn đề hiệu suất có thể xảy ra, đặc biệt với dữ liệu lớn. Để giải quyết, có thể:

  • Sử dụng Query Folding: Tối ưu hóa truy vấn bằng cách đẩy các phép tính xuống nguồn dữ liệu, giúp giảm khối lượng dữ liệu cần truyền về Power BI. Kiểm tra xem Query Folding có hoạt động hay không bằng cách nhấp chuột phải vào các bước trong Power Query Editor.
  • Sử dụng Query Diagnostic: Công cụ này giúp xác định các vấn đề ảnh hưởng đến hiệu suất khi nạp dữ liệu. Bằng cách sử dụng Query Diagnostic, có thể nhận ra phần truy vấn nào tốn nhiều thời gian và tối ưu chúng.

Tìm hiểu thêm về Query Diagnostics trong Power BI: Query diagnostics – Power Query | Microsoft Learn

Xử lý các lỗi thường gặp khi load data

Trong quá trình load data, có thể gặp phải một số lỗi phổ biến như:

  • Data source timeout: Kết nối với nguồn dữ liệu quá lâu. Để khắc phục, hãy tăng thời gian chờ trong cài đặt hoặc kiểm tra lại các settings với nguồn dữ liệu, và cuối cùng nếu không được chúng ta sẽ cần kiểm tra lại chính nguồn dữ liệu.
  • Could not find data table: Lỗi xảy ra khi bảng dữ liệu tham chiếu bị di chuyển hoặc xóa. Kiểm tra lại kết nối và tên bảng trong nguồn dữ liệu.
  • Could not find files: Khi tệp nguồn dữ liệu bị xóa hoặc di chuyển, hãy cập nhật lại đường dẫn mới trong Power BI.
  • Data type error: Xảy ra khi dữ liệu có kiểu không phù hợp, ví dụ như nhập chuỗi ký tự vào cột số. Đảm bảo rằng dữ liệu đã được định dạng đúng trước khi nạp vào Power BI.

Các nhóm câu hỏi theo chủ đề nguồn dữ liệu

Các nguồn dữ liệu phổ biến

Question 1: Which of the following sources can Power BI connect to?

A. SQL Database

B. Google Analytics

C. R scripts

D. All of the above

1. Đáp án đúng cho câu hỏi này là:

  • D. All of the above

2. Giải thích:

Power BI có khả năng kết nối với nhiều nguồn dữ liệu khác nhau, bao gồm:

  • A. SQL Database: Power BI có thể kết nối trực tiếp với SQL Server, Azure SQL Database, và các loại cơ sở dữ liệu SQL khác.
  • B. Google Analytics: Power BI có một kết nối tích hợp cho phép kết nối trực tiếp với Google Analytics để truy xuất dữ liệu từ các báo cáo và chỉ số của Google Analytics.
  • C. R scripts: Power BI hỗ trợ R scripts và cho phép nhập và chạy các đoạn mã R để chuyển đổi và phân tích dữ liệu trực tiếp bên trong Power BI.

Power BI có khả năng kết nối với tất cả các nguồn dữ liệu nêu trên, do đó, đáp án đúng là D. All of the above.

Tài liệu tham khảo: https://learn.microsoft.com/en-us/power-bi/connect-data/desktop-data-sources

Question 2: Which query language do you use to extract data from Microsoft SQL Server?

A. DAX

B. T-SQL

C. MDX

1. Đáp án đúng cho câu hỏi này là:

  • B. T-SQL

2. Giải thích:

  • T-SQL (Transact-SQL) là ngôn ngữ truy vấn được sử dụng để truy xuất dữ liệu từ Microsoft SQL Server. Nó mở rộng SQL tiêu chuẩn với các tính năng như biến, vòng lặp, thủ tục, hàm, và các câu lệnh điều khiển.

Tại sao các lựa chọn khác không đúng?

  • A. DAX (Data Analysis Expressions):
    • DAX được sử dụng trong Power BI, Analysis Services, và Excel để tạo các phép tính, đo lường và cột tính toán trên mô hình dữ liệu, nhưng không phải để truy xuất dữ liệu từ SQL Server.
  • C. MDX (Multidimensional Expressions):
    • MDX là ngôn ngữ truy vấn được sử dụng chủ yếu để truy xuất dữ liệu từ các khối OLAP (Online Analytical Processing), như SQL Server Analysis Services (SSAS) trong chế độ đa chiều (multidimensional), chứ không dùng cho SQL Server thông thường.

Để truy xuất dữ liệu từ Microsoft SQL Server, sẽ sử dụng T-SQL.

Tài liệu tham khảo: https://learn.microsoft.com/en-us/sql/t-sql/language-elements/language-elements-transact-sql?view=sql-server-ver16

Question 3: Which of the following sources contains sites, document libraries, and folders?

A. SharePoint Online

B. Microsoft Dataverse

C. Power BI Libraries

D. Filing Cabinets

1. Đáp án đúng cho câu hỏi này là:

  • A. SharePoint Online

2. Giải thích:

  • SharePoint Online là một dịch vụ lưu trữ và quản lý tài liệu trên nền tảng đám mây của Microsoft. Nó bao gồm:
    • Sites (trang web): Dùng để tổ chức và chia sẻ thông tin trong nội bộ tổ chức.
    • Document Libraries (thư viện tài liệu): Nơi lưu trữ và quản lý các tài liệu.
    • Folders (thư mục): Dùng để tổ chức và phân loại tài liệu trong các thư viện.

Tại sao các lựa chọn khác không đúng?

  • B. Microsoft Dataverse:
    • Dataverse là nền tảng dữ liệu của Microsoft dùng để quản lý và lưu trữ dữ liệu quan hệ cho các ứng dụng như Power Apps, Dynamics 365, nhưng không quản lý sites, document libraries hay folders.
  • C. Power BI Libraries:
    • Power BI Libraries là nơi quản lý và lưu trữ các báo cáo Power BI nhưng không bao gồm sites, document libraries, hay folders như SharePoint.
  • D. Filing Cabinets:
    • Filing Cabinets chỉ là khái niệm truyền thống cho lưu trữ tài liệu trong văn phòng, không liên quan đến dịch vụ lưu trữ trên nền tảng số như SharePoint Online.

SharePoint Online là nguồn duy nhất trong các lựa chọn có thể chứa sites, document libraries, và folders, do đó, đáp án đúng là A. SharePoint Online.

Tài liệu tham khảo: https://www.c-sharpcorner.com/article/combine-and-transform-data-of-multiple-files-located-in-a-folder-in-power-bi/

Question 4: Which of the following sources lets users connect to a set of pre-wired connections?

A. PBIDS Files

B. JSON Files

C. Dataflows

D. SSAS Tabular

1. đáp án đúng phải là:

  • A. PBIDS Files

2. Giải thích:

  • PBIDS Files (Power BI Data Source) là các tệp cấu hình được Power BI sử dụng để thiết lập sẵn các kết nối nguồn dữ liệu. Khi mở tệp .pbids, Power BI sẽ tự động mở và kết nối đến nguồn dữ liệu được định nghĩa trong tệp đó, giúp người dùng tiết kiệm thời gian thiết lập các kết nối.
  • Tệp PBIDS chỉ định các kết nối đã được cấu hình sẵn, cho phép người dùng kết nối nhanh chóng mà không cần cấu hình thủ công từng nguồn dữ liệu.

Tại sao các lựa chọn khác không đúng?

  • B. JSON Files:
    • Tệp JSON được sử dụng để lưu trữ và trao đổi dữ liệu, nhưng không phải là tệp cấu hình để thiết lập kết nối dữ liệu trực tiếp trong Power BI.
  • C. Dataflows:
    • Dataflows là các luồng dữ liệu ETL (Extract, Transform, Load) trong Power BI Service, giúp chuẩn hóa và tái sử dụng dữ liệu, nhưng không phải là các tệp cấu hình kết nối ban đầu.
  • D. SSAS Tabular:
    • SSAS Tabularmô hình dữ liệu có thể kết nối với Power BI, nhưng nó không cung cấp các kết nối được thiết lập sẵn như PBIDS files.

Đáp án đúng là A. PBIDS Files vì chúng cung cấp các kết nối sẵn có mà người dùng có thể mở và sử dụng ngay trong Power BI.

Ngoài file PBIDS, Power BI còn sử dụng các định dạng file sau:

  • PBIX (Power BI Desktop File): Đây là định dạng chính của Power BI Desktop. File PBIX chứa toàn bộ báo cáo, bao gồm mô hình dữ liệu, các truy vấn, báo cáo và visualizations. Đây là file người dùng có thể chỉnh sửa, làm việc và cập nhật trên Power BI Desktop trước khi xuất bản lên Power BI Service.
    • Use Case: Dùng để tạo và chỉnh sửa báo cáo, các visualizations, thêm dữ liệu, định nghĩa các mối quan hệ giữa các bảng và xây dựng mô hình dữ liệu.
  • PBIT (Power BI Template File): Đây là file template của Power BI, chứa cấu trúc của báo cáo, bao gồm các visualizations, truy vấn và mô hình dữ liệu, nhưng không chứa dữ liệu thực tế.
    • Use Case: Dùng để chia sẻ báo cáo với người khác mà không tiết lộ dữ liệu. Người dùng có thể mở file PBIT và nhập nguồn dữ liệu của riêng họ để tạo báo cáo theo template có sẵn.
  • PBIDS (Power BI Data Source File): Đây là file cấu hình nguồn dữ liệu, giúp Power BI Desktop xác định kết nối tới một nguồn dữ liệu cụ thể khi mở báo cáo.
    • Use Case: Dùng để đơn giản hóa việc kết nối tới nguồn dữ liệu cho người dùng. Họ có thể mở file PBIDS và Power BI sẽ tự động thiết lập kết nối dữ liệu đã cấu hình.
  • ODC (Office Data Connection): File này lưu trữ các thông tin kết nối dữ liệu giữa Power BI và các nguồn dữ liệu khác (thường dùng trong Excel hoặc SharePoint).
    • Use Case: Dùng để thiết lập kết nối động giữa Power BI và nguồn dữ liệu bên ngoài như SQL Server hoặc SharePoint.
  • RDL (Report Definition Language): Đây là định dạng file cho các báo cáo paginated (báo cáo có định dạng phân trang) trong Power BI Report Builder. Được sử dụng để tạo các báo cáo chuẩn in ấn với khả năng phân trang.
    • Use Case: Thích hợp cho các báo cáo phân trang, thường là các báo cáo in ấn được dùng trong các tổ chức hoặc trong trường hợp cần định dạng chính xác trên nhiều trang giấy.

Tài liệu tham khảo: https://learn.microsoft.com/en-us/power-bi/connect-data/desktop-data-sources

Question 5: Which of the following sources lets you connect your data to other business applications?

  1. Microsoft Dataverse
  2. Microsoft Dataplatform
  3. Microsoft Dataflows
  4. Microsoft Excel

1. Đáp án đúng cho câu hỏi này là:

  • A. Microsoft Dataverse

2. Giải thích:

  • Microsoft Dataverse là nền tảng dữ liệu của Microsoft cho phép kết nối, lưu trữ và tích hợp dữ liệu từ nhiều ứng dụng kinh doanh khác nhau, chẳng hạn như Dynamics 365, Power Apps, Power Automate, và Power BI.
  • Dataverse cung cấp API và công cụ để kết nối với các ứng dụng kinh doanh và tạo ra ứng dụng tùy chỉnh, giúp tích hợp dữ liệu từ nhiều nguồn khác nhau vào một nơi tập trung.

Tại sao các lựa chọn khác không đúng?

  • B. Microsoft Dataplatform:
    • Microsoft Dataplatform là một khái niệm chung cho các công cụ và dịch vụ quản lý dữ liệu của Microsoft, nhưng không phải là một dịch vụ cụ thể cho phép kết nối trực tiếp dữ liệu với các ứng dụng kinh doanh.
  • C. Microsoft Dataflows:
    • Dataflows cho phép chuẩn hóa và chuyển đổi dữ liệu trong Power BI và Power Apps, nhưng không trực tiếp kết nối với các ứng dụng kinh doanh khác như cách Dataverse làm.
  • D. Microsoft Excel:
    • Excel là một công cụ phổ biến để phân tích và lưu trữ dữ liệu, nhưng không phải là nền tảng chuyên dụng để kết nối và tích hợp dữ liệu từ các ứng dụng kinh doanh khác.

Ngoài Microsoft Dataverse, các tùy chọn khác trong Power BI cho phép kết nối dữ liệu với ứng dụng kinh doanh bao gồm:

  • Microsoft Power Platform Connectors: Cung cấp các kết nối sẵn có để tích hợp dữ liệu từ hơn 275 dịch vụ, ứng dụng đám mây, hệ thống dữ liệu và API vào Power BI, Power Apps và Power Automate.
  • Azure Synapse Analytics và Azure Data Lake Storage: Thường được sử dụng làm kho lưu trữ dữ liệu lớn, có thể kết nối với Power BI và nhiều ứng dụng khác để tích hợp và phân tích dữ liệu phức tạp, quy mô lớn.

Tài liệu tham khảo: https://learn.microsoft.com/en-us/power-apps/maker/data-platform/data-platform-intro

Question 6: You plan to create several datasets by using the Power BI service. You have the files configured as shown in the following table.

You need to identify which files can be used as datasets. Which two files should you identify?

A. Data 1

B. Data 2

C. Data 3

D. Data 4

E. Data 5

1. Giải thích:

Để xác định các tệp nào có thể được sử dụng làm dataset trong Power BI Service mà không xét đến yếu tố license và giới hạn kích thước, chúng ta cần xem xét các định dạng tệp mà Power BI Service hỗ trợ natively.

Phân tích các định dạng tệp:

  • XLSX (Excel):
    • Hỗ trợ: Có, Power BI Service hỗ trợ tải lên và sử dụng tệp Excel (.xlsx) làm dataset.
    • Use Case: Thích hợp để lưu trữ dữ liệu có cấu trúc phức tạp, nhiều bảng dữ liệu, và hỗ trợ các tính năng như PivotTables và Power Query.
  • CSV (Comma-Separated Values):
    • Hỗ trợ: Có, Power BI Service hỗ trợ tải lên và sử dụng tệp CSV (.csv) làm dataset.
    • Use Case: Thích hợp cho dữ liệu đơn giản, dễ dàng xử lý và chia sẻ giữa các hệ thống khác nhau.
  • TSV (Tab-Separated Values):
    • Hỗ trợ: Có thể, vì TSV là biến thể của CSV với dấu phân cách là tab. Tuy nhiên, thường người dùng sẽ cần nhập dữ liệu thông qua Power Query để xử lý đúng định dạng.
    • Use Case: Tương tự như CSV nhưng sử dụng tab làm dấu phân cách, phù hợp với dữ liệu xuất từ một số hệ thống cụ thể.
  • XML (eXtensible Markup Language):
    • Hỗ trợ: Có, Power BI Service hỗ trợ nhập dữ liệu từ tệp XML thông qua Power Query.
    • Use Case: Thích hợp cho dữ liệu có cấu trúc phức tạp, cần lưu trữ dữ liệu có mối quan hệ đa chiều.
  • JPG (Hình ảnh):
    • Hỗ trợ: Không, Power BI không hỗ trợ sử dụng tệp hình ảnh (.jpg) làm dataset. Hình ảnh có thể được sử dụng trong visualizations nhưng không phải là nguồn dữ liệu chính.

2. Kết luận:

Các tệp có thể được sử dụng làm dataset trong Power BI Service là:

  • Data 2 (XLSX, 3 GB, Local)
  • Data 4 (CSV, 2 GB, OneDrive)

Như vậy, Đáp án: B D

Lý do:

XLSX và CSV là hai định dạng tệp được hỗ trợ natively trong Power BI Service, cho phép người dùng tải lên và sử dụng chúng trực tiếp làm nguồn dữ liệu cho các báo cáo và dashboards.

Lưu ý: Mặc dù TSV và XML cũng có thể được sử dụng, nhưng chúng thường yêu cầu xử lý thông qua Power Query và không được hỗ trợ natively như XLSX và CSV.

Question 7: You have a service published to a website.

When you connect to the website, you receive the following data. A computer code with textDescription automatically generated with medium confidence

You need to create a query that retrieves the Categories data and the Customers data. Which type of source should you use?

A. JSON

B. Text/CSV

C. OData Feed

D. XML

1. Giải thích:

  • A. JSON: Đây là định dạng văn bản phổ biến cho các API, nhưng không phải là lựa chọn tốt nhất khi cần truy vấn dữ liệu từ dịch vụ web có cấu trúc như OData.
  • B. Text/CSV: Phù hợp cho tệp văn bản hoặc bảng tính đơn giản, nhưng không phù hợp khi truy vấn dữ liệu từ một dịch vụ web có cấu trúc phức tạp.
  • C. OData Feed: Dựa vào đoạn XML trong câu hỏi, dữ liệu này được trình bày theo cấu trúc OData (Open Data Protocol), thường dùng để truy xuất và thao tác với dữ liệu trên các dịch vụ web.
  • D. XML: Mặc dù XML cũng là định dạng có cấu trúc, nhưng OData thường phổ biến hơn trong việc truy vấn dịch vụ web.

2. Đáp án đúng:

  • C. Odata Feed

Một số điểm, nhận dạng cấu trúc dữ liệu của các loại trên như sau:

  • JSON (JavaScript Object Notation)
    • Đặc điểm nhận dạng:
      • Bắt đầu và kết thúc bằng dấu ngoặc nhọn {} hoặc ngoặc vuông [].
      • Chứa các cặp key-value, key luôn nằm trong dấu ngoặc kép “key”.
      • Value có thể là chuỗi, số, boolean, mảng, hoặc đối tượng lồng nhau.
{

"name": "John",

"age": 30,

"isEmployed": true,

"skills": ["Python", "SQL"],

"address": {

"city": "New York",

"zip": "10001"

}

}
  • Text/CSV (Comma-Separated Values)
    • Đặc điểm nhận dạng:
      • Dữ liệu tổ chức dạng bảng, mỗi hàng là một dòng.
      • Các giá trị trong một hàng được phân cách bởi dấu phẩy (,), tab (\t), hoặc dấu phân cách khác.
      • Không có cấu trúc lồng ghép.
name,age,isEmployed

John,30,TRUE

Jane,25,FALSE
  • OData Feed (Open Data Protocol)
    • Đặc điểm:
      • Dữ liệu thường được trả về ở định dạng JSON hoặc XML, truy cập qua URL endpoint.
      • Có cấu trúc metadata kèm theo mô tả các thực thể (entities) và thuộc tính.
      • Endpoint URL chứa các tham số truy vấn ($filter, $select, $expand, …).
{

"@odata.context": "https://example.com/$metadata#Employees",

"value": [

{

"EmployeeID": 1,

"Name": "John Doe",

"Department": "Sales"

},

{

"EmployeeID": 2,

"Name": "Jane Smith",

"Department": "HR"

}

]

}
  • XML (eXtensible Markup Language)
    • Đặc điểm nhận dạng:
      • Bắt đầu với khai báo phiên bản: <?xml version=”1.0″?>.
      • Các phần tử được bao quanh bởi thẻ mở <tag> và thẻ đóng </tag>.
      • Có thể có thuộc tính trong thẻ mở: <tag attribute=”value”>.
      • Hỗ trợ lồng ghép các phần tử bên trong nhau.
<?xml version="1.0"?>

<Employee>

<Name>John Doe</Name>

<Age>30</Age>

<IsEmployed>true</IsEmployed>

<Skills>

<Skill>Python</Skill>

<Skill>SQL</Skill>

</Skills>

</Employee>

Tài liệu tham khảo: https://learn.microsoft.com/en-us/power-query/connectors/odata-feed

Question 8: You have a Microsoft SharePoint Online site that contains several document libraries. One of the document libraries contains manufacturing reports saved as Microsoft Excel files. All the manufacturing reports have the same data structure. You need to use Power BI Desktop to load only the manufacturing reports to a table for analysis. What should you do?

A. Get data from a SharePoint Online folder, enter the site URL, and then select Combine & Load.

B. Get data from a SharePoint Online list and enter the site URL. Select Combine & Transform, then filter by the folder path to the manufacturing reports library.

C. Get data from a SharePoint Online folder and enter the site URL. Select Combine & Transform, then filter by the folder path to the manufacturing reports library.

D. Get data from a SharePoint Online list, enter the site URL, and then select Combine & Load.

1. Đáp án đúng cho câu hỏi này là:

  • C. Get data from a SharePoint Online folder and enter the site URL. Select Combine & Transform, then filter by the folder path to the manufacturing reports library.

2. Giải thích:

  • Khi cần tải nhiều tệp Excel từ một thư viện tài liệu trên SharePoint Online vào Power BI và tất cả các tệp có cùng cấu trúc dữ liệu, cách hiệu quả nhất là:
    • Sử dụng tùy chọn “Get data from a SharePoint Online folder”.
    • Nhập URL của trang SharePoint Online.
    • Sử dụng Combine & Transform để kết hợp và chuyển đổi dữ liệu.
    • Lọc theo đường dẫn thư mục để chỉ lấy các tệp từ thư viện tài liệu chứa các báo cáo sản xuất.
  • Phương pháp này cho phép Power BI kết hợp tất cả các tệp Excel có cấu trúc giống nhau và chỉ lấy dữ liệu từ thư viện cụ thể cần phân tích.

Tại sao các lựa chọn khác không đúng?

  • A. Get data from a SharePoint Online folder, enter the site URL, and then select Combine & Load:
    • Combine & Load sẽ tải dữ liệu ngay lập tức mà không cho phép lọc theo thư mục cụ thể, vì vậy có thể bao gồm cả các tệp không liên quan.
  • B. Get data from a SharePoint Online list and enter the site URL. Select Combine & Transform, then filter by the folder path to the manufacturing reports library:
    • SharePoint Online list chỉ áp dụng cho danh sách (lists), không phù hợp khi muốn tải dữ liệu từ các tệp Excel trong thư viện tài liệu (document libraries).
  • D. Get data from a SharePoint Online list, enter the site URL, and then select Combine & Load:
    • Tương tự như lựa chọn B, tùy chọn này chỉ phù hợp cho danh sách SharePoint, không áp dụng cho thư viện tài liệu chứa các tệp Excel.

Hiểu thêm về cách sự dụng giữa Combine & Transform và Combine & Load:

  • Combine & Transform
    • Ý nghĩa:
      • Kết hợp dữ liệu và đưa nó vào Power Query Editor để chỉnh sửa, làm sạch hoặc biến đổi trước khi tải vào mô hình dữ liệu.
    • Hành động:
      • Power BI mở Power Query Editor.
    • Sau đó áp dụng các thao tác như:
      • Loại bỏ cột/hàng không cần thiết.
      • Thay đổi định dạng dữ liệu (số, ngày tháng,…).
      • Xử lý giá trị null hoặc lỗi.
      • Thêm cột tính toán hoặc biến đổi dữ liệu.
      • Sau khi hoàn tất, có thể tải dữ liệu đã biến đổi vào mô hình.
      • Khi nào dùng:
      • Khi dữ liệu từ nhiều nguồn không đồng nhất hoặc cần làm sạch trước khi phân tích.
      • Khi cần thực hiện bất kỳ bước xử lý nào với dữ liệu trước khi đưa vào mô hình.
  • Combine & Load
    • Ý nghĩa:
      • Kết hợp dữ liệu và tải thẳng vào mô hình dữ liệu mà không qua bước chỉnh sửa.
    • Hành động:
      • Dữ liệu được tải trực tiếp vào Power BI Desktop.
      • Không mở Power Query Editor.
    • Khi nào dùng:
      • Khi dữ liệu đã sạch, nhất quán và sẵn sàng để phân tích.

Question 9: You plan to use Power BI Desktop to import 100 CSV files. The files contain data from different stores. The files have the same structure and are stored in a network share. You need to import the CSV files into one table. The solution must minimize administrative effort. What should you do?

A. Add a folder data source and use the Combine Files command.

B. Add a folder data source and use the Merge Queries command.

C. Add a Microsoft Excel data source and use the Merge Queries command.

D. Add text/CSV data sources and use the Append Queries command.

1. Đáp án đúng cho câu hỏi này là:

  • A. Add a folder data source and use the Combine Files command.

2. Giải thích:

  • Khi có nhiều tệp CSV với cùng cấu trúc và muốn nhập chúng vào Power BI dưới dạng một bảng duy nhất, phương pháp hiệu quả nhất và giảm thiểu công sức quản trị là:
    • Thêm nguồn dữ liệu dạng thư mục (folder data source).
    • Sử dụng tùy chọn Combine Files trong Power BI để kết hợp tất cả các tệp CSV từ thư mục vào một bảng duy nhất.
  • Combine Files tự động kết hợp các tệp có cùng cấu trúc, xử lý các tệp trong thư mục một cách tự động mà không cần phải nhập từng tệp riêng lẻ, giúp tiết kiệm thời gian và công sức.

Tại sao các lựa chọn khác không đúng?

  • B. Add a folder data source and use the Merge Queries command:
    • Merge Queries được sử dụng để kết hợp hai bảng dựa trên cột chung, nhưng nó không phù hợp cho việc kết hợp nhiều tệp có cùng cấu trúc vào một bảng duy nhất.
  • C. Add a Microsoft Excel data source and use the Merge Queries command:
    • Bạn đang làm việc với các tệp CSV, không phải tệp Excel, nên tùy chọn này không phù hợp.
  • D. Add text/CSV data sources and use the Append Queries command:
    • Tùy chọn này yêu cầu nhập từng tệp riêng lẻ và sau đó sử dụng Append Queries để nối chúng lại, điều này tốn nhiều công sức hơn so với việc sử dụng Combine Files trên một thư mục.

Dưới đây là sự khác biệt giữa ba tác vụ trong Power Query: Append Query, Merge Query, và Combine File:

  • Append Query
    • Ý nghĩa:
      • Kết hợp (nối) dữ liệu từ nhiều bảng (query) bằng cách ghép hàng từ các bảng này lại với nhau.
    • Hoạt động:
      • Các bảng phải có cùng cấu trúc cột (hoặc tương tự).
      • Append không thay đổi cấu trúc cột, mà chỉ thêm dữ liệu từ bảng khác vào cuối bảng gốc.
    • Ví dụ:
      • Bảng 1 (Sales Q1):
        • Product, Sales
        • A, 100
        • B, 200
      • Bảng 2 (Sales Q2):
        • Product, Sales
        • C, 150
        • D, 250
      • Kết quả (Append):
        • Product, Sales
        • A, 100
        • B, 200
        • C, 150
        • D, 250
    • Khi nào dùng:
      • Kết hợp dữ liệu từ nhiều file hoặc bảng có cùng cấu trúc để tạo thành một bảng duy nhất.
  • Merge Query
    • Ý nghĩa:
      • Kết hợp dữ liệu từ hai hoặc nhiều bảng (query) bằng cách ghép cột dựa trên một hoặc nhiều cột chung (tương tự join trong SQL).
    • Có thể thực hiện các kiểu merge như:
      • Inner Join: Chỉ giữ các hàng có dữ liệu khớp trong cả hai bảng.
      • Left Join: Giữ tất cả dữ liệu từ bảng chính, chỉ thêm dữ liệu khớp từ bảng thứ hai.
      • Right Join, Full Outer Join, …
      • Dữ liệu từ bảng phụ sẽ được thêm vào cột mới trong bảng chính.
    • Ví dụ:
      • Bảng 1 (Products):
        • ProductID, ProductName
        • 1, Laptop
        • 2, Mouse
      • Bảng 2 (Sales):
        • ProductID, Sales
        • 1, 300
        • 3, 500
      • Kết quả (Merge Inner Join):
        • ProductID, ProductName, Sales
        • 1, Laptop, 300
    • Khi nào dùng:
      • Khi cần kết hợp dữ liệu từ hai bảng dựa trên mối quan hệ logic giữa các cột (chẳng hạn, khoá chính – khoá ngoại).
  • Combine File
    • Ý nghĩa:
      • Kết hợp (Combine) nhiều file từ một thư mục có cấu trúc giống nhau (ví dụ, file Excel, CSV, TXT).
      • Tự động gộp tất cả dữ liệu từ các file thành một bảng.
    • Power Query sẽ:
      • Đọc tất cả file trong thư mục được chỉ định.
      • Sử dụng một file mẫu (sample file) để xác định cấu trúc bảng.
      • Kết hợp dữ liệu từ tất cả các file (nối các hàng lại giống Append Query).
    • Ví dụ:
      • Thư mục có 3 file CSV:
        • File 1: Sales_Jan.csv
        • File 2: Sales_Feb.csv
        • File 3: Sales_Mar.csv
      • Dữ liệu kết quả:
        • Month, Product, Sales
        • Jan, A, 100
        • Feb, B, 200
        • Mar, C, 300
    • Khi nào dùng:
      • Khi cần gộp dữ liệu từ nhiều file trong thư mục mà không cần thêm từng file thủ công.

Thay đổi nguồn dữ liệu

Question 10: When would you need to access the Data Source Settings?

A.If you need to connect to a new data source

B.If you need to edit an existing query

C.If the file name or location changes

D.All of the above

1. Đáp án đúng là:

  • C. If the file name or location changes

2. Giải thích:

Data Source Settings trong Power BI là nơi quản lý các kết nối đến các nguồn dữ liệu hiện có. Chúng ta sẽ cần truy cập vào Data Source Settings trong các trường hợp sau:

  • Khi tên file hoặc vị trí của file thay đổi, cần cập nhật đường dẫn để Power BI có thể tiếp tục truy xuất dữ liệu từ nguồn đó.

Tại sao các đáp án khác không đúng?

  • A. Nếu cần kết nối với một nguồn dữ liệu mới: Để kết nối với một nguồn dữ liệu mới, sử dụng tùy chọn Get Data thay vì vào Data Source Settings.
  • B. Nếu cần chỉnh sửa một truy vấn đã có: Để chỉnh sửa truy vấn, cần vào Power Query Editor, chứ không phải Data Source Settings.
  • D. Tất cả các phương án trên: Lựa chọn này không đúng vì như đã giải thích ở trên, không phải mọi trường hợp đều cần truy cập vào Data Source Settings.

Question 11: How can you use parameters when connecting to data?

A. To connect to a JSON file

B. To change data source values dynamically

C.To create “What-If” scenarios

D.To shape and transform data in the Query Editor

1. Đáp án là:

  • B. To change data source values dynamically

2. Giải thích:

Parameters trong Power BI được sử dụng để thay đổi các giá trị kết nối dữ liệu một cách linh hoạt và hiệu quả. Chúng thường được sử dụng để:

  • Thay đổi động các giá trị của nguồn dữ liệu (Data Source) mà không cần phải chỉnh sửa thủ công mỗi khi có sự thay đổi. Ví dụ, dùng parameters để chuyển đổi giữa các môi trường khác nhau như Development, Testing, và Production.

Tại sao các đáp án khác không đúng?

  • A. Để kết nối với một file JSON: có thể kết nối với một file JSON mà không cần sử dụng parameters. Việc kết nối này chỉ yêu cầu chọn đúng định dạng dữ liệu.
  • C. Để tạo ra các kịch bản “What-If”: đúng là có thể sử dụng What-If parameters, nhưng đây là một loại parameters riêng biệt nhằm mục đích phân tích giả định, không liên quan đến việc kết nối nguồn dữ liệu.
  • D. Để định hình và chuyển đổi dữ liệu trong Query Editor: Parameters có thể được sử dụng trong Query Editor, nhưng mục đích chính của chúng không phải để định hình và chuyển đổi dữ liệu mà là để thay đổi các giá trị động, ví dụ như đường dẫn của nguồn dữ liệu hoặc các giá trị bộ lọc.

Question 12: You have the following three versions of an Azure SQL database:

– Test

– Production

– Development

You have a dataset that uses the development database as a data source.

You need to configure the dataset so that you can easily change the data source between the development, test, and production database servers from powerbi.com.

Which should you do?

A. Create a JSON file that contains the database server names. Import the JSON file to the dataset

B. Create a parameter and update the queries to use the parameter.

C. Create a query for each database server and hide the development tables.

D. Set the data source privacy level to Organizational and use the ReplaceValue Power Query M function.

1. Đáp án là:

  • B. Create a parameter and update the queries to use the parameter.

2. Giải thích:

Khi có nhiều phiên bản của cơ sở dữ liệu (Development, Test, Production) và muốn dễ dàng chuyển đổi giữa các phiên bản trên Power BI, cách tiếp cận tốt nhất là sử dụng parameters.

  • Parameters trong Power BI cho phép thay đổi data source một cách linh hoạt mà không cần chỉnh sửa lại toàn bộ truy vấn hoặc tập dữ liệu.
  • có thể tạo một parameter chứa tên máy chủ của cơ sở dữ liệu, sau đó sử dụng parameter này trong các truy vấn của .
  • Khi muốn thay đổi giữa các môi trường, chỉ cần cập nhật giá trị của parameter từ Power BI Service (powerbi.com), mà không cần phải chỉnh sửa lại các truy vấn.

Tại sao các lựa chọn khác không đúng?

  • A. Tạo file JSON chứa tên máy chủ: Việc này phức tạp và không phải là cách tốt nhất để thay đổi nguồn dữ liệu. Power BI có khả năng quản lý các parameters linh hoạt hơn nhiều so với việc sử dụng file JSON.
  • C. Tạo một truy vấn cho mỗi máy chủ và ẩn các bảng: Cách làm này sẽ dẫn đến phức tạp và không tối ưu. Nó yêu cầu duy trì nhiều truy vấn riêng biệt, làm tăng nguy cơ lỗi và khó bảo trì.
  • D. Thiết lập mức độ bảo mật nguồn dữ liệu và sử dụng hàm ReplaceValue: Thiết lập data source privacy level và sử dụng ReplaceValue không phải là cách phù hợp để chuyển đổi giữa các máy chủ cơ sở dữ liệu. Điều này chủ yếu được dùng để xử lý các vấn đề bảo mật hoặc thay thế giá trị trong dữ liệu, không phải để thay đổi nguồn dữ liệu một cách linh hoạt.

Tài liệu tham khảo:

Question 13: In Power BI Desktop, you are updating an existing report that connects to a Microsoft SQL Server database. You use database (SQL authentication) credentials to connect to the source. The last credentials that were entered are expired. You need to update the credentials. Which two actions should you perform?

A. Open the Data Source Settings dialog box and locate the data source.

B. Select Edit Permissions and enter new credentials.

C. Open the Get Data dialog box and make a new connection to the database.

D. Open the Options dialog box and allow data previews to download in the background.

1. Đáp án là:

  • A. Open the Data Source Settings dialog box and locate the data source.
  • B. Select Edit Permissions and enter new credentials.

2. Giải thích:

Khi sử dụng Power BI Desktop và cần cập nhật thông tin xác thực (credentials) cho kết nối đến cơ sở dữ liệu, sẽ cần thực hiện các bước sau:

  • Mở Data Source Settings:
  • Vào File > Options and settings > Data Source Settings.
  • Tại đây, tìm kiếm và chọn nguồn dữ liệu cần cập nhật.
  • Chỉnh sửa quyền (Edit Permissions):
  • Sau khi chọn nguồn dữ liệu, nhấn Edit Permissions để cập nhật credentials mới.
  • Nhập thông tin xác thực (username và password) mới và lưu lại.

Tại sao các lựa chọn khác không đúng?

  • C. Open the Get Data dialog box and make a new connection to the database: Việc này sẽ tạo một kết nối mới, không phải cập nhật credentials cho kết nối hiện có.
  • D. Open the Options dialog box and allow data previews to download in the background: Tuỳ chọn này chỉ liên quan đến việc tải trước dữ liệu (data previews), không liên quan đến việc cập nhật credentials cho kết nối.

Question 12: You have two Microsoft SQL Server database servers named SQLProd and SQLDev. SQLDev contains the same tables as SQLProd, but only a subset of the data in SQLProd.

You create a new Power BI Desktop model that uses 120 tables from SQLDev. You plan to publish the Power BI file to the Power BI service.

You need to connect the model to the tables in SQLProd. The solution must minimize administrative effort. What should you do from Query Editor before you publish the model?

A. Create a new connection to SQLProd, and then import the tables from SQLProd.

B. Delete the existing queries, and then add new data sources.

C. Configure the Data source settings.

D. Edit the source of each table query.

1. Đáp án là:

  • C. Configure the Data source settings.

2. Giải thích:

Khi đã xây dựng một mô hình Power BI Desktop sử dụng dữ liệu từ SQLDev và muốn chuyển đổi kết nối sang SQLProd mà không cần phải nhập lại các bảng hoặc xây dựng lại mô hình, chỉ cần:

  • Vào Data Source Settings trong Power Query Editor.
  • Thay đổi đường dẫn của nguồn dữ liệu từ SQLDev sang SQLProd.
  • Việc này sẽ giữ nguyên tất cả các truy vấn, mối quan hệ và mô hình hiện có mà đã xây dựng, chỉ thay đổi nơi dữ liệu được truy xuất.

Tại sao các lựa chọn khác không đúng?

  • A. Tạo một kết nối mới đến SQLProd và nhập lại các bảng: Phương án này yêu cầu nhập lại toàn bộ 120 bảng, gây tốn thời gian và công sức.
  • B. Xóa các truy vấn hiện có và thêm nguồn dữ liệu mới: Việc này sẽ xóa mất tất cả các truy vấn hiện tại, nghĩa là sẽ phải bắt đầu lại từ đầu và xây dựng lại mô hình, điều này không tối ưu.
  • D. Chỉnh sửa từng truy vấn để thay đổi nguồn: Dù có thể thay đổi nguồn cho từng truy vấn một cách thủ công, nhưng đây là cách tốn thời gian và công sức khi có tới 120 bảng. Việc chỉnh sửa Data Source Settings sẽ nhanh chóng và hiệu quả hơn rất nhiều.

Lưu trữ dữ liệu

Question 14: Which storage mode leaves the data at the data source?

A. Import

B. Direct Query

C. Dual Answer: B

1. Đáp án đúng cho câu hỏi này là:

  • B. Direct Query

2. Giải thích:

Direct Query là chế độ lưu trữ trong Power BI cho phép truy xuất dữ liệu trực tiếp từ nguồn dữ liệu mỗi khi tương tác với báo cáo hoặc bảng điều khiển. Dữ liệu không được tải vào Power BI mà vẫn nằm tại nguồn dữ liệu gốc, giúp đảm bảo dữ liệu luôn cập nhật mới nhất.

Tại sao các lựa chọn khác không đúng?

  • A. Import: Chế độ Import tải toàn bộ dữ liệu từ nguồn về Power BI và lưu trữ cục bộ. Mọi truy vấn sẽ sử dụng dữ liệu đã được nhập vào Power BI, không truy cập lại vào nguồn dữ liệu sau khi tải về.
  • C. Dual: Chế độ Dual có thể hoạt động cả như Import hoặc Direct Query tùy vào cách sử dụng. Tuy nhiên, dữ liệu vẫn có thể được tải về trong chế độ Import khi cần, do đó Dual không để toàn bộ dữ liệu tại nguồn như Direct Query.

Vì vậy, Direct Query là chế độ duy nhất đảm bảo dữ liệu luôn được truy xuất trực tiếp từ nguồn mà không cần lưu trữ cục bộ trong Power BI.

Tài liệu tham khảo: https://learn.microsoft.com/en-us/power-bi/transform-model/desktop-storage-mode

Question 15: In which storage mode are tables solely stored in-memory and queries fulfilled by cached data?

A. Import

B. DirectQuery

C. Dual

D. Native

1. Đáp án là:

  • A. Import

2. Giải thích:

  • Chế độ Import trong Power BI tải toàn bộ dữ liệu từ nguồn về lưu trữ trong bộ nhớ (in-memory) của Power BI. Khi truy vấn hoặc tương tác với báo cáo, Power BI sử dụng dữ liệu đã được lưu trữ trong bộ nhớ cache, giúp các truy vấn thực thi rất nhanh mà không cần truy xuất lại nguồn dữ liệu.

Tại sao các lựa chọn khác không đúng?

  • B. DirectQuery: Dữ liệu không được lưu trữ trong bộ nhớ mà thay vào đó, mọi truy vấn sẽ truy xuất trực tiếp từ nguồn dữ liệu mỗi khi tương tác với báo cáo.
  • C. Dual: Chế độ Dual có thể hoạt động cả như Import và DirectQuery. Tùy thuộc vào cách sử dụng, bảng có thể lưu trữ dữ liệu trong bộ nhớ hoặc truy vấn trực tiếp từ nguồn. Tuy nhiên, nó không hoàn toàn là chế độ in-memory như chế độ Import.
  • D. Native: Không có chế độ Native trong Power BI. Các chế độ lưu trữ chính là Import, DirectQuery, và Dual.

Do đó, chế độ Import là chế độ duy nhất trong đó toàn bộ dữ liệu được lưu trữ trong bộ nhớ và các truy vấn được thực hiện bằng dữ liệu đã được lưu trữ trong bộ nhớ cache.

Tài liệu tham khảo: https://learn.microsoft.com/en-us/power-bi/transform-model/desktop-storage-mode

Question 16: You plan to populate a table in a Power BI dataset with data from a Microsoft SharePoint Online list. Which storage mode will be used?

A. DirectQuery

B. live connection

C. Composite

D. Imported

1. Đáp án là:

  • D. Imported

2. Giải thích:

Khi kết nối với một Microsoft SharePoint Online list trong Power BI, dữ liệu sẽ được tải về và lưu trữ trong Power BI dưới dạng Import.

  • Chế độ Import sẽ tải toàn bộ dữ liệu từ SharePoint vào bộ nhớ của Power BI, giúp truy vấn nhanh chóng mà không cần truy cập lại nguồn dữ liệu SharePoint mỗi khi người dùng tương tác với báo cáo.

Tại sao các lựa chọn khác không đúng?

  • A. DirectQuery: Power BI không hỗ trợ chế độ DirectQuery cho các danh sách SharePoint Online. Dữ liệu từ SharePoint chỉ có thể được nhập (Imported).
  • B. Live connection: Chế độ Live connection chỉ áp dụng cho các mô hình dữ liệu như Analysis Services, và không áp dụng cho các danh sách SharePoint.
  • C. Composite: Chế độ Composite là sự kết hợp giữa Import và DirectQuery, nhưng vì SharePoint Online list chỉ hỗ trợ chế độ Import, nên Composite không thể được áp dụng.

Vì vậy, dữ liệu từ Microsoft SharePoint Online list sẽ luôn sử dụng chế độ Imported trong Power BI.

Question 17: You’re creating a Power BI report with data from an Azure Analysis Services Cube. When the data refreshes in the cube, you would like to see it immediately in the Power BI report. How should you connect?

A. Connect Live

B. Import

C. Direct Query

1. Đáp án là:

  • A. Connect Live

2. Giải thích:

  • Khi kết nối với một Azure Analysis Services Cube trong Power BI và muốn dữ liệu được cập nhật ngay lập tức trong báo cáo Power BI khi dữ liệu trong cube thay đổi, nên sử dụng chế độ Connect Live.
  • Chế độ Connect Live cho phép Power BI kết nối trực tiếp và tương tác với Azure Analysis Services mà không cần phải tải dữ liệu về. Do đó, bất kỳ cập nhật nào trong cube sẽ ngay lập tức phản ánh trên báo cáo Power BI.

Tại sao các lựa chọn khác không đúng?

  • B. Import: Chế độ Import sẽ tải dữ liệu về Power BI và lưu trữ cục bộ. Khi đó, dữ liệu chỉ cập nhật khi thực hiện làm mới (refresh) dữ liệu, chứ không tự động phản ánh các thay đổi từ nguồn dữ liệu.
  • C. Direct Query: Mặc dù chế độ Direct Query cho phép truy xuất dữ liệu trực tiếp từ nguồn mỗi khi tương tác với báo cáo, nhưng Azure Analysis Services Cube chỉ hỗ trợ kết nối dưới dạng Live connection, không phải Direct Query.

Do đó, để đảm bảo dữ liệu luôn cập nhật ngay khi cube được làm mới, cần sử dụng chế độ Connect Live.

Tài liệu tham khảo: https://learn.microsoft.com/en-us/azure/analysis-services/analysis-services-connect-pbi

Question 18: You have an Azure SQL database that contains sales transactions. The database is updated frequently.

You need to generate reports from the data to detect fraudulent transactions. The data must be visible within five minutes of an update.

How should you configure the data connection?

A. Add a SQL statement.

B. Set Data Connectivity mode to DirectQuery.

C. Set the Command timeout in minutes setting.

D. Set Data Connectivity mode to Import.

1. Đáp án là:

  • B. Set Data Connectivity mode to DirectQuery

2. Giải thích:

  • Khi cần xem dữ liệu gần như ngay lập tức (trong vòng 5 phút) sau khi có cập nhật từ cơ sở dữ liệu, chế độ DirectQuery là lựa chọn tốt nhất.
  • DirectQuery cho phép Power BI truy vấn trực tiếp dữ liệu từ Azure SQL database mỗi khi người dùng tương tác với báo cáo, giúp đảm bảo dữ liệu luôn cập nhật mới nhất mà không cần phải đợi làm mới toàn bộ dữ liệu như trong chế độ Import.

Tại sao các lựa chọn khác không đúng?

  • A. Add a SQL statement: Thêm một câu lệnh SQL có thể giúp lọc hoặc truy vấn dữ liệu cụ thể, nhưng nó không ảnh hưởng đến cách Power BI làm mới dữ liệu từ nguồn.
  • C. Set the Command timeout in minutes setting: Thiết lập Command timeout chỉ kiểm soát thời gian chờ của truy vấn trước khi hết hạn, nhưng không liên quan đến việc cập nhật dữ liệu theo thời gian thực.
  • D. Set Data Connectivity mode to Import: Chế độ Import tải dữ liệu về và lưu trữ trong Power BI. Dữ liệu chỉ được cập nhật khi thực hiện làm mới (refresh), và có thể mất nhiều thời gian hơn 5 phút để phản ánh các thay đổi, tùy thuộc vào tần suất làm mới được cấu hình.

Do đó, để đảm bảo dữ liệu trong báo cáo luôn cập nhật gần như ngay lập tức khi có thay đổi trong Azure SQL database, chế độ DirectQuery là lựa chọn phù hợp nhất.

Tài liệu tham khảo: https://docs.microsoft.com/en-us/power-bi/connect-data/desktop-use-directquery

Question 19: You plan to publish your SSAS Tabular (live connection) data model to Power BI Service. What must be used in order for this to be possible?

A. Data Gateway

B. Dual Storage Mode

C. Parameters

D. Admin Privileges

1. Đáp án là:

  • A. Data Gateway

2. Giải thích:

  • Khi sử dụng SSAS Tabular (SQL Server Analysis Services Tabular) với Live connection và muốn xuất bản mô hình này lên Power BI Service, cần sử dụng Data Gateway.
  • Data Gateway cho phép Power BI Service kết nối an toàn với nguồn dữ liệu nội bộ (on-premises), bao gồm cả SSAS Tabular. Điều này đảm bảo rằng Power BI Service có thể truy vấn dữ liệu trực tiếp từ SSAS và cập nhật báo cáo một cách tự động.

Tại sao các lựa chọn khác không đúng?

  • B. Dual Storage Mode: Chế độ Dual Storage Mode cho phép sử dụng cả Import và DirectQuery, nhưng nó không liên quan đến việc thiết lập Live connection với SSAS.
  • C. Parameters: Parameters có thể giúp linh hoạt trong việc cấu hình các kết nối và bộ lọc dữ liệu, nhưng chúng không bắt buộc để kết nối SSAS với Power BI Service.
  • D. Admin Privileges: Mặc dù cần quyền admin để thiết lập và cấu hình Data Gateway, nhưng chỉ riêng quyền admin không đủ để thực hiện kết nối Live. Data Gateway mới là yêu cầu quan trọng để thiết lập kết nối này.

Do đó, để xuất bản mô hình SSAS Tabular (Live connection) lên Power BI Service, Data Gateway là điều bắt buộc.

Tài liệu tham khảo: https://learn.microsoft.com/en-us/power-bi/connect-data/desktop-analysis-services-tabular- data

Tối ưu hiệu suất khi kết nối dữ liệu

Question 20: Which technology improves performance by generating a single query statement to retrieve and transform source data?

A. Query folding

B. Adding index columns

C. Adding custom columns with complex logic

1. Đáp án đúng cho câu hỏi này là:

  • A. Query folding

2. Giải thích:

  • Query folding là kỹ thuật mà Power Query trong Power BI sử dụng để chuyển đổi các bước truy vấn thành một câu lệnh truy vấn duy nhất (như SQL) và gửi đến nguồn dữ liệu. Điều này giúp tối ưu hiệu suất vì dữ liệu sẽ được xử lý trực tiếp trên máy chủ thay vì chuyển toàn bộ dữ liệu về Power BI rồi mới thực hiện các bước biến đổi.
  • Nhờ query folding, Power BI chỉ truy xuất những dữ liệu cần thiết, giảm tải cho hệ thống và tăng tốc độ xử lý.

Tại sao các lựa chọn khác không đúng?

  • B. Adding index columns: Việc thêm index columns có thể cải thiện hiệu suất truy vấn trong một số trường hợp, nhưng không liên quan đến việc tạo ra một câu lệnh truy vấn duy nhất để truy xuất và biến đổi dữ liệu.
  • C. Adding custom columns with complex logic: Thêm custom columns với logic phức tạp có thể làm tăng tải cho truy vấn nếu logic đó không thể được “folded” về nguồn dữ liệu, khiến dữ liệu cần phải được tải về Power BI để xử lý.

Do đó, query folding là công nghệ giúp tối ưu hiệu suất bằng cách tạo một câu truy vấn duy nhất để truy xuất và biến đổi dữ liệu trực tiếp từ nguồn.

Tài liệu tham khảo: https://learn.microsoft.com/en-us/power-query/query-folding-basics

Question 21: Which tool enables you to identify bottlenecks that exist in code?

A. Q&A.

B. Column profiling.

C. Performance analyzer.

1. Đáp án đúng cho câu hỏi này là:

C. Performance analyzer

2. Giải thích:

  • Performance Analyzer trong Power BI là công cụ giúp phân tích hiệu suất của báo cáo và xác định các nút thắt cổ chai (bottlenecks) trong mã truy vấn, trực quan hóa, và tải dữ liệu.
  • Công cụ này cho phép theo dõi thời gian mà mỗi thành phần trong báo cáo mất để tải và xử lý, giúp tìm ra những thành phần cần tối ưu hóa.

Tại sao các lựa chọn khác không đúng?

  • A. Q&A: Tính năng Q&A trong Power BI cho phép người dùng đặt câu hỏi bằng ngôn ngữ tự nhiên để truy xuất dữ liệu từ báo cáo. Nó không liên quan đến việc phân tích hiệu suất hoặc tìm ra bottlenecks.
  • B. Column profiling: Column profiling giúp phân tích và hiểu dữ liệu trong Power Query Editor (như phân bố giá trị, loại dữ liệu, giá trị trống), nhưng nó không được sử dụng để phân tích hiệu suất của báo cáo hoặc mã truy vấn.

Do đó, Performance Analyzer là công cụ phù hợp nhất để xác định bottlenecks trong mã và cải thiện hiệu suất báo cáo Power BI.

Question 22: How can you analyze performance of each of your report elements?

A. By using performance analyzer.

B. By analyzing your metadata.

C. By deleting unnecessary rows and columns to reduce your dataset size.

1. Đáp án đúng cho câu hỏi này là:

  • A. By using Performance Analyzer

2. Giải thích:

  • Performance Analyzer trong Power BI là công cụ cho phép phân tích hiệu suất của từng thành phần trong báo cáo của mình, bao gồm:
    • Thời gian tải của các trực quan hóa (visualizations).
    • Thời gian truy vấn dữ liệu và render trực quan hóa.
    • Giúp xác định các nút thắt cổ chai (bottlenecks) và tối ưu hóa hiệu suất báo cáo.

Tại sao các lựa chọn khác không đúng?

  • B. By analyzing your metadata: Phân tích metadata có thể giúp hiểu cấu trúc của mô hình dữ liệu, nhưng không trực tiếp giúp đánh giá hiệu suất của các thành phần trong báo cáo.
  • C. By deleting unnecessary rows and columns to reduce your dataset size: Mặc dù việc giảm kích thước dataset có thể cải thiện hiệu suất tổng thể, nhưng nó không phải là cách để phân tích hiệu suất của từng thành phần trong báo cáo. Đây là biện pháp tối ưu hóa dữ liệu chứ không phải công cụ phân tích.

Do đó, trong phạm vi câu hỏi này, Performance Analyzer là cách tốt nhất để phân tích hiệu suất của từng yếu tố trong báo cáo Power BI.

Question 23: Other than Power BI, another place for performance optimization can be performed is where?

A. At the data source

B. In the Power BI service

C. In Microsoft SharePoint

1. Đáp án đúng cho câu hỏi này là:

  • A. At the data source

2. Giải thích:

  • Tối ưu hóa hiệu suất tại nguồn dữ liệu (data source) là một bước quan trọng để cải thiện hiệu suất tổng thể của báo cáo Power BI. Điều này bao gồm:
    • Tối ưu hóa các truy vấn SQL hoặc stored procedures.
    • Thêm index vào các bảng trong cơ sở dữ liệu để cải thiện tốc độ truy xuất.
    • Làm sạch và chuẩn hóa dữ liệu trước khi nhập vào Power BI để giảm tải xử lý trong Power BI.

Tại sao các lựa chọn khác không đúng?

  • B. In the Power BI service: Mặc dù Power BI Service cung cấp một số tùy chọn tối ưu hóa, như thiết lập lịch làm mới và quản lý bộ nhớ cache, nhưng các cải tiến này chỉ tối ưu hiệu suất ở cấp độ báo cáo và không ảnh hưởng trực tiếp đến hiệu suất truy xuất dữ liệu từ nguồn.
  • C. In Microsoft SharePoint: Microsoft SharePoint chủ yếu được sử dụng để lưu trữ và chia sẻ tệp, không phải là nơi tối ưu hóa hiệu suất cho báo cáo Power BI.

Do đó, nơi tối ưu hóa hiệu suất tốt nhất ngoài Power BI chính là tại nguồn dữ liệu (data source), nơi có thể tối ưu truy vấn và cơ sở dữ liệu để tăng tốc độ truy xuất dữ liệu.

Tài liệu tham khảo: https://learn.microsoft.com/en-us/power-bi/guidance/power-bi-optimization

Question 24: Which Power BI option gives you the option to send fewer queries and disable certain interactions?

A. Direct query

B. Query reduction

C. Query diagnostics

1. Đáp án đúng cho câu hỏi này là:

  • B. Query reduction

2. Giải thích:

  • Query reduction trong Power BI là tùy chọn giúp giảm số lượng truy vấn được gửi đến nguồn dữ liệu và tắt các tương tác nhất định trên báo cáo. Điều này hữu ích khi muốn tối ưu hiệu suất và giảm tải cho các nguồn dữ liệu.
  • Query reduction có thể giúp giảm số lần làm mới dữ liệu khi người dùng tương tác với slicers hoặc bộ lọc trong báo cáo, từ đó cải thiện hiệu suất đặc biệt khi sử dụng Direct Query.

Tại sao các lựa chọn khác không đúng?

  • A. Direct Query: Chế độ Direct Query gửi truy vấn trực tiếp đến nguồn dữ liệu mỗi khi người dùng tương tác với báo cáo. Điều này có thể dẫn đến nhiều truy vấn hơn, đặc biệt khi có nhiều tương tác, không giúp giảm số lượng truy vấn.
  • C. Query Diagnostics: Query Diagnostics là công cụ giúp phân tích các truy vấn để xem các bước truy vấn tiêu tốn thời gian như thế nào. Nó không có chức năng giảm số lượng truy vấn hoặc tắt tương tác.

Do đó, Query reduction là tùy chọn giúp giảm số lượng truy vấn và tắt các tương tác không cần thiết trong Power BI, nhằm tối ưu hóa hiệu suất báo cáo.

Question 25: You have a Microsoft Power BI report. The size of PBIX file is 550 MB. The report is accessed by using an App workspace in shared capacity of powerbi.com.

The report uses an imported dataset that contains one fact table. The fact table contains 12 million rows. The dataset is scheduled to refresh twice a day at 08:00 and 17:00.

The report is a single page that contains 15 AppSource visuals and 10 default visuals.

Users say that the report is slow to load the visuals when they access and interact with the report. You need to recommend a solution to improve the performance of the report.

What should you recommend?

A. Change any DAX measures to use iterator functions.

B. Replace the default visuals with AppSource visuals.

C. Change the imported dataset to DirectQuery.

D. Remove unused columns from tables in the data model.

1. Đáp án đúng cho câu hỏi này là:

  • D. Remove unused columns from tables in the data model.

2. Giải thích:

  • Khi kích thước của file PBIX quá lớn (550 MB) và báo cáo chậm tải, một trong những cách hiệu quả nhất để tối ưu hóa hiệu suất là loại bỏ các cột không sử dụng khỏi bảng trong mô hình dữ liệu.
  • Việc loại bỏ các cột không cần thiết giúp:
    • Giảm kích thước mô hình dữ liệu.
    • Cải thiện tốc độ tải và xử lý của báo cáo.
    • Giảm bộ nhớ tiêu thụ, đặc biệt quan trọng khi báo cáo đang chạy trên shared capacity của Power BI Service.

Tại sao các lựa chọn khác không đúng?

  • A. Change any DAX measures to use iterator functions: Việc chuyển sang sử dụng iterator functions (như SUMX, AVERAGEX) thường chậm hơn so với các hàm tập hợp thông thường (SUM, AVERAGE). Điều này có thể làm giảm hiệu suất hơn nữa nếu không được sử dụng đúng cách.
  • B. Replace the default visuals with AppSource visuals: Các AppSource visuals thường có hiệu suất thấp hơn so với các default visuals vì chúng phức tạp hơn và yêu cầu nhiều tài nguyên hơn để render. Thay thế default visuals bằng AppSource visuals sẽ không giúp cải thiện hiệu suất.
  • C. Change the imported dataset to DirectQuery: Chuyển sang DirectQuery có thể giúp giảm kích thước file PBIX, nhưng không phải lúc nào cũng cải thiện hiệu suất nếu nguồn dữ liệu không đủ nhanh hoặc nếu có nhiều tương tác với dữ liệu (vì DirectQuery yêu cầu truy vấn trực tiếp đến nguồn dữ liệu mỗi khi người dùng tương tác).

Vì vậy, loại bỏ các cột không sử dụng là cách tốt nhất để giảm kích thước mô hình dữ liệu và cải thiện tốc độ tải của báo cáo.

Question 26: You have a Power BI model that contains sensor data from 500 sensors that return temperature readings each minute

Your reporting requirements contain the need to calculate the average temperature from each sensor at every hour. The reports do NOT show the raw data for each minute.

You need to reduce the size of the model to improve performance.

What should you do?

  1. Create visuals that group the data by hour.
  2. Use Power Query to group the sensor data by hour.
  3. And a report filter for the Hour column.
  4. Remove the rows that contain readings.

1. Đáp án đúng cho câu hỏi này là:

  • B. Use Power Query to group the sensor data by hour.

2. Giải thích:

  • Khi có dữ liệu từ 500 cảm biến với đọc nhiệt độ mỗi phút, nhưng báo cáo chỉ cần hiển thị trung bình nhiệt độ mỗi giờ, thì cách hiệu quả nhất để giảm kích thước mô hình và cải thiện hiệu suất là sử dụng Power Query để nhóm dữ liệu theo giờ trước khi tải vào mô hình Power BI.
  • Power Query cho phép tổng hợp (group) dữ liệu ngay tại bước chuẩn bị, do đó chỉ cần tải dữ liệu đã được tính trung bình theo từng giờ thay vì giữ lại tất cả các bản ghi theo phút. Điều này giảm kích thước của mô hình và tăng tốc độ truy vấn.

Tại sao các lựa chọn khác không đúng?

  • A. Create visuals that group the data by hour: Nếu chỉ nhóm dữ liệu trong visuals, dữ liệu vẫn phải được tải đầy đủ vào mô hình trước, sau đó mới nhóm lại trên báo cáo. Điều này không giảm kích thước của mô hình.
  • C. Add a report filter for the Hour column: Việc sử dụng bộ lọc báo cáo chỉ giúp lọc dữ liệu đã được tải vào mô hình. Nó không làm giảm kích thước dữ liệu trước khi nhập vào Power BI.
  • D. Remove the rows that contain readings: Nếu xóa các hàng dữ liệu, sẽ mất các đọc nhiệt độ cần thiết để tính toán trung bình theo giờ. Điều này không đáp ứng được yêu cầu báo cáo.

Sử dụng Power Query để nhóm dữ liệu theo giờ là cách tốt nhất để tối ưu hóa mô hình, giảm kích thước file và cải thiện hiệu suất báo cáo mà vẫn đảm bảo tính chính xác của các báo cáo tổng hợp.

Question 27: You have a large dataset that contains more than 1 million rows. The table has a datetime column named Date. You need to reduce the size of the data model without losing access to any data. What should you do?

A. Round the hour of the Date column to startOfHour.

B. Change the data type of the Date column to Text.

C. Trim the Date colum.

D. Split the Date column into two columns, one that contains only the time and another that contains only the date.

1. Đáp án đúng cho câu hỏi này là:

  • A. Round the hour of the Date column to startOfHour

2. Giải thích:

  • Khi có một tập dữ liệu lớn với hơn 1 triệu dòng và muốn giảm kích thước mô hình mà không mất dữ liệu, việc làm tròn giá trị trong cột datetime (ví dụ, làm tròn đến giờ bắt đầu – startOfHour) sẽ giúp giảm độ chi tiết của dữ liệu, từ đó giảm kích thước mô hình mà vẫn giữ nguyên thông tin cần thiết.
  • Làm tròn giá trị datetime sẽ loại bỏ các phần giây và phút không cần thiết, giúp nén dữ liệu mà vẫn giữ lại giá trị cần thiết để phân tích.

Tại sao các lựa chọn khác không đúng?

  • B. Change the data type of the Date column to Text:
    • Chuyển đổi kiểu dữ liệu từ datetime sang text sẽ không giúp giảm kích thước mô hình mà thậm chí có thể làm tăng kích thước do việc lưu trữ chuỗi văn bản tốn nhiều dung lượng hơn kiểu datetime.
  • C. Trim the Date column:
    • Trim chỉ có tác dụng loại bỏ khoảng trắng ở đầu và cuối chuỗi. Nó không áp dụng được cho cột có kiểu dữ liệu datetime, và sẽ không giúp giảm kích thước của mô hình.
  • D. Split the Date column into two columns, one that contains only the time and another that contains only the date:
    • Việc tách cột sẽ tạo ra hai cột mới, điều này không giúp giảm kích thước mà thậm chí có thể tăng kích thước mô hình do thêm dữ liệu bổ sung.

Việc làm tròn datetime đến giờ bắt đầu (startOfHour) giúp giảm độ chi tiết của dữ liệu và tối ưu hóa kích thước mô hình mà không làm mất đi bất kỳ thông tin cần thiết nào.\

Một số nguồn có thể chọn Đáp án D vì lý do sau đây:

  • Tối ưu hóa dung lượng lưu trữ:
    • Khi tách cột datetime thành hai cột riêng biệt (một cột date và một cột time), Power BI có thể lưu trữ dữ liệu hiệu quả hơn, đặc biệt khi cột date và cột time được sử dụng trong các phép tính hoặc bộ lọc khác nhau.
    • Kiểu dữ liệu Date và Time tốn ít dung lượng hơn so với kiểu dữ liệu DateTime, vì chúng chỉ cần lưu một phần của giá trị thay vì cả ngày và giờ.
  • Cải thiện hiệu suất truy vấn:
    • Khi tách thành hai cột, Power BI có thể tạo index hiệu quả hơn trên các cột riêng biệt, giúp tăng tốc độ truy vấn khi lọc theo ngày hoặc giờ.
    • Trong các tình huống chỉ cần lấy dữ liệu theo ngày hoặc giờ cụ thể, việc tách cột sẽ tối ưu hóa hiệu suất truy xuất dữ liệu.

Tuy nhiên, với yêu cầu của cầu của bài toán:

  • Yêu cầu bài toán là giảm kích thước mô hình mà không mất dữ liệu:
    • Làm tròn giá trị datetime (làm tròn đến đầu mỗi giờ) có thể giúp giảm số lượng giá trị duy nhất trong cột DateTime. Điều này nén dữ liệu tốt hơn mà vẫn giữ được mức độ chi tiết cần thiết.
    • Nếu mục tiêu chính là giảm kích thước mô hình, thì việc làm tròn có thể hiệu quả hơn tách cột, đặc biệt nếu báo cáo không yêu cầu truy xuất dữ liệu theo cả ngày và giờ riêng biệt.
  • Tách cột có thể không giúp giảm kích thước trong mọi trường hợp:
    • Nếu dữ liệu gốc có rất nhiều giá trị khác nhau cho từng phút và giây, việc tách cột sẽ tạo ra hai cột với nhiều giá trị duy nhất. Điều này có thể không thực sự giảm kích thước mô hình như mong đợi.
    • Trong nhiều trường hợp, Power BI vẫn cần lưu trữ cả hai cột và phải sử dụng thêm bộ nhớ cho hai cột riêng biệt, có thể làm tăng kích thước tổng thể của mô hình nếu không được tối ưu hóa tốt.

Question 28: You create a Power BI model that contains the sales for the last five years. The size of the model is 950 MB. The Sales table contains five million rows.

You need to minimize the model size and perform the following analysis: Current and one previous year sales for all active products

Current year sales by product category What should you do?

A. Remove the Product Status column.

B. Remove the rows that relate to inactive products.

C. Remove the rows that relate to sales that occurred more than two years earlier.

D. Remove the Sale Date column.

1. Đáp án đúng cho câu hỏi này là:

  • C. Remove the rows that relate to sales that occurred more than two years earlier.

2. Giải thích:

  • Dựa trên yêu cầu, chỉ cần phân tích dữ liệu bán hàng của năm hiện tại và năm trước đó, do đó không cần dữ liệu bán hàng từ hơn hai năm trước.
  • Việc xóa các hàng dữ liệu cũ sẽ giúp giảm đáng kể kích thước mô hình, đặc biệt khi mô hình hiện tại có tới 5 triệu dòng và kích thước mô hình lên đến 950 MB.

Tại sao các lựa chọn khác không đúng?

  • A. Remove the Product Status column:
    • Loại bỏ một cột có thể giúp giảm kích thước mô hình một chút, nhưng không tối ưu nếu cột này không có nhiều dữ liệu khác biệt hoặc kích thước cột nhỏ.
    • Hơn nữa, Product Status có thể cần thiết để xác định các sản phẩm đang hoạt động.
  • B. Remove the rows that relate to inactive products:
    • Việc xóa các hàng liên quan đến sản phẩm không hoạt động có thể giúp giảm một phần dữ liệu, nhưng không hiệu quả bằng việc xóa dữ liệu bán hàng cũ khi chỉ cần phân tích dữ liệu của hai năm gần nhất.
  • D. Remove the Sale Date column:
    • Cột Sale Date là rất quan trọng để thực hiện phân tích theo năm hiện tại và năm trước đó, nên việc xóa cột này sẽ làm mất khả năng phân tích theo thời gian.

Loại bỏ các hàng dữ liệu bán hàng từ hơn hai năm trước (đáp án C) là cách hiệu quả nhất để giảm kích thước mô hình trong khi vẫn đáp ứng được các yêu cầu phân tích hiện tại.

Xử lý lỗi khi load dữ liệu từ nguồn

Question 29: You import sales data using Power Query to apply a series of transformation steps after the query has been executed. There are errors, as shown in the exhibit for the Rename Column step and the exhibit for Cells. You need to resolve the errors without losing any data. How should you resolve step-level errors?

A. Change the Data Source Setting

B. Remove the step from Query Settings

C. Use the Remove Errors feature.

1. Đáp án đúng cho câu hỏi này là:

  • A. Change the Data Source Setting

2. Giải thích:

  • Khi gặp lỗi trong bước Rename Column hoặc trong các ô dữ liệu Cells sau khi nhập dữ liệu và thực hiện các bước biến đổi trong Power Query, rất có thể nguyên nhân là do thay đổi từ nguồn dữ liệu (Data Source).
  • Nếu cấu trúc hoặc tên cột trong nguồn dữ liệu thay đổi (ví dụ: cột đã được đổi tên hoặc bị xóa), các bước biến đổi phụ thuộc vào cột đó trong Power Query sẽ gây lỗi.
  • Giải pháp:
    • Nên kiểm tra và cập nhật Data Source Settings để đảm bảo rằng Power Query đang truy cập đúng vào phiên bản cập nhật của dữ liệu.
    • Cập nhật lại tên cột trong Data Source Settings nếu cần hoặc đảm bảo rằng dữ liệu nguồn vẫn khớp với các bước biến đổi đã thiết lập.

Tại sao các lựa chọn khác không đúng?

  • B. Remove the step from Query Settings:
    • Việc xóa bước có thể tạm thời loại bỏ lỗi, nhưng sẽ mất dữ liệu hoặc các biến đổi đã thiết lập, điều này không phù hợp nếu cần giữ nguyên các bước biến đổi ban đầu.
  • C. Use the Remove Errors feature:
    • Remove Errors chỉ xóa các hàng hoặc ô bị lỗi mà không sửa chữa vấn đề gốc rễ. Điều này có thể dẫn đến mất dữ liệu và không phải là giải pháp phù hợp nếu muốn khắc phục lỗi mà vẫn giữ lại tất cả dữ liệu.

Để giải quyết các lỗi mà không mất dữ liệu, nên thay đổi cài đặt nguồn dữ liệu (Data Source Settings) và đảm bảo rằng các bước biến đổi khớp với cấu trúc dữ liệu hiện tại.

Chia sẻ bài viết này

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

This site uses Akismet to reduce spam. Learn how your comment data is processed.