Mục lục
Nội dung ôn tập PL300: Clean & Transform Data
Nằm trong bước đầu tiên là Prepare Data, việc Clean & Transform Data được thực hiện ngay sau khi hoàn thành bước Load Data vào Power BI. Dưới đây là 5 nội dung cần chú ý:
- Hiểu về Clean & Transform Data
- Shape data structure
- Simplify data structure
- M Query
- Column Profiling
Giới thiệu chung
Nội dung chủ đề
Chủ đề này nói về những khái niệm cơ bản nhất về Clean & Transform Data – hai bước cơ bản và quan trọng trong quá trình xử lý dữ liệu. Cụ thể như sau:
- Khái niệm, vai trò của Clean & Transform Data
- Giới thiệu về Power Query Editor – công cụ làm sạch và biến đổi dữ liệu trong Power BI
Tầm quan trọng
Trang bị những khái niệm cơ bản nhất để người đọc nhận được vai trò, tầm quan trọng của Clean & Transform Data, đồng thời nắm được các kiến thức cơ bản, cách hoạt động, các đặc điểm của Power Query Editor trong Power BI – nơi quy trình Clean & Transform Data được thực hiện.
Khái niệm
- Cleaning Data: quá trình loại bỏ hoặc sửa chữa những lỗi sai, dữ liệu không chính xác, trùng lặp, hoặc thiếu trong dữ liệu thô để tăng độ chính xác và dễ phân tích.
- Transforming Data: quá trình thay đổi cấu trúc, định dạng hoặc nội dung của dữ liệu để phục vụ cho nhu cầu phân tích hoặc báo cáo
Nguồn: Power BI Transform Data | Hands-on guide with example (onlineappsdba.com)
- Power Query Editor: công cụ dùng để kết nối, làm sạch, và biến đổi dữ liệu từ nhiều nguồn trước khi tải vào Power BI, phục vụ mục đích chuẩn bị dữ liệu thô và đảm bảo nó có định dạng phù hợp cho phân tích.

Câu hỏi minh họa
Question 1: The primary data preparation tool in Power BI is called what?
- A. Report editor
- B. Power Query editor
- C. Data editor
1. Đáp án đúng: B. Power Query editor
2. Giải thích:
- B. Power Query editor: Đây là công cụ được thiết kế để giúp người dùng chuẩn bị dữ liệu một cách hiệu quả. Nó cung cấp các chức năng như lọc dữ liệu, xóa cột không cần thiết, biến đổi dữ liệu, hợp nhất các bảng từ nhiều nguồn khác nhau. Điều này rất quan trọng vì dữ liệu đầu vào thường không ở trạng thái sẵn sàng sử dụng mà cần qua xử lý để đảm bảo chính xác và nhất quán.
- A. Report editor: Công cụ này chỉ dùng để tạo các báo cáo và trực quan hóa dữ liệu đã được chuẩn bị xong. Nó không có các chức năng làm sạch hay biến đổi dữ liệu, vì vậy không thể sử dụng để xử lý dữ liệu thô.
- C. Data editor: Đây không phải là một công cụ trong Power BI. Việc nhắc đến một công cụ không tồn tại cho thấy đáp án này không phù hợp.
Tài liệu tham khảo: https://docs.microsoft.com/en-us/power-query/
Question 2: What is the Query Editor used for?
- A. As a cloud-based storage option for your organization’s data
- B. To shape & transform data, then load it into Power BI
- C. To create relationships between data and lookup tables
- D. To create measures & calculated columns using DAX
1. Đáp án đúng: B. To shape & transform data, then load it into Power BI
2. Giải thích:
- B. To shape & transform data, then load it into Power BI: Query Editor trong Power BI được dùng để làm sạch và chuẩn bị dữ liệu. Trong thực tế, dữ liệu đầu vào từ các nguồn thường có lỗi hoặc không định dạng đúng yêu cầu. Query Editor cho phép người dùng thực hiện các thao tác như lọc dữ liệu, biến đổi định dạng, thêm hoặc xóa cột, hợp nhất các bảng dữ liệu. Sau khi hoàn thành, dữ liệu này sẽ được nạp vào mô hình Power BI để sử dụng trong báo cáo và phân tích.
- A. As a cloud-based storage option for your organization’s data: Power Query không phải là công cụ lưu trữ dữ liệu. Các hệ thống lưu trữ đám mây như Azure hay SQL Server mới là nơi đảm nhận chức năng này. Do đó, đáp án này không đúng với vai trò của Query Editor.
- C. To create relationships between data and lookup tables: Tạo mối quan hệ giữa bảng dữ liệu được thực hiện trong giao diện Relationships của Power BI, không phải trong Query Editor. Vì vậy, đáp án này không phù hợp với câu hỏi.
- D. To create measures & calculated columns using DAX: Các phép tính measure và calculated column được tạo bằng ngôn ngữ DAX, thao tác này được thực hiện trong Data view hoặc Report view, không liên quan đến Query Editor. Điều này làm đáp án này không đúng.
Tài liệu tham khảo: https://docs.microsoft.com/en-us/power-bi/transform-model/desktop-query-overview
Question 3: You have a Power BI model that contains sensor data from 500 sensors that return temperature readings each minute. Your reporting requirements contain the need to calculate the average temperature from each sensor at every hour. The reports do NOT show the raw data for each minute. You need to reduce the size of the model to improve performance. What should you do?
- A. Create visuals that group the data by hour
- B. Use Power Query to group the sensor data by hour
- C. Add a report filter for the Hour column
- D. Remove the rows that contain readings
1. Đáp án đúng: B. Use Power Query to group the sensor data by hour
2. Giải thích:
- B. Use Power Query to group the sensor data by hour: Đây là phương pháp hiệu quả nhất để giảm kích thước mô hình Power BI mà vẫn giữ được thông tin cần thiết. Thay vì lưu trữ dữ liệu từng phút, Power Query có thể tổng hợp dữ liệu bằng cách tính trung bình nhiệt độ theo giờ. Kết quả là tập dữ liệu nhỏ gọn hơn, giảm tải cho mô hình Power BI, đồng thời cải thiện hiệu suất khi tạo báo cáo.
- A. Create visuals that group the data by hour: Tạo biểu đồ nhóm dữ liệu theo giờ chỉ thay đổi cách hiển thị dữ liệu trong báo cáo. Tuy nhiên, dữ liệu từng phút vẫn tồn tại trong mô hình, không giúp giảm kích thước tập dữ liệu hoặc cải thiện hiệu suất.
- C. Add a report filter for the Hour column: Bộ lọc chỉ áp dụng lên dữ liệu được hiển thị trong báo cáo, nhưng dữ liệu thô từng phút vẫn được lưu trong mô hình. Điều này không làm giảm kích thước của tập dữ liệu hoặc cải thiện hiệu suất mô hình.
- D. Remove the rows that contain readings: Việc xóa dữ liệu từng phút đồng nghĩa với việc mất thông tin quan trọng để tính trung bình nhiệt độ theo giờ. Điều này sẽ khiến báo cáo không thể đáp ứng yêu cầu.
Shape data structure
Nội dung chủ đề
Chủ đề này nói về thao tác Shape data structure (định hình cấu trúc dữ liệu) trong quá trình Clean & Transform Data trong Power BI. Đây là quá trình thay đổi hoặc điều chỉnh cách dữ liệu được tổ chức và trình bày để phù hợp với yêu cầu phân tích và trực quan hóa, đảm bảo rằng dữ liệu có thể được khai thác một cách hiệu quả, hỗ trợ cho việc tạo ra các báo cáo và biểu đồ phân tích chính xác.
Tầm quan trọng
Việc Shape Data Structure không chỉ giúp đảm bảo rằng dữ liệu có cấu trúc phù hợp cho việc phân tích mà còn giúp cải thiện tốc độ, hiệu quả và độ chính xác của quá trình phân tích dữ liệu. Điều này là cần thiết để có thể sử dụng dữ liệu một cách hiệu quả, tạo ra các kết quả phân tích đáng tin cậy, và hỗ trợ ra quyết định một cách nhanh chóng trong môi trường kinh doanh hiện đại.
Ngoài ra, việc làm quen các thao tác, tìm hiểu cách thức vận hành của các công cụ trong quá trình này sẽ giúp người đọc có thể giải quyết được các tình huống trong thực tế, đồng thời có khả năng làm sạch + xử lý dữ liệu theo mong muốn của bản thân và theo yêu cầu của công việc.
Khái niệm và lý thuyết tổng quan
Đây là những khái niệm sẽ xuất hiện trong bộ đề PL300, do vậy có thể không phản ánh đầy đủ các khái niệm có trên thực tế. Chúng tôi chia các khái niệm thành hai nhóm lớn.
Nhóm 1. Thao tác trong một table. Đây là việc định hình cấu trúc dữ liệu dựa vào việc thao tác trên một cột. Cụ thể như sau:
- Use first row as header: thao tác cho phép biến hàng đầu tiên của dữ liệu thành tiêu đề (header) của các cột trong bảng dữ liệu.

Nguồn: statology.org
- Pivot column: thao tác thay đổi cấu trúc từ lưu trữ theo chiều dọc thành chiều ngang

- Unpivot column: thao tác thay đổi cấu trúc từ lưu trữ theo chiều ngang thành chiều dọc

- Transpose: quá trình hoán đổi hàng thành cột và cột thành hàng. Nói cách khác, các hàng sẽ trở thành cột, và các cột sẽ trở thành hàng.
Nguồn: Leanerea
- Binning data: phân chia dữ liệu thành các nhóm để giảm độ phức tạp của dữ liệu và giúp dễ dàng phân tích, trực quan hóa hơn.
- Group By: thao tác trong Power Query giúp nhóm các dòng có cùng giá trị lại với nhau và thực hiện các phép tính tổng hợp trên chúng, từ đó giúp bạn tóm tắt và phân tích dữ liệu dễ dàng hơn.
- Data Type: loại dữ liệu mà 1 column hoặc field trong data model có thể chứa. Data type ảnh hưởng đến cách Power BI xử lý, lưu trữ, và phân tích dữ liệu, đồng thời tác động đến hiệu suất và độ chính xác của các phép tính.
- Các loại Data Type phổ biến bao gồm:
- Whole Number (Số nguyên): Dữ liệu số không có phần thập phân. Ví dụ: 10, 200.
- Decimal Number (Số thập phân): Dữ liệu số có phần thập phân. Ví dụ: 3.14, 100.75.
- Fixed Decimal Number (Số thập phân cố định): Số thập phân với độ chính xác cố định. Ví dụ: 1234.56.
- Percentage (Phần trăm): Dữ liệu dạng phần trăm. Ví dụ: 50%, 3.5%.
- Date/Time (Ngày và giờ): Cả ngày và giờ. Ví dụ: 2024-09-28 12:30:00 PM.
- Date (Ngày): Dữ liệu chỉ chứa ngày tháng. Ví dụ: 2024-09-28.
- Time (Thời gian): Dữ liệu chỉ chứa giờ. Ví dụ: 12:30:00 PM.
- Date/Time/Timezone (Ngày, giờ kèm múi giờ): Ngày và giờ có múi giờ. Ví dụ: 2024-09-28 12:30:00 PM +07:00.
- Duration (Khoảng thời gian): Khoảng thời gian. Ví dụ: 02:45:00 (2 giờ 45 phút).
- Text (Chuỗi ký tự): Dữ liệu văn bản. Ví dụ: “John Doe”, “Product A”.
- True/False (Boolean): Dữ liệu có hai giá trị logic: đúng/sai. Ví dụ: True/False.
- Binary (Dữ liệu nhị phân): Dữ liệu dạng tệp nhị phân như hình ảnh hoặc âm thanh.
- Currency (Tiền tệ): Dữ liệu số với định dạng tiền tệ. Ví dụ: 1000 USD, 150 EUR.
- Geography (Dữ liệu địa lý): Dữ liệu địa lý, chẳng hạn như vị trí hoặc tọa độ. Ví dụ: kinh độ, vĩ độ, quốc gia.
- Remove unnecessary rows/column (Xóa cột/hàng không cần thiết): giữ lại những cột/hàng chứa thông tin quan trọng hoặc cần thiết cho phân tích
- Combine column: Kết hợp các giá trị từ nhiều cột trong một bảng vào một cột mới.
Nhóm 2. Kết hợp dữ liệu giữa các table/query để tạo thành 1 table/query duy nhất. Bao gồm:
- Merge Queries: quá trình kết hợp hai bảng dữ liệu dựa trên một cột chung, giống như phép JOIN trong SQL. Kết quả của quá trình này là một bảng dữ liệu mới với các cột từ cả hai bảng được kết hợp dựa trên giá trị chung giữa các cột. Tài liệu tham khảo: Tự học Power BI 13: Gộp bảng với chức năng Merge Queries (datapot.vn)

- Các Join Type trong Merge Queries:
- INNER JOIN: chúng ta sẽ nhận được kết quả là cột chung giữa bảng 1 và bảng 2.
- FULL OUTER : chúng ta sẽ nhận toàn bộ kết quả của các bảng.
- LEFT OUTER JOIN hay RIGHT OUTER JOIN: chúng ta sẽ nhận được kết quả là toàn bộ bảng 1 (bảng bên trái LEFT hoặc bên phải RIGHT) và thêm vào là những dòng giá trị matching ở bảng 2 có mã (Key) tồn tại ở trong bảng 1.
- LEFT ANTI JOIN hay RIGHT ANTI JOIN: chúng ta sẽ nhận được kết quả là các dòng giá trị bảng 1 (bảng bên trái LEFT JOIN hoặc bên phải RIGHT) mà KHÔNG có giá trị khớp với bảng 2 theo giá trị mã (Key).

- Appending queries: kết hợp các bảng có cấu trúc giống nhau bằng cách thêm các hàng từ bảng này vào bảng kia, mở rộng bảng theo chiều dọc.

- Combine Files: lệnh được sử dụng để kết hợp nhiều file trong cùng một folder thành một bảng dữ liệu duy nhất.
Câu hỏi về shapre data structure trong Power BI
Question 4: You have a custom connector that returns ID, From, To, Subject, Body, and Has Attachments for every email sent during the past year. More than 10 million records are returned. You build a report analyzing the internal networks of employees based on whom they send emails to. You need to prevent report recipients from reading the analyzed emails. The solution must minimize the model size. What should you do?
- A. Implement row-level security (RLS) so that the report recipients can only see results based on the emails they sent.
- B. Remove the Subject and Body columns during the import.
- C. From Model view, set the Subject and Body columns to Hidden.
Giải thích sơ bộ:
Mục tiêu
Câu hỏi yêu cầu tìm cách ngăn người nhận báo cáo truy cập vào nội dung email đồng thời giảm kích thước mô hình dữ liệu. Để làm được việc này, cần hiểu rõ chức năng của từng giải pháp được đưa ra và chọn cách phù hợp nhất với cả hai yêu cầu.
Giải thích
- A. Implement row-level security (RLS) so that the report recipients can only see results based on the emails they sent: mặc dù RLS giới hạn quyền truy cập vào các hàng dữ liệu mà người dùng có thể xem, tuy nhiên tính năng này không giúp loại bỏ các cột chứa dữ liệu nhạy cảm và cũng không giảm kích thước mô hình
- B. Remove the Subject and Body columns during the import: loại bỏ các cột không cần thiết trong quá trình nhập dữ liệu là giải pháp tối ưu vì nó không chỉ ngăn người dùng xem nội dung email mà còn giúp giảm kích thước mô hình dữ liệu. Bằng cách xóa các cột như Subject và Body, bạn loại bỏ dữ liệu không cần thiết trước khi tải vào mô hình, giúp tối ưu hóa hiệu suất và bảo mật -> đúng
- C. From Model view, set the Subject and Body columns to Hidden: việc ẩn cột chỉ làm cho các cột này không hiển thị trong báo cáo, nhưng dữ liệu vẫn tồn tại trong mô hình và có thể được truy cập bởi người dùng thông qua các cách khác. Nó không giúp giảm kích thước mô hình
Đáp án đúng: B
Question 5: The process of shaping data by converting your flat data into a table that contains an aggregation value for each unique value in a column is called what?
- A. Group by columns
- B. Pivot (pivoting a column)
- C. Manage aggregations
Giải thích sơ bộ:
Mục tiêu
Câu hỏi này yêu nhận biết thao tác nào biến đổi dữ liệu từ dạng phẳng thành một bảng chứa các giá trị tổng hợp cho mỗi giá trị duy nhất trong một cột.
Giải thích đáp án
- A. Group by columns: nhóm các hàng lại với nhau để tính toán tổng hợp nhưng không chuyển đổi cấu trúc dữ liệu thành nhiều cột
- B. Pivot (pivoting a column): đúng theo định nghĩa -> đúng
- C. Manage aggregations: tính năng tạo ra một bảng tóm tắt (nhỏ hơn) từ bảng chi tiết lớn tối ưu hóa hiệu suất cho các bảng lớn trong Power BI, nhưng không liên quan đến việc thay đổi cấu trúc bảng
Đáp án đúng: B
Tài liệu tham khảo: Pivot columns feature description – Power Query | Microsoft Learn
Question 6: You are previewing an Excel file in Power Query Editor in Power BI Desktop. The file contains data in a matrix format with years on the columns, months on the rows, and sales amount in the values. You need to shape the data into a table with three columns. What should you do?
- A. Unpivot
- B. Pivot
- C. Use First Row as Headers
- D. Transpose
Giải thích sơ bộ:
Mục tiêu
Câu hỏi này này yêu cầu chuyển dữ liệu ở Matrix Format (năm trong cột, tháng trong hàng) thành một bảng chứa 3 cột (năm, tháng, và doanh số). Matrix Format là cách tổ chức dữ liệu dưới dạng hàng và cột, trong đó các giá trị được hiển thị tại giao điểm của chúng.
Nguồn: ResearchGate
Giải thích
- A. Unpivot: cần unpivot các cột năm để chuyển đổi dữ liệu trong bài thành một bảng có 3 cột cụ thể -> đúng
- B. Pivot: quá trình chuyển các hàng thành cột, nhưng trong trường hợp này cần chuyển các cột thành hàng
- C. Use First Row as Headers: không giải quyết được yêu cầu chuyển đổi định dạng dữ liệu do thao tác này có chức năng chọn dòng đầu tiên làm tiêu đề cột
- D.Transpose: đổi toàn bộ bảng từ hàng thành cột và ngược lại, nhưng không tạo ra 3 cột cần thiết như trong yêu cầu bài toán
Đáp án đúng: A
Question 7: You work as an analyst at Cat Slacks and you’ve just been handed a csv file with yearly sales by department. After connecting to it in Power BI, you notice that each year has its own column. Which Power Query tool can you use to turn the multiple “Year” columns into rows?
- A. Pivot
- B. Unpivot
- C. Transpose
- D. Group By
Đề bài minh họa:

Output:

Giải thích sơ bộ:
Mục tiêu
Câu hỏi này xác định công cụ trong Power Query mà bạn có thể sử dụng để chuyển đổi các cột (năm) thành các hàng trong một bảng dữ liệu.
Giải thích
- A. Pivot: chuyển đổi data từ hàng thành cột
- B. Unpivot: ở bài toán này, data có nhiều cột đại diện cho các năm và cần được chuyển thành các hàng, giữ nguyên các thông tin khác -> đúng
- C.Transpose: hoán đổi cả cấu trúc của bảng
- D. Group By: có chức năng nhóm dữ liệu dựa trên các field và tính toán tổng hợp
Đáp án đúng: B
Tài liệu tham khảo: https://support.microsoft.com/en-us/office/unpivot-columns-power-query-0f7bad4b-9ea1-49c1-9d95-f588221c7098
Question 8: Which Power Query tool can you use to roll-up daily transaction data into monthly transactions?
- A. Merging Queries
- B. Appending Queries
- C. Group By
- D. Pivot Columns
Giải thích sơ bộ:
Mục tiêu:
Xác định công cụ nào trong Power Query để tổng hợp dữ liệu giao dịch hàng ngày và tạo thành các bản ghi tổng hợp theo tháng => tóm tắt nhóm dữ liệu
Giải thích:
- A. Merging Queries: hợp nhất truy vấn,không liên quan đến việc tổng hợp dữ liệu
- B. Appending Queries: thêm dữ liệu từ bảng này vào bảng khác, không thực hiện tính tổng hợp
- C. Group By: cho phép bạn nhóm các bản ghi theo một cột (ví dụ: theo tháng) và sau đó thực hiện các phép tính tổng hợp như tổng doanh số hoặc số lượng giao dịch trong mỗi nhóm. Để tổng hợp giao dịch hàng ngày thành hàng tháng, bạn có thể group by theo tháng (dựa trên cột ngày) và tính tổng hoặc số lượng giao dịch theo tháng -> đúng
- D. Pivot Columns: chuyển dữ liệu từ dạng hàng sang cột, không liên quan đến việc tổng hợp dữ liệu theo ngày hoặc tháng
Đáp án đúng: C
Tài liệu tham khảo: https://www.passnexam.com/microsoft/pl-300/6#google_vignette
Question 9: A critical aspect of data aggregation is that it allows you to focus on what?
- A. The important and most meaningful data
- B.Disabling interactive analysis over big data
- C. Larger cache size and decreased query performance
Giải thích sơ bộ:
Mục tiêu
Câu hỏi yêu cầu bạn hiểu được mục tiêu cốt lõi của việc tổng hợp dữ liệu – khả năng giúp bạn tập trung vào các dữ liệu quan trọng và có ý nghĩa nhất, từ đó đưa ra các kết luận hoặc quyết định phù hợp dựa trên dữ liệu đã được đơn giản hóa.
Giải thích
- A. The important and most meaningful data: khi tổng hợp dữ liệu, bạn loại bỏ các chi tiết không cần thiết để chỉ giữ lại những thông tin có ý nghĩa cho việc ra quyết định -> đúng
- B. Disabling interactive analysis over big data: tổng hợp dữ liệu không liên quan đến vô hiệu hóa phân tích tương tác
- C. Larger cache size and decreased query performance: không phải, tổng hợp dữ liệu giúp giảm kích thước cache và tăng hiệu suất truy vấn
Đáp án đúng: A
Tài liệu tham khảo: https://datascience.stackexchange.com/questions/60533/meaningful-and-non-meaningful-data
Question 10: Before you start creating aggregations, you should first decide what?
- A. The storage mode of your aggregation
- B. The granularity (level) on which to create them
Giải thích sơ bộ:
Mục tiêu
Câu hỏi yêu cầu bạn phải quyết định yếu tố quan trọng nhất trước khi tạo phép tổng hợp.
Giải thích
- A. The storage mode of your aggregation: không phải là yếu tố tiên quyết vì chủ yếu ảnh hưởng đến cách dữ liệu được truy vấn và lưu trữ, nhưng không quyết định trực tiếp đến nội dung và cấu trúc của phép tổng hợp
- B. The granularity (level) on which to create them: yếu tố quyết định bạn sẽ giữ lại thông tin ở mức độ nào (ví dụ: theo ngày, theo tuần, hoặc theo tháng). Nếu không xác định đúng mức độ chi tiết, các phép tính tổng hợp của bạn có thể không phù hợp với nhu cầu phân tích hoặc giảm hiệu suất mô hình dữ liệu -> đúng
Đáp án đúng: B.
Question 11: How many rows does Power Query scan to detect the type of data in the columns?
- A. 10,000
- B. 1,000
- C. 100
Giải thích sơ bộ:
Mục tiêu:
Xác định số lượng hàng mà Power Query sẽ quét để phát hiện kiểu dữ liệu trong các cột.
Giải thích:
- A. 10,000: Power Query không quét đến 10,000 hàng. Điều này sẽ làm giảm hiệu suất không cần thiết
- B. 1,000: Power Query mặc định quét 1,000 hàng đầu tiên để phát hiện kiểu dữ liệu. Điều này đủ để đảm bảo việc xác định kiểu dữ liệu một cách chính xác mà vẫn giữ được hiệu suất tốt -> đúng
- C. 100: Việc quét chỉ 100 hàng có thể không đủ để xác định kiểu dữ liệu chính xác, đặc biệt là đối với các tập dữ liệu lớn và phức tạp
Đáp án đúng: B
Tài liệu tham khảo: Power Query Data Types – Microsoft Documentation
Question 12: What type of import error might leave a column blank?
- A. Keep errors
- B. Unpivot columns
- C. Data type error
Giải thích sơ bộ
Mục tiêu:
Xác định loại lỗi nhập liệu nào có thể dẫn đến việc một cột bị để trống trong quá trình nhập dữ liệu vào Power Query.
Giải thích:
- A. Keep errors: các hàng có lỗi vẫn sẽ hiển thị trong bảng, thường sẽ có một thông báo lỗi ở cột tương ứng, thay vì để trống
- B. Unpivot columns: không làm cho cột bị để trống, mà chỉ tái cấu trúc dữ liệu. Nếu có lỗi trong dữ liệu sau khi unpivot, các giá trị đó có thể vẫn tồn tại hoặc bị đánh dấu lỗi, nhưng không để trống
- C. Data type error: nếu có giá trị trong cột không tương thích với kiểu dữ liệu đã được chỉ định cho cột đó, Power Query có thể không thể xử lý giá trị đó và để trống cột tương ứng trong kết quả cuối cùng -> đúng
Đáp án đúng: C
Question 13: You are importing sales data from a Microsoft Excel file named Sales.xlsx into Power BI Desktop. You need to create a bar chart showing the total sales amount by region.When you create the bar chart, the regions appear as expected, but the sales amount value displays the count of sales amount instead of the sum of sales amount each region. You need to modify the query to ensure that the data appears correctly. What should you do?
- A. Delete the query, import the data into Microsoft SQL Server, and then import the data from SQL Server.
- B. In Query Editor, add a calculated column that totals the sales amount column.
- C. Change the Data Type of sales amount column to Numeric.
- D. Refresh the data model.
Giải thích sơ bộ:
Mục tiêu
Tìm ra cách điều chỉnh dữ liệu trong Power BI Desktop để hiển thị tổng doanh thu theo khu vực, thay vì số lượng các giao dịch doanh thu.
Giải thích
- A. Delete the query, import the data into Microsoft SQL Server, and then import the data from SQL Server: không cần thiết và phức tạp
- B. In Query Editor, add a calculated column that totals the sales amount column: không cần thiết, thậm chí làm tăng khối lượng dữ liệu và làm cho báo cáo phức tạp hơn
- C. Change the Data Type of sales amount column to Numeric: bằng cách thay đổi kiểu dữ liệu của cột doanh thu sang Numeric, bạn sẽ cho Power BI biết rằng cột này chứa giá trị số, và sau đó, khi bạn tạo biểu đồ, nó sẽ tự động tổng hợp giá trị theo khu vực -> đúng
- D. Refresh the data model: làm mới mô hình mà không thay đổi kiểu dữ liệu sẽ không giải quyết được vấn đề
Đáp án đúng: C
Question 14: You have a Power BI data model that contains a table named Contacts.
Contacts contains the following text columns:
- Name
- Phone
- Subscribed to Newsletter
The Phone column contains the area code, number, and country code. The Subscribed to Newsletter column contains a value of true or false. You need to minimize the size of the data model by changing a column’s data type. The solution must prevent data loss. What should you do?
- A. Change Phone to a decimal data type.
- B. Change Phone to a whole number data type.
- C. Change Subscribed to Newsletter to a binary data type.
- D. Change Subscribed to Newsletter to a True/False data type.
Giải thích sơ bộ:
Mục tiêu:
Tìm ra cách tối ưu hóa kích thước mô hình dữ liệu Power BI bằng cách thay đổi kiểu dữ liệu của một cột mà không làm mất dữ liệu.
Giải thích:
- A. Change Phone to a decimal data type: do giá trị của cột Phone chứa các kí tự dạng text như mã vùng, mã quốc gia nên việc chuyển đổi này có thể dẫn đến mất dữ liệu
- B. Change Phone to a whole number data type: giải thích tương tự với đáp án A.
- C. Change Subscribed to Newsletter to a binary data type: không phù hợp cho cột “Subscribed to Newsletter”. Chuyển đổi cột này sang kiểu nhị phân có thể làm mất thông tin hoặc không giữ nguyên được giá trị true/false mà nó đang có
- D. Change Subscribed to Newsletter to a True/False data type: đây là kiểu dữ liệu phù hợp. Việc chuyển đổi này sẽ tối ưu hóa kích thước của mô hình dữ liệu mà không làm mất dữ liệu, vì nó chỉ đơn giản là thay đổi cách lưu trữ giá trị mà không thay đổi nội dung -> đúng.
Đáp án đúng: D
Question 15: Which of these statements is NOT true about merging queries?
- A. Merging queries allows you to join tables based on a common column
- B. Merging adds columns to an existing table
- C. You should merge tables whenever possible
- D. You can merge queries by different join kinds (left outer, inner, etc.)
Giải thích sơ bộ:
Mục tiêu
Xác định phát biểu nào không đúng về việc gộp (merge) truy vấn trong Power BI để hiểu được rõ về bản chất và chức năng của Merge Query
Giải thích
- A. Merging queries allows you to join tables based on a common column: khi merge queries, bạn cần một cột chung giữa hai bảng để thực hiện phép nối => nhận định đúng => đáp án sai
- B. Merging adds columns to an existing table: khi gộp bảng, các cột từ bảng thứ hai sẽ được thêm vào bảng gốc dựa trên cột chung => nhận định đúng => đáp án sai
- C. You should merge tables whenever possible: việc gộp bảng chỉ nên thực hiện khi cần thiết để tránh tạo ra các bảng phức tạp, không cần thiết. Các tình huống khác như append queries (gộp hàng) có thể được ưu tiên trong một số trường hợp => nhận định SAI => đáp án ĐÚNG
- D. You can merge queries by different join kinds (left outer, inner, etc.): khi thực hiện Merge Queries, Power BI cho phép lựa chọn nhiều loại join type khác nhau => nhận định đúng => đáp án sai
Đáp án đúng: C
Question 16: Which of these operations adds rows to an existing table?
- A. Group By
- B. Pivotig
- C. Merging queries
- D. Appending queries
Giải thích sơ bộ:
Mục tiêu
Xác định thao tác nào trong Power BI thêm các hàng vào bảng hiện có.
Giải thích
- A. Group By: nhóm dữ liệu, không thêm hàng
- B. Pivoting: thay đổi cấu trúc cột và hàng, không thêm hàng
- C. Merging queries: thêm cột từ bảng khác, không thêm hàng
- D. Appending queries: thao tác thêm các hàng từ bảng này vào bảng khác, mở rộng bảng theo chiều dọc -> đúng
Đáp án đúng: D
Tài liệu tham khảo: https://learn.microsoft.com/vi-vn/power-query/append-queries
Question 17: If you have two queries that contain different data with the same structure, and you want to combine them into one query, which operation should you perform?
- A. Merge
- B. Append
- C. Combine column
Giải thích sơ bộ:
Mục tiêu:
Xác định thao tác nào cần thực hiện khi có hai bảng hoặc truy vấn chứa dữ liệu khác nhau nhưng có cùng cấu trúc cột, và muốn kết hợp chúng thành một bảng duy nhất.
Giải thích:
- A. Merge: chỉ hữu ích khi bạn muốn thêm cột từ bảng này vào bảng khác dựa trên một cột chung
- B. Append: kết hợp các hàng từ hai bảng hoặc truy vấn có cùng cấu trúc cột -> đúng
- C. Combine column: không kết hợp các bảng, mà chỉ dùng để hợp nhất dữ liệu từ nhiều cột trong một bảng
Đáp án đúng: B
Tài liệu tham khảo: https://learn.microsoft.com/vi-vn/power-query/append-queries
Question 18: You have a data model that contains many complex DAX expressions. The expressions contain frequent references to the RELATED and RELATEDTABLE functions. You need to recommend a solution to minimize the use of the RELATED and RELATEDTABLE functions. What should you recommend?
- A. Split the model into multiple models.
- B. Hide unused columns in the model.
- C.Merge tables by using Power Query.
- D. Transpose.
Giải thích sơ bộ:
Mục tiêu
Xác định phương pháp để giảm thiểu việc sử dụng hàm RELATED và RELATEDTABLE trong các biểu thức DAX bằng cách thay đổi cấu trúc của mô hình dữ liệu.
RELATED và RELATEDTABLE là các hàm DAX được sử dụng để truy xuất dữ liệu từ related tables. Trong đó:
- RELATED truy xuất một giá trị từ bảng liên quan
- RELATEDTABLE trả về một bảng con liên quan dựa trên mối quan hệ đã được thiết lập trong mô hình dữ liệu.
Vấn đề với việc sử dụng quá nhiều RELATED và RELATEDTABLE đó là làm chậm hiệu suất mô hình vì Power BI phải thực hiện nhiều phép tính phức tạp dựa trên mối quan hệ giữa các bảng.
Giải pháp được đưa ra là gộp bảng bằng Power Query. Thao tác này có thể gộp các bảng liên quan thành một bảng duy nhất bằng cách sử dụng Power Query trước khi tải dữ liệu vào Power BI. Làm vậy thì không cần dùng đến hàm RELATED và RELATEDTABLE vì tất cả dữ liệu cần thiết sẽ có trong một bảng duy nhất, dẫn đến mô hình dữ liệu đơn giản và nhanh hơn.
Giải thích
- A. Split the model into multiple models: không giúp giảm thiểu việc sử dụng RELATED và RELATEDTABLE, mà thậm chí có thể làm phức tạp mô hình hơn
- B. Hide unused columns in the model: có thể giúp đơn giản hóa giao diện nhưng không ảnh hưởng đến việc sử dụng các hàm DAX như RELATED hay RELATEDTABLE
- C. Merge tables by using Power Query: loại bỏ sự cần thiết của việc sử dụng các hàm RELATED và RELATEDTABLE trong DAX, vì mọi dữ liệu cần thiết đều nằm trong một bảng duy nhất -> đúng
- D. Transpose: không liên quan đến việc giảm thiểu các hàm DAX trong mô hình dữ liệu
Đáp án đúng: C
Tài liệu tham khảo: RELATED function (DAX) – DAX | Microsoft Learn
Question 19: You have the following two queries in Power BI Desktop:
- A query named Query1 that retrieves a table named SMB_Customers from a Microsoft SQL Server database
- A query named Query2 that retrieves a table named Enterprise_Customers from an Oracle Server database
Both tables have the same columns. You need to combine the data from SMB_Customers and Enterprise_Customers. Which command should you use?
- A. Combine Files
- B. Merge Queries
- C. Merge Columns
- D. Append Queries
Giải thích sơ bộ:
Mục tiêu
Kết hợp dữ liệu từ hai bảng có cùng cấu trúc cột (từ Microsoft SQL Server và Oracle Server) thành một bảng duy nhất.
Giải thích
- A. Combine Files: chỉ áp dụng khi bạn đang làm việc với nhiều tệp tin chứa dữ liệu có cấu trúc giống nhau. Không áp dụng trong trường hợp làm việc với cơ sở dữ liệu
- B. Merge Queries: chỉ kết hợp dữ liệu dựa trên cột chung, không phải để gộp các bảng có cùng cấu trúc hàng như trong trường hợp này
- C. Merge Columns: kết hợp giá trị từ nhiều cột thành một cột duy nhất, không liên quan đến việc gộp hai bảng
- D. Append Queries: thêm tất cả các hàng từ bảng Enterprise_Customers vào bảng SMB_Customers thành một bảng duy nhất -> đúng
Đáp án đúng: D
Tài liệu tham khảo: Append queries
Question 20: You import two Microsoft Excel tables named Customer and Address into Power Query.
Customer contains the following columns:
- Customer ID
- Customer Name
- Phone
- Email Address
- Address ID
Address contains the following columns:
- Address ID
- Address Line 1
- Address Line 2
- City
- State/Region
- Country
- Postal Code
The Customer ID and Address ID columns represent unique rows. You need to create a query that has one row per customer. Each row must contain City, State/Region, and Country for each customer. What should you do?
- A. Merge the Customer and Address tables.
- B. Transpose the Customer and Address tables.
- C. Group the Customer and Address tables by the Address ID column.
- D. Append the Customer and Address tables.
Giải thích sơ bộ:
Mục tiêu:
Kết hợp dữ liệu từ hai bảng Customer và Address để mỗi hàng đại diện cho một khách hàng, kèm theo thông tin về City, State/Region, và Country.
Giải thích:
- A. Merge the Customer and Address tables: cho phép bạn kết hợp hai bảng dựa trên cột chung giữa chúng (trong trường hợp này là Address ID). Kết quả là mỗi khách hàng trong bảng Customer sẽ có thông tin địa chỉ từ bảng Address -> đúng
- B. Transpose the Customer and Address tables: thao tác hoán đổi hàng và cột không phù hợp với yêu cầu này
- C. Group the Customer and Address tables by the Address ID column: không giúp bạn kết hợp hai bảng với nhau mà chỉ tạo ra các tổng hợp dữ liệu
- D. Append the Customer and Address tables: chỉ thêm hàng từ bảng này vào bảng kia nếu cả hai bảng có cùng cấu trúc, mà bảng Customer và Address không có cùng cấu trúc cột
Đáp án đúng: A
Simplify data structure
Nội dung chủ đề
Chủ đề này nói về các thao tác và các usecase thường gặp trong quá trình simplify data structure (đơn giản hóa cấu trúc dữ liệu). Đây là quá trình điều chỉnh và tổ chức dữ liệu để làm cho nó dễ hiểu, dễ quản lý và hiệu quả hơn trong việc phân tích.
Tầm quan trọng
Việc đơn giản hóa cấu trúc dữ liệu là một thao tác quan trọng trong quá trình Clean & Transform Data với các vai trò như sau:
- Cải thiện hiệu suất: tăng tốc độ truy vấn và giảm thời gian load dữ liệu
- Tiết kiệm tài nguyên: giảm mức tiêu thụ bộ nhớ và giảm chi phí lưu trữ
- Dễ dàng bảo trì: giảm nguy cơ mắc lỗi và quản lý dễ dàng hơn
- Nâng cao khả năng phân tích: việc tìm kiếm + truy cập dữ liệu trở nên dễ dàng, ngoài ra còn tạo những báo cáo và phân tích hiệu quả hơn.
- Tăng tính trực quan, cải thiện trải nghiệm người dùng
- Hỗ trợ cho việc ra quyết định
Để quá trình đơn giản hóa cấu trúc dữ liệu đạt được hiệu quả như mong đợi, người dùng cần nắm bắt những nguyên tắc cơ bản, đồng thời sử dụng thành thạo các công cụ trong quá trình này.
Khái niệm và lý thuyết tổng quan
- Change table/column names: thao tác thay đổi tên bảng dữ liệu và tên cột trong đó để cải thiện khả năng quản lý dữ liệu, trực quan hóa và đọc hiểu báo cáo.
- Remove unnecessary rows/column: giữ lại những cột/hàng chứa thông tin quan trọng hoặc cần thiết cho phân tích
- Null: trạng thái một ô không tồn tại dữ liệu
- Blank: trạng thái một ô có giá trị rỗng
- Working with data column: quá trình thao tác và xử lý các cột dữ liệu trong bảng, bao gồm các định nghĩa sau
- Replace Values: thao tác thay thế giá trị này bằng giá trị khác
- Fill: thao tác điền giá trị trống (null hoặc blank) với giá trị của ô ở trên (Fill Down) hay giá trị của ô ở dưới (Fill Up)
- Extract: trích xuất một phần dữ liệu từ các cột có sẵn để dữ liệu có cấu trúc rõ ràng hơn, dễ phân tích. Power Query có các kiểu Extract như sau:
- Extract Text Before/After/Between Delimiters: trích xuất văn bản trước/sau/giữa các dấu phân cách
- Extract First/Last Characters: trích xuất một số lượng ký tự đầu/cuối chuỗi
- Extract Length: trích xuất dựa trên số kí tự mà bạn mong muốn
- Extract Range: trích xuất một phần của dữ liệu, dựa vào vị trí bắt đầu và số lượng kí tự bạn muốn lấy
- Format: thực hiện các thao tác định dạng trên văn bản. Bao gồm:
- Uppercase: Chuyển văn bản thành chữ hoa.
- Lowercase: Chuyển văn bản thành chữ thường.
- Capitalize Each Word: Viết hoa chữ cái đầu của mỗi từ.
- Trim: Loại bỏ khoảng trắng thừa.
- Clean: Loại bỏ các ký tự không mong muốn.
- Length: Tính độ dài chuỗi
- Add Column: tạo thêm cột mới dựa trên các phép tính, điều kiện, hoặc thao tác dựa vào dữ liệu có sẵn trong bảng. Cụ thể như sau:
- Custom Column: Tạo cột mới bằng cách viết công thức tùy chỉnh.
- Conditional Column: Tạo cột mới dựa trên các điều kiện (If-Then-Else).
- Index Column: Thêm cột chỉ số tự động (index) với các giá trị tăng dần.
- Duplicate Column: Tạo bản sao của cột hiện có.
- Invoke Custom Function: Gọi hàm tùy chỉnh để tạo cột mới.
- Parse XML/JSON: Phân tích và trích xuất dữ liệu từ các định dạng dữ liệu phức tạp như XML và JSON
Câu hỏi về simplify data structure
Question 21: What is not a best practice for naming conventions in Power BI?
- A. Rename columns to have spaces in them
- B. Replace values that have integers with human readable results
- C. Abbreviated column names
Giải thích sơ bộ:
Mục tiêu:
Xác định điều gì không phải là best practice trong việc đặt tên trong Power BI.
Giải thích
- A. Rename columns to have spaces in them: Mặc dù việc có khoảng trắng trong tên cột có thể gây ra một số phiền phức khi viết công thức, nhưng việc này giúp dễ đọc và thân thiện với người dùng cuối. Ngoài ra, Power BI cũng hỗ trợ dấu cách trong tên cột => Vẫn chấp nhận được
- B. Replace values that have integers with human-readable results: Việc thay thế các giá trị số bằng các giá trị dễ đọc giúp báo cáo trở nên rõ ràng và dễ hiểu hơn. => Best practice
- C. Abbreviated column names: Sử dụng tên viết tắt có thể gây nhầm lẫn cho người dùng, đặc biệt khi xem lại báo cáo sau một thời gian không sử dụng. Điều này không giúp ích trong việc làm cho dữ liệu dễ hiểu và rõ ràng. => Không phải best practice.
Đáp án đúng: C
Tài liệu tham khảo: Naming Standards in POWER BI
Question 22: What can be achieved by removing unnecessary rows and columns?
- A. It is not necessary to delete unnecessary rows and columns and it is a good practice to keep all metadata intact.
- B. Deleting unnecessary rows and columns can damage the structure of the data model.
- C. Deleting unnecessary rows and columns will reduce the dataset size and it is a good practice to load only necessary data into your data model.
Giải thích sơ bộ:
Mục tiêu:
Xác định lợi ích của việc loại bỏ các hàng và cột không cần thiết trong quá trình xây dựng mô hình dữ liệu.
Giải thích:
- A. It is not necessary to delete unnecessary rows and columns and it is a good practice to keep all metadata intact: Không chính xác, vì giữ lại các hàng và cột không cần thiết có thể làm tăng kích thước tập dữ liệu, làm giảm hiệu suất của mô hình và báo cáo
- B. Deleting unnecessary rows and columns can damage the structure of the data model: Không làm hỏng cấu trúc của mô hình nếu việc này được thực hiện một cách có kế hoạch và có mục đích. Nếu cột hoặc hàng đó không được sử dụng trong các phép tính hay mối quan hệ, việc xóa chúng sẽ không ảnh hưởng.
- C. Deleting unnecessary rows and columns will reduce the dataset size and it is a good practice to load only necessary data into your data model: Giảm kích thước tập dữ liệu, cải thiện hiệu suất và tốc độ tải dữ liệu. Chỉ nên tải dữ liệu thực sự cần thiết cho báo cáo và phân tích vào mô hình dữ liệu. -> đúng
Đáp án đúng: C
Tài liệu tham khảo: Data reduction techniques for Import modeling
Question 23: You create a Power BI model that contains the sales for the last five years. The size of the model is 950 MB. The Sales table contains five million rows. You need to minimize the model size and perform the following analysis:
- Current and one previous year sales for all active products
- Current year sales by product category
What should you do?
- A. Remove the Product Status column.
- B. Remove the rows that relate to inactive products.
- C. Remove the rows that relate to sales that occurred more than two years earlier.
- D. Remove the Sale Date column.
Giải thích sơ bộ:
Mục tiêu
Xác định cách giảm kích thước mô hình Power BI và vẫn duy trì khả năng phân tích dữ liệu doanh số cho năm hiện tại và năm trước đó cho các sản phẩm còn hoạt động.
Giải thích
- A. Remove the Product Status column: Không có tác động lớn đến việc giảm số lượng hàng hoặc dữ liệu không cần thiết. Cột này có thể hữu ích trong việc lọc các sản phẩm hoạt động và không hoạt động
- B. Remove the rows that relate to inactive products: Điều này sẽ phù hợp với yêu cầu đầu tiên. Tuy nhiên, dữ liệu về doanh số của các sản phẩm này vẫn cần được giữ lại cho năm hiện tại và năm trước đó
- C. Remove the rows that relate to sales that occurred more than two years earlier: Cách tốt nhất để tối ưu kích thước mô hình và giữ lại các dữ liệu cần thiết cho phân tích -> đúng
- D. Remove the Sale Date column: Làm mất khả năng phân tích theo thời gian, điều này đi ngược lại mục tiêu phân tích doanh số cho năm hiện tại và năm trước đó.
Đáp án đúng: C
Tài liệu tham khảo: Data reduction techniques for Import modeling
Question 24: What is the risk of having null values in a numeric column?
- A. DAX expressions that MAX data will be incorrect
- B. DAX expressions that SUM data will be incorrect
- C. DAX expressions that AVERAGE data will be incorrect
Giải thích sơ bộ:
Mục tiêu:
Xác định các giá trị null trong một cột dữ liệu số trong Power BI ảnh hưởng như thế nào đến các phép tính trong DAX.
Giải thích
- A. DAX expressions that MAX data will be incorrect: Giá trị null không ảnh hưởng đến phép tính MAX vì MAX chỉ trả về giá trị lớn nhất từ các giá trị khác
- B. DAX expressions that SUM data will be incorrect: Null được coi là giá trị 0 trong phép tính SUM, do đó, nó sẽ không làm sai kết quả tổng
- C. DAX expressions that AVERAGE data will be incorrect: Do Null có giá trị 0 trong phép tính AVERAGE, kết quả AVERAGE bị sai lệch -> đúng
Đáp án đúng: C
Tài liệu tham khảo: https://learn.microsoft.com/en-us/dax/isblank-function-dax & https://learn.microsoft.com/en-us/dax/blank-function-dax
Question 25: During your data QA process, you notice that there are null values in the Return type column (Returned, No return, and null). After talking with your manager, you decide to impute (replace) the null values with a value of “No return”. Which of the following actions should you take?
- A. Select the Return type column > Transform > Replace values
- B. Select the Return type column > Transform > Fill down
- C. Select the Return type column > Add column > Column from example
- D. Select the Return type column > Home > Remove rows
Giải thích sơ bộ:
Mục tiêu:
Xác định hành động chính xác trong Power BI để thay thế các giá trị null trong một cột dữ liệu bằng một giá trị cụ thể “No Return”
Giải thích
- A. Select the Return type column > Transform > Replace values: Thao tác này cho phép bạn tìm và thay thế các giá trị trong cột dữ liệu. Bạn có thể thay thế giá trị null bằng “No return”, đúng với yêu cầu bài toán. Đây là quy trình phù hợp để xử lý giá trị null trong Power BI mà không làm mất dữ liệu cần thiết -> đúng
- B. Select the Return type column > Transform > Fill down: Điều này chỉ hữu ích nếu giá trị null cần được thay thế bằng giá trị ngay trên nó. Vì mục tiêu ở đây là thay thế null bằng “No return”, công cụ này không phù hợp.
- C. Select the Return type column > Add column > Column from example: Không phải cách tối ưu nhất
- D. Select the Return type column > Home > Remove rows: Làm mất dữ liệu cần thiết cho phân tích
Đáp án đúng: A
Question 26: You have a query that retrieves sales data. A sample of the data is shown in the following table.

You need to ensure that the values in the Date column contain a date. Null values must be replaced with the date from the previous row. What should you click on the Transform tab in Query Editor?
- A. Format, and then Clean
- B. Date, and then Earliest
- C. Fill, and then Down
- D. Replace Values, and then Replace Errors
Giải thích sơ bộ:
Mục tiêu
Thay thế các giá trị null trong cột Date bằng giá trị từ hàng trước đó để đảm bảo tất cả các giá trị trong cột Date đều chứa ngày hợp lệ.
Giải thích
- A. Format, and then Clean: Chỉ giúp loại bỏ các ký tự không mong muốn hoặc không in được từ dữ liệu văn bản. Nó không thể thay thế các giá trị null bằng giá trị từ hàng trước đó.
- B. Date, and then Earliest: Thao tác chọn giá trị ngày sớm nhất từ cột, không phải là giải pháp cho việc điền giá trị null bằng giá trị của hàng trước đó
- C. Fill, and then Down: Điền các giá trị null bằng giá trị từ hàng ngay phía trên. Đây là giải pháp thích hợp với yêu cầu bài toán -> đúng
- D. Replace Values, and then Replace Errors: Replace Errors chỉ thay thế các giá trị lỗi, không phải giá trị null. Do đó, tùy chọn này không giải quyết vấn đề thay thế null bằng giá trị từ hàng trước
Đáp án đúng: C
Tài liệu tham khảo: Query overview in Power BI Desktop – Power BI | Microsoft Learn
Question 27: You have a query that retrieves data from a Microsoft Azure SQL database. You discover that a column named ErrorCode has several values starting with a space character, and a column named SubStatus contains several non-printable characters. You need to remove all the leading whitespaces from ErrorCode and all the non-printable characters from SubStatus. All other data must be retained. What should you do on each column?

Giải thích sơ bộ:
Mục tiêu
Loại bỏ khoảng trắng ở đầu trong cột ErrorCode và các ký tự không in được từ cột SubStatus mà vẫn giữ lại các dữ liệu khác.
Giải thích
Tại cột ErrorCode:
- Sử dụng Trim để loại bỏ tất cả khoảng trắng ở đầu trong cột. Tùy chọn này sẽ loại bỏ khoảng trắng không mong muốn ở đầu và cuối chuỗi văn bản, giữ lại phần nội dung chính.
- Cách thực hiện:
- Chọn cột ErrorCode.
- Vào tab Transform > Format > Trim
Tại cột SubStatus:
- Sử dụng Clean để loại bỏ các ký tự không in được từ cột SubStatus. Clean sẽ loại bỏ tất cả các ký tự không in được, giữ lại chỉ các ký tự văn bản có thể hiển thị.
- Cách thực hiện:
- Chọn cột SubStatus.
- Vào tab Transform > Format > Clean.
Đáp án đúng:
- ErrorCode: From the Format Menu, click Trim
- SubStatus: From the Format Menu, click Trim
Tài liệu tham khảo:
- https://www.popautomation.com/post/power-query-trim-and-clean
- https://learn.microsoft.com/en-us/powerquery-m/text-trim
- https://learn.microsoft.com/en-us/powerquery-m/text-clean
Question 28: From Power BI Desktop, you create a query that imports the following table.

You need to configure the table to appear as shown in the following table:

What should you do?
- A. From the Format menu, click Trim.
- B. From the Extract menu, click Last Characters.
- C. From the Split Column menu, click By Delimiter.
- D. From the Extract menu, click Text After Delimiter.
Giải thích sơ bộ:
Mục tiêu
Cấu hình bảng dữ liệu từ định dạng chứa cả quốc gia và thành phố thành định dạng chỉ chứa tên thành phố. Cụ thể hơn, bạn cần tách chuỗi trong cột City (hiện có định dạng “Quốc gia – Thành phố”) để giữ lại phần sau dấu gạch ngang (-), tức là tên thành phố, và loại bỏ phần trước (quốc gia).
Giải thích
- A. From the Format menu, click Trim: Trim chỉ loại bỏ các khoảng trắng không cần thiết ở đầu hoặc cuối chuỗi văn bản, không giúp bạn tách chuỗi
- B. From the Extract menu, click Last Characters: Extract Last Characters trích xuất một số lượng ký tự nhất định từ cuối chuỗi. Tuy nhiên, nó không phù hợp với yêu cầu tách chuỗi dựa trên dấu gạch ngang
- C. From the Split Column menu, click By Delimiter: Split Column by Delimiter sẽ tách chuỗi tại dấu gạch ngang (-), đúng với yêu cầu. Tuy nhiên, đây lại không phải phương pháp tối ưu nhất do phải mất thêm một bước xóa cột thừa
- D. From the Extract menu, click Text After Delimiter: Text After Delimiter sẽ trích xuất phần văn bản sau dấu phân cách, trong trường hợp này là dấu gạch ngang. Đây là cách tối ưu nhất vì không phải xóa cột thừa -> đúng
Đáp án đúng: D
Question 29: When would you use a tool from the Transform tab over the Add Column tab?
- A. When you want to overwrite the values of existing columns
- B. When you want to keep the values of existing columns
- C. When you want to create new columns
- D. Both B & C
Giải thích sơ bộ:
Mục tiêu:
Xác định khi nào bạn nên sử dụng các công cụ từ tab Transform thay vì tab Add Column trong Power Query.
Transform Tab: Các công cụ trong tab Transform thay đổi hoặc cập nhật trực tiếp các giá trị trong các cột hiện tại. Điều này thường được sử dụng khi bạn muốn thay đổi dữ liệu hiện có và không cần giữ lại giá trị ban đầu.
Add Column Tab: Ngược lại, các công cụ trong tab Add Column được sử dụng để tạo ra cột mới mà không làm thay đổi các cột hiện tại, giữ nguyên giá trị của các cột hiện có.
Giải thích
- A. When you want to overwrite the values of existing columns: Nếu bạn muốn thay đổi hoặc ghi đè lên các giá trị hiện có trong một cột, bạn sẽ sử dụng các công cụ trong Transform tab -> đúng
- B. When you want to keep the values of existing columns: Trong trường hợp này, bạn sẽ sử dụng các công cụ từ tab Add Column để tạo cột mới thay vì ghi đè
- C. When you want to create new columns: Khi bạn muốn tạo ra các cột mới mà không thay đổi giá trị của các cột hiện tại, bạn sẽ sử dụng các công cụ trong tab Add Column
- D. Both B & C: Lựa chọn này đề cập đến việc giữ nguyên cột hiện tại và tạo cột mới, cả hai điều này đều áp dụng cho Add Column, không phải Transform
Đáp án đúng: A
Question 30: Which Power Query tool can you use when you know the outcome of a column you want but don’t know which transformation(s) to use?
- A. Column from examples
- B.Conditional column
- C.Custom column
- D. Index column
Giải thích sơ bộ:
Mục tiêu
Xác định công cụ trong Power Query giúp bạn tạo ra cột mới khi bạn biết kết quả mong muốn nhưng không chắc chắn về các phép biến đổi cần thiết.
Giải thích
- A. Column from examples: Column from examples cho phép bạn nhập các ví dụ về dữ liệu mong muốn, và Power Query sẽ tự động suy ra các phép biến đổi cần thiết để đạt được kết quả đó. Đây là công cụ phù hợp nhất khi bạn không chắc chắn các phép biến đổi nhưng biết kết quả bạn muốn -> đúng
- B. Conditional column: Conditional column không phải là công cụ bạn nên sử dụng nếu bạn không biết chính xác phép biến đổi cần áp dụng.
- C. Custom column: Vì Custom column yêu cầu bạn viết các công thức để tạo cột mới nên bạn phải biết chính xác các phép biến đổi hoặc logic bạn muốn áp dụng
- D. Index column: Index column chỉ thêm một cột chứa số thứ tự cho mỗi hàng
Đáp án đúng: A
Tài liệu tham khảo
- Add a column from an example (Power Query) – Microsoft Support
- Add a conditional column – Power Query | Microsoft Learn
- Add a custom column – Power Query | Microsoft Learn
- Add an index column – Power Query | Microsoft Learn
Question 31: Based on the conditional column above, what Price Range value would be given to a Unit_Price of 500?

- A. Low
- B. Mid
- C. High
- D. Unclassified
Giải thích sơ bộ:
Mục tiêu
Xác định giá trị của cột Price Range được tạo ra từ các điều kiện được thiết lập trong cột Conditional Column.
Giải thích
Cột điều kiện được thiết lập dựa trên giá trị của Unit_Price:
- Nếu Unit_Price nhỏ hơn hoặc bằng 100, thì Price Range là Low.
- Nếu Unit_Price lớn hơn 100 và nhỏ hơn 1000, thì Price Range là Mid.
- Nếu Unit_Price lớn hơn hoặc bằng 1000, thì Price Range là High.
- Nếu không thỏa mãn các điều kiện trên, Price Range sẽ là Unclassified.
Dựa trên các điều kiện này, giá trị 500 nằm trong khoảng từ 100 đến 1000, vì vậy kết quả sẽ là Mid.
Đáp án đúng: B
Question 32: You have a CSV file that contains user complaints. The file contains a column named Logged. Logged contains the date and time each complaint occurred. The data in Logged is in the following format: 2018- 12-31 at 08:59. You need to be able to analyze the complaints by the logged date and use built-in date hierarchy. What should you do?
- A. Change the data type of the Logged column to Date.
- B. Apply the Parse function from the Date transformations options to the Logged column.
- C. Create a column by example that starts with 2018-12-31 and set the data type of the new column to Date.
- D. Apply a transform to extract the first 11 characters of the Logged column.
Giải thích sơ bộ:
Mục tiêu
Chuyển đổi cột Logged từ định dạng chuỗi chứa cả ngày và thời gian thành một định dạng có thể phân tích bằng các công cụ xử lý ngày tháng có sẵn trong Power BI, đặc biệt là để sử dụng Date Hierarchy.
Giải thích
- A. Change the data type of the Logged column to Date: Do cột Logged chứa thêm thông tin thừa (chuỗi “at” và thời gian) nên sẽ xảy ra lỗi khi Power BI cố gắng chuyển đổi dữ liệu
- B. Apply the Parse function from the Date transformations options to the Logged column: Do Power BI không có chức năng trực tiếp gọi là Parse cho dữ liệu ngày tháng. Thay vào đó, bạn cần xử lý dữ liệu theo cách khác để loại bỏ phần chuỗi không cần thiết
- C. Create a column by example that starts with 2018-12-31 and set the data type of the new column to Date: Column by example cho phép bạn tạo một cột mới bằng cách cung cấp ví dụ về kết quả mong muốn. Trong trường hợp này, bạn có thể tạo một cột mới chỉ chứa phần ngày “2018-12-31” và chuyển cột đó thành kiểu dữ liệu Date. -> đúng
- D. Apply a transform to extract the first 11 characters of the Logged column: Tùy chọn này cũng có thể hoạt động vì phần ngày của chuỗi Logged luôn nằm ở vị trí đầu (11 ký tự đầu tiên). Sau khi trích xuất phần ngày, bạn có thể chuyển đổi nó thành kiểu Date. Tuy nhiên nó không phải lựa chọn tối ưu
Đáp án đúng: C
Question 33: You have a large dataset that contains more than 1 million rows. The table has a datetime column named Date. You need to reduce the size of the data model without losing access to any data. What should you do?
- A. Round the hour of the Date column to startOfHour.
- B. Change the data type of the Date column to Text.
- C. Trim the Date column.
- D. Split the Date column into two columns, one that contains only the time and another that contains only the date.
Giải thích sơ bộ:
Mục tiêu
Giảm kích thước của mô hình dữ liệu trong Power BI mà vẫn giữ được quyền truy cập vào toàn bộ dữ liệu.
Giải thích
- A. Round the hour of the Date column to startOfHour: Mặc dù có thể giúp đơn giản hóa dữ liệu, nhưng nó sẽ làm mất độ chi tiết về thời gian và không tối ưu hóa nhiều cho việc giảm kích thước dữ liệu
- B. Change the data type of the Date column to Text: Thao tác này không chỉ làm tăng kích thước mô hình mà còn làm mất tính khả dụng của dữ liệu ngày tháng cho việc phân tích theo thời gian
- C. Trim the Date column: Trim chỉ loại bỏ các khoảng trắng không cần thiết trong dữ liệu văn bản, không phù hợp với yêu cầu bài toán
- D. Split the Date column into two columns, one that contains only the time and another that contains only the date: Có thể giúp tối ưu hóa kích thước mô hình dữ liệu do dữ liệu Date và Time có thể được lưu trữ hiệu quả hơn trong các cột riêng biệt. Việc này không làm mất dữ liệu mà vẫn giữ quyền truy cập đầy đủ vào thông tin ngày và giờ -> đúng
Đáp án đúng: D
M Query
Nội dung chủ đề
Chủ đề này nói về cấu trúc, cách sử dụng của M Query trong quá trình Clean & Transform Data trong Power BI. M Query là ngôn ngữ lập trình và truy vấn dữ liệu được sử dụng trong Power Query của Power BI để chuyển đổi, làm sạch, và định hình dữ liệu từ nhiều nguồn khác nhau trước khi đưa vào Power BI để phân tích và trực quan hóa.
Làm quen với M Query: Quick tour – PowerQuery M | Microsoft Learn
Tầm quan trọng
Trong Power Query, M Query chính là nền tảng cực kì quan trọng để Power Query có thể thực hiện các thao tác làm sạch và biến đổi dữ liệu. Đây là thứ đứng đằng sau và ghi lại các thao tác được thực hiện trong Power Query.
Đối với những người không chuyên về kĩ thuật thì thông thường họ ít khi phải làm việc trực tiếp với M Query mà họ thường làm việc với giao diện chính của Power Query, tuy nhiên trong thực tế xuất hiện nhiều bài toán phức tạp, yêu cầu người dùng phải truy cập Advanced Editor để làm việc với M Query. Đối với dân chuyên thì việc thông thạo được M Query không khác nào việc nắm được bản chất và cơ chế mà Power Query hoạt động.
Khái niệm và lý thuyết tổng quan
- Advanced Editor: Công cụ cho phép người dùng trực tiếp truy cập và chỉnh sửa mã M Query được sử dụng để chuyển đổi và làm sạch dữ liệu.

- Queries Pane: nơi hiển thị danh sách tất cả các truy vấn mà bạn đã tạo hoặc nhập vào Power BI
- Let & In: Hai từ khóa quan trọng dùng để tạo và thực thi các bước truy vấn

- let: Được dùng để định nghĩa một chuỗi các bước xử lý dữ liệu tuần tự. Mỗi bước được lưu dưới dạng biến và có thể tham chiếu ở các bước tiếp theo.
- in: Được dùng để xác định bước cuối cùng của truy vấn, nghĩa là kết quả của bước này sẽ được trả về và hiển thị cho người dùng.
Câu hỏi về sử Power Query và M Code
Question 34: What can you do to improve performance when you are getting data in Power BI?
- A. Only pull data into the Power BI service, not Power BI Desktop
- B. Use the Select SQL statement in your SQL queries when you are pulling data from a relational database
- C. Combine date and time columns into a single column
- D. Do some calculations in the original data source
Giải thích sơ bộ:
Mục tiêu:
Cải thiện hiệu suất khi lấy dữ liệu vào Power BI
Giải thích:
- A. Only pull data into the Power BI service, not Power BI Desktop: Việc tối ưu hóa dữ liệu và truy vấn có vai trò quan trọng hơn so với việc chọn công cụ nào để thực hiện việc này
- B. Use the Select SQL statement in your SQL queries when you are pulling data from a relational database: Nếu không tối ưu hóa đúng cách (ví dụ: không chỉ định các cột cần thiết hoặc không dùng WHERE để lọc dữ liệu), nó có thể gây tải nặng cho hệ thống nguồn. Tùy thuộc vào cách viết truy vấn và kích thước dữ liệu, điều này không luôn là cách tối ưu để cải thiện hiệu suất
- C. Combine date and time columns into a single column: Không thực sự cải thiện hiệu suất đáng kể trừ khi bạn làm việc với các tập dữ liệu rất lớn hoặc phải thực hiện rất nhiều phép tính phức tạp trên các cột ngày giờ.
- D. Do some calculations in the original data source: Giúp giảm tải cho Power BI vì dữ liệu đã được xử lý trước khi nhập vào -> đúng
Đáp án đúng: D
Question 35: What functionality lets you see the code that is generated as part of each transformation step?
- A. Advanced editor
- B. Data profiling
- C. Queries pane
Giải thích sơ bộ:
Mục tiêu:
Xác định chức năng cho phép xem mã code được tạo từ các bước biến đổi trong Power Query.
Giải thích:
- A. Advanced editor: Cho phép bạn xem và chỉnh sửa mã M Query sinh ra từ mỗi bước biến đổi trong Power Query -> đúng
- B. Data profiling: Giúp phân tích chất lượng dữ liệu, hiển thị thông tin về giá trị null và phân bố dữ liệu, không hiển thị mã nguồn
- C. Queries pane: Hiển thị danh sách các truy vấn và hỗ trợ quản lý, nhưng không cho phép truy cập mã nguồn của các bước biến đổi
Đáp án đúng: A
Tài liệu tham khảo: Query overview in Power BI Desktop
Question 36: What happens “under the hood” whenever you apply a transformation in Power Query?
- A. The same transformation is applied to the source data
- B. The changes are permanent and cannot be modified
- C. The Query Editor writes the corresponding DAX code for the applied step
- D. The Query Editor writes the corresponding M code for the applied step
Giải thích sơ bộ:
Mục tiêu:
Xác định điều gì xảy ra ở cấp độ hệ thống khi một bước biến đổi được áp dụng trong Power Query.
Giải thích:
- A. The same transformation is applied to the source data: Các biến đổi chỉ được áp dụng trong mô hình dữ liệu của Power Query và không ảnh hưởng đến dữ liệu nguồn
- B. The changes are permanent and cannot be modified: Có thể sửa đổi từng bước biến đổi trong Applied Steps.
- C. The Query Editor writes the corresponding DAX code for the applied step: Power Query không sử dụng DAX để thực hiện các phép biến đổi
- D. The Query Editor writes the corresponding M code for the applied step: Mỗi khi một biến đổi được thực hiện trong Power Query, nó được dịch thành M code -> đúng
Đáp án đúng: D
Question 37: Which two blocks make up the M code that runs your query?
- A. do & while
- B. if & then
- C. for & each
- D. let & in
Giải thích sơ bộ:
Mục tiêu:
Xác định hai khối cấu trúc chính trong mã M Query dùng để chạy một truy vấn trong Power Query.
Giải thích
- A. do & while: M Query không sử dụng cấu trúc lặp do-while
- B. if & then: M Query chỉ sử dụng cấu trúc điều kiện if-then-else để kiểm tra điều kiện.
- C. for & each: Cấu trúc lặp được sử dụng trong nhiều ngôn ngữ lập trình, nhưng không phải trong M Query
- D. let & in: phù hợp với khái niệm -> đúng
Đáp án đúng: D
Tài liệu tham khảo: https://learn.microsoft.com/en-us/powerquery-m/ & https://learn.microsoft.com/en-us/power-bi/transform-model/desktop-query-overview
Question 38: You create the following step by using Power Query Editor. Table.ReplaceValue(SalesLT_Address,”1318″,”1319″,Replacer.ReplaceText,{“AddressLine1”}) A row has a value of 21318 Lasalle Street in the AddressLine1 column. What will the value be when the step is applied?
- A. 1318
- B. 1319
- C. 21318 Lasalle Street
- D. 21319 Lasalle Street
Giải thích sơ bộ:
Mục tiêu:
Xác định kết quả sau khi áp dụng hàm Table.ReplaceValue trong Power Query đối với chuỗi văn bản trong cột AddressLine1.
Giải thích:
- Table.ReplaceValue tìm và thay thế một giá trị cụ thể trong cột được chỉ định. Trong trường hợp này, giá trị “1318” sẽ được thay thế bằng “1319” trong cột AddressLine1.
- Giá trị ban đầu trong hàng là 21318 Lasalle Street. Vì “1318” là một phần của chuỗi “21318”, hàm sẽ chỉ thay thế “1318” mà không ảnh hưởng đến các số khác.
Kết quả sẽ là 21319 Lasalle Street, vì hàm thay thế “1318” thành “1319”, nhưng vẫn giữ nguyên phần “21”.
Đáp án đúng: D
Hàm Table.ReplaceValue trong Power Query tìm giá trị relatively matched (khớp tương đối) chứ không yêu cầu exact match (khớp chính xác).
Cách hoạt động của hàm Table.ReplaceValue
Table.ReplaceValue(table as table, oldValue as any, newValue as any, replacer as function, columnsToSearch as list) as table
- Hàm này tìm kiếm bất kỳ chuỗi con nào trong giá trị cột khớp với giá trị được chỉ định (
oldValue). - Sau đó, nó thay thế mọi lần xuất hiện của chuỗi đó bằng
newValue.
Ví dụ:
Nếu dữ liệu là “21318 Lasalle Street” và thay thế "1318" bằng "1319", hàm sẽ:
- Nhận diện “1318” là một phần của chuỗi “21318”.
- Thay thế “1318” bằng “1319”, tạo thành “21319 Lasalle Street”.
Nó không cần toàn bộ giá trị phải khớp chính xác với oldValue.
Tài liệu tham khảo: Table.ReplaceValue – PowerQuery M | Microsoft Learn
Question 39: You have an API that returns more than 100 columns. The following is a sample of column names.
- client_notified_timestamp
- client_notified_source
- client_notified_sourceid
- client_notified_value
- client_responded_timestamp
- client_responded_source
- client_responded_sourceid
- client_responded_value
You plan to include only a subset of the returned columns. You need to remove any columns that have a suffix of sourceid. How should you complete the Power Query M code? To answer, select the appropriate options in the answer area.

Mục tiêu:
Loại bỏ các cột có hậu tố “sourceid” từ bảng dữ liệu được trả về bởi API.
Giải thích:
Cách hoàn thành:
- Table.RemoveColumns: Xóa các cột từ bảng.
- List.Select: Lấy ra các cột thỏa mãn điều kiện (ở đây là cột có tên kết thúc bằng “sourceid”).
- Text.EndsWith: Xác định các cột có hậu tố “sourceid” để chọn lọc
Đáp án đúng:
- Box 1: Table.RemoveColumns
- Box 2: List.Select
- Box 3: Text.EndsWith
Tài liệu tham khảo: Table.RemoveColumns – PowerQuery M | Microsoft Learn & Text.EndsWith – PowerQuery M | Microsoft Learn
Question 40: You have a Microsoft SQL Server Analysis Services (SSAS) cube that contains historical data. In Power BI Desktop, you have the following query for the cube.

The query retrieves 25,499 records.
When you check the data warehouse that is the source of the cube, you discover that there are 26,423 records. You need to ensure that the query retrieves all 26,423 records. What should you do?
- A. From Query Editor, refresh all the data.
- B. Change the query to use Live connection mode.
- C. Delete the Remove Duplicates step.
- D. Add an Unpivot Columns step.
Giải thích sơ bộ:
Mục tiêu:
Đảm bảo truy vấn trong Power BI trả về đủ số lượng bản ghi từ cube SSAS (26,423 bản ghi thay vì 25,499 bản ghi)
Giải thích:
- A. From Query Editor, refresh all the data: Việc làm mới (refresh) chỉ tải lại dữ liệu hiện có, không sửa lỗi thiếu dữ liệu hoặc loại bỏ các thao tác gây mất dữ liệu
- B. Change the query to use Live connection mode: Nếu có thao tác trong truy vấn hoặc việc xử lý dữ liệu gây mất dữ liệu, việc chuyển sang Live Connection sẽ không giải quyết vấn đề
- C. Delete the Remove Duplicates step: Nếu số lượng bản ghi bị giảm do bước này, thì việc xóa bước Remove Duplicates sẽ giúp đảm bảo rằng tất cả các bản ghi từ nguồn dữ liệu gốc được giữ lại -> đúng
- D. Add an Unpivot Columns step: Unpivot Columns chuyển đổi các cột thành các hàng, không liên quan đến việc số lượng bản ghi bị mất và không giúp giải quyết vấn đề thiếu bản ghi.
Đáp án đúng: C
Tài liệu tham khảo: Table.Distinct – PowerQuery M | Microsoft Learn
Question 41: Which technology improves performance by generating a single query statement to retrieve and transform source data?
- A. Query folding
- B. Adding index columns
- C. Adding custom columns with complex logic
Giải thích sơ bộ:
- Mục tiêu: Xác định công nghệ giúp cải thiện hiệu suất bằng cách tạo ra một câu lệnh truy vấn duy nhất để truy xuất và biến đổi dữ liệu từ nguồn
- Giải thích:
- A. Query folding: Query Folding tạo ra một truy vấn SQL duy nhất để thực thi trực tiếp trên nguồn dữ liệu, giúp tăng tốc và tối ưu hóa hiệu suất khi xử lý dữ liệu. -> đúng
- B. Adding index columns: Thêm cột chỉ mục giúp cải thiện tốc độ truy xuất nhưng không tạo ra một truy vấn duy nhất trên nguồn dữ liệu
- C. Adding custom columns with complex logic: Thêm cột tùy chỉnh với logic phức tạp có thể làm giảm hiệu suất, vì các tính toán này thường không được thực hiện trên nguồn
Đáp án đúng: A
Column Profiling
Nội dung chủ đề
Chủ đề này nói về Column Profiling trong Power Query, một tính năng giúp người dùng phân tích và đánh giá chất lượng dữ liệu. Column Profiling cung cấp thông tin chi tiết về các thuộc tính của từng cột dữ liệu, bao gồm tỷ lệ giá trị hợp lệ, giá trị null, giá trị lỗi, cũng như phân phối và các giá trị duy nhất trong cột. Các công cụ chính trong Column Profiling bao gồm Column Quality, Column Distribution, và Column Profile, giúp người dùng có cái nhìn tổng quan và chi tiết về dữ liệu trước khi tiến hành các bước phân tích sâu hơn.
Tầm quan trọng
Column Profiling rất quan trọng trong việc đảm bảo dữ liệu sạch và nhất quán trước khi tiến hành phân tích. Bằng cách sử dụng Column Profiling, người dùng có thể phát hiện ra các vấn đề về dữ liệu như dữ liệu trùng lặp, giá trị null, và các lỗi khác. Điều này giúp cải thiện chất lượng của dữ liệu và đảm bảo rằng các kết quả phân tích sau này sẽ chính xác và đáng tin cậy.
Khái niệm và lý thuyết tổng quan
- Column Quality: Công cụ này hiển thị tỷ lệ phần trăm của các giá trị hợp lệ, null, và lỗi trong cột.
- Column Distribution: Công cụ này hiển thị phân phối các giá trị trong cột, giúp người dùng dễ dàng nhận biết các giá trị phổ biến hoặc không phổ biến.
- Column Profile: Cung cấp thông tin chi tiết về giá trị duy nhất, giá trị trùng lặp, và các thống kê khác trong cột, giúp người dùng phân tích sâu hơn về cấu trúc và chất lượng của dữ liệu.
Câu hỏi về sử dụng Column Profiling
Question 42: Data profiling is defined as what?
- A. Aggregating columns containing numeric data
- B. Studying the nuances of the data
- C. Data modeling
Mục tiêu câu hỏi:
Câu hỏi này kiểm tra hiểu biết về khái niệm Data profiling trong phân tích dữ liệu.
Giải thích:
- A: Aggregating columns containing numeric data: Việc gộp dữ liệu từ các cột chứa giá trị số là một phần của quá trình tổng hợp dữ liệu, không phải là Data profiling.
- B: Studying the nuances of the data: Đây là đáp án đúng. Data profiling là quá trình xem xét, phân tích và tìm hiểu kỹ các đặc điểm khác nhau của dữ liệu như chất lượng, phân phối giá trị, số lượng dữ liệu thiếu, và các mẫu dữ liệu bất thường. -> đúng
- C: Data modeling: Data modeling là quá trình thiết kế cấu trúc dữ liệu, không phải là phân tích chi tiết các dữ liệu hiện có.
Đáp án đúng: B
Question 43: What is the purpose of data profiling in Power Query?
- A. Provide a visual way to explore data
- B. Get a sense of your dataset composition
- C. To solve column quality issues
- D. All of the above
Mục tiêu:
Câu hỏi này nhằm kiểm tra hiểu biết về mục đích chính của việc sử dụng Data Profiling trong Power Query.
Giải thích:
- A: Provide a visual way to explore data: Đây là đáp án đúng. Mục đích chính của Data Profiling là cung cấp một cách trực quan để khám phá dữ liệu trong Power Query, giúp người dùng dễ dàng hiểu hơn về các mẫu dữ liệu. -> đúng
- B: Get a sense of your dataset composition: Mặc dù Data Profiling giúp hiểu rõ hơn về thành phần của dữ liệu, nhưng đây không phải là mục tiêu chính của tính năng này.
- C: To solve column quality issues: Mục tiêu này là phụ, vì Data Profiling chủ yếu giúp phát hiện các vấn đề về chất lượng cột, nhưng không trực tiếp giải quyết chúng.
- D: All of the above: Mặc dù các mục tiêu khác cũng liên quan đến Data Profiling, mục đích chính và trực quan nhất của tính năng này là cung cấp cách khám phá dữ liệu, nên đáp án này không hoàn toàn chính xác.
Đáp án đúng: A
Question 44: Which data profiling tools does Power Query have?
- A. Column from examples, custom column, and conditional column
- B. Column quality, distribution, and profile
- C. Index column and duplicate column
- D. Format, extract, and parse
Mục tiêu:
Câu hỏi này nhằm kiểm tra hiểu biết về các công cụ phân tích dữ liệu có sẵn trong Power Query, đặc biệt là các công cụ liên quan đến data profiling.
Giải thích:
- A: Column from examples, custom column, and conditional column: Đây là các công cụ tạo cột trong Power Query nhưng không phải là các công cụ chuyên về phân tích dữ liệu (data profiling).
- B: Column quality, distribution, and profile: Đây là đáp án đúng. Trong Power Query, ba công cụ chính để phân tích dữ liệu bao gồm Column quality (chất lượng cột), Column distribution (phân phối cột), và Column profile (hồ sơ cột), giúp đánh giá và xem xét chi tiết dữ liệu trong từng cột. -> đúng
- C: Index column and duplicate column: Đây là các công cụ xử lý dữ liệu trong Power Query nhưng không phải là công cụ dành cho việc phân tích dữ liệu chi tiết.
- D: Format, extract, and parse: Các thao tác này liên quan đến xử lý dữ liệu, nhưng không phải là các công cụ phân tích dữ liệu trong Power Query.
Đáp án đúng: B
Question 45: Which data profiling tool can you use to check the number of errors in a column?
- A. Column quality
- B. Column distribution
- C. Column profile
- D. Column quality & column profile
Mục tiêu:
Câu hỏi này nhằm kiểm tra hiểu biết về các công cụ phân tích dữ liệu (data profiling) trong Power Query, đặc biệt là công cụ để kiểm tra số lượng lỗi trong một cột dữ liệu.
Giải thích:
- A: Column quality: Công cụ Column quality cung cấp thông tin về tỷ lệ giá trị hợp lệ, null và lỗi trong cột, do đó có thể sử dụng để kiểm tra số lượng lỗi trong cột. -> đúng
- B: Column distribution: Column distribution chỉ hiển thị phân phối dữ liệu mà không cung cấp thông tin về lỗi trong cột.
- C: Column profile: Column profile cung cấp nhiều thông tin chi tiết hơn về dữ liệu trong cột, nhưng không hiển thị trực tiếp số lượng lỗi.
- D: Column quality & column profile: Đây là đáp án đúng. Kết hợp cả Column quality và Column profile sẽ cung cấp cái nhìn toàn diện về chất lượng dữ liệu, bao gồm cả số lượng lỗi trong cột. -> đúng
Đáp án đúng: D
Question 46: What can the column distribution be used for?
- A. To identify errors
- B. To identify empty values
- C. To identify primary keys
- D. All of the above
Mục tiêu:
Câu hỏi này nhằm kiểm tra hiểu biết về khả năng của công cụ Column distribution trong Power Query.
Giải thích:
- A: To identify errors: Column distribution không cung cấp thông tin về lỗi trong cột mà chỉ hiển thị phân phối dữ liệu.
- B: To identify empty values: Column distribution không hiển thị trực tiếp giá trị trống mà chỉ cho thấy sự phân phối của các giá trị trong cột.
- C: To identify primary keys: Đây là đáp án đúng. Column distribution có thể giúp xác định khóa chính (primary keys) bằng cách cho thấy nếu một cột có giá trị duy nhất cho mỗi hàng. Nếu cột không có giá trị trùng lặp, nó có thể được sử dụng làm khóa chính. -> đúng
- D: All of the above: sai
Đáp án đúng: C
Question 47: Which data profiling tool provides detailed column statistics and value distribution for a selected column
- A. Column quality
- B. Column distribution
- C. Column profile
- D. Column statistics
Mục tiêu:
Câu hỏi này kiểm tra hiểu biết về công cụ data profiling trong Power Query, cụ thể là công cụ cung cấp các thống kê chi tiết và phân phối giá trị cho một cột dữ liệu được chọn.
Giải thích:
- A: Column quality: Column quality chỉ cung cấp thông tin về tỷ lệ giá trị hợp lệ, null, và lỗi trong cột, không cung cấp chi tiết về thống kê cột.
- B: Column distribution: Column distribution hiển thị phân phối dữ liệu nhưng không cung cấp chi tiết thống kê cột.
- C: Column profile: Đây là đáp án đúng. Column profile cung cấp thống kê chi tiết về dữ liệu của cột, bao gồm phân phối giá trị, số lượng giá trị duy nhất, và các thống kê khác. -> đúng
- D: Column statistics: Không có công cụ tên là Column statistics trong Power Query.
Đáp án đúng: C
Question 48: What benefit do you get from analyzing metadata?
- A. The benefit of analyzing metadata is that you can clearly identify data inconsistencies with your dataset.
- B. The benefit of analyzing the metadata is to get familiar with your data.
- C. The benefit of analyzing the metadata is to know the number of rows, columns and tables being loaded into your model.
Mục tiêu:
Câu hỏi này kiểm tra hiểu biết về lợi ích của việc phân tích metadata trong quá trình làm việc với dữ liệu.
Giải thích:
- A: The benefit of analyzing metadata is that you can clearly identify data inconsistencies with your dataset: Phân tích metadata giúp nhận diện các vấn đề về sự không nhất quán trong dữ liệu, như loại dữ liệu không đồng nhất. -> đúng
- B: The benefit of analyzing the metadata is to get familiar with your data: Phân tích metadata giúp bạn hiểu rõ hơn về cấu trúc và thuộc tính của dữ liệu, nhưng điều này chỉ là một phần của quá trình. -> đúng nhưng không phải trọng tâm
- C: The benefit of analyzing the metadata is to know the number of rows, columns, and tables being loaded into your model: Phân tích metadata cũng giúp bạn biết được các thông tin cơ bản như số lượng hàng, cột và bảng trong mô hình dữ liệu, nhưng đây không phải là lợi ích chính khi phân tích metadata. -> đúng nhưng không phải lợi ích lớn nhất
Đáp án đúng: A
Question 49: You view a query named Transactions as shown in the following exhibit.

The query gets CSV files from a folder.
Use the drop-down menus to select the answer choice that completes each statement based on the information presented in the graphic.

Mục tiêu:
Câu hỏi này nhằm kiểm tra khả năng phân tích thông tin từ Power Query và đánh giá số lượng bản ghi (CSV files và giá trị trong cột Date) trong tập dữ liệu.
Giải thích:
- Box 1: Từ hình ảnh Power Query, cột Source.Name hiển thị có 9 giá trị khác nhau (distinct), điều này có nghĩa là có 9 tệp CSV được tải lên. -> đúng
- Box 2: Trong cột Date, Power Query hiển thị 10 giá trị khác nhau (distinct), tức là nếu loại bỏ các bản ghi trùng lặp dựa trên cột Date, tập dữ liệu sẽ có 10 hàng. -> đúng
Đáp án đúng:
- Box 1: 9
- Box 2: 10
Question 50: You have a prospective customer list that contains 1,500 rows of data. The list contains the following fields:
- First name
- Last name
- Email address
- State/Region
- Phone number
You import the list into Power Query Editor. You need to ensure that the list contains records for each State/Region to which you want to target a marketing campaign. Which two actions should you perform?
- A. Open the Advanced Editor.
- B. Select Column quality.
- C. Enable Column profiling based on entire dataset.
- D. Select Column distribution.
- E. Select Column profile.
Mục tiêu:
Câu hỏi này nhằm kiểm tra hiểu biết về việc sử dụng công cụ trong Power Query để phân tích dữ liệu, đảm bảo rằng các bản ghi có tồn tại cho từng State/Region trong danh sách.
Giải thích:
- A: Open the Advanced Editor: Advanced Editor cho phép chỉnh sửa mã M trực tiếp, nhưng không phải là công cụ chính để phân tích dữ liệu.
- B: Select Column quality: Mặc dù Column quality cung cấp thông tin về tỷ lệ giá trị hợp lệ, null và lỗi, nó không phải là lựa chọn tốt nhất để đảm bảo có đủ dữ liệu cho từng State/Region.
- C: Enable Column profiling based on entire dataset: Đây là đáp án đúng. Khi bật Column profiling trên toàn bộ tập dữ liệu, bạn sẽ có một cái nhìn chi tiết về toàn bộ dữ liệu, không chỉ là mẫu nhỏ. Điều này đặc biệt quan trọng với tập dữ liệu lớn như danh sách 1,500 hàng. -> đúng
- D: Select Column distribution: Mặc dù hữu ích, Column distribution chỉ cung cấp phân phối dữ liệu và không đưa ra các thông tin chi tiết hơn về dữ liệu của các cột.
- E: Select Column profile: Đây là đáp án đúng. Column profile cung cấp thống kê chi tiết và phân phối giá trị cho từng cột trong bảng dữ liệu, giúp bạn phân tích chi tiết hơn về dữ liệu trong từng cột như State/Region. -> đúng
Đáp án đúng: C & E
Data Analyst
