Data Profiling – Tính năng giúp kiểm tra chất lượng dữ liệu trong Power Query

Ngày đăng: 15/12/2023

Bạn sẽ nghĩ thế nào nếu nhận được một báo cáo có tính thẩm mỹ cao về cách trình bày và mang lại nhiều insight nhưng các số liệu trong đó hoàn toàn không đúng? Với mình, một báo như vậy không có ý nghĩa vì một khi số liệu đã không chính xác thì sẽ ảnh hưởng rất lớn đến các quyết định liên quan. Vì vậy, một trong những yêu cầu tiên quyết của người làm phân tích dữ liệu là phải đảm bảo rằng những dữ liệu mà họ đưa vào báo cáo phải là dữ liệu “sạch”, chính xác và được chuẩn hóa.

Với bài viết này, mình hy vọng sẽ cung cấp đến các bạn một số tính năng trên Power Query có thể giúp chúng ta kiểm tra được chất lượng của dữ liệu (hay còn được gọi với thuật ngữ là Data Profiling) trước khi đưa vào phân tích.

3 bước làm sạch và chuẩn hóa dữ liệu 

Trước khi tìm hiểu về cách Data Profiling, chúng ta sẽ cùng nhìn lại 03 bước chính trong tiến trình làm sạch và chuẩn hóa dữ liệu. 

Data Profiling - Tính năng giúp kiểm tra chất lượng dữ liệu trong Power Query

Trong tiến trình này, chúng ta sẽ có 3 bước chính như sau: 

  • Bước 1: Làm sạch dữ liệu với các thao tác như xóa các cột dư thừa; thay đổi tên bảng/ cột hoặc thay đổi kiểu dữ liệu… 
  • Bước 2: Tìm hiểu dữ liệu sẽ giúp chúng ta biết được chất lượng của dữ liệu: dữ liệu có trùng lặp hay không? Có giá trị nào bị lỗi hoặc blank không?,…  
  • Bước 3: Sau khi biết được chất lượng của dữ liệu, ứng với mỗi loại dữ liệu chưa chuẩn xác, chúng ta sẽ có cách thức khác nhau để xử lý. Ví dụ nếu chúng ta phát hiện dữ liệu bị trùng lặp, chúng ta sẽ tiến hành xóa giá trị trùng. 

Trong ba bước trên, Data Profiling sẽ nằm ở bước 2 và sau đây mình sẽ cùng các bạn khám phá các tính năng hữu hiệu của công cụ này nhé. 

Cách khởi động tính năng Data Profiling trong Power Query

Trong màn hình Power Query, vào tab View và tick vào các ô như hình bên dưới: 

Data Profiling trong Power Query

Sau khi bật được tính năng này, bạn sẽ thấy trong từng bảng dữ liệu của chúng ta sẽ xuất hiện các biểu tượng như hình sau: 

Data Profiling

Lưu ý: Theo mặc định, Power Query thực hiện tính năng Data Profiling trên 1.000 hàng dữ liệu đầu tiên. Để nó hoạt động trên toàn bộ tập dữ liệu, bạn hãy chọn Column profiling based on entire dataset ở góc trái cuối màn hình nhé.

Data Profiling trong Power Query 1

Các tính năng chính của Data Profiling 

Column Quality: Kiểm tra chất lượng dữ liệu trong từng cột 

Tính năng này bao gồm 5 biểu tượng lần lượt thể hiện các ý nghĩa như sau: 

  • Valid – chấm tròn màu xanh lá: thể hiện phần trăm dữ liệu hợp lệ. 
  • Error – chấm tròn màu đỏ: thể hiện phần trăm dữ liệu bị lỗi. 
  • Empty – chấm tròn màu xám đậm: thể hiện phần trăm dữ liệu bị rỗng. 
  • Unknow – đường màu xanh đen: thể hiện rằng có những giá trị trong cột dữ liệu không thể xác định được đây có phải là dữ liệu lỗi hay không. 
  • Unexpected error – đường màu đỏ đậm: thể hiện rằng cột dữ liệu có chứa các giá trị lỗi không mong đợi. 
Các tính năng chính của Data Profiling 

Chất lượng của dữ liệu sẽ được thể hiện dưới dạng phần trăm (ví dụ Valid 100%). Trường hợp bạn muốn xem số lượng cụ thể có thể rê chuột vào và xem như hình bên dưới. Ngoài ra, khi chúng ta click vào nút ba chấm (…) sẽ mở ra một số tùy chọn để thực hiện các thao tác trên các cột dữ liệu này. 

Ví dụ trong cột dữ liệu ProductSubcategoryKey mình thấy có 34% dữ liệu Empty và mình có nhu cầu muốn xóa các dữ liệu empty này. 

Các tính năng chính của Data Profiling 2

Column Distribution

Tính năng này thể hiện tần suất xuất hiện của dữ liệu và giúp chúng ta biết được sự phân bố các giá trị trong mỗi cột của table. 

Các tính năng chính của Data Profiling 3
  • Giá trị distinct là giá trị xuất hiện ít nhất 1 lần trong cột dữ liệu.
  • Giá trị unique là giá trị chỉ xuất hiện duy nhất 1 lần trong cột dữ liệu.

Để hiểu rõ hơn về khái niệm “distinct” và “unique”, các bạn có thể xem hình ảnh trực quan bên dưới:

Các tính năng chính của Data Profiling 4

Nếu cột dữ liệu có số lượng “distinct” bằng số lượng “unique” (ví dụ như cột ProductKey có 606 distinct = 606 unique) có nghĩa là cột dữ liệu này chứa những giá trị duy nhất, không trùng lặp. Điều này có thể được cân nhắc khi xây dựng mô hình dữ liệu vì chúng ta sẽ dử dụng cột này để tạo mối quan hệ One-Many trong Data Model.

Một ứng dụng mình thấy khá hay trong tính năng này là giúp người dùng xác định giá trị bất thường một cách nhanh chóng. Ví dụ mình có cột dữ liệu ghi nhận thông tin 63 tỉnh thành của Việt Nam. Nhưng khi sử dụng tính năng Column Distribution này, mình phát hiện chỉ có 62 giá trị unique, điều này không phù hợp với thực tế nên mình sẽ tìm cách chỉnh sửa lại dữ liệu.

Về cách dử dụng, Column Distribution cũng được thể hiện dưới dạng phần trăm và số tuyệt đối cũng như chúng ta có thể tùy chọn các tác vụ mà mình muốn.

Các tính năng chính của Data Profiling 5

Column profile 

Tính năng này cung cấp các thông tin chuyên sâu hơn về dữ liệu trong mỗi cột. Ngoài biểu đồ phân phối dữ liệu, tính năng còn cho phép người dùng biết được các con số thống kê trong từng cột dữ liệu như bên dưới: 

Các tính năng chính của Data Profiling 6

Với tính năng này, ngoài việc chúng ta sẽ thu thập được các con số thống kê tổng quan về cột dữ liệu, chúng ta cũng có thể dễ dàng nhận thấy các dấu hiệu bất thường của dữ liệu. Ví dụ như trong cột BusinessType ở hình trên, chúng ta có thể nhận ra rằng loại BusinessType có tên là “Warehouse” đang bị viết sai chính tả và sinh ra thêm một loại dữ liệu khác.  

Bằng cách rê chuột vào các thanh biểu đồ, chúng ta cũng có thể xem chi tiết các con số thống kế bên trong và thực hiện các tác vụ mà mình mong muốn. Ví dụ, chúng ta nhận ra rằng có 5 giá trị BusinessType “Ware House” đang viết sai và muốn thay thế bằng giá trị đúng “Warehouse”. Chúng ta có thể thực hiện như sau: 

Các tính năng chính của Data Profiling 7
Các tính năng chính của Data Profiling 8

Kết luận

Có thể nói rằng, việc hiểu rõ dữ liệu là một trong bước quan trọng đầu tiên mà chúng ta cần thiết lập. Khi hiểu rõ dữ liệu, chúng ta mới có thể tìm ra các phương án xử lý dữ liệu hiệu quả. Với những tính năng có sẵn mà lại không phức tạp trong Power Query như Column Quality, Column Distribution, Column Profile, hy vọng các bạn có thể cân nhắc sử dụng để có một quy trình xử lý dữ liệu hiệu quả. 

Một số bài viết liên quan: 

Dữ liệu là gì? Có mấy loại dữ liệu và phân tích dữ liệu? 

Tự học Power BI 10: Tìm hiểu cách làm sạch dữ liệu

Power BI Day 9: Tìm hiểu về thanh công cụ trong Power Query Editor

Chia sẻ bài viết này

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

This site uses Akismet to reduce spam. Learn how your comment data is processed.