Power BI Day 10: Tìm hiểu về cách làm sạch dữ liệu cơ bản

Ngày đăng: 12/02/2022
Để tiếp tục series Data Preparation với series học Power BI, trong những phần kế tiếp mình tập trung đi thực hành xử lý, làm sạch dữ liệu trong một số case “kinh điển” như:
  1. Xử lý Null value và Blank value
  2. Filter with condition ( Greater than, less than,…)
  3. Replacing values
  4. Thay đổi kiểu dữ liệu
  5. Merge and Append

Phần 1: Xử lý Null value và Blank value – Làm sạch dữ liệu cơ bản

Bộ dữ liệu sử dụng: https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csvTrước hết, chúng ta cần phải biết Null khác với Blank
  • Null nghĩa đen là không có giá trị gì ở bất kỳ kiểu dữ liệu nào
  • Blank cũng có dạng không có giá trị, nhưng nó tương đương với ô công thức trong Excel là = “”.
Điều khác biệt nằm ở file dữ liệu mà bạn load lên Query Editor
  • Khi import file dạng Excel, dữ liệu Blank sẽ luôn luôn được biến đổi thành Null
  • Khi import file dạng CSV, dữ liệu Blank vẫn là Blank
  • Tuy nhiên, nếu vẫn là file dạng CSV, bạn thực hiện thay đổi kiểu dữ liệu trong Query Editor, dữ liệu Blank dạng Date và Numeric sẽ biến thành Null, trong khi dữ liệu dạng Text vẫn là Blank.
làm sạch dữ liệu trong power bi

Cột Category 1Category 2 vẫn là dữ liệu Blank

Thực hành xử lý dữ liệu Null value và Blank valueSau khi load dữ liệu, hãy click Transform Data, màn hình Query Editor sẽ hiện ra như hình dưới đây:làm sạch dữ liệu với power biCụ thể, trong cột Age, có khá nhiều dữ liệu là null valuelàm sạch dữ liệuTiến hành loại bỏ các dòng dữ liệu chứa giá trị Null bằng cách chọn biểu tượng tam giác ngược 🔽 trong cột Age và bỏ chọn giá trị null và Enter.Đối với dữ liệu Blank, ta tiến hành tương tự.Mình thực hành với cột Cabinlàm sạch dữ liệuThao tác loại bỏ các hàng có dữ liệu Blank

Phần 2: Filter with condition ( Greater than, less than,…) – Làm sạch dữ liệu cơ bản

Với Query Editor, bạn cũng có thể tiến hành lọc các hàng dữ liệu dựa vào giá trị cụ thể.Ví dụ: mình muốn lấy những dòng có giá trị cột Fare > 40, chọn biểu tượng tam giác ngược 🔽 trong cột Fare, chọn Number Filter| Greater Thanlàm sạch dữ liệu cơ bảnTuy nhiên, trong trường hợp bộ dữ liệu của bạn nhỏ, thao tác loại bỏ “remove” kể trên sẽ khiến dữ liệu còn lại sẽ không đáng kể, ảnh hưởng đến việc phân tích và đưa ra insight. Do đó, hướng xử lý thay thế giá trị (replace value) là tốt hơn cả!

Phần 3: Replace value – Làm sạch dữ liệu cơ bản

Ta xử lý Blank value trong cột Cabin bằng cách click chọn vào cột Cabin và click Replace Valueslàm sạch dữ liệu cơ bảnSau đó, cửa sổ Replace Values sẽ hiện ra như hình dưới đây:

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *