Power BI Day 10: Tìm hiểu về cách làm sạch dữ liệu cơ bản

Ngày đăng: 12/02/2022

Để tiếp tục series Data Preparation, trong những phần kế tiếp mình tập trung đi thực hành xử lý dữ liệu trong một số case “kinh điển” như:

  1. Xử lý Null value và Blank value
  2. Filter with condition ( Greater than, less than,…)
  3. Replacing values
  4. Thay đổi kiểu dữ liệu
  5. Merge and Append

Phần 1: Xử lý Null value và Blank value

Bộ dữ liệu sử dụng: https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv

Trước hết, chúng ta cần phải biết Null khác với Blank

  • Null nghĩa đen là không có giá trị gì ở bất kỳ kiểu dữ liệu nào
  • Blank cũng có dạng không có giá trị, nhưng nó tương đương với ô công thức trong Excel là = “”.

Điều khác biệt nằm ở file dữ liệu mà bạn load lên Query Editor

  • Khi import file dạng Excel, dữ liệu Blank sẽ luôn luôn được biến đổi thành Null
  • Khi import file dạng CSV, dữ liệu Blank vẫn là Blank
  • Tuy nhiên, nếu vẫn là file dạng CSV, bạn thực hiện thay đổi kiểu dữ liệu trong Query Editor, dữ liệu Blank dạng Date và Numeric sẽ biến thành Null, trong khi dữ liệu dạng Text vẫn là Blank.

Cột Category 1Category 2 vẫn là dữ liệu Blank

Thực hành xử lý dữ liệu Null value và Blank value

Sau khi load dữ liệu, hãy click Transform Data, màn hình Query Editor sẽ hiện ra như hình dưới đây:

Cụ thể, trong cột Age, có khá nhiều dữ liệu là null value

Tiến hành loại bỏ các dòng dữ liệu chứa giá trị Null bằng cách chọn biểu tượng tam giác ngược 🔽 trong cột Age và bỏ chọn giá trị null và Enter.

Đối với dữ liệu Blank, ta tiến hành tương tự.

Mình thực hành với cột Cabin

Thao tác loại bỏ các hàng có dữ liệu Blank

Phần 2: Filter with condition ( Greater than, less than,…)

Với Query Editor, bạn cũng có thể tiến hành lọc các hàng dữ liệu dựa vào giá trị cụ thể.

Ví dụ: mình muốn lấy những dòng có giá trị cột Fare > 40, chọn biểu tượng tam giác ngược 🔽 trong cột Fare, chọn Number Filter| Greater Than

Tuy nhiên, trong trường hợp bộ dữ liệu của bạn nhỏ, thao tác loại bỏ “remove” kể trên sẽ khiến dữ liệu còn lại sẽ không đáng kể, ảnh hưởng đến việc phân tích và đưa ra insight. Do đó, hướng xử lý thay thế giá trị (replace value) là tốt hơn cả!

Phần 3: Replace value

Ta xử lý Blank value trong cột Cabin bằng cách click chọn vào cột Cabin và click Replace Values

Sau đó, cửa sổ Replace Values sẽ hiện ra như hình dưới đây:

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *