Để tiếp tục series Data Preparation với series học Power BI, trong những phần kế tiếp mình tập trung đi thực hành xử lý, làm sạch dữ liệu trong một số case “kinh điển” như:
Cụ thể, trong cột Age, có khá nhiều dữ liệu là null value
Tiến hành loại bỏ các dòng dữ liệu chứa giá trị Null bằng cách chọn biểu tượng tam giác ngược 🔽 trong cột Age và bỏ chọn giá trị null và Enter.
Đối với dữ liệu Blank, ta tiến hành tương tự.Mình thực hành với cột Cabin
Thao tác loại bỏ các hàng có dữ liệu Blank
Tuy nhiên, trong trường hợp bộ dữ liệu của bạn nhỏ, thao tác loại bỏ “remove” kể trên sẽ khiến dữ liệu còn lại sẽ không đáng kể, ảnh hưởng đến việc phân tích và đưa ra insight. Do đó, hướng xử lý thay thế giá trị (replace value) là tốt hơn cả!
Sau đó, cửa sổ Replace Values sẽ hiện ra như hình dưới đây:
- Xử lý Null value và Blank value
- Filter with condition ( Greater than, less than,…)
- Replacing values
- Thay đổi kiểu dữ liệu
- Merge and Append
Mục lục
Phần 1: Xử lý Null value và Blank value – Làm sạch dữ liệu cơ bản
Bộ dữ liệu sử dụng: https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csvTrước hết, chúng ta cần phải biết Null khác với Blank- Null nghĩa đen là không có giá trị gì ở bất kỳ kiểu dữ liệu nào
- Blank cũng có dạng không có giá trị, nhưng nó tương đương với ô công thức trong Excel là = “”.
- Khi import file dạng Excel, dữ liệu Blank sẽ luôn luôn được biến đổi thành Null
- Khi import file dạng CSV, dữ liệu Blank vẫn là Blank
- Tuy nhiên, nếu vẫn là file dạng CSV, bạn thực hiện thay đổi kiểu dữ liệu trong Query Editor, dữ liệu Blank dạng Date và Numeric sẽ biến thành Null, trong khi dữ liệu dạng Text vẫn là Blank.

Cột Category 1 và Category 2 vẫn là dữ liệu Blank
Thực hành xử lý dữ liệu Null value và Blank valueSau khi load dữ liệu, hãy click Transform Data, màn hình Query Editor sẽ hiện ra như hình dưới đây:




Phần 2: Filter with condition ( Greater than, less than,…) – Làm sạch dữ liệu cơ bản
Với Query Editor, bạn cũng có thể tiến hành lọc các hàng dữ liệu dựa vào giá trị cụ thể.Ví dụ: mình muốn lấy những dòng có giá trị cột Fare > 40, chọn biểu tượng tam giác ngược 🔽 trong cột Fare, chọn Number Filter| Greater Than
Phần 3: Replace value – Làm sạch dữ liệu cơ bản
Ta xử lý Blank value trong cột Cabin bằng cách click chọn vào cột Cabin và click Replace Values
