Lab 1: Prepare Data in Power BI Desktop (Chuẩn bị dữ liệu trong Power BI Desktop)

Power BI lab 1: Chuẩn bị dữ liệu

Ngày đăng: 10/03/2022

Cập nhật theo giáo trình mới nhất của Microsoft, ngày 12/09/2023.

Bài hướng dẫn Lab 1: Prepare Data in Power BI Desktop (Chuẩn bị dữ liệu trong Power BI Desktop) là một bài thực hành nằm trong chuỗi bài luyện tập Power BI của Microsoft – tương đương với Lab 1 trong giáo trình của Datapot. Mục tiêu của chuỗi bài này là giúp học viên hiểu về các bước xử lý dữ liệu và từ đó thiết kế báo cáo trong Power BI.  

Xuyên suốt chuỗi bài này, chúng ta sẽ sử dụng bộ dữ liệu của công ty Adventure Works – một công ty sản xuất và kinh doanh đồ thể thao mạo hiểm đa quốc gia – để xây dựng một giải pháp Power BI cho công ty này.  

Datapot khuyến khích học viên thực hành các bài lab theo thứ tự sau để củng cố các kĩ năng cơ bản một cách tốt nhất: 

  • Lab 1: Prepare Data in Power BI Desktop (Chuẩn bị dữ liệu trong Power BI Desktop) 
  • Lab 2: Load Transformed Data in Power BI Desktop (Làm sạch và chuyển đổi dữ liệu trong Power BI Desktop) 
  • Lab 3: Design a model in Power BI – Part 1 (Xây dựng Model trong Power BI – Phần 1) 
  • Lab 3 nâng cao:  Design a model in Power BI – Part 2 (Xây dựng Model trong Power BI – Phần 2) 
  • Lab 4: Create DAX Calculations in Power BI Desktop (Tạo các phép tính DAX trong Power BI Desktop) 
  • Lab 5: Create Advanced DAX Calculations in Power BI Desktop (Tạo các phép tính DAX nâng cao trong Power BI Desktop) 
  • Lab 6: Design a report in Power BI Desktop – Part 1 (Thiết kế báo cáo trong Power BI Desktop – Phần 1) 
  • Lab 7: Design a report in Power BI Desktop – Part 2 (Thiết kế báo cáo trong Power BI Desktop – Phần 2)
  • Lab 8: Perform Advanced Analytics with AI Visuals (Phân tích nâng cao với biểu đồ AI)
  • Lab 9: Create a Power BI Dashboard (Tạo dashboard trên Power BI) 
  • Lab 10: Enforce Row-Level Security (Cài đặt Row-Level Security) 

Chuẩn bị trước khi thực hành 

Để bắt đầu thực hành chuỗi bài Lab này, chúng ta cần chuẩn bị:  

Đối với học viên của Datapot, các bạn đã được cung cấp thông tin để kết nối đến SQL Server có chứa dataset AdventureWorksDW2020 và link download file. Các bạn đã đủ công cụ để bắt đầu thực hành 11 bài Lab.

Trong trường hợp tự thực hành, các bạn cần: 

Sau khi hoàn thành, các bạn sẽ sử dụng server name để kết nối với Power BI Desktop: 

Thực hành chuẩn bị dữ liệu Power BI

Xác định mục tiêu của Lab 1 

Lab 1 sẽ cung cấp giới thiệu về Power BI Desktop, cách để import dữ liệu và sử dụng các kĩ thuật xem trước dữ liệu để hiểu rõ hơn về đặc tính và chất lượng của nguồn dữ liệu. Sau khi thực hành lab, các bạn cần biết cách:  

  • Mở và tạo file trên Power BI Desktop 
  • Kết nối với các nguồn dữ liệu 
  • Xem dữ liệu trên Power Query 
  • Sử dụng tính năng Data Profiling trên Power Query 

Thời lượng ước tính hoàn thành lab 1: 30 phút 

Hướng dẫn thực hành chuẩn bị dữ liệu trong Power BI Desktop

Hướng dẫn bằng video:

Hướng dẫn từng bước:

Task 1: Tạo file Power BI Desktop, tùy chỉnh và lưu file 

Mục tiêu:  

  • Trong quá trình thao tác trên Power BI, các bạn cần thường xuyên lưu file để tránh trường hợp máy tính gặp sự cố khiến mất file. Thao tác lưu file từ đầu sẽ giúp các bạn có thể Ctrl+S để lưu file nhanh trong quá trình làm việc.  
  • Đồng thời thực hiện một số tùy chỉnh để phục vụ cho các buổi lab sau. 

Với task này, chúng ta sẽ thực hiện như sau:  

Bước 1: Mở Power BI Desktop: Tìm đến biểu tượng của Power BI Desktop như sau 

Biểu tượng Power BI Desktop

Các bạn sẽ thấy một pop up hướng dẫn bắt đầu, các bạn có thể nhấn Get Started để đăng nhập bằng tài khoản Microsoft (không bắt buộc), sau đó nhấn X để thoát. 

Màn hình đăng nhập tài khoản Microsoft để sử dụng Power BI

Bước 2: Click vào thẻ File -> Options and Settings -> Options. 

Màn hình cài đặt Power BI
Màn hình cài đặt Data load trong Power BI

Trong bước này, chúng ta sẽ tắt 2 lựa chọn tự động hỗ trợ tạo mối quan hệ giữa các bảng để phục vụ cho việc thực hành lab. Trên thực tế, 2 lựa chọn này tương đối hữu ích khi chúng ta xây dựng mô hình dữ liệu. Chúng ta sẽ được học thêm về cách tạo mối hệ trong bài lab sau.  

Trong phần Current File -> Chọn Data Load -> Tìm mục Relationships và tắt 2 lựa chọn sau 

  • Import relationships from data sources on first load 
  • Autodetect new relationships after data is loaded 

Nhấn OK. 

Hướng dẫn lưu cài đặt Power BI

Bước 3: Tiếp tục chọn thẻ File -> chọn Save. 

Biểu tượng save trên thanh công cụ của Power BI Desktop

Lưu file vào vị trí các bạn mong muốn.  

Ngoài ra các bạn có thể lưu file bằng cách nhấn vào biểu tượng này trên thanh công cụ: 

Hướng dẫn lấy dữ liệu từ SQL Server

Task 2: Lấy dữ liệu từ SQL Server 

Mục tiêu: Nắm được cách kết nối với SQL Server Database và import bảng vào Power Query. 

Bước 1: Kết nối SQL server database 

Trên thẻ Home -> Get Data -> SQL Server. Hoặc các bạn có thể nhấn vào biểu tượng SQL Server trong nhóm Data trên thẻ Home.

Truy cập SQL Server database

Trên cửa sổ SQL Server Database:  

  • Đối với các bạn học viên Datapot: Nhập thông tin Server theo thông tin đã được cung cấp cho các bạn trên Teams và nhấn OK. 
Màn hình đăng nhập SQL server database - chuẩn bị dữ liệu Power BI

Chọn chế độ đăng nhập Database và nhập Username/Password đã được cung cấp cùng tên Server, sau đó nhấn Connect

Màn hình đăng nhập SQL server database theo chế độ đăng nhập database

Đối với các bạn tự thực hành, các bạn sử dụng thông tin Server sau khi cài đặt xong SQL Server và SQL Server Management Studio. Nếu cài đặt mặc định thì tên server thường có dạng ComputerName\SQLEXPRESS. Chúng ta cũng tiến hành nhập thông tin server như trên -> Nhấn OK. 

Màn hình đăng nhập SQL server database trường hợp tự thực hành

Chọn chế độ đăng nhập Windows và Chọn Use my current credentials -> Connect. 

Màn hình đăng nhập chế độ đăng nhập windows

Sau khi kết nối thành công, chúng ta sẽ được đưa đến cửa sổ Navigator như sau: 

Màn hình Navigator sau khi đăng nhập xong

Bước 2: Chọn bảng dữ liệu trong Database 

Trong cửa sổ Navigator, chúng ta nhấn vào tên database AdventureWorksDW2020 để mở rộng: 

Lựa chọn database AdventureWorksDW2020 để thực hành chuẩn bị dữ liệu trong Power BI

Khi nhấn vào tên bảng bất kì, chúng ta có thể xem trước thông tin rút gọn của bảng đó (hiển thị trong phần bảng bên tay phải).

Màn hình thông tin hiển thị rút gọn khi click vào tên bảng bất kỳ

Chúng ta click vào ô vuông trước tên các bảng dữ liệu sau để chọn các bảng đó:  

Hướng dẫn lựa chọn các bảng dữ liệu cho quá trình chuẩn bị dữ liệu trong Power BI

Nhấn Transform Data để hoàn thành bước 2 và chuyển sang giao diện Power Query Editor.  

Task 3: Xem trước dữ liệu trong Power Query Editor 

Mục tiêu của task này là giới thiệu về giao diện Power Query Editor, giúp chúng ta tìm hiểu và đánh giá dữ liệu, chuẩn bị cho bước clean và transform dữ liệu trong các buổi lab sau. 

Bước 1: Trong cửa sổ Power Query Editor, chúng ta thấy khung giao diện Queries bên tay trái chứa 6 bảng truy vấn chúng ta đã lựa chọn.  

Màn hình xem trước dữ liệu trong Power Query Editor

Bước 2: Kiểm tra dữ liệu 

Click vào tên truy vấn DimEmployee. Mỗi dòng trong truy vấn DimEmployee thể hiện thông tin của 1 nhân sự. Các bạn quan sát bảng dữ liệu và đưa ra một số nhận xét về bảng dữ liệu đó như: Số lượng cột, số lượng dòng, kiểu dữ liệu của cột, v.v… Công việc này được gọi là profiling data. Kéo thanh lăn theo chiều ngang để xem hết các cột trong bảng. 

Kiểm tra dữ liệu trước khi thực hành chuẩn bị dữ liệu Power BI

Để đánh giá chất lượng cột, chọn thẻ View, trong nhóm Data Preview, chọn Column Quality. Tính năng này cho phép chúng ta đánh giá tỷ lệ ô chứa dữ liệu có nghĩa, lỗi, hoặc ô không có dữ liệu trong cột.  

Các công cụ trong thẻ view

Chúng ta thấy cột Position có 94% dữ liệu trống (null). 

Thống kê position khi chuẩn bị dữ liệu trong Power BI

Tiếp tục chọn Column Distribution trong thẻ View

Column Distribution trong thẻ View

Trong cột Position, chúng ta thấy có 4 giá trị khác nhau tồn tại (distinct), 1 giá trị chỉ xuất hiện duy nhất 1 lần (unique). Khi xem cột EmployeeKey, chúng ta thấy có 296 giá trị distinct và 296 giá trị unique. 

Màn hình thực hành chuẩn bị dữ liệu trong Power BI

Khi số lượng giá trị unique và distinct bằng nhau, điều này có nghĩa là cột đó chứa các giá trị duy nhất. Khi xây dựng mô hình, chúng ta cần sử dụng những bảng có cột chứa giá trị unique như vậy để tạo mối quan hệ một-nhiều. Kiến thức này sẽ được học kĩ hơn trong các bài học về xây dựng mô hình dữ liệu. 

Trong khung giao diện Queries, chọn truy vấn DimEmployeeSalesTerritory. Mỗi dòng trong bảng này thể hiện một nhân sự và vùng kinh doanh mà nhân sự đó quản lý. Mỗi nhân sự có thể quản lý nhiều vùng khác nhau. Khi xây dựng mô hình với dữ liệu này, các bạn sẽ cần tạo mối quản hệ nhiều – nhiều.  

Trong truy vấn DimProduct, mỗi dòng thể hiện một sản phẩm mà công ty đang bán. Kéo thanh lăn đến hết chiều ngang, quan sát cột DimProductSubcategory

Truy vấn DimProduct khi chuẩn bị dữ liệu trên Power BI

Cột này sẽ được sử dụng để thực hiện Join với các bảng khác, nội dung này sẽ được đề cập trong lab Load Data in Power BI Desktop.  

Trong truy vấn DimReseller, mỗi dòng thể hiện thông tin một reseller. Các reseller sẽ được phân loại là đại lý bán, đại lý phân phối hoặc đại lý gia tăng giá trị sản phẩm. Chúng ta lại vào thẻ View, chọn Column Profile.

Thẻ view hỗ trợ chuẩn bị dữ liệu Power BI

Nhấn vào header cột BusinessType và quan sát khung giao diện dưới cùng vừa hiện ra. 

Màn hình hiển thị các cột dữ liệu khi chuẩn bị dữ liệu Power BI

Quan sát các thông số cột trong khung Column Statistics và giá trị phân bổ trong khung Value Distribution. Chúng ta nhận thấy tuy đại lý được phân thành 3 nhóm nhưng trong cột BusinessType này lại có tới 4 nhóm. Nhóm đại lý warehouse đã bị nhập thành 2 nhóm riêng là Warehouse và Ware House. Khi di chuột tới nhóm này, nhận thấy có 5 dòng đang bị nhập nhầm. 

Chuẩn bị dữ liệu trong Power BI - 3

Trong truy vấn DimSalesTerritory, mỗi dòng thể hiện một vùng kinh doanh (region), bao gồm cả Corporate HQ (tổng công ty). Mỗi region thuộc về một country, mỗi country thuộc về một group. Trong bài lab về Xây dựng mô hình dữ liệu, các bạn sẽ sử dụng thông tin này để tạo hierarchy.  

Trong truy vấn FactResellerSales, mỗi dòng chứa thông tin của 1 sales order line. 1 order có thể có 1 hoặc nhiều sales order line.  

Quan sát chất lượng của cột TotalProductCost, chúng ta nhận thấy có 8% số dòng bị trống. Việc cột này có các dòng bị trống là một vấn đề thuộc về phạm vi chất lượng dữ liệu. Để giải quyết vấn đề này, trong bài lab về Load Data in Power BI desktop, chúng ta sẽ dùng các bước chuyển đổi để điền đủ thông tin cho 8% dữ liệu bị trống này.  

Task 4: Lấy dữ liệu từ file csv 

Mục tiêu: Nắm được cách import dữ liệu từ file csv. 

Để thêm một truy vấn mới, trong giao diện Power Query Editor, trên thẻ Home, trong nhóm New Query, chọn New Source -> Text/CSV.  

Thực hành lấy dữ liệu từ file csv

Trong cửa sổ mới hiện ra, các bạn điều hướng về địa chỉ lưu 2 file csv đã download. Chọn file ColorFormats và bấm Open

Hướng dẫn tải file CSV đã download lên Power BI

Với cửa số mới hiện ra, các bạn chọn OK. 

Cửa sổ hiển thị bản xem trước khi tải dữ liệu lên Power BI

Quan sát khung Queries, các bạn thấy file ColorFormats đã được thêm vào.  

Màn hình khung khung Queries - chuẩn bị dữ liệu trên Power BI

Bảng ColorFormats này thể hiện màu của sản phẩm. Mỗi dòng là một mã HEX để định dạng màu nền và màu font.  

Thực hiện tương tự với file ResellerSalesTargets.csv. Mỗi dòng trong bảng này thể hiện mục tiêu doanh số của từng nhân sự trong 12 tháng. Năm tài chính của công ty bắt đầu vào ngày 1 tháng 7. 

Sau khi hoàn thành, các bạn sẽ có 8 bảng trong khung Queries như hình sau. 

Thực hành chuẩn bị dữ liệu Power BI

Task 5: Kết thúc 

Lưu file Power BI Desktop, trên thẻ File chọn Save. 

Kết thúc chuẩn bị dữ liệu Power BI

Trong bảng pop up cảnh báo, chúng ta chọn Apply later. 

Pop up cảnh báo của Power BI khi tải dữ liệu lên Power BI

Chúng ta không nên chọn Apply ngay lúc này vì Apply sẽ tải hết các dữ liệu của bạn vào trong mô hình trong khi bạn chưa thực hiện các thao tác biến đổi, làm sạch dữ liệu. Trong bài sau, chúng ta sẽ học cách làm sạch, biến đổi dữ liệu và sau đó thực hiện load chúng vào mô hình.

Xem ngay Lab 2: Load Transformed Data in Power BI Desktop (Làm sạch và chuyển đổi dữ liệu trong Power BI Desktop)

Chuỗi bài hướng dẫn thực hành Power BI PL300 Lab: https://datapot.vn/category/power-bi/power-bi-pl300-lab-video/

Chia sẻ bài viết này

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

This site uses Akismet to reduce spam. Learn how your comment data is processed.