Chuẩn hóa dữ liệu là gì?

Chuẩn hóa dữ liệu là gì? 1NF, 2NF, 3NF và ví dụ 

Ngày đăng: 08/11/2023

Chuẩn hóa dữ liệu là quá trình quan trọng trong quản lý và thiết kế cơ sở dữ liệu, nhằm tổ chức và cấu trúc dữ liệu theo một cách tiêu chuẩn và hiệu quả. Bài viết này khám phá khái niệm chuẩn hóa dữ liệu, tầm quan trọng của nó và ba dạng chuẩn hóa cơ bản giúp hướng dẫn quá trình chuẩn hóa. 

Chuẩn hóa dữ liệu là gì?  

Chuẩn hóa dữ liệu đề cập đến quá trình tổ chức và cấu trúc dữ liệu theo cách loại bỏ sự trùng lặp, đảm bảo tính nhất quán và giảm thiểu các biến đổi dữ liệu. Nó liên quan đến việc chia dữ liệu thành các bảng nhỏ hơn, có quan hệ logic với nhau, giảm thiểu sự lặp lại dữ liệu và thiết lập mối quan hệ giữa các bảng này thông qua các khóa. 

Tại sao cần chuẩn hóa dữ liệu?  

Chuẩn hóa dữ liệu là vô cùng quan trọng vì các lý do sau đây:  

1. Loại bỏ sự trùng lặp: Bằng cách loại bỏ dữ liệu trùng lặp, chuẩn hóa giúp giảm yêu cầu lưu trữ, cải thiện hiệu suất truy xuất dữ liệu và giảm nguy cơ không nhất quán. 

2. Đảm bảo tính nhất quán: Chuẩn hóa cải thiện tính toàn vẹn dữ liệu bằng cách loại bỏ các tình huống không nhất quán có thể xảy ra khi dữ liệu được lưu trữ lặp đi lặp lại.  

3. Đơn giản hóa việc bảo trì: Bằng cách chia dữ liệu thành các bảng nhỏ hơn, có cấu trúc tốt, chuẩn hóa đơn giản hóa việc quản lý và bảo trì cơ sở dữ liệu.  

4. Hỗ trợ khả năng mở rộng: Cơ sở dữ liệu chuẩn hóa dễ dàng thích ứng với các sửa đổi, mở rộng và nâng cấp hệ thống trong tương lai.  

Khóa chính và Khóa ngoại

Trong thiết kế cơ sở dữ liệu, khóa chính là một cột hoặc tổ hợp nhiều cột định danh duy nhất từng hàng trong một bảng. Nó đảm bảo tính toàn vẹn dữ liệu và được sử dụng làm điểm tham chiếu để thiết lập mối quan hệ với các bảng khác.  

Lưu ý: Khóa chính không được NULL và lặp lại. 

Trong khi đó, khóa ngoại là một cột hoặc các cột trong một bảng, tham chiếu đến khóa chính trong một bảng khác, thiết lập mối quan hệ giữa hai bảng. Khóa ngoại đảm bảo tính toàn vẹn tham chiếu và duy trì tính nhất quán giữa các bảng liên quan.  

Ví dụ: Trong hình dưới, cột CustomerID là khóa chính của bảng Customers và là khóa ngoại của bảng Orders, tạo ra mối liên kết giữa hai bảng. 

Khóa chính và Khóa ngoại

Ba dạng chuẩn hóa đầu tiên 

Quá trình chuẩn hóa tuân theo một tập hướng dẫn được gọi là dạng chuẩn. Ba dạng chuẩn đầu tiên đóng vai trò quan trọng trong việc đạt được cấu trúc cơ sở dữ liệu tổ chức và hiệu quả. 

Dạng chuẩn hóa đầu tiên (1NF)

Dạng chuẩn hóa đầu tiên yêu cầu mỗi cột trong bảng chỉ chứa các giá trị nguyên tử (không thể phân tách), và không có nhóm dữ liệu lặp lại.  

Nói cách khác, mỗi thuộc tính của bảng phải chứa một giá trị duy nhất.  

Ví dụ: 

Bảng dữ liệu trước khi được chuẩn hóa 1NF 

Bảng dữ liệu sau khi được chuẩn hóa 1NF 

Dạng Chuẩn Hóa Thứ Hai (2NF)

Dạng chuẩn hóa thứ hai xây dựng trên cơ sở của 1NF bằng cách loại bỏ các phụ thuộc một phần. Phụ thuộc một phần xảy ra khi một thuộc tính phụ thuộc vào chỉ một phần của khóa chính.  

Để đạt được 2NF, bảng nên được chia thành các bảng riêng biệt, trong đó mỗi thuộc tính phụ thuộc hoàn toàn vào toàn bộ khóa chính.  

Ví dụ:  

Trong bảng Employee, các cột Name (Tên nhân sự), Dept_name (Tên phòng ban), Salary (Mức lương) phụ thuộc vào cột EmployeeID (Mã nhân sự). 

Trong bảng Emp_Crs, các cột EmployeeID (Mã nhân sự), CourseID (Mã khóa học) và DateCompleted (Ngày hoàn thành khóa học) phụ thuộc vào cột ID. 

Trong bảng Course (Khóa học), cột Course_Title (Tên khóa học) phụ thuộc vào cột Course_ID (Mã khóa học). 

Dạng Chuẩn Hóa Thứ Ba (3NF)

Dạng chuẩn hóa thứ ba tiếp tục cải thiện cấu trúc bảng bằng cách loại bỏ các phụ thuộc chuyển tiếp. Phụ thuộc chuyển tiếp xảy ra khi một thuộc tính phụ thuộc vào một thuộc tính khác không phải là khóa chính. 

Trong 3NF, các bảng được chia để loại bỏ các phụ thuộc này.  

Ví dụ: Bảng thông tin đơn hàng ở dưới chưa được chuẩn hóa 3NF, ta thấy có cột OrderID (Mã đơn hàng) là khóa chính nhưng các cột CustomerName (Tên khách hàng), CustomerCountry (Quốc gia của khách hàng) vẫn phụ thuộc vào cột khóa ngoại là CustomerID (Mã khách hàng). 

Để chuẩn hóa 3NF, ta tách các cột chứa thông tin về khách hàng thành một bảng khác như sau: 

Chuẩn hóa dữ liệu là gì?  

Khóa học nào của Datapot dạy về chuẩn hóa dữ liệu?

Trong khóa học Azure Data Fundamentals, tức khóa đầu tiên trong lộ trình Data Analytics Foundation của Datapot, học viên không chỉ được giới thiệu về các nền tảng cơ sở dữ liệu Azure của Microsoft, mà còn được học về bản chất của dữ liệu cũng như cách chuẩn hóa, lưu trữ dữ liệu, các cơ sở dữ liệu và tổng quan về công việc trong ngành dữ liệu. Việc nắm chắc các kiến thức cơ bản về dữ liệu sẽ là nền tảng cho việc học về SQL, Power BI, Python cũng như việc phát triển sự nghiệp trong ngành dữ liệu sau này của học viên. 

Đặc biệt, sau khi hoàn thành khóa học này, bạn sẽ đủ điều kiện tham gia kỳ thi DP-900 lấy chứng chỉ Azure Data Fundamentals của Microsoft –  chứng chỉ được công nhận trên toàn thế giới. 

Tìm hiểu thêm về lộ trình dành riêng cho Data Analyst ngay tại đây:

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *