EXISTS, IN và JOIN trong SQL: Phân biệt, cách sử dụng và phân tích hiệu năng

Trong quá trình làm việc với SQL, đặc biệt khi xử lý dữ liệu lớn trong các hệ quản trị cơ sở dữ liệu như SQL Server, việc lựa chọn cách viết truy vấn có thể ảnh hưởng trực tiếp đến hiệu năng của hệ thống. Ba cách phổ biến để truy vấn dữ liệu liên quan giữa các bảng là EXISTS, IN và JOIN.

Trong nhiều trường hợp, ba cách viết này có thể trả về cùng một tập kết quả, nhưng cách SQL Server thực thi phía sau lại hoàn toàn khác nhau. Sự khác biệt này thể hiện rõ trong execution plan, mức độ sử dụng tài nguyên và thời gian chạy truy vấn.

Bài viết này sẽ phân tích chi tiết cách hoạt động của EXISTS, IN và JOIN, so sánh sự khác biệt giữa chúng, đồng thời minh họa bằng các ví dụ thực tế để quan sát execution plan và đánh giá hiệu năng.

Mục lục

1 Chức năng của từng phương pháp
2 So sánh EXISTS, IN và JOIN
3 Thực nghiệm trên Azure Data Studio
- 3.1 Tạo bảng dữ liệu mẫu
- 3.2 Tạo dữ liệu giả lập: 100,000 khách hàng và 50,000 đơn hàng
4 Kết luận

Chức năng của từng phương pháp

EXISTS

EXISTS là một toán tử được sử dụng để kiểm tra xem một subquery có trả về bất kỳ dòng dữ liệu nào hay không. Nếu subquery trả về ít nhất một dòng, điều kiện EXISTS sẽ được đánh giá là TRUE (Đúng).

Một đặc điểm quan trọng của EXISTS là SQL Server không cần đọc toàn bộ kết quả của subquery. Khi tìm thấy dòng phù hợp đầu tiên, quá trình kiểm tra có thể dừng lại.

Ví dụ

Giả sử chúng ta có hai bảng:

Customers: danh sách khách hàng
Orders: danh sách đơn hàng

Yêu cầu: tìm những khách hàng đã từng đặt hàng

SELECT *  

FROM Customers C  

WHERE EXISTS (  

SELECT 1  

FROM Orders O  

WHERE O.CustomerID = C.CustomerID  

)

Trong truy vấn này:

SQL Server duyệt từng dòng trong bảng Customers
Với mỗi khách hàng, hệ thống kiểm tra xem có bản ghi tương ứng trong Orders hay không
Nếu tìm thấy một dòng phù hợp, SQL Server sẽ dừng tìm kiếm và trả về kết quả

Vì cơ chế dừng sớm này, EXISTS thường có hiệu năng tốt khi làm việc với dữ liệu lớn.

IN

Toán tử IN được sử dụng để kiểm tra xem một giá trị có thuộc tập kết quả của một subquery hay không.

Ví dụ

Cũng với bài toán tìm khách hàng đã đặt hàng:

SELECT *  

FROM Customers  

WHERE CustomerID IN (  

SELECT CustomerID  

FROM Orders  

)

Khác với EXISTS, cách xử lý của SQL Server thường là:

Thực thi subquery trước
Lưu tập kết quả
So sánh giá trị của cột CustomerID với tập giá trị thu được

Nếu subquery trả về số lượng bản ghi lớn, quá trình này có thể tiêu tốn nhiều bộ nhớ và ảnh hưởng đến hiệu năng.

JOIN

JOIN được sử dụng để kết hợp dữ liệu từ nhiều bảng dựa trên một điều kiện liên kết.

Ví dụ

SELECT DISTINCT C.CustomerID 

FROM Customers C  

JOIN Orders O  

ON C.CustomerID = O.CustomerID

Truy vấn này sẽ ghép các dòng từ bảng Customers và Orders khi CustomerID trùng nhau.

Điểm cần lưu ý là JOIN có thể tạo ra nhiều dòng kết quả cho cùng một khách hàng, vì một khách hàng có thể có nhiều đơn hàng. Do đó trong ví dụ trên cần dùng DISTINCT để loại bỏ dữ liệu trùng lặp.

So sánh EXISTS, IN và JOIN

Bảng dưới đây tóm tắt sự khác biệt cốt lõi giữa 3 phương pháp SQL khi kiểm tra sự tồn tại hoặc kết hợp dữ liệu. Mỗi tiêu chí giúp hiểu rõ cách hoạt động và khi nào nên chọn phương pháp nào.

Tiêu chí	EXISTS	IN	JOIN
Mục đích chính	Kiểm tra sự tồn tại của ít nhất 1 hàng khớp trong subquery tương quan	So sánh giá trị với tập giá trị từ subquery độc lập	Kết hợp dữ liệu từ 2+ bảng dựa trên điều kiện
Cách xử lý	Dừng khi tìm thấy dòng đầu tiên	Thực thi subquery trước, tạo list rồi so sánh từng giá trị	Ghép toàn bộ các hàng khớp từ cả 2 bảng
Trả về dữ liệu trùng	Không	Không	Có thể
Phù hợp dữ liệu lớn	Tốt	Có thể gây chậm (load toàn bộ list vào memory)	Tùy trường hợp

Khi nào nên sử dụng EXISTS?

EXISTS đặc biệt hiệu quả trong những trường hợp:

Subquery trả về nhiều dòng dữ liệu
Chỉ cần kiểm tra sự tồn tại
Không cần lấy dữ liệu từ bảng phụ

Trong trường hợp này, SQL Server chỉ cần xác nhận rằng ít nhất một bản ghi có tồn tại, thay vì phải đọc toàn bộ bảng.

Khi nào nên sử dụng IN?

IN thường phù hợp khi:

Subquery trả về số lượng giá trị nhỏ
Câu truy vấn cần viết đơn giản và dễ đọc

Tuy nhiên, nếu subquery trả về một tập dữ liệu lớn, SQL Server có thể phải tạo cấu trúc dữ liệu trung gian để lưu trữ tập kết quả, từ đó làm tăng chi phí xử lý.

Khi nào nên sử dụng JOIN?

JOIN phù hợp nhất khi:

Cần lấy dữ liệu từ nhiều bảng
Không chỉ kiểm tra sự tồn tại
Muốn kết hợp nhiều cột từ các bảng khác nhau

Truy vấn này cho phép lấy đồng thời thông tin khách hàng và đơn hàng.

Thực nghiệm trên Azure Data Studio

Để hiểu rõ sự khác biệt về hiệu năng, chúng ta có thể tạo một dataset lớn và chạy thử ba cách truy vấn khác nhau cho cùng một yêu cầu.

Tạo bảng dữ liệu mẫu

CREATE TABLE #Customers (  

CustomerID INT PRIMARY KEY,  

CustomerName NVARCHAR(100)  

) ; 

 

CREATE TABLE #Orders (  

OrderID INT IDENTITY(1,1),  

CustomerID INT,  

OrderAmount INT  

) ;

Tạo dữ liệu giả lập: 100,000 khách hàng và 50,000 đơn hàng

INSERT INTO #Customers  

SELECT TOP 100000  

ROW_NUMBER() OVER (ORDER BY (SELECT NULL)),  

'Customer_' + CAST(ROW_NUMBER() OVER (ORDER BY (SELECT NULL)) AS NVARCHAR)  

FROM sys.objects a  

CROSS JOIN sys.objects b ; 

 

INSERT INTO #Orders (CustomerID, OrderAmount)  

SELECT TOP 50000  

ABS(CHECKSUM(NEWID())) % 100000 + 1,  

ABS(CHECKSUM(NEWID())) % 1000  

FROM sys.objects a  

CROSS JOIN sys.objects b ;

Truy vấn bằng EXISTS

SELECT COUNT(*)  

FROM #Customers c 

WHERE EXISTS (SELECT 1 FROM #Orders o  

WHERE o.CustomerID = c.CustomerID  

AND o.OrderAmount > 500);

Như vậy, khi SQL Server tìm thấy bản ghi khớp đầu tiên trong subquery. Điều này đã giảm đáng kể số lượng dữ liệu cần phải đọc. Ngoài ra, subquery của EXISTS thường được thực thi theo từng dòng của bảng ngoài (ví dụ bảng Customers). Cách xử lý tuần tự này giúp tận dụng bộ nhớ đệm (cache) của hệ thống, từ đó cải thiện hiệu năng khi truy vấn dữ liệu lớn.

Truy vấn bằng IN

SELECT COUNT(*)  

FROM #Customers  

WHERE CustomerID IN ( 

SELECT CustomerID  

FROM #Orders  

WHERE CustomerID > 500 

);

Subquery phải thực thi toàn bộ: Khi sử dụng IN, SQL Server đã phải scan toàn bộ bảng #Orders (11 nghìn dòng).
Tạo cấu trúc dữ liệu trung gian: Sau khi đọc dữ liệu, SQL Server thường xây dựng một hash table để lưu tập giá trị. Việc tạo và lưu cấu trúc này có thể tiêu tốn đáng kể bộ nhớ, đặc biệt khi dataset lớn.
Vấn đề với NOT IN và NULL: Nếu subquery chứa giá trị NULL, điều kiện NOT IN có thể không trả về kết quả như mong đợi, thậm chí khiến truy vấn không trả về dòng nào. Đây là một điểm cần đặc biệt lưu ý khi sử dụng NOT IN.

Truy vấn bằng JOIN

SELECT COUNT(*)  

FROM #Customers c 

INNER JOIN #Orders o  

ON c.CustomerID = o.CustomerID  

WHERE o.OrderAmount > 500;

Như vậy, SQL Server thường sử dụng Hash Join khi xử lý dataset lớn. Phương pháp này cần bộ nhớ để xây dựng hash table. Trong các execution plan thực tế, với dữ liệu vài trăm nghìn bản ghi trở lên, Hash Join thường có cost tương đối thấp hơn (khoảng 20–30% so với batch) và bộ nhớ sử dụng hiệu quả hơn, trong khi IN trên subquery lớn có thể chiếm 40–60%+ (*)
Khả năng mở rộng tốt: JOIN đặc biệt hiệu quả khi cần tổng hợp dữ liệu (aggregate) hoặc khi truy vấn cần lấy thông tin từ cả hai bảng. Trong các tình huống phân tích dữ liệu hoặc báo cáo, đây thường là lựa chọn linh hoạt và dễ mở rộng nhất.

Như vậy, mặc dù số lượng logical reads giữa EXISTS, IN và JOIN là tương đương do dataset nhỏ và đều thực hiện scan toàn bộ bảng, sự khác biệt rõ rệt nằm ở CPU và execution time (Bảng dưới là kết quả execution plan của 3 câu lệnh)

Query	Customers Reads	Orders Reads	CPU (ms)	Elapsed (ms)	Compile Time
EXISTS	80	39	0	5	53 ms
IN	79	39	15	11	8 ms
JOIN	80	39	16	12	4 ms

Kết luận

EXISTS, IN và JOIN đều là những công cụ quan trọng trong SQL để xử lý các truy vấn liên quan giữa nhiều bảng. Tuy nhiên, mỗi phương pháp có đặc điểm và cách thực thi khác nhau.

Tóm lại:

EXISTS phù hợp nhất để kiểm tra sự tồn tại của dữ liệu, đặc biệt với dataset lớn
IN dễ đọc và thuận tiện khi làm việc với tập giá trị nhỏ
JOIN mạnh mẽ khi cần kết hợp dữ liệu từ nhiều bảng

Trong thực tế, thay vì chỉ dựa vào cú pháp quen thuộc, việc phân tích execution plan và thử nghiệm với dữ liệu thực tế là cách tốt nhất để lựa chọn phương án tối ưu.

Các công cụ như Azure Data Studio giúp chúng ta quan sát cách SQL Server thực thi truy vấn, từ đó hiểu sâu hơn về cơ chế hoạt động của database engine và viết các truy vấn hiệu quả hơn.

Tài liệu tham khảo:

My Đào Thị Trà

Chia sẻ bài viết này

EXISTS, IN và JOIN trong SQL: Phân biệt, cách sử dụng và phân tích hiệu năng

Chức năng của từng phương pháp

EXISTS

IN

JOIN

So sánh EXISTS, IN và JOIN

Khi nào nên sử dụng EXISTS?

Khi nào nên sử dụng IN?

Khi nào nên sử dụng JOIN?

Thực nghiệm trên Azure Data Studio

Tạo bảng dữ liệu mẫu

Tạo dữ liệu giả lập: 100,000 khách hàng và 50,000 đơn hàng

Truy vấn bằng EXISTS

Truy vấn bằng IN

Truy vấn bằng JOIN

Kết luận

Bài viết liên quan

Để lại một bình luận Hủy

Chức năng của từng phương pháp

EXISTS

IN

JOIN

So sánh EXISTS, IN và JOIN

Khi nào nên sử dụng EXISTS?

Khi nào nên sử dụng IN?

Khi nào nên sử dụng JOIN?

Thực nghiệm trên Azure Data Studio

Tạo bảng dữ liệu mẫu

Tạo dữ liệu giả lập: 100,000 khách hàng và 50,000 đơn hàng

Truy vấn bằng EXISTS

Truy vấn bằng IN

Truy vấn bằng JOIN

Kết luận

Bài viết liên quan

Để lại một bình luận Hủy

Đăng nhập