Sự giống nhau và khác nhau giữa EFA và CFA


Bài viết này sẽ tập trung đi vào giải thích sự giống và khác nhau giữa EFA và CFA trên lý thuyết thống kê và thực tế ứng dụng. EFA (Exploratory Factor Analysis) là phân tích nhân tố khám phá, CFA (Confirmatory Factor Analysis) là phân tích nhân tố khẳng định. Từ tên gọi đã phản ánh được chức năng chính của hai loại kiểm định này.

1. Sự khác biệt EFA và CFA: Hiểu đơn giản

a. Giống nhau

- Cả hai đều đánh giá được mối quan hệ giữa biến quan sát với biến tiềm ẩn. Từ đó xem được biến quan sát nào đóng góp nhiều vào biến tiềm ẩn mẹ, biến quan sát nào không có đóng góp.

- Cả hai đều thể hiện tính hội tụ (convergence) và tính phân biệt (discriminant) của các nhóm cấu trúc biến.

b. Khác nhau

- EFA là thống kê thế hệ I (truyền thống)

- CFA là thống kê thế hệ II (hiện đại) đa chức năng và giải quyết được nhiều vấn đề mà thống kê thế hệ I không xử lý được: như phân tích đa nhóm, đánh giá độ phù hợp tổng thể mô hình đo lường.

- EFA chủ yếu thiên về khám phá cấu trúc nhân tố. Các biến quan sát đưa vào phân tích EFA sẽ được hiểu là ngang vai trò với nhau và không biết được biến quan sát nào thuộc biến tiềm ẩn nào. Việc phân biến quan sát nào tải mạnh cho biến tiềm ẩn nào phần mềm sẽ tự tính toán dựa trên dữ liệu.

- CFA chỉ thuần về khẳng định cấu trúc nhân tố. Các biến quan sát ngay từ đầu đưa vào CFA đều đã được xác định là thuộc biến tiềm ẩn nào và chỉ xem xét vai trò biến quan sát trong nội bộ một biến tiềm ẩn đó.

- Do EFA là khám phá ra các cấu trúc tiềm ẩn trong một lượng lớn biến quan sát nên các nhóm được hình thành sau EFA có thể khác với các nhóm cấu trúc lý thuyết: biến quan sát nhóm này nhảy sang nhóm khác, ít nhân tố hoặc nhiều nhân tố hơn so với lý thuyết...

- Trong khi đó CFA luôn cố định xem xét bao nhiêu cấu trúc biến đó từ xuyên suốt quá trình phân tích, chỉ có loại bỏ đi biết quan sát đã có do biến đó không giải thích được cho biến tiềm ẩn.

- Các biến đưa vào EFA sẽ được chuẩn hóa rồi mới thực hiện EFA.

- Các biến đưa vào CFA trong hầu hết trường hợp là phân tích dạng chưa chuẩn hóa.

- EFA xác định các biến quan sát đưa vào không có sai số đo lường (dẫn đến ước lượng ít chính xác).

- CFA xác định các biến quan sát đưa vào có sai số đo lường (ước lượng chính xác hơn).

SỰ KHÁC BIỆT GIỮA EFA VÀ CFA TRONG LÀM LUẬN:

- Sử dụng EFA nếu:

+ Ý đồ của bạn là muốn khám phá ra các cấu trúc tiềm ẩn giữa các biến quan sát, kiểm tra xem các cấu trúc khám phá được có giống với lý thuyết không.

+ Có sự thay đổi, điều chỉnh, thêm/bớt số lượng biến quan sát, số lượng biến tiềm ẩn so với các nghiên cứu lý thuyết. EFA sẽ giúp định hình lại các cấu trúc mới phù hợp hơn.

- Sử dụng CFA nếu:

+ Ý đồ của bạn là chỉ muốn xem xét các biến quan sát thuộc một biến tiềm ẩn có đang thể hiện được đặc tính của biến tiềm ẩn đó hay không và không xét đến mối quan hệ giữa biến quan sát của biến tiềm ẩn này với biến tiềm ẩn khác.

+ Các biến quan sát, biến tiềm ẩn không có sự thay đổi so với lý thuyết.

+ Nếu muốn đánh giá được độ phù hợp của mô hình tổng thể.

2. Sự khác biệt EFA và CFA: Lý thuyết học thuật

Lưu ý, các thuật ngữ, khái niệm được sử dụng trong bài viết này toàn bộ mang tính học thuật được trích dẫn hoàn toàn từ sách nên sẽ hơi khó hiểu. Phần này chủ yếu phục vụ các bạn đang đi vào tìm hiểu sâu bản chất vấn đề. Mình sẽ không giải thích hay hỗ trợ bất cứ thông tin gì về lý thuyết học thuật.

1. Mô hình nhân tố chung

Giống với EFA, mục đích của CFA là xác định nhân tố tiềm ẩn trong một tập hợp các biến quan sát. Cả EFA và CFA đều dựa trên mô hình nhân tố chung, do đó nhiều khái niệm và thuật ngữ đã được trình bày trong chương EFA sẽ được sử dụng cho CFA, như là hệ số tải nhân tố (factor loadings), phương sai riêng (unique variance), thành phần chung (communalities), phần dư (residuals). 

Tuy nhiên, trong khi EFA thường là một thủ tục mô tả hoặc khám phá, đối với CFA, người nghiên cứu phải chỉ định cụ thể tất cả các khía cạnh của mô hình nhân tố: số lượng các nhân tố, hình dạng các mối quan hệ giữa nhân tố và chỉ báo,... CFA đòi hỏi một nền tảng thực nghiệm hay khái niệm mạnh để hướng dẫn việc chỉ định và ước lượng các mô hình nhân tố. 

Theo đó, phân tích CFA thường được sử dụng trong giai đoạn sau của phát triển thang đo hoặc xác định cấu trúc, sau khi các cấu trúc cơ bản đã được thành lập bằng các phân tích thực nghiệm sử dụng EFA trước đó, cũng như căn cứ vào cơ sở lý thuyết. EFA và CFA thường sử dụng cùng một phương pháp ước lượng (ví dụ, maximum likelihood - ML). Khi sử dụng phương pháp ML (còn được gọi là phương pháp ước lượng thông tin đầy đủ), các mô hình nhân tố (cả EFA và CFA) đều có thể được đánh giá thông qua quá trình mô phỏng phương sai và hiệp phương sai của các chỉ báo đầu vào.

Ngoài ra, chất lượng của mô hình EFA và CFA còn được xác định một phần bởi kết quả các tham số ước lượng (ví dụ, độ lớn của các hệ số tải nhân tố và hệ số tương quan giữa các nhân tố), và mức độ hiệu quả của mỗi nhân tố (ví dụ, số lượng các chỉ báo cho mỗi nhân tố, độ lớn của các thành phần chung, tính xác định của các nhân tố).

2. Giải pháp chuẩn hóa và không chuẩn hóa

Trong phân tích EFA, các biến đều hoàn toàn chuẩn hóa. Cụ thể, ma trận tương quan được sử dụng làm thông tin đầu vào của EFA, và cả biến tiềm ẩn và biến chỉ báo đều chuẩn hóa phương sai nhân tố tương đương với một, hệ số tải nhân tố được giải thích như là hệ số tương quan hoặc hệ số hồi quy chuẩn hóa.

Mặc dù CFA cũng có thể phân tích theo giải pháp chuẩn hóa hoàn toàn, nhưng nhiều phân tích không chuẩn hóa biến tiềm ẩn hoặc biến quan sát. Thay vì sử dụng ma trận tương quan (ví dụ, ma trận tương quan chính ma trận phương sai – hiệp phương sai đã chuẩn hóa hoàn toàn), CFA thường phân tích bằng ma trận phương sai-hiệp phương sai, hoặc dữ liệu thô được sử dụng để các chương trình phần mềm tạo ra một ma trận phương sai-hiệp phương sai đầu vào. 

Ngoài giải pháp chuẩn hóa hoàn toàn, kết quả của CFA có thể bao gồm giải pháp không chuẩn hóa (tham số ước lượng theo thang đo gốc của các chỉ báo) hoặc giải pháp chuẩn hóa từng phần (mối quan hệ giữa các chỉ báo không chuẩn hóa và biến tiềm ẩn chuẩn hóa). Điểm cần chú ý đặc biệt là nhiều loại tham số trong CFA được ước lượng không chuẩn hóa, như là sai số chuẩn và kiểm định ý nghĩa thống kê của các tham số trong mô hình.

Các giá trị trung bình không chuẩn hóa cũng có thể tính toán được trong phân tích CFA. Như vậy, trái với EFA là chỉ tập trung vào các giá trị chuẩn hóa hoàn toàn, CFA có thể thực hiện phân tích cả cấu trúc phương sai-hiệp phương sai và cấu trúc trung bình (đối với các phân tích chuẩn hóa trong EFA, các chỉ báo trung bình được xem bằng không).

Kết quả phân tích EFA được kết xuất theo giải pháp chuẩn hóa hoàn toàn. Trong nghiên cứu CFA ứng dụng, giải pháp chuẩn hóa hoàn toàn cũng được sử dụng nhiều. Tuy nhiên, phương pháp phân tích SEM thường ưu tiên cho các giải pháp không chuẩn hóa bởi các phân tích của nó thường dựa trên các biến không chuẩn hóa, các giá trị chuẩn hóa hoàn toàn có khả năng gây ra nhầm lẫn. Ví dụ, bản chất thực của phương sai và mối quan hệ giữa các biến chỉ báo với các nhân tố có thể bị che khuất nếu sử dụng giải pháp chuẩn hóa hoàn toàn, và khi sử dụng đơn vị đo gốc của các biến số để giải thích ý nghĩa về mặt nội dung kết quả nghiên cứu, các ước lượng không chuẩn hóa sẽ chuyển tải một cách rõ ràng hơn tầm quan trọng hoặc ý nghĩa của các tác động.

3. Hệ số tải nhân tố chéo và độ chính xác của mô hình

EFA và CFA có sự khác biệt một cách rõ rệt trong cách xử lý các hệ số tải nhân tố trong trường hợp đa nhân tố (trong mô hình đơn nhân tố, vấn đề hệ số tải chéo và xoay nhân tố không đặt ra). Đối với phân tích EFA, tất cả các chỉ báo được phép tải tự do lên mọi nhân tố và sử dụng giải pháp xoay để tối đa hóa độ lớn hệ số tải lên các nhân tố chính và cực tiểu độ lớn của hệ số tải chéo (cross-loadings). Giải pháp xoay không áp dụng trong CFA. Điều này là do các ràng buộc trong vấn đề nhận dạng mô hình, trong phân tích CFA, hầu như tất cả các hệ số tải chéo đều cố định bằng giá trị không. Nói cách khác, vấn đề xoay là không cần thiết trong CFA bởi các chỉ báo đã được chỉ định tải lên một biến tiềm ẩn duy nhất.

4. Phương sai riêng

Khác với EFA, khung CFA cung cấp cho các nhà nghiên cứu khả năng xác định bản chất của mối quan hệ giữa các sai số đo lường (phương sai riêng - unique variances) của các chỉ báo. Mặc dù cả EFA và CFA đều phân biệt phương sai chung và phương sai riêng, EFA không có khả năng chỉ định mối quan hệ giữa các phương sai riêng. Do hạn chế này nên mô hình EFA thường giả định sai số đo lường là ngẫu nhiên. Ngược lại, tương quan sai số đo lường có thể được mô hình hóa trong phân tích CFA. 

5. So sánh mô hình

Các phần trước của chương này đã trình bày một số đặc tính quan trọng cho thấy CFA linh hoạt hơn EFA (chỉ định số lượng nhân tố trong mô hình, chỉ rõ dạng quan hệ giữa nhân tố và các chỉ báo, có thể phân tích hiệp phương sai của các sai số). Ngoài những khía cạnh trên, CFA còn cho phép nhà nghiên cứu thiết lập các ràng buộc khác nhau lên các nhân tố, chẳng hạn như ràng buộc tất cả các hệ số tải nhân tố hoặc phương sai riêng tương đương nhau. Tính khả thi của những ràng buộc này có thể được đánh giá bằng cách so sánh thống kê, mục đích nhằm so sánh giữa mô hình không ràng buộc và ràng buộc để xem mô hình nào tốt hơn. 

Đối với các dạng mô hình lồng nhau (nested models) có thể sử dụng giải pháp so sánh thống kê trực tiếp. Mô hình lồng nhau là dạng mô hình, trong đó một mô hình có chứa một nhóm tham số tự do của mô hình khác, được xem như là mô hình gốc của mô hình lồng. Ví dụ, xem xét hai mô hình sau: (1) Mô hình P: mô hình một nhân tố gồm 6 chỉ báo, được cho phép tải tự do lên nhân tố và, (2) Mô hình N: mô hình một nhân tố giống với mô hình P, ngoại trừ các hệ số tải nhân tố được ràng buộc tương đương lên nhân tố. Mặc dù hai mô hình có cấu trúc giống nhau (bao gồm một nhân tố và cùng là 6 chỉ báo), chúng khác nhau bởi số tham số ước lượng tự do so với tham số ước lượng ràng buộc.

Khi các tham số ước lượng tự do, mục đích sử dụng CFA của nhà nghiên cứu là tìm giá trị của các tham số (hệ số tải nhân tố, hệ số tương quan nhân tố, phương sai riêng) mô phỏng tối ưu ma trận phương sai-hiệp phương sai đầu vào. Trong trường hợp tham số cố định, nhà nghiên cứu ấn định một giá trị cụ thể (chẳng hạn, cố định hệ số tải chéo = 0 hàm ý không có mối quan hệ giữa các chỉ báo đó với nhân tố.

Khi các tham số bị ràng buộc, các nhà nghiên cứu trong nhiều trường hợp không chỉ định chính xác giá trị tham số, nhưng có thể thiết lập các ràng buộc khác về độ lớn các giá trị có thể có (ví dụ, trong trường hợp mô hình N, nhà nghiên cứu chỉ định phân tích mô phỏng một cách tối ưu ma trận đầu vào với điều kiện tất cả các hệ số tải nhân tố giống nhau). Như vậy, mô hình N là mô hình lồng của mô hình P (mô hình gốc) bởi nó ràng buộc một nhóm tham số tự do của mô hình P. Theo đó, có thể so sánh độ phù hợp về mặt thống kê giữa hai mô hình P và N (bằng phương pháp như kiểm tra sự khác biệt giá trị x giữa hai mô hình) để đánh giá trực tiếp tính khả thi của điều kiện ràng buộc các hệ số tải tương đương (6 chỉ báo có mối quan hệ như nhau đối với nhân tố tiềm ẩn). 

Do phương pháp EFA chỉ ước lượng các tham số tự do (không chỉ định được các tham số cố định) nên không thể đánh giá được bản chất của các mô hình thông qua phương pháp so sánh. Phương pháp so sánh giá trị giữa các mô hình còn có thể sử dụng để so sánh các dạng mô hình lồng khác trong phân tích CFA. Ví dụ, CFA có thể sử dụng để kiểm định ý nghĩa thống kê của các tham số trong một mô hình nhân tố là giống hay khác nhau giữa hai hoặc nhiều hơn các nhóm khác nhau (ví dụ, giữa nam và nữ).