Repeated indicators và Two-stage xử lý biến bậc hai trong SMARTPLS

Dưới đây là bài viết biên soạn dựa trên nội dung gốc đề cập tới hai kỹ thuật xử lý mô hình bậc cao trong PLS-SEM là Repeated indicators approach (kỹ thuật biến quan sát lặp lại) và Two-stage approach (kỹ thuật hai giai đoạn), dựa trên hai công trình nghiên cứu nổi tiếng về xử lý biến bậc cao trong PLS-SEM:

1. Hair Jr., J. F., Sarstedt, M., Ringle, C. M., & Gudergan, S. P. (2017). Advanced Issues in Partial Least Squares Structural Equation Modeling. Sage Publications.

2. Sarstedt, M., Hair, J. F., HaJun-Hwa, C., Becker, J.-M., & Ringle, C. M. (2019). How to Specify, Estimate, and Validate Higher-Order Constructs in PLS-SEM. Australasian Marketing Journal, 27, 197-211.

1. Bối cảnh ra đời của Repeated indicators approach và Two-stage approach trong PLS-SEM

Khi nghiên cứu một khái niệm đa chiều trong PLS-SEM, nhà nghiên cứu thường cần mô hình hóa một higher-order construct (HOC) được tạo thành từ nhiều lower-order constructs (LOCs). Vấn đề đặt ra là: trong SMARTPLS hay PLS-SEM nói chung, HOC không có bộ chỉ báo “tự nhiên” riêng như một biến bậc một thông thường, nên phải có cách kỹ thuật để nhận diện và ước lượng nó trong mô hình. Hai cách được dùng nhiều nhất là repeated indicators approach và two-stage approach.

Sarstedt và cộng sự nhấn mạnh rằng hai kỹ thuật này là các cách tiếp cận nổi bật nhất trong nghiên cứu ứng dụng, đặc biệt với HOC kiểu reflective-reflective và reflective-formative. Đồng thời, họ cũng lưu ý rằng giới nghiên cứu thường nhầm lẫn giữa việc xác định mô hình, ước lượng mô hình và đánh giá độ tin cậy – giá trị của HOC.

2. Kỹ thuật Repeated indicators approach

2.1 Repeated indicators approach là gì?

Về bản chất, repeated indicators approach lấy toàn bộ chỉ báo của các LOC và gán lại cho HOC. Nghĩa là, nếu HOC gồm ba LOC và mỗi LOC có ba chỉ báo, thì HOC sẽ được đo bằng chính chín chỉ báo đó. Sách của Hair và cộng sự cũng mô tả đúng logic này: các chỉ báo được dùng hai lần, một lần cho LOC và một lần nữa cho HOC. Ví dụ như trong mô hình bên dưới, các biến quan sát x1-x9 thuộc các LOC được đem gán vào HOC.

Biến bậc hai kết quả (reflective)

Điểm mạnh đầu tiên của repeated indicators approach là rất trực quan và dễ triển khai. Trong thực hành SMARTPLS, đây là cách nhiều người sử dụng đầu tiên vì nó cho phép dựng trực tiếp HOC trong sơ đồ mô hình. Cách này cũng có thể mở rộng lên mô hình bậc ba, bậc bốn nếu có cơ sở lý thuyết phù hợp.

Tuy nhiên, repeated indicators approach không chỉ là một cách “vẽ mô hình”, mà còn hàm ý một logic đo lường: các biến quan sát của biến bậc một gán vào cho biến bậc hai không phải là biến quan sát đo lường thực sự của biến bậc hai, nó chỉ giúp biến bậc hai được nhận diện về mặt khai báo, còn thực sự đo lường cho biến bậc hai chính là các biến bậc một. Sarstedt và cộng sự nhấn mạnh rằng khi đánh giá HOC, nhà nghiên cứu không được đánh giá HOC bằng các biến quan sát này; chúng chỉ có vai trò nhận diện HOC. Measurement model thực sự của HOC là quan hệ giữa HOC và các LOC. Nếu quan hệ HOC–LOC là reflective thì xem như loadings (hệ số tải ngoài); nếu là formative thì xem như weights (trọng số tải).

Đây là một điểm học thuật rất quan trọng vì trong thực tế nhiều bài nghiên cứu đã đánh giá sai HOC bằng cách nhìn outer loading của các repeated indicators giống như với biến bậc một.

2.2 Ưu điểm học thuật của repeated indicators approach

Theo kết quả tổng hợp của Sarstedt và cộng sự, repeated indicators approach có lợi thế ở chỗ tạo ra độ chệch nhỏ hơn trong việc ước lượng measurement model của HOC, tức là các quan hệ giữa LOC và HOC được phục hồi tốt hơn, đặc biệt trong nghiên cứu mô phỏng của Becker và cộng sự với HOC reflective-formative.

Nói dễ hiểu hơn, nếu mục tiêu của nghiên cứu là hiểu thật rõ các thành phần bậc một đóng góp thế nào vào khái niệm bậc cao, thì repeated indicators approach thường là lựa chọn mạnh về mặt đo lường. Đây cũng là lý do sách Advanced Issues kết luận khá rõ rằng, xét tổng quát, repeated indicators approach nên được ưu tiên hơn two-stage approach trong nhiều tình huống.

2.3 Hạn chế lớn nhất của repeated indicators approach

Hạn chế quan trọng nhất xuất hiện khi HOC là reflective-formative hoặc formative-formative, đồng thời HOC còn là biến phụ thuộc trong mô hình cấu trúc. Khi đó, vì HOC dùng lại toàn bộ chỉ báo từ các LOC, nên phương sai của HOC sẽ bị các LOC giải thích gần như hoàn toàn; Sarstedt và cộng sự nói rất rõ rằng R² của HOC sẽ mặc định bằng 1. Kết quả là các biến đi trước HOC nhưng không thuộc HOC sẽ gần như không còn khả năng giải thích thêm phương sai, làm cho đường dẫn đến HOC có xu hướng gần 0 và không có ý nghĩa thống kê.

Đây không phải là lỗi dữ liệu, mà là một hệ quả kỹ thuật của chính cách nhận diện mô hình. Vì vậy, nếu người nghiên cứu không hiểu bản chất này, họ có thể kết luận sai rằng biến độc lập “không tác động” đến HOC, trong khi thực ra vấn đề nằm ở cách ước lượng.

2.4 Extended repeated indicators approach: bản mở rộng để khắc phục vấn đề

Để xử lý điểm yếu trên, Becker và cộng sự đề xuất extended repeated indicators approach, còn được gọi là total effects analysis of collect-type HCMs. Ý tưởng là thay vì chỉ nối biến đi trước trực tiếp vào HOC, nhà nghiên cứu phải nối biến đó vào các LOC; sau đó không đọc trực tiếp đường dẫn đến HOC nữa mà đọc tổng hiệu ứng của biến đi trước lên HOC, bao gồm cả các hiệu ứng gián tiếp qua LOCs.

Điểm này rất quan trọng về mặt diễn giải. Với repeated indicators mở rộng, ta không nói “X có đường dẫn trực tiếp đến HOC là bao nhiêu”, mà phải nói “X có tổng tác động đến HOC là bao nhiêu”. Nói cách khác, HOC trong mô hình formative kiểu này phải được diễn giải thông qua cơ chế tổng hợp tác động qua các thành phần của nó.

3. Kỹ thuật Two-stage approach

3.1 Two-stage approach là gì?

Two-stage approach ra đời như một giải pháp thay thế cho repeated indicators approach, nhất là trong các trường hợp HOC formative bị biến đi trước dự đoán trong mạng nomological rộng hơn. Về logic, cách này chia việc ước lượng thành hai giai đoạn. Ở giai đoạn 1, mô hình được chạy để lấy latent variable scores của các LOC. Ở giai đoạn 2, các latent variable scores đó được dùng như các chỉ báo mới cho HOC.

Ưu điểm học thuật rất rõ của cách này là ở giai đoạn 2, HOC được đo bằng scores của LOCs, nên measurement model của HOC trở nên “sạch” và có thể được đánh giá bằng các tiêu chuẩn reflective hoặc formative thông thường. Hair và cộng sự nhấn mạnh đúng điểm này: vì các scores từ giai đoạn 1 trở thành indicators của HOC ở giai đoạn 2, việc đánh giá HOC có thể dựa trên những tiêu chí measurement model quen thuộc.

3.2 Hai biến thể của two-stage approach: embedded và disjoint

Ưu điểm của phương pháp tiếp cận hai giai đoạn là có thể sử dụng cho tất cả các dạng mô hình bậc cao, nên chúng ta sẽ ưu tiên lựa chọn kỹ thuật này khi xử lý mô hình có biến bậc hai mà không cần quan tâm biến bậc hai ở dạng kết quả hay nguyên nhân.

Bạn xem đầy đủ về hai biến thể này tại bài viết Phương pháp hai giai đoạn embedded và disjoint xử lý biến bậc hai SMARTPLS.

a. Embedded two-stage approach:

Giai đoạn 1 tương ứng với repeated indicators approach chuẩn. Tức là HOC vẫn được nhúng vào toàn bộ mô hình ngay từ đầu. Sau đó, nhà nghiên cứu lưu scores của tất cả các construct trong mô hình và dùng chúng ở giai đoạn 2. Trong giai đoạn 2, HOC được đo bằng scores của các LOC, còn các construct khác cũng được biểu diễn bằng các single-item scores lấy từ giai đoạn 1.

Giai đoạn 1 của phương pháp nhúng embedded

Giai đoạn 2 của phương pháp nhúng embedded

b. Disjoint two-stage approach:

Ở giai đoạn 1, mô hình không đưa HOC vào mà chỉ đưa các LOC vào. Sau đó chỉ lưu scores của các LOC. Sang giai đoạn 2, các scores này dùng để đo HOC, trong khi các construct khác vẫn giữ các thang đo nhiều chỉ báo gốc như ở giai đoạn 1.

Về mặt thực hành, disjoint two-stage thường được xem là “gọn” và dễ diễn giải hơn, vì nó không biến toàn bộ các construct khác thành single-item scores ở stage 2. Chính vì vậy, trong nhiều minh họa gần đây, disjoint two-stage được sử dụng rất nhiều. Dù vậy, Sarstedt và cộng sự cho rằng hai phiên bản này cho kết quả khá tương tự, nên không có lý do bắt buộc phải ưu tiên tuyệt đối một bản nào.

Giai đoạn 1 của phương pháp tách biệt disjoint

Giai đoạn 2 của phương pháp tách biệt disjoint

3.3 Ưu điểm học thuật của two-stage approach

Theo Sarstedt và cộng sự, two-stage approach có lợi thế hơn repeated indicators approach ở parameter recovery của các quan hệ cấu trúc, đặc biệt là các đường dẫn từ biến ngoại sinh (biến có vai trò độc lập) đến HOC, và từ HOC đến biến nội sinh (biến có vai trò phụ thuộc) trong mô hình.

Nói đơn giản, nếu mục tiêu nghiên cứu của bạn là kiểm định các giả thuyết nhân quả liên quan đến HOC trong mô hình cấu trúc, thì two-stage approach có thể hữu ích hơn, đặc biệt khi HOC là biến trung gian hoặc biến phụ thuộc trong mạng quan hệ.

Một ưu điểm nữa là two-stage approach tránh được tình trạng R² = 1 theo thiết kế ở HOC formative phụ thuộc. Chính vì HOC trong stage 2 không còn dùng lại toàn bộ chỉ báo gốc, mà dùng scores của LOCs như indicators mới, nên các biến đi trước HOC vẫn còn “đất” để giải thích phương sai.

Ngoài ra, sách Advanced Issues còn lưu ý rằng two-stage approach đặc biệt hữu ích nếu nhà nghiên cứu muốn đánh giá bản chất của HOC bằng CTA-PLS. Việc này không khả thi với repeated indicators approach.

3.4 Hạn chế của two-stage approach

Điểm yếu của two-stage approach là nó phụ thuộc vào latent variable scores của stage 1. Điều đó nghĩa là HOC ở stage 2 không còn được gắn trực tiếp với bộ chỉ báo gốc, mà với một lớp dữ liệu đã được tổng hợp. Về mặt khái niệm, đây là một bước trừu tượng hóa nữa.

Sarstedt và cộng sự còn lưu ý một vấn đề kỹ thuật chưa được giải quyết hoàn toàn trong thực hành hiện nay: bootstrapping ở stage 2 thường chạy trên mô hình đã dùng scores từ stage 1, nhưng chưa chắc đã phản ánh đầy đủ biến thiên do việc tạo scores ở stage 1 gây ra. Nói cách khác, về mặt học thuật, bootstrapping của two-stage approach vẫn còn điểm cần nghiên cứu thêm.

4. So sánh kỹ thuật Repeated indicators và Two-stage trong PLS-SEM

4.1 Mức độ phổ biến trong nghiên cứu thực nghiệm

Theo tổng quan của Marko Sarstedt và cộng sự (2019), trong các nghiên cứu sử dụng PLS-SEM có áp dụng mô hình bậc cao:

81.25% nghiên cứu sử dụng two-stage approach
Chỉ 18.75% sử dụng repeated indicators approach

Kết quả này cho thấy two-stage approach hiện đang là phương pháp được sử dụng chủ đạo trong các nghiên cứu học thuật, đặc biệt trong các lĩnh vực marketing và quản trị. Xu hướng này phản ánh sự dịch chuyển từ các phương pháp đơn giản sang các kỹ thuật có khả năng xử lý mô hình phức tạp tốt hơn.

4.2 So sánh Repeated indicators và Two-stage approach trong PLS-SEM

Tiêu chí	Repeated Indicators Approach	Two-Stage Approach
Phạm vi áp dụng	Phù hợp nhất với mô hình reflective–reflective. Bị hạn chế trong các mô hình có thành phần formative, đặc biệt khi HOC là biến phụ thuộc.	Có thể áp dụng cho tất cả các dạng HOC (RR, RF, FR, FF). Phù hợp với mô hình phức tạp.
Cách đo lường HOC	HOC được đo bằng cách lặp lại toàn bộ chỉ báo của các LOC. Không có bộ chỉ báo riêng.	HOC được đo bằng latent variable scores của LOCs ở giai đoạn 2. Có bộ chỉ báo “gián tiếp” rõ ràng.
Bản chất measurement model	Quan hệ HOC–LOC là measurement model trực tiếp, nhưng bị ảnh hưởng bởi việc lặp indicator.	Measurement model của HOC được tái cấu trúc rõ ràng từ scores → dễ đánh giá hơn.
Đánh giá mô hình đo lường	Có thể đánh giá HOC–LOC, nhưng kém minh bạch, dễ nhầm lẫn do indicator bị lặp.	Đánh giá rõ ràng, chuẩn hóa (CR, AVE, HTMT…) nhờ sử dụng latent scores.
Ảnh hưởng đến mô hình cấu trúc	Có thể gây lỗi nghiêm trọng với HOC formative: R² ≈ 1, làm giảm hoặc triệt tiêu tác động của biến ngoại sinh.	Không bị lỗi R² = 1, cho phép ước lượng các quan hệ cấu trúc chính xác và ổn định hơn.
Khả năng phục hồi tham số	Tốt hơn cho measurement (quan hệ HOC–LOC).	Tốt hơn cho quan hệ cấu trúc (path model).
Độ phức tạp khi thực hiện	Đơn giản, dễ triển khai trong SMARTPLS.	Phức tạp hơn (2 bước), nhưng kiểm soát mô hình tốt hơn.
Mức độ sử dụng trong nghiên cứu	Ít phổ biến hơn (~18.75%).	Phổ biến hơn (~81.25%) trong các nghiên cứu PLS-SEM.
Tính phù hợp học thuật hiện nay	Phù hợp mô hình đơn giản, ít dùng trong bài journal mới.	Được ưu tiên trong nghiên cứu hiện đại, đặc biệt với mô hình HOC phức tạp.

4.3 Vì sao nên ưu tiên xử lý biến bậc hai SMARTPLS bằng Two-stage approach

Từ các phân tích trên, có thể tổng hợp các ưu điểm chính của two-stage approach như sau:

Thứ nhất, phương pháp này có tính linh hoạt cao, áp dụng được cho mọi dạng mô hình bậc cao, kể cả các mô hình có cấu trúc formative phức tạp.
Thứ hai, two-stage approach giúp khắc phục hiện tượng R² = 1 trong repeated indicators, từ đó đảm bảo các mối quan hệ cấu trúc được ước lượng một cách hợp lý.
Thứ ba, phương pháp này cho phép đánh giá mô hình đo lường của biến bậc cao một cách rõ ràng và chuẩn hóa, thông qua việc sử dụng latent variable scores.
Thứ tư, two-stage approach cho kết quả tốt hơn trong việc phục hồi các tham số của mô hình cấu trúc, đặc biệt là các mối quan hệ liên quan đến biến bậc cao.
Cuối cùng, đây là phương pháp được sử dụng phổ biến trong các nghiên cứu học thuật hiện nay, giúp tăng tính thuyết phục và khả năng chấp nhận của bài nghiên cứu trong quá trình phản biện.

Tham khảo:

⭕ Dịch vụ SPSS | Xử Lý SPSS Từ A-Z

⭕ Dịch vụ AMOS | Xử Lý AMOS Từ A-Z

⭕ Dịch vụ SMARTPLS | Xử Lý SMARTPLS Từ A-Z

Phạm Lộc Blog