Trong quá trình nghiên cứu khoa học và sử dụng phương pháp thống kê SPSS, hồi quy là một trong những quy trình kiểm nghiệm và phân tích mô hình nghiên cứu hiệu quả nhất mà người nghiên cứu thường dùng. Cùng tìm hiểu cách chạy hồi quy SPSS chi tiết nhất thông qua bài viết cùng những ví dụ cụ thể dưới đây.
1. Hồi quy trong SPSS là gì?
Hồi quy là một phương pháp thống kê được sử dụng trong tài chính, đầu tư và các lĩnh vực khác nhằm xác định mức độ và đặc điểm của mối quan hệ giữa một biến phụ thuộc (thường được ký hiệu là Y) và một loạt các biến khác (được gọi là các biến độc lập).
Hồi quy trong SPSS là một kỹ thuật thống kê được sử dụng để tìm hiểu các mối liên hệ đa biến giữa các yếu tố dự báo, nhân khẩu học, tiên lượng, lâm sàng, các biến gây nhiễu và các biến kết quả. Các loại hồi quy được sử dụng phụ thuộc vào quy mô đo lường của biến kết quả.
Vai trò của hồi quy:
Giúp các nhà quản lý đầu tư và tài chính định giá tài sản và hiểu mối quan hệ giữa các biến số, chẳng hạn như giá hàng hóa và cổ phiếu của các doanh nghiệp kinh doanh các mặt hàng đó.
Giúp các chuyên gia tài chính và đầu tư cũng như trở thành các chuyên gia trong các doanh nghiệp khác.
Giúp dự đoán doanh số bán hàng cho một công ty dựa trên thời tiết, doanh số bán hàng trước đó, tăng trưởng GDP hoặc các loại điều kiện khác. Mô hình định giá tài sản vốn (CAPM) là một mô hình hồi quy thường được sử dụng trong tài chính để định giá tài sản và phát hiện chi phí sử dụng vốn.
– Có 2 loại hồi quy chính trong SPSS: hồi quy tuyến tính đơn biến và hồi quy tuyến tính đa biến.
2. Hồi quy tuyến tính đơn biến
Hồi quy tuyến tính đơn biến, hay còn gọi là hồi quy tuyến tính giản đơn, là dạng hồi quy đơn giản nhất, cơ bản nhất trong phép hồi quy tuyến tính. Dạng này được dùng để dự báo một biến phụ thuộc duy nhất trong đề bài dựa trên biến độc lập (hay biến giải thích) được khảo sát, nghiên cứu.
Dưới đây là các bước thực hiện và cách phân tích, đọc kết quả của phép hồi quy tuyến tính giản đơn.
2.1. Cách chạy hồi quy tuyến tính đơn biến
Ví dụ: Bộ dữ liệu LSYPE có thể được sử dụng để khám phá mối quan hệ giữa điểm kiểm tra Giai đoạn chính 2 (ks2) của học sinh (11 tuổi) và điểm kiểm tra Giai đoạn 3 (ks3) của họ (14 tuổi). Chúng ta hãy có một cái nhìn khác về biểu đồ phân tán, hoàn chỉnh với đường hồi quy bên dưới. Lưu ý rằng hai điểm thi là phiên bản chuẩn hóa (trung bình = 0, độ lệch chuẩn = 10).
Biểu đồ phân tán với đường hồi quy của 2 độ tuổi
Theo biểu đồ trên, chúng ta có biến ks3stand là biến phụ thuộc do đó được đặt trên trục Y. Biến dộc lập là ks2stand và do đó được đặt trên trục X.
Cách vẽ biểu đồ phân tán
Khi bạn đã có biểu đồ phân tán, bạn có thể sử dụng trình chỉnh sửa biểu đồ để thêm đường hồi quy. Chỉ cần nhấp đúp vào biểu đồ để mở trình chỉnh sửa và sau đó nhấp vào biểu tượng. This opens the properties pop-up. Chọn ô Linear, click Apply và đóng hộp thoại.
Cách vẽ đường hồi quy
Bạn cũng có thể tùy chỉnh các trục và cách phối màu của biểu đồ – bạn có thể vào chỉnh sửa biểu đồ để làm điều này.
2 lưu ý khi sử dụng biểu đồ phân tán
Kiểm tra các ngoại lệ hoặc bất kỳ trường hợp nào có thể ảnh hưởng quá mức đến phân tích hồi quy.
Kiểm tra các điểm dữ liệu có sử dụng thang đo đầy đủ cho mỗi biến và không có giới hạn về phạm vi.
Nhìn vào biểu đồ phân tán, ta thấy có một vài ngoại lệ nhưng với kích thước của mẫu, chúng không có khả năng ảnh hưởng đến mô hình ở mức độ lớn.
Đường hồi quy là điểm cân bằng – mỗi điểm dữ liệu đều có ảnh hưởng và nó càng ở xa giữa thì nó càng có nhiều ảnh hưởng.
Mức độ ảnh hưởng của mỗi trường hợp là tương đối so với tổng số trường hợp trong mẫu. Trong ví dụ này, một giá trị ngoại lệ là một trường hợp trong khoảng 15.000 vì vậy một giá trị ngoại lệ riêng lẻ, trừ khi khác biệt nghiêm trọng với giá trị mong đợi, sẽ ít ảnh hưởng đến toàn bộ mô hình. Trong các tập dữ liệu nhỏ hơn, các giá trị ngoại lệ có thể ảnh hưởng nhiều hơn.
Tiến hành thực hiện hồi quy tuyến tính đơn biến trong SPSS: Vào mục Analyse> Regression > Linear
Cách chạy hồi quy tuyến tính đơn biến trong Spss
Menu hiển thị bên dưới sẽ xuất hiện. Như thường lệ, danh sách đầy đủ các biến được liệt kê trong cửa sổ bên trái. Điểm kỳ thi ks3 (‘ks3stand’) là biến phụ thuộc, vì vậy biến này sẽ nằm trong cửa sổ được đánh dấu dependent. Điểm số kỳ thi KS2 (‘ks2stand’) là biến độc lập và do đó sẽ đi vào cửa sổ được đánh dấu independent(s).
Hiển thị các biến vào mục tương ứng
Lưu ý rằng cửa sổ này có thể nhận nhiều biến và bạn có thể chuyển đổi một menu thả xuống có tên là method. Để biết chi tiết hơn về thông tin của các biến, vào mục Statistics và đánh dấu tick vào 2 mục Model fit và Descriptives. Tiếp tục nhấn vào Continue.
Đánh dấu tick vào 2 mục Model fit và Descriptives
2 điều quan trọng mà chúng ta phải kiểm tra biểu đồ của các phần dư:
Chúng được phân phối bình thường
Chúng không thay đổi một cách có hệ thống với các giá trị dự đoán.
Vào menu thực hiện kiểm tra như hình dưới đây:
Kiểm tra biểu đồ
Chúng ta cần hiểu hai trong số các từ:
ZRESID: Phần dư chuẩn hóa cho từng trường hợp.
ZPRED: Các giá trị dự đoán được chuẩn hóa cho từng trường hợp.
Thuật ngữ chuẩn hóa chỉ đơn giản có nghĩa là biến được điều chỉnh sao cho biến đó có giá trị trung bình bằng 0 và độ lệch chuẩn là một – điều này làm cho việc so sánh giữa các biến dễ dàng hơn nhiều vì chúng đều ở cùng đơn vị ‘chuẩn’.
Bằng cách vẽ biểu đồ * ZRESID trên trục Y và * ZPRED trên trục X, bạn sẽ có thể kiểm tra giả định về phương sai đồng biến – phần dư không được thay đổi một cách có hệ thống với mỗi giá trị dự đoán và phương sai của phần dư phải giống nhau trên tất cả các giá trị dự đoán.
Cuối cùng ta vào hộp thoại Save:
Hộp thoại Save
Menu này cho phép bạn tạo các biến mới cho từng trường hợp / người tham gia trong tập dữ liệu của bạn Trên thực tế, biến mới duy nhất là phần dư được chuẩn hóa (giống như biến số cũ * ZRESID), vì vậy hãy chọn hộp thoại có liên quan như được hiển thị ở trên.
Bạn cũng có thể nhận được các giá trị Dự đoán cho từng trường hợp cùng với một loạt các biến được điều chỉnh khác nếu bạn muốn. Tiếp tục nhấn vào Continue, sau cùng nhấn vào OK để nhận kết quả.
2.2. Cách phân tích và đọc kết quả
Kết quả output sẽ gồm có nhiều bảng, xuất hiện theo thứ tự như sau:
Bảng Descriptive Statistics và Correlations:
Bảng Descriptive Statistics và Correlations
Bảng Descriptive Statistics cung cấp giá trị trung bình và độ lệch chuẩn cho cả biến giải thích và biến kết quả của bạn. Bài viết đang sử dụng các giá trị chuẩn hóa, bạn sẽ nhận thấy rằng giá trị trung bình gần bằng 0. Chúng không chính xác là 0 vì một số người tham gia nhất định đã bị loại khỏi phân tích khi họ bị thiếu dữ liệu cho điểm 11 hoặc 14 tuổi của họ.
Hữu ích hơn là bảng Correlations cung cấp ma trận tương quan cùng với các giá trị xác suất cho tất cả các biến. Vì chúng ta chỉ có hai biến nên chỉ có một hệ số tương quan. Mối tương quan là 0,886 (P <.0005) cho thấy có mối quan hệ thuận chiều mạnh mẽ giữa điểm thi tuổi 11 và tuổi 14.
Ba bảng trọng tâm nêu lên kết quả của phép hồi quy tuyến tính đơn biến:
Ba bảng trọng tâm
Bảng Model Summary: cung cấp hệ số tương quan và hệ số xác định (r2) cho mô hình hồi quy. Như chúng ta đã thấy, hệ số 0,886 cho thấy có một mối quan hệ thuận chiều mạnh mẽ giữa điểm số 11 tuổi và 14 tuổi trong khi r2 = 0,785 cho thấy 79% phương sai của điểm số 14 tuổi có thể được giải thích bằng điểm số 11 tuổi.
=> Nói cách khác, sự thành công của một học sinh ở tuổi 14 được dự đoán mạnh mẽ bởi mức độ thành công của họ ở tuổi 11.
Bảng ANOVA cho chúng ta biết liệu mô hình hồi quy của chúng ta có giải thích một tỷ lệ phương sai có ý nghĩa thống kê hay không.
Cụ thể, nó sử dụng một tỷ lệ để so sánh mức độ chính xác của mô hình hồi quy tuyến tính dự đoán kết quả với mức độ chính xác khi chỉ sử dụng giá trị trung bình của dữ liệu kết quả làm ước tính.
Với độ mạnh của mối tương quan, mô hình hồi quy này có ý nghĩa thống kê (p <.0005).
Bảng Coefficients: cho chúng ta các giá trị cho đường hồi quy.
Trong hàng Constants, cột được đánh dấu B cung cấp cho chúng ta điểm chặn – đây là vị trí X = 0 (trong đó điểm 11 tuổi là 0 – là giá trị trung bình).
Trong hàng Age 11 standard marks, cột B cung cấp độ dốc của đường hồi quy là hệ số hồi quy (B). Điều này có nghĩa là cứ một lần tăng điểm tiêu chuẩn ở độ tuổi 11 (một phần mười của độ lệch chuẩn), mô hình dự đoán sẽ tăng 0,873 điểm chuẩn trong điểm số 14 tuổi.
Lưu ý rằng cũng có một phiên bản chuẩn hóa của giá trị B thứ hai này được gắn nhãn là Beta (β).
Cuối cùng, kiểm định t ở hàng thứ hai cho chúng ta biết liệu biến ks2 có đóng góp đáng kể về mặt thống kê vào khả năng dự đoán của mô hình hay không – chúng ta có thể thấy rằng đúng như vậy.
Tiếp theo, ta có bảng tóm tắt các giá trị còn lại và các giá trị dự đoán được tạo ra bởi mô hình:
Bảng tóm tắt các giá trị dự đoán
Bảng này cung cấp các phiên bản tiêu chuẩn hóa của cả hai bản tóm tắt này. Bạn cũng sẽ lưu ý rằng bạn có một biến mới trong tập dữ liệu của mình: ZRE_1. Điều này cung cấp phần còn lại được tiêu chuẩn hóa cho mỗi người tham gia của bạn và có thể được phân tích để trả lời các câu hỏi nghiên cứu nhất định.
Phần còn lại là thước đo sai số trong dự đoán, vì vậy, có thể đáng sử dụng chúng để khám phá xem liệu mô hình có chính xác hơn để dự đoán kết quả của một số nhóm so với những nhóm khác hay không (ví dụ: trẻ em trai và trẻ em gái có tiến bộ như nhau không?).
Để kiểm tra thêm một số giả định trong nghiên cứu, chúng ta có thể sử dụng thêm một số biểu đồ dưới đây:
Biểu đồ Histogram: cho chúng ta thấy rằng có thể dự liệu gặp vấn đề với phần dư của mình vì chúng không được phân phối hoàn toàn bình thường – mặc dù chúng gần như khớp với đường cong chuẩn phủ, phần dư rõ ràng đang tụ tập xung quanh và ngay trên mức trung bình nhiều hơn.
Biểu đồ Histogram
Biểu đồ P-P plot: sử dụng biểu đồ này để so sánh phần còn lại quan sát được với những gì mong đợi nếu chúng được phân phối bình thường (được biểu thị bằng đường chéo). Chúng ta có thể thấy rằng, ngoài một sai số nhỏ ở xác suất tích lũy quan sát được là 0,4, dữ liệu được phân phối bình thường.
Biểu đồ P-P plot
Biểu đồ Scatterplot: cho chúng ta thấy mức độ thặng dư chuẩn hóa cho mỗi trường hợp tại mỗi giá trị của kết quả dự đoán.
Biểu đồ Scatterplot
Kết luận: Mô hình hồi quy tuyến tính đơn giản được thực hiện để xác định mức độ mà điểm đánh giá của tuổi 11 (ks2) có thể dự đoán điểm đánh giá của tuổi 14 (ks3). Mối tương quan thuận chặt chẽ được tìm thấy giữa điểm ks2 và ks3 (r = 0,89) và mô hình hồi quy dự đoán 79% phương sai. Mô hình phù hợp tốt với dữ liệu (F = 51751, p <.0005).
Mô hình hồi quy tuyến tính đơn biến trên đây đã cho người nghiên cứu cái nhìn cụ thể về cách thức dự đoán các biến kết quả dựa trên dữ liệu từ một biến giải thích. Có thể nói mô hình này rất phổ biến trong Spss, để không còn gặp khó khăn trong quá trình này, đội ngũ chúng tôi sẽ hướng dẫn bạn biết thêm chi tiết về cách chạy mô hình này cũng như cách sử dụng Spss. Tham khảo thêm tại đây spss download.
3. Hồi quy tuyến tính đa biến (hồi quy tuyến tính bội):
Hồi quy tuyến tính đa biến (hay hồi quy tuyến tính bội) là một phần mở rộng của hồi quy tuyến tính đơn giản. Nó được sử dụng khi chúng ta muốn dự đoán giá trị của một biến dựa trên giá trị của hai hoặc nhiều biến khác.
Biến chúng ta muốn dự đoán được gọi là biến phụ thuộc (hoặc đôi khi là biến kết quả, mục tiêu hoặc tiêu chí).
Các biến chúng ta đang sử dụng để dự đoán giá trị của biến phụ thuộc được gọi là các biến độc lập (hoặc đôi khi là biến dự báo, giải thích hoặc biến hồi quy).
3.1. Cách chạy hồi quy tuyến tính đa biến
Ví dụ: Một nhà nghiên cứu sức khỏe muốn có thể dự đoán “VO2max”, một chỉ số về thể chất và sức khỏe. Để đạt được mục tiêu này, nhà nghiên cứu đã tuyển dụng 100 người tham gia để thực hiện một bài kiểm tra VO2max tối đa, nhưng cũng ghi lại “tuổi”, “cân nặng”, “nhịp tim” và “giới tính” của họ. Nhịp tim là mức trung bình của 5 phút cuối trong 20 phút, bài kiểm tra đạp xe khối lượng công việc thấp hơn, dễ dàng hơn nhiều. Mục tiêu của nhà nghiên cứu là có thể dự đoán VO2max dựa trên 4 thuộc tính sau: tuổi, cân nặng, nhịp tim và giới tính. (age, weight, heart rate, gender).
Chia dữ liệu trong Spss thành 6 biến: (1) VO2max, là khả năng hiếu khí tối đa; (2) age, là tuổi của người tham gia; (3) weigt, là cân nặng của người tham gia; (4) heart_rate, là nhịp tim của người tham gia; (5) gender, là giới tính của người tham gia; và (6) caseno, là số trường hợp.
Biến caseno được sử dụng để giúp bạn dễ dàng loại bỏ các trường hợp (ví dụ: “ngoại lệ quan trọng”, “điểm đòn bẩy cao” và “điểm có ảnh hưởng lớn”) mà bạn đã xác định khi kiểm tra các giả định.
Các bước thực hiện hồi quy tuyến tính bội trong Spss: vào Analyze > Regression > Linear… trong menu:
Thực hiện hồi quy tuyến tính bội trong Spss
Xuất hiện hộp thoại Linear Regression, chuyển biến phụ thuộc VO2max vào mục Dependent và các biến độc lập age, weight, heart_rate và gender vào mục Independent(s).
Chuyển các biến vào các mục tương ứng
Tiếp tục nhấn vào nút Statistics, xuất hiện hộp thoại Linear Regression: Statistics. Ngoài các tùy chọn được chọn theo mặc định, hãy chọn Confidence intervals trong Regression Coefficients và chọn level(%): option at “95”
Hộp thoại Linear Regression: Statistics
Sau đó nhấn vào Continue sẽ xuất hiện kết quả output.
3.2. Cách phân tích và đọc kết quả
Trong phần này, chúng ta sẽ chỉ phân tích 3 bảng chính bao gồm Model Summary, ANOVA và Coefficients.
Bảng Model Summary: Bảng này cung cấp R, R2, R2 đã điều chỉnh và sai số chuẩn của ước tính, có thể được sử dụng để xác định mức độ phù hợp của mô hình hồi quy với dữ liệu:
Bảng Model Summary
Cột “R” thể hiện giá trị của R, hệ số tương quan bội. R có thể được coi là một trong những thước đo chất lượng của dự đoán của biến phụ thuộc; trong trường hợp này là VO2max.
Giá trị 0,760, trong ví dụ này, cho biết mức độ dự đoán tốt. Cột “R Square” đại diện cho giá trị R2 (còn được gọi là hệ số xác định), là tỷ lệ của phương sai trong biến phụ thuộc có thể được giải thích bởi các biến độc lập (về mặt kỹ thuật, nó là tỷ lệ của biến thể được tính bởi mô hình hồi quy trên và ngoài mô hình trung bình).
Bạn có thể thấy từ giá trị 0,577 các biến độc lập giải thích 57,7% sự thay đổi của biến phụ thuộc, VO2max. Tuy nhiên, bạn cũng cần có khả năng diễn giải “Hình vuông R được điều chỉnh” (điều chỉnh R2) để báo cáo chính xác dữ liệu của mình.
Bảng ANOVA: kiểm tra xem mô hình hồi quy tổng thể có phù hợp với dữ liệu hay không. Bảng cho thấy rằng các biến độc lập dự đoán có ý nghĩa thống kê cho biến phụ thuộc, F (4, 95) = 32.393, p <.0005 (tức là mô hình hồi quy phù hợp với dữ liệu).
Bảng ANOVA
Bảng Coefficient: gồm dạng tổng quát của phương trình để dự đoán VO2max theo tuổi, cân nặng, nhịp tim, giới tính:
VO2max = 87.83 – (0.165 x age) – (0.385 x weight) – (0.118 x heart_rate) + (13.208 x gender)
Bảng Coefficien
Hệ số không chuẩn cho biết biến phụ thuộc thay đổi bao nhiêu so với một biến độc lập khi tất cả các biến độc lập khác được giữ không đổi. Hãy xem xét ảnh hưởng của tuổi tác trong ví dụ này.
Hệ số chưa chuẩn hóa, B1, cho độ tuổi bằng -0,165 (xem bảng Hệ số). Điều này có nghĩa là cứ tăng thêm một năm tuổi thì VO2max giảm đi 0,165 ml / phút / kg.
Bạn có thể kiểm tra ý nghĩa thống kê của từng biến độc lập. Điều này kiểm tra xem các hệ số chưa chuẩn hóa (hoặc chuẩn hóa) có bằng 0 (không) trong tổng thể hay không. Nếu p <0,05, bạn có thể kết luận rằng các hệ số khác nhau có ý nghĩa thống kê đến 0 (không). Giá trị t và giá trị p tương ứng nằm trong “t” và “Sig”.
Chúng ta có thể thấy từ cột “Sig.”mà tất cả các hệ số biến độc lập khác 0 (không) có ý nghĩa thống kê.
Kết luận: Mô hình hồi quy tuyến tính bội được chạy để dự đoán VO2max từ giới tính, tuổi, cân nặng và nhịp tim. Các biến này dự đoán có ý nghĩa thống kê VO2max, F (4, 95) = 32.393, p <.0005, R2 = .577. Tất cả bốn biến bổ sung có ý nghĩa thống kê vào dự đoán, p <0,05.
Việc chạy các mô hình hồi quy đa biến trải qua khá nhiều bước phức tạp, đòi hỏi phải xử lí số liệu cũng như tìm hiểu về cách phân tích, đọc kết quả số liệu để từ đó đưa ra kết luận chính xác nhất về sự liên quan giữa các biến. Nếu bạn gặp khó khăn trong quá trình này, đội ngũ của chúng tôi có thể giải quyết giúp bạn một cách chính xác nhất, tìm hiểu tại thuê xử lý số liệu spss.
4. 8 lưu ý khi chạy hồi quy trong SPSS
Để việc thực hiện hồi quy tuyến tính cho ra kết quả chính xác nhất, các dữ liệu cần đáp ứng được 8 lưu ý sau:
Biến phụ thuộc phải được đo lường trên thang đo liên tục (tức là nó là một biến khoảng hoặc biến tỷ lệ). Ví dụ về các biến đáp ứng tiêu chí này bao gồm thời gian ôn tập (đo bằng giờ), trí thông minh (đo bằng điểm IQ), thành tích thi (đo từ 0 đến 100), cân nặng (đo bằng kg),…
Cần có hai hoặc nhiều biến độc lập, có thể là liên tục (tức là biến khoảng hoặc tỷ lệ) hoặc phân loại (tức là biến thứ tự hoặc danh nghĩa).
Cần có sự độc lập của các quan sát (tức là độc lập với phần dư), bạn có thể dễ dàng kiểm tra bằng cách sử dụng thống kê Durbin-Watson, một thử nghiệm đơn giản để chạy bằng SPSS.
Cần có mối quan hệ tuyến tính giữa (a) biến phụ thuộc và từng biến độc lập của bạn, và (b) biến phụ thuộc và các biến độc lập gọi chung. Mặc dù có một số cách để kiểm tra các mối quan hệ tuyến tính này, chúng tôi khuyên bạn nên tạo các biểu đồ phân tán và biểu đồ hồi quy một phần bằng cách sử dụng Thống kê SPSS, sau đó kiểm tra trực quan các biểu đồ phân tán và biểu đồ hồi quy một phần này để kiểm tra độ tuyến tính.
Dữ liệu của bạn cần phải thể hiện sự đồng biến đổi, đó là nơi mà các phương sai dọc theo đường phù hợp nhất vẫn tương tự khi bạn di chuyển dọc theo đường.
Dữ liệu của bạn không được hiển thị đa tuyến, xảy ra khi bạn có hai hoặc nhiều biến độc lập có tương quan cao với nhau. Điều này dẫn đến các vấn đề trong việc hiểu biến độc lập nào góp phần vào phương sai được giải thích trong biến phụ thuộc, cũng như các vấn đề kỹ thuật trong việc tính toán mô hình hồi quy bội.
Không được có điểm ngoại lệ đáng kể, điểm đòn bẩy cao hoặc điểm có ảnh hưởng lớn. Điểm ngoại lệ, đòn bẩy và điểm ảnh hưởng là các thuật ngữ khác nhau được sử dụng để biểu thị các quan sát trong tập dữ liệu của bạn theo một cách nào đó không bình thường khi bạn muốn thực hiện phân tích hồi quy bội.
Cần kiểm tra xem phần dư (lỗi) có được phân phối gần đúng bình thường không.
Trên đây là những hướng dẫn kèm ví dụ chi tiết nhất về cách chạy hồi quy Spss cũng như các loại hồi quy tuyến tính thường gặp trong nghiên cứu, giúp người nghiên cứu có những phân tích cụ thể và dự báo kết quả chuẩn xác nhất trong đề tài được đưa. Hi vọng thông qua bài viết này người học có thể áp dụng thành công trong công việc nghiên cứu của mình.