Tài liệu về R

Bài trước mình post lại bài viết của GS.Nguyễn Văn Tuấn hỏi đáp về việc tại sao nên học R. Hôm nay mình chia sẽ với các bạn các tài liệu mà mình đã theo học khoá học của Thầy bên trường Tôn Đức Thắng tổ chức cách đây mấy năm các bạn tải trọn bộ tại đây, như mình được biết thì sắp tới Thầy cũng sẽ khai giảng khoá học này bên trường Tôn Đức Thắng bạn nào quan tâm đến thống kê thì nên theo học khoá học này của Thầy, thông tin các bạn có thể xem ở link đính kèm tại đây

Ngoài ra trên youtube Thầy cũng có post một loạt bài giảng về hướng dẫn sử dụng R một cách trực quan, dễ hiểu. Các bạn xem chi tiết tại đây

 

Hướng dẫn sử dụng SPSS

Bài 1: Khai báo và nhập liệu trong SPSS

 

Tại sao học R: vấn & đáp

Tại sao học R: vấn & đáp

Bài này trên facebook của GS.Nguyễn Văn Tuấn, xin copy về chia sẽ cùng các ban

Câu hỏi 1: Tại sao tôi phải học R trong khi đó ở Việt Nam người ta giảng dạy về Stata và SPSS?

Trả lời: Có nhiều lí do để học R, và tôi nghĩ đến 4 lí do sau đây:

· Thứ nhất là nó miễn phí, chứ không tốn tiền như Stata và SPSS (mà phần lớn bạn ở VN dùng là lậu, bất hợp pháp).

· Thứ hai là R được thiết kế bởi giới làm về khoa học thống kê, và những phương pháp phân tích hiện đại nhất, mới nhất đều được triển khai trong R trước. Điều đó có nghĩa là chúng ta sẽ làm chủ phương pháp sớm nhất và do đó nghiên cứu có cái “mới” sớm nhất.

· Thứ ba là R là ngôn ngữ chính cho Dữ liệu Lớn (Big Data), còn các software khác như Stata và SPSS thì chỉ dùng cho những nghiên cứu tầm nhỏ và trung mà thôi. Vì thế, học R các bạn sẽ tiếp cận và cập nhật hoá với khoa học “nóng” như Big Data rất nhanh.

· Thứ tư là biểu đồ trong R có phẩm chất tốt hơn hẳn các software thông thường khác như SPSS và Stata.

Bởi thế, các bạn nên học R. Không phải vì tôi giảng về R mà nói như thế đâu (tôi không có thói này), nhưng khách quan mà nói thì R là ngôn ngữ của khoa học thống kê phổ biến nhất, phát triển nhanh nhất, và “hot” nhất hiện nay. Tôi học R từ một nghiên cứu sinh của tôi, và cho đến nay tôi đã vứt hết SAS để chỉ dùng R trong việc phân tích.

Câu hỏi 2: Những gì R làm được thì các software khác cũng làm được, vậy tại sao tôi phải dùng R?

Trả lời: Nếu bạn không có tiền và có lòng tự trọng (không dùng đồ lậu) thì R là lựa chọn lí tưởng. Tất cả những phương pháp mà các software khác làm được thì R cũng làm được. Nhưng có cái khác: Khi dùng R, các bạn biết hơn về vấn đề mình làm. Với các software khác (như SPSS), các bạn chỉ cần nhấn nút menu là có kết quả, các bạn không biết đằng sau đó là cái gì. Nhưng với R, các bạn không thể làm thế được, mà phải viết xuống mô hình hay phải biết mình làm cái gì, rồi mới dùng lệnh R. Tôi có khi xem R như là một … cách suy nghĩ.

Nhưng như tôi nói trên, có những vấn đề mà các software khác không giải quyết được, nhưng R thì giải quyết được. Ví dụ như nếu các bạn muốn đánh giá tầm quan trọng của mỗi biến tiên lượng đến một biến phụ thuộc, hay nếu các bạn muốn dùng phương pháp BMA, thì chỉ có R mới trả lời được những câu hỏi này. Trước đây, chỉ có mấy người ở các nước phương Tây mới tiếp cận các phương pháp mới trước; còn ngày nay với R thì các nhà khoa học từ các nước nghèo vẫn có thể tiếp cận được. Do đó, tôi xem R là một công cụ để dân chủ hoá trong khoa học.

Câu hỏi 3: Lớp học có giảng về big data hả thầy?

Trả lời: Tôi muốn giảng về chủ đề này, nhưng cần phải xem xét thời gian và nhu cầu nữa. Big Data hiện nay rất “nóng” và tôi nghĩ có lẽ nên dành vài bài giảng về chủ đề này, nhưng tôi chưa dám hứa chắc. Tôi có thể chỉ cho các bạn những khái niệm, công cụ R dùng cho Big Data, và những tài liệu cần biết. Vấn đề lớn nhất là máy tính (vì Big Data cần phải có máy tính loại parallel hoặc supercomputer mà VN mình chưa có?) nên khó mà thực hành gì được. Giảng lí thuyết thì ok, còn thực hành thì tôi không dám hứa.

Câu hỏi 4: Tôi nghe bạn bè nói là R rất khó học vì phải gõ lệnh?

Trả lời: Khó hay dễ tuỳ thuộc vào thời gian chúng ta sử dụng và làm quen với một công cụ mới, do đó, khó hay dễ chỉ là tương đối thôi. Tất cả các software nghiêm chỉnh (như SAS, Stata) đều dùng lệnh, chứ không dùng menu. R cũng thế, vì R được thiết kế cho những người PHẢI BIẾT mình làm cái gì, chứ không phải chỉ bấm bấm menu cho ra kết quả và nghĩ là mình hiểu thống kê học! Đẳng cấp của người sử dụng R và SPSS khác nhau, nên không thể so sánh được. Thật ra, R cũng có menu, nhưng tôi không muốn giới thiệu, vì tôi muốn các bạn phải học từ gốc, chứ đừng học từ ngọn chẳng ra làm sao cả.

Câu hỏi 5: R có nhiều lệnh và packages quá, làm sao nhớ hết?

Trả lời: Thật ra, chỉ có một số lệnh thông thường thôi, nên chẳng cần nhớ làm gì. Tôi có hẳn một cuốn sách viết bằng tiếng Việt, và có phần phụ chú liệt kê tất cả các lệnh và packages cần thiết, kèm theo ví dụ. Không! Các bạn không cần nhớ hết các hàm và packages, mà chỉ cần biết mình muốn làm gì mà thôi.

Câu hỏi 6: Có giảng viên nói rằng R không được kiểm chứng như SPSS hay SAS, nên không đáng tin cậy và ít ai dùng.

Trả lời: Tôi cũng từng nghe qua ý kiến này, nhưng tôi có thể nói thẳng rằng đó là ý kiến rất bậy bạ. R là ngôn ngữ của giới thống kê học, và cộng đồng khoa học thống kê kiểm chứng trước khi đưa vào packages. Ngoài ra, R có một nhóm chuyên kiểm định codes của các packages, nên người sử dụng có thể yên tâm hơn so với Stata hay SPSS. R được rất nhiều người trong giới khoa học sử dụng. Đặc biệt là trong genomics thì hầu hết đều dùng R. Do đó, nói rằng ít ai dùng R là quá bậy bạ, và nó chứng tỏ người nói câu đó chưa cập nhật tình hình khoa học.

Câu hỏi 7: Nhiều khi thầy cô em không chấp nhận R, vậy em học R làm gì?

Trả lời: R chỉ là công cụ, chứ đâu phải là ý tưởng khoa học hay phương pháp khoa học đâu mà có chuyện chấp nhận hay không chấp nhận. Để ước tính tham số của một mô hình, người ta có thể dùng Stata, SPSS, SAS, Fortran, hay R, chứ đâu phải chỉ có một software nào đó là độc nhất. Việc chấp nhận hay không chấp nhận R không cần phải đặt ra, vì nó quá thấp.

Câu hỏi 8: Học R xong, tôi có được hỗ trợ không?

Trả lời: Có. Chúng tôi có một diễn đàn trực tuyến về R mà các bạn có thể tham gia để đặt câu hỏi và liên lạc học hỏi lẫn nhau. Ngoài ra, các bạn có thể mua sách của tôi về R (nếu các bạn là học viên thì nhà trường sẽ tặng không cuốn sách). Sách có tựa đề là “Phân tích dữ liệu với R” do Nxb Tổng Hợp xuất bản năm ngoái, và đến nay đã tái bản 2 lần. Sách đó có đầy đủ những phương pháp phổ biến trong phân tích dữ liệu khoa học.

Câu hỏi 9: Ở Việt Nam có nhiều người dùng R không?

Trả lời: Tôi nghĩ là có khá nhiều, nhưng không ai biết chính xác là bao nhiêu. Tôi có lẽ là người giới thiệu R về VN khoảng 10 năm trước. Từ đó đến nay tôi đã thực hiện hơn chục lớp học (từ 1 tuần trở lên, không kể mấy lớp ngắn hạn), nên đã có hơn 1000 học viên rồi. Từ học viên, họ về giảng dạy cho các học viên khác, nên tôi nghĩ ở VN chắc có hơn 5000 người dùng R. Tôi biết có trường đại học dùng sách của tôi làm tài liệu giảng dạy về R cho sinh viên.

Câu hỏi 10: Tôi nghe nói R chỉ dùng trong khoa học tự nhiên, chứ kinh tế ít ai dùng R?

Trả lời: Không phải như vậy đâu. R là công cụ phân tích dữ liệu, nên bất cứ ngành nào có nhu cầu phân tích dữ liệu thì đều có thể dùng R. Trong kinh tế học và khoa học xã hội nói chung, có rất nhiều người dùng R cho dữ liệu theo thời gian (time series data) và các mô hình đa biến.

Câu hỏi 11: Tôi hiện nay không biết gì về R, tôi có thể theo học lớp này không?
Trả lời: Lớp học được thiết kế cho người chưa biết về R, nên bạn là “đối tượng” lí tưởng của lớp học. Lớp học sẽ dành 1 ngày để chỉ về R, cộng thêm tài liệu 50 trang để tự thực hành trên máy tính.

Câu hỏi 12: Tôi chẳng biết gì về thống kê học cả, tôi có thể theo nổi lớp học không?

Trả lời: Bạn không cần phải biết thống kê học, vì đó là nhiệm vụ của chúng tôi phải làm cho bạn biết. Tuy nhiên, bạn phải biết mình muốn gì, muốn làm gì, thì chúng tôi mới giúp cho các bạn được.

Câu hỏi 13: Tôi là sinh viên chứ chưa làm nghiên cứu, tôi có nên theo học không?

Trả lời: Theo tôi là nên, vì tiếp thu thêm kiến thức chẳng có mất mát gì cả. Ở bên này, người ta dạy R cho sinh viên năm thứ nhất rồi. Mỗi course học 30 lectures với cái giá là 3200 AUD.

Câu hỏi 14: Bài giảng bằng tiếng Việt hay tiếng Anh?

Trả lời: Tất cả bài giảng đều được soạn bằng tiếng Việt, có phụ chú thêm thuật ngữ tiếng Anh. Dĩ nhiên, chúng tôi là người Việt nên phải dùng tiếng Việt trong khi giảng bài chứ.

Câu hỏi 15: Trường lấy học phí đến 5 triệu đồng. Tại sao mắc như thế?

Trả lời: Hm, câu này tế nhị, nên tôi xin phép giải thích dài dài một chút. Mười mấy năm trước chúng tôi thường mở lớp học hè miễn phí ở trường y, thường do các công ti dược hão tâm tài trợ. Nhưng có học viên đề nghị là không nên làm như thế vì học viên nghĩ rằng lớp học “chùa” nên họ không nghiêm túc theo học. Chúng tôi đồng ý với quan điểm này, và do đó phải lấy học phí. Học phí để nhà trường trang trải cơ sở vật chất, để trả thù lao cho giảng viên (chỉ là tượng trưng thôi), và để học viên phải tỏ ra nghiêm chỉnh trong học và hành. Và, quả thật là sau khi lấy học phí thì tất cả đều học hành nghiêm chỉnh, không có bỏ lớp và cũng chẳng dám bỏ đi nhậu.

Còn học phí bao nhiêu là mắc hay rẻ thì khó nói lắm, vì nó còn tuỳ thuộc vào phẩm chất của lớp học và nội dung học. Tôi tự hào rằng nội dung lớp học này là đầy đủ nhất, phẩm chất chắc chắn chẳng kém (nếu không muốn nói là hơn) bất cứ lớp nào ở bất cứ nơi nào trên thế giới. Tôi tự tin như thế, vì tôi đã bỏ ra nhiều tháng trời để soạn bài giảng. (Ai có soạn bài giảng sẽ biết cực khổ như thế nào). Lấy bài của người khác, lấy data của người khác về giảng thì dễ; nhưng tự mình nghĩa ra, soạn ra, rồi dùng dữ liệu của mình thì các bạn sẽ biết khổ cực ra sao — tôi không muốn kể công, mà chỉ nói thực tế. Do đó, cá nhân tôi nghĩ 5 triệu cho 12 ngày và hơn 40 bài giảng thì không thể nói là mắc được. Ở Úc, có một trường y đang thương lượng với tôi để mua lại course học này với điều kiện tôi phải chuyển sang tiếng Anh.

Câu hỏi 16: Tại sao lớp học về phân tích dữ liệu thường mắc?

Trả lời: Như là qui luật, các lớp học về phương pháp thường mắc hơn những lớp về lí thuyết. Mấy năm trước tôi theo học một lớp về bioinformatics có 4 ngày mà người ta lấy học phí 3000 AUD, còn lớp về sinh học xương (bone biology) chỉ 100 AUD. Ở VN có lớp dạy về SPSS chỉ có 5 ngày mà cái giá đã 5-7 triệu đồng rồi. Tri thức là sức mạnh,và các bạn phải đầu tư cho tri thức, chứ các bạn nói chuyện tiền bạc với tri thức làm tôi … hơi nản. Lí do phương pháp thường mắc, là vì nó là công cụ, nó là phương tiện để các bạn nâng cao khả năng tìm việc làm. Các bạn có thể học hết lí thuyết này đến lí thuyết kia (rất quan trọng) nhưng khi tìm việc thì người ta quan tâm đến cái mà bạn có thể làm được là gì (tức là nắm vững phương pháp). Các bạn có thể am hiểu các nguyên lí về dịch tễ học hay về nội tiết học, nhưng nếu bắt tay vào nghiên cứu mà không biết phân tích dữ liệu thì rất khó thuyết phục người tuyển dụng.

Câu hỏi 17: Em ở ngoài Bắc, làm sao vào TPHCM để học đây?

Trả lời: Ui chao, thời đại này, em ở đâu mà chẳng vào Sài Gòn học được. Lớp học năm ngoái (hơn 200 người từ 21 tỉnh thành), hơn phân nửa là từ miền Bắc (dù sao thì dân Bắc ham học hơn dân Nam!) Ngoài ra, còn có nghiên cứu sinh từ nước ngoài về học nữa. Như tôi nói, em có thể hỏi Trường TĐT vì họ có thể sắp xếp cho em ở nhà công vụ. Họ quảng cáo rằng nhà công vụ của họ là tương đương với khách sạn 3 sao. Chuyện sao siếc thì tôi không có ý kiến, nhưng khuôn viên của Trường thì đẹp vào hàng số 1 của Việt Nam là sự thật. Vậy nhé, em liên lạc với Trường để hỏi việc ăn ở.

Câu hỏi 18: Thầy là người viết về R và quảng bá R, nên thầy lúc nào cũng nói tốt cho R. Như vậy là thầy có “conflict of interest”?

Trả lời: Em có thể nói là tôi có “conflict of interest”, nhưng cái interest mà tôi “mâu thuẫn” ở đây là đem lại lợi ích (chứ không đem cái xấu) cho các bạn, cho Việt Nam. R là một technology, và việc tôi làm là một cách chuyển giao công nghệ. Trong thực tế, tôi muốn nghĩ là mình tin vào những gì mình nói và làm, chứ không phải chỉ nói tốt cho một công cụ nào đó. Nếu tôi nói tốt cho SAS hay Stata thì tôi có vấn đề (vì hai software này tốn tiền và các bạn phải mua), còn tôi nếu có nói tốt cho R thì tôi chẳng có gì áy náy vì công cụ này miễn phí và … tốt. Biểu tượng cảm xúc smile

Em có thể nói tôi muốn bán sách nên cố tình quảng bá R, nhưng em hiểu cho là những người như tôi (cấp professor ở nước ngoài) không bao giờ làm giàu hay thậm chí không bao giờ nghĩ đến làm giàu từ hoạt động học thuật ở VN. Mỗi cuốn sách in ra, tôi được hưởng 10% nhuận bút, nhưng phải trả thuế cho VN (tôi đóng thuế đó nhé) 10& hay 15% (tôi quên). Một cuốn sách như R tôi có tiền nhuận bút chỉ bằng vài bài báo trên báo chí phổ thông thôi. Không, tôi không bao giờ (vạn lần không bao giờ) làm tiền ở trong nước vì đơn giản là tôi không có nhu cầu đó. Không bao giờ. Ai nghĩ thế là sai lầm to lắm nhé.

Những sai lầm phổ biến trong phân tích thống kê Phần 3

Tiếp tục bài trước về những sai sót trong phân tích dữ liệu. Bài này tập trung vào những sai sót về diễn giải trị số P và vấn đề kiểm định giả thuyết.

Những sai lầm phổ biến trong phân tích thống kê phần 2

Những sai lầm phổ biến trong phân tích thống kê phần 1

Tài liệu đọc thêm về ý nghĩa trị số P ( P-value): CHUONG 7 KIEM DINH GIA THUYE THONG KE Y NGHIA TRI SO P VALUE

Sai sót 6: Chỉ báo cáo kết quả qua trị số P

Một bài báo y khoa viết như sau: “The effect of the drug on lowering diastolic blood pressure was statistically significant (P<0.05).” Ở đây, trị số P có thể là 0.049; tức có ý nghĩa thống kê (vì thấp hơn 0.05), nhưng rất gần với 0.05 mà có thể diễn giải như là môt trị số P bằng [chẳng hạn như] 0.051, tức không có ý nghĩa thống kê! Ngoài ra, , chúng ta không biết ảnh hưởng của thuốc trong việc hạ huyết áp là bao nhiêu, tức là chúng ta không biết ảnh hưởng của thuốc có ý nghĩa lâm sàng hay không.

Một nghiên cứu khác viết “The mean diastolic blood pressure of the treatment group dropped from 110 to 92 mm Hg (P=0.02).” Cách trình bày này tốt hơn cách trình bày trên, nhưng vẫn chưa đầy đủ. Giá trị trước và sau điều trị được báo cáo rõ ràng, nhưng không nói đến độ khác biệt. Thật ra, thuốc giảm huyết áp 18 mm Hg, và có ý nghĩa thống kê (P = 0.02), nhưng tác giả không cho chúng ta biết khoảng tin cậy 95% của độ khác biệt trước và sau điều trị.

Một cách viết tốt hơn nữa là “The drug lowered diastolic blood pressure by a mean of 18 mm Hg, from 110 to 92 mm Hg (95% CI = 2 to 34 mm Hg; P=0.02).” Ở đây, tác giả cho chúng ta biết ba thông tin quan trọng: huyết áp trước và sau điều trị; mức độ ảnh hưởng và khoảng tin cậy 95%; và trị số P. Khoảng tin cậy 95% có thể diễn giải nôm na rằng nếu thuốc được thử nghiệm trên 100 mẫu tương tự như nghiên cứu đang báo cáo,

thì tính trung bình huyết áp giảm từ 2 đến 34 mm Hg trong 95 mẫu. Chúng ta biết rằng một giảm huyết áp A chỉ 2 mm Hg chẳng có ý nghĩa lâm sàng, nhưng giảm đến 34 mm Hg thì quả có ý nghĩa lâm sàng. Do đó, mặc dù huyết áp giảm trung bình là có ý nghĩa thống kê, mức độ khác biết có thể không phải lúc nào cũng có ý nghĩa lâm sàng; nói cách khác, kết quả nghiên cứu gần như khó kết luận. Để có kết luận dứt khoát, có lẽ chúng ta cần thêm bệnh nhân sao cho tất cả khoảng tin cậy 95% đều có ý nghĩa lâm sàng.

Sai sót 7: Không kiểm định giả thiết trong phân tích

Bất cứ mô hình phân tích thống kê nào cũng đựa vào một số giả định (assumptions). Chẳng hạn như kiểm định t (t test) giả định rằng biến số phải tuân theo luật phân phối chuẩn, phương sai của hai nhóm so sánh phải tương đương nhau, các giá trị trong biến số phải độc lập với nhau, v.v. Tương tự, trong mô hình hồi qui tuyến tính, ngoài những giả định như kiểm định t, còn có giả định mối liên hệ giữa hai biến phụ thuộc và độc lập phải tuân theo hàm số tuyến tính. Trong phân tích sống sót (survival analysis), giả định proportionality cũng rất quan trọng, và nếu giả định này không đúng thì kết quả cũng có thể sai. Nếu biến số không đáp ứng các giả thiết này, thì kết quả phân tích có khi không hợp lí, thậm chí sai. Vì thế, việc kiểm định giả thiết trong phân tích rất quan trọng.

Một cách viết về giả định đã được kiểm tra có thể “The proportionality assumption was tested by evaluating the log minus log plot”, hoặc nếu dùng phương pháp khác thì “We tested the proportionality assumption by examining the odds of becoming pregnant in each discrete month when no contraception was used. Although the magnitude of the association was slightly less in the first month of follow-up compared with later months, we found that higher PBDE concentration was associated with decreased fecundability in every month.” (K Harley et al, Environ Health Perspect. 2010 August; 118(8): A330–A331).

Sai sót 8: Diển giải kết quả không có ý nghĩa thống kê như là một nghiên cứu negative.

Giả sử một nhà nghiên cứu so sánh huyết áp giữa hai nhóm, và kết quả không có ý nghĩa thống kê (statistically insignificant, P > 0.05). Nhà nghiên cứu phải quyết định sự không khác biệt đó có nghĩa là hai nhóm giống nhau (tương đương nhau), hay số liệu chưa đầy đủ để đi đến một kết luận chắc chắn hơn. Cần nói rằng một kết quả không có ý nghĩa thống kê không có nghĩa là hai nhóm giống nhau, mà chỉ có nghĩa là không thể bác bỏ giả thuyết vô hiệu. Giả thuyết vô hiệu (null hypothesis) là giả thuyết hai nhóm bằng nhau.

Nhiều nghiên cứu báo cáo kết quả không có ý nghĩa thống kê thường có power thấp, và do đó, không thể cung cấp câu trả lời dứt khoát. Nhà nghiên cứu có thể không “chứng minh” hai nhóm khác nhau, nhưng nhà nghiên cứu cũng không thể bác bỏ giả thuyết rằng hai nhóm có thể khác nhau. Người ta có câu Absence of proof is not proof of absence hay Absence of evidence is not evidence of absence (không có bằng chứng không có nghĩa là bằng chứng không có). Những nghiên cứu có power đầy đủ, một kết quả không có ý nghĩa thống kê có thể xem là một kết quả âm tính – negative (tức hai nhóm thật sự không khác nhau).

Những sai lầm phổ biến trong phân tích thống kê Phần 2

Tiếp tục bài trước về những sai sót trong phân tích dữ liệu. Bài này tập trung vào những sai sót về sự chia nhóm tùy tiện, sử dụng sai độ lệch chuẩn và sai số chuẩn.

Sai sót 3: Phân chia biến liên tục thành nhiều nhóm mà không giải thích lí do

Thỉnh thoảng, để đơn giản hóa các phân tích thống kê, nhà nghiên cứu có thể chia các biến liên tục thành nhiều nhóm. Chẳng hạn như body mass index có thể chia thành 4 nhóm: béo phì, quá cân, bình thường, và thiếu cân. Nhưng cũng có nhiều trường hợp nhà nghiên cứu chia nhóm một cách tùy tiện, hoàn toàn không theo một qui ước lâm sàng nào cả, như chia độ tuổi thành nhiều nhóm theo 5 tuổi (0-4, 5-9, 10-14, v.v.), lại có khi chia thành nhóm theo 10 tuổi (0-9, 10-19, 20-29, v.v.). Phân chia một biến liên tục thành một biến không liên tục qua phân nhóm như vừa đề cập là một cách làm … phi khoa học. Như đề cập trên, biến liên tục là biến có giá trị chính xác cao nhất so với các biến định cấp và định danh. Một khi một biến liên tục bị cắt thành nhiều đoạn, thì điều đó cũng có nghĩa là làm giảm độ chính xác của biến số. Vì độ chính xác suy giảm, nên power của phân tích cũng giảm theo. Đã có rất nhiều nghiên cứu lí thuyết và thực hành cho thấy những phân nhóm như thế là phản khoa học, và có khi cho ra những kết quả rất khó diễn giải, nếu không muốn nói là sai.

Sai sót 4: Dùng trung bình và độ lệch chuẩn (SD) để mô tả một biến liên tục không tuân theo luật phân phối chuẩn

Không như các biến định danh và định cấp vốn có thể mô tả bằng tần số (frequency) hoặc tỉ lệ (proportion) cho mỗi nhóm, các biến số liên tục có thể mô tả bằng một biểu đồ phân phối. Đối với các biến tuân theo luật phân phối chuẩn (normal distribution), có hai thông số chính là số trung bình và độ lệch chuẩn. Theo định nghĩa của luật phân phối chuẩn, khoảng 67% các giá trị của nằm trong khoảng ±1 SD của số trung bình; khoảng 95% giá trị nằm trong khoảng ± 2 SD.

Tuy nhiên, nếu một biến không tuân theo luật phân phối chuẩn, thì số trung bình và độ lệch chuẩn sẽ không có ý nghĩa gì đáng kể. Đối với các biến không tuân theo luật phân phối chuẩn, các suy luận về 67% và 95% không còn đúng nữa. Trong trường hợp này, chúng ta nên dùng số trung vị (median) và số interquartile range để mô tả dữ liệu.

Phần lớn số liệu lâm sàng và sinh hóa không tuân theo luật phân phối chuẩn. Do đó, số trung vị và interquartile range nên được sử dụng thường xuyên hơn. Một cách tính nhẩm đáng tin cậy là nếu SD cao hơn phân nửa số trung bình (và số âm là số không khả dĩ về mặt sinh học) thì dữ liệu có lẽ không tuân theo luật phân phối chuẩn.

Sai sót 5: Dùng số trung bình và sai số chuẩn (standard error – SE) như là các chỉ số thống kê mô tả

Số trung bình và độ lệch chuẩn (SD) là những chỉ số thống kê mô tả một mẫu nghiên cứu (study sample) với điều kiện biến số tuân theo luật phân phối chuẩn. Sai số chuẩn (standard error hay SE) là một chỉ số đo lường độ chính xác (precision) của một đặc điểm quần thể (population). Xin nhắc lại, SD áp dụng một mẫu nghiên cứu, SE áp dụng cho đặc điểm của một quần thể. SD phản ảnh độ dao động hay khác biệt giữa các cá nhân trong một mẫu nghiên cứu, còn SE phản ảnh độ dao động về một chỉ số như số trung bình giữa các mẫu tưởng tượng (vâng! tưởng tượng).

SE có thể ước tính từ SD bằng cách lấy SD chia cho căn số bậc hai của số cỡ mẫu. Do đó, SE lúc nào cũng thấp hơn SD. Nhiều nhà nghiên cứu không hiểu ý nghĩa của SE nên dùng nó như là một đo lường thay cho SD, và làm cho biến số có độ dao động thấp hơn so với thực tế. Một số nhà nghiên cứu sai lầm vì không hiểu (tức sai lầm có thể thông cảm), nhưng có những nhà nghiên cứu cao bồi cố tình lừa gạt người đọc bằng cách dùng SE thay cho SD và không nói rõ. Nói chung, nên dùng SD (chứ không phải SE) để mô tả một biến số.

Nguyễn Văn Tuấn

Còn tiếp …

Những sai lầm phổ biến trong phân tích thống kê phần 1

Những sai lầm phổ biến trong phân tích thống kê phần 3

Những sai lầm phổ biến trong phân tích thống kê phần 1

Nhằm kế thừa kinh nghiệm của những người đi trước để hạn chế những sai sót đồng thời rút ngắn thời gian tìm hiểu và thực hành xử lý dữ liệu thống kê, hôm nay mình xin giới thiệu một loạt bài về những sai lầm phổ biến trong phân tích thống kê của thầy Nguyễn Văn Tuấn. Những ví dụ trong bài của Thầy đưa ra rất gần gủi và dể hiểu, hy vọng qua những loạt bài này giúp chúng ta dể hình dung hơn về các con số thống kê, hạn chế những sai sót khi vận dụng thực hành.

NT

Những sai lầm phổ biến trong phân tích thống kê phần 1

Phân tích thống kê là một phần không thể thiếu được trong các nghiên cứu y khoa, nhất là nghiên cứu lâm sàng và dịch tễ học. Thống kê đã được ứng dụng trong y học từ những năm trong thập niên 1930s, nhưng thật ra từ thế kỉ 19 người ta cũng đã nghĩ đến việc sử dụng các thuật phân tích thống kê trong thử nghiệm lâm sàng. Mặc dù đã trải qua hơn 1 thế kỉ ứng dụng, nhưng cho đến ngày nay vẫn còn rất nhiều sai sót về phân tích thống kê trong các công trình nghiên cứu y học. Một số sai sót không ảnh hưởng gì đến kết luận của nghiên cứu, nhưng nhiều sai sót mang tính hệ thống thì có khi làm cho công trình nghiên cứu có một ý nghĩa hoàn toàn khác với kết luận của tác giả.

Để khắc phục tình trạng sai sót về phân tích thống kê trong nghiên cứu y học, nhiều nhóm trên thế giới đã xuất bản những “phác đồ”, những hướng dẫn trong cách phân tích và trình bày kết quả phân tích dữ liệu. Đây là một nỗ lực trong thực hành y học thực chứng, bởi vì y học thực chứng dựa vào những công trình nghiên cứu có chất lượng và chứng cứ phải chính xác. Trong bối cảnh nghiên cứu y học ở Việt Nam, y học thực chứng vẫn còn trong giai đoạn đầu, và nhìn qua những bài báo khoa học rất dễ nhận ra nhiều sai sót về phân tích dữ liệu trong mỗi bài báo. Đó cũng là một trong những nguyên nhân dẫn đến chất lượng nghiên cứu y học ở Việt Nam không có phẩm chất cao. Chúng ta cần phải khắc phục tình trạng yếu kém này.

Phân tích thống kê có thể chia thành hai lĩnh vực chính: phân tích mô tả và phân tích suy luận. Phân tích mô tả quan tâm đến cách mô tả dữ liệu từ một mẫu hoặc từ một công trình nghiên cứu. Phân tích suy luận bao gồm các phương pháp phân tích cách ước tính, suy luận, kiểm định giả thuyết khoa học. Trong loạt bài này, tôi sẽ trình bày những sai sót phổ biến nhất về phân tích mô tả và phân tích suy luận trong các nghiên cứu y học trên thế giới và Việt Nam, với hi vọng rằng những sai sót này sẽ giảm đi trong tương lai, và chất lượng nghiên cứu khoa học sẽ được nâng cao.

Tôi sẽ lần lượt (hai ngày một lần) trình bày những sai sót này để chúng ta cùng tham khảo và bàn luận. Nếu bạn đọc phát hiện những thiếu sót gì mới, xin cung cấp thông tin cho chúng tôi để bình luận. Dĩ nhiên, theo qui ước y khoa, chúng tôi sẽ giữ kín thông tin các bạn cung cấp.

Sai sót 1: Không định nghĩa biến phân tích rõ ràng

Đặc tính của khoa học là cân, đo, đong, đếm. Nhà nghiên cứu cần phải nói cho người đọc (và công chúng) biết những biến lâm sàng mà họ đo lường là gì, và phải cung cấp định nghĩa của những biến đó sao cho người đọc có thể hiểu được. Chẳng hạn như khi nói đến mật độ xương (bone mineral density – BMD), nhà nghiên cứu phải định nghĩa BMD là gì, đo ở vị trí nào trong cơ thể, đơn vị đo lường là gì, và đo bằng phương pháp hay phương tiện gì. Hay như huyết áp, nhà nghiên cứu phải cung cấp định nghĩa ngưỡng giá trị nào là “cao huyết áp” và ngưỡng nào là “bình thường”. Tương tự, khi đề cập đến béo phì (obesity), nhà nghiên cứu phải định nghĩa thế nào là béo phì, và dùng chỉ số nào để định nghĩa. Chẳng hạn như BMI trên 27.5 (ở người Á châu) hay trên 30 (ở người Âu châu) được xem là béo phì.

Đối với các biến liên quan đến khái niệm hoặc hành vi (behavior) vấn đề định nghĩa có thể khó hơn vì khó đo lường. Chẳng hạn như trầm cảm được định nghĩa bằng thang điểm Zung Depression Inventory (ZDI) trên 50, nhưng biến số này phản ảnh trầm cảm chính xác độ nào thì là một vấn đề còn trong vòng tranh cãi. Trong một cuộc điều tra qui mô ở Mĩ, một cá nhân được xem là “đang hút thuốc lá” là người hút thuốc lá trong

vòng 30 ngày trước khi tham gia cuộc điều tra. Mặc dù định nghĩa này không hiển nhiên như chúng ta mong muốn, nhưng đó là một định nghĩa mang tính “operational”, và nhà nghiên cứu phải phát biểu, cho dù chúng ta có thể không đồng ý với định nghĩa đó.

Sai sót 2: Không cung cấp độ đo lường cho từng biến số

Độ đo lường (level of measurement) là một thông tin quan trọng cho phân tích thống kê. Trong lí thuyết đo lường, người ta phân biệt ba loại biến số: định danh (nominal), định cấp độ (ordinal), và liên tục (continuous).

Ở mức độ thấp nhất là những dữ liệu mang tính định danh, tức những biến bao gồm hai hay hơn hai loại (nam hay nữ), hoặc tên (đạo Phật, đạo Công giáo), phân loại nhưng không có tính thứ tự cao thấp (như nghề nghiệp). Loại máu A, B, AB, hoặc O cũng được xem là dữ liệu định danh.

Các dữ liệu định cấp bao gồm thể loại có thứ tự cao thấp và có thể xếp hạng. chẳng hạn như một cá nhân có thể là thấp, trung bình, hay cao. Chúng ta có thể không biết chính xác chiều cao của bệnh nhân, nhưng chúng ta biết bệnh nhân đó thuộc nhóm cao, trung bình hay thấp.

Các biến liên tục có giá trị chính xác hơn các biến định cấp và định danh. Những biến số như chiều cao (đo bằng cm), cân nặng (kg), huyết áp (mmHg), mật độ xương (g/cm2), v.v. được xem là những dữ liệu liên tục. Dữ liệu liên tục là những dữ liệu có độ chính xác cao nhất trong 3 nhóm đo lường.

Nhà nghiên cứu cần phải nói rõ biến phân tích thuộc loại nào trong bài báo khoa học. Chẳng hạn như huyết áp của một bệnh nhân có thể chia thành hai nhóm (tăng hay không tăng), hoặc như là một biến phân cấp (hypotensive, normotensive, và hypertensive), hoặc như là một biến liên tục. Đây là vấn đề quan trọng, bởi vì đặc tính của biến số quyết định phương pháp phân tích. Do đó, nếu nhà nghiên cứu không định nghĩa và không mô tả biến phân tích rõ ràng, thì người đọc sẽ không lĩnh hội được kết quả nghiên cứu có ý nghĩa gì.

NVT

(Còn tiếp)

Những sai lầm phổ biến trong phân tích thống kê phần 2

Những sai lầm phổ biến trong phân tích thống kê phần 3