יוספה, שבתי !!
תמצות קצרצר בעברית זה קצת מאתגר, במיוחד נוכח העובדה שאני רחוק מלהיות מומחה לסטטיסטיקה. מה שכן, אני נתלה פה באילנות הרבה יותר גבוהים ממני ומצרף לך קטע שכתב מגיב בשם tulkin שניהלתי איתו חליפת מסרים באותו עניין. זה גם לא קצר, אבל קחי את מה שמתאים לך מההסבר.
לפני ההסבר של טולקין, אשתמש בדוגמה שסטטיסטיקאית אחת הביאה כדי להדגים את מגבלות האינטרפטציה של המובהקות הסטטיסטית:
נניח שאת מחפשת גלולת פלא שתוריד ממשקלך 20 קילו תוך מספר שבועות. את מוצאת בשוק שתי תרופות שהמליצו עליהן, שתייהן באותו מחיר ועם אותן תופעות לוואי- אחת מראה אפקט גדול יחסית, הורדה של 30 קילו. מה שכן, המנעד גדול מאד (פלוס מינוס 20 קילו) ובמבחנים הסטטיסטיים של p value, השערת האפס לא נדחתה (כלומר, המבחנים לא מובהקים סטטיסטית). תרופה שניה מורידה 5 קילו, אבל מדוייקת (פלוס מינוס חצי קילו, עם מובהקות סטטיסטית). איזו גלולה תקחי? אם את שבויה בקונספט של מובהקות סטטיסטית, תבחרי בגלולה האחרונה ותורידי מקסימום 5 וחצי קילו. אם תנהגי בשכל, ותביני שגודל האפקט נותן עוצמה גדולה יותר במקרה הזה, תשתמשי בתרופה הראשונה ותרדי לפחות 10 קילו.
והנה ההסבר של טולקין:
יש מגוון רחב של בעיות עם p-value. כשהבעיה העיקרית הוא שהוא לא מודד את מה שרוצים למדוד. בגדול אנחנו רוצים לדעת עם האפקט שמצאנו בניסוי הוא אמיתי או לא, כאשר צריך להגדיר מה זה "אמיתי". בסופו של דבר ברור לנו שהאפקט שמצאנו בניסוי הוא לא בדיוק מה שיש במציאות - הרי בדקנו רק מדגם וכו'. ברור שמה שנמצא במדגם אחר יהיה שונה ממה שמצאנו במדגם הזה. האם ההבדל הזה צפוי להיות משמעותי? התקבעה אצלנו הפרדיגמה שאפקט הוא "אמיתי" אם הוא גדול מ0 אז אנחנו מנסים להעריך את הסיכוי שהאפקט אמיתי לפי ההגדרה הזו על סמך תוצאות הניסוי.
אחרי ההקדמה הזו - הPvalue חוטא למטרה בשתי דרכים עיקריות. ראשית, הוא מודד את הסיכוי לשחזר אפקט כפי שנמצא (או גדול ממנו) תחת ההנחה שאין אפקט. כלומר הוא מודד את ההסתברות של הנתונים בהתניית "אין אפקט" ((P(Data|H0 ) אבל מה שאנחנו באמת רוצים לדעת זה את הסיכוי שאין אפקט בהתניית שראינו את הנתונים (P(H0|Data. יש כמובן קשר בין שני הגדלים האלה - זהו חוק בייז. והקשר הזו תלוי בהערכת ההסתברות הא-פריורית שלנו לקיום השארת האפס (או השלילה שלה). אבל יותר מהנוסחא חשוב להבין שברמה הבסיסית ביותר הPVALUE לא מודד את הדבר הנכון.
הבעיה השניה של PVALUE זה שהוא מערבב בתוכו כמה גורמים שמשפיעים על ההסתברות לקבל תוצאות דומות. חלק מהגורמים הם חשובים, בעיקר גודלו של האפקט שראינו. וחלק הם לא מעניינים, כי אנחנו שלטנו בהם וקבענו אותם כחלק מהליך המחקר - כמו גודל המדגם, שיטת המדידה וכו'. ברור שאם לקחנו מדגם גדול מאד, הסיכוי לקבל משהו שונה במדגם אחר גדול מאד היא קטנה, בלי קשר להאם האפקט קיים או לא. וזה בדיוק מה שעומד בבסיס הטענה במאמר שהפנית אליו שבעצם PVALUE מוצלח מאשר איזושהי הטיה נסתרת שנמצאת בבסיס המחקר. אם המחקר מוטה, מאיזושהי סיבה שהמאמר מפרט, אז הסיכוי למצוא אפקט גדל, אבל הPVALUE לא מודד את הסיכוי שהאפקט אמיתי, אלא בודק את הסיכוי לשחזר את האפקט באותה סיטואציה. עכשיו אם מלכתחילה הסיטואציה היתה מוטה, אבל המדגם היה גדול מספיק, אז סיכויי השחזור גדולים ואז נטעה לחשוב שמדובר באפקט אמיתי, למרות שמדובר בהטיה מובנית.
המאמר ממשיך ומפרט סוגים שונים של הטיות.
יש כמובן עוד בעיות אבל אלה השתיים העיקריות: אי מדידת הדבר הנכון, וערבוב של גודל האפקט ופרמטרים אחרים לכדי מדד אחד שהוא פחות אינפורמטיבי. תוסיף לכך שאנשים מתעלמים מהעוצמה הסטטיסטית של המבחן (כמעט אף אחד לא מדווח על עוצמה), למרות שהיא מדד לא פחות חשוב ואינפורמטיבי - ותקבל שבעצם יש מעט מאד הצדקה בנהיה אחרי PVALUE.
אבל מעבר לכך ישנה גם בעיה באינטרפרטציה של PVALUE, וכאן אני מגיע לדוגמא שנתתי לגבי השוואה בין שני טיפולים. אפילו אם נניח שPVALUE הוא מדד מעולה, הקשר של "מובהקות סטטיסטית" שהוא יוצר הוא לא "יחס טרנזיטיבי". כלומר אם X שונה מY באופן מובהק ו Y שונה מZ באופן מובהק - אין זה אומר ש X שונה מZ. בפרט "חוסר מובהקות" היא לא זהות. זה שX לא שונה באופן מובהק מY אינו אומר שאין הבדל ביניהם או שגודל האפקט הוא 0. וזו טעות נפוצה מאד. אי אפשר להעביר מובהקות מאגף לאגף או לחסר מובהקות וכו'. ולכן אם לתרופה X יש אפקט מובהק ביחס לאיזושהי השערת 0, ולתרופה Y אין אפקט מובהק, זה לא אומר ש X שונה באופן מובהק מY. בהחלט ייתכן שאין ביניהן הבדל מובהק, כי Y עומדת ב"אמצע הדרך" בין X ל 0. Y קרוב מדי ל 0 בשביל להיות מובהק בתנאים הנתונים, וט גם קרוב מדי לX בשביל שההבדל יהיה מובהק. אבל X כבר רחוק מספיק מ 0 בשביל להיחשב מובהק.