דווקא הדוגמא שלך
מראה שזו לא בעיה במדגם. המדגם בסדר, מייצג את כל השריפות בצורה טובה מאוד. מה שעשו איתו, זה לא בסדר. הבעיה היא בשאלות שנשאלו, במשתנים שהוכנסו לכלים הסטטיסטיים. תאר לעצמך שמישהו היה עושה סקר פוליטי במדינת ישראל, והיה בוחר מדגם מייצג לגמרי של האוכלוסיה, אבל היה שוכח לשאול את העונים לגבי הדת ומידת הדתיות שלהם. אז הגורם הזה, שכידוע משפיע מאוד על הדעות הפוליטיות של תושבי מדינתנו, פשוט לא יופיע בתוצאות המחקר שלו. וזה אומר שכל מיני דברים שהיום אנחנו מקשרים בעיקר לדת (כמו הצבעה למפלגות ערביות, או אגודת ישראל, או מפד"ל, או שינוי), הוא יאלץ לקשר לדברים אחרים (רמת הכנסה? גודל ישוב? גודל משפחה? רמת השכלה? גיל?), ויגיע למסקנות מוזרות למדי. הבעיה היא שלא תמיד ברור מראש מהם הגורמים שצריך לקחת בחשבון, מה יכול להיות קשור לנושא המחקר. האם יש קשר בין הדעה הפוליטית של אדם לבין סוג המים שהוא שותה (ברז, מינרלים מבקבוק, מינרלים ממתקן, מטוהרים/מסוננים, לא שותה מים)? אולי כן. אולי לא. אם לא נשאל, איך נדע? מצד שני, יש גבול לכמה שאלות אנשים מוכנים לענות בסקר טיפוסי. ולכן ב-specification bias מדובר על ההטייה (bias) שבעצם הגדרת (specification) המחקר. ברגע שאמרת "אני חוקר את השפעת ציפרני החתול על גידול החסה בשטחים", ולא הכנסת למשוואות את הקרינה הקוסמית, אז יש לך הטייה מובנית שאומרת "הקרינה הקוסמית לא משנה לגידול החסה בשטחים. רק ציפורני החתול יכולות לשנות, ועד כמה - זה מה שאני בודק." ושוב: כל זה למיטב הבנתי, אבל אני לא סטטיסטיקאית.