ไม่มีนัยสำคัญทางสถิติ

ไม่มีนัยสำคัญทางสถิติ

ไม่มีที่ใดที่มีปัญหากับสถิติที่โจ่งแจ้งมากไปกว่าการศึกษาอิทธิพลทางพันธุกรรมต่อโรค ตัวอย่างเช่นในปี 2550 นักวิจัยที่รวบรวมวรรณกรรมทางการแพทย์พบว่ามีการศึกษาจำนวนมากที่เชื่อมโยงตัวแปรทางพันธุกรรม 85 ตัวใน 70 ยีนที่แตกต่างกันกับโรคหลอดเลือดหัวใจเฉียบพลันซึ่งเป็นกลุ่มของปัญหาหัวใจ เมื่อนักวิจัยเปรียบเทียบการทดสอบทางพันธุกรรมของผู้ป่วย 811 รายที่เป็นโรคนี้กับกลุ่ม 650 (จับคู่กับเพศและอายุ) ที่ไม่เป็นไปตามนั้น มีเพียงยีนที่สงสัยได้เพียงตัวเดียวที่มักพบบ่อยในผู้ที่เป็นโรคนี้ – ตัวเลขหนึ่ง ที่จะคาดหวังโดยบังเอิญ

นักวิจัยรายงานใน Journal of the American Medical Associationว่า

“ผลลัพธ์ที่เป็นโมฆะของเราไม่สนับสนุนสมมติฐานที่ว่าตัวแปรทางพันธุกรรม 85 ตัวที่ทดสอบนั้นเป็นปัจจัยที่อ่อนไหว”

การศึกษาจำนวนมากจะผิดพลาดได้อย่างไร? เนื่องจากข้อสรุปของพวกเขาขึ้นอยู่กับ “นัยสำคัญทางสถิติ” ซึ่งเป็นแนวคิดที่เป็นหัวใจสำคัญของการวิเคราะห์ทางคณิตศาสตร์ของการทดลองทางวิทยาศาสตร์สมัยใหม่

นัยสำคัญทางสถิติเป็นวลีที่นักศึกษาระดับบัณฑิตศึกษาด้านวิทยาศาสตร์ทุกคนเรียนรู้ แต่มีเพียงไม่กี่คนที่เข้าใจ แม้ว่าต้นกำเนิดจะย้อนกลับไปอย่างน้อยในศตวรรษที่ 19 แต่แนวคิดสมัยใหม่นี้ได้รับการบุกเบิกโดยนักคณิตศาสตร์ Ronald A. Fisher ในช่วงทศวรรษที่ 1920 ความสนใจเดิมของเขาคือการเกษตร เขาพยายามทดสอบว่าความแปรผันของผลผลิตพืชเป็นผลมาจากการแทรกแซงเฉพาะบางอย่าง (เช่น ปุ๋ย) หรือเป็นเพียงปัจจัยสุ่มที่อยู่เหนือการควบคุมการทดลอง

ฟิชเชอร์สันนิษฐานไว้ก่อนว่าปุ๋ยไม่ก่อให้เกิดความแตกต่าง – สมมติฐาน 

“ไม่มีผล” หรือ “ไม่มีผล” จากนั้นเขาคำนวณตัวเลขที่เรียกว่าค่า P ซึ่งเป็นความน่าจะเป็นที่ผลผลิตที่สังเกตได้ในทุ่งปุ๋ยจะเกิดขึ้นหากปุ๋ยไม่มีผลจริง ถ้า P น้อยกว่า .05 — 

หมายความว่ามีโอกาสเกิดพยาธิใบไม้น้อยกว่า 5 เปอร์เซ็นต์ — ควรประกาศผลลัพธ์ว่า “มีนัยสำคัญทางสถิติ” ฟิชเชอร์ประกาศโดยพลการ และควรปฏิเสธสมมติฐานการไม่มีผลกระทบ โดยยืนยันว่าปุ๋ยใช้ได้ผล

ในที่สุดค่า P ของฟิชเชอร์ก็กลายเป็นตัวชี้ขาดความน่าเชื่อถือสูงสุดสำหรับผลลัพธ์ทางวิทยาศาสตร์ทุกประเภท ไม่ว่าจะเป็นการทดสอบผลกระทบต่อสุขภาพของมลพิษ พลังการรักษาของยาใหม่ หรือผลของยีนต่อพฤติกรรม ในรูปแบบต่างๆ การทดสอบสำหรับนัยสำคัญทางสถิติแพร่หลายในการวิจัยทางวิทยาศาสตร์และการแพทย์ส่วนใหญ่จนถึงทุกวันนี้

แต่ในความเป็นจริง ไม่มีพื้นฐานเชิงตรรกะสำหรับการใช้ค่า P จากการศึกษาชิ้นเดียวเพื่อสรุปข้อสรุปใดๆ หากโอกาสเกิดความบังเอิญน้อยกว่า 5 เปอร์เซ็นต์ อาจมีข้อสรุปที่เป็นไปได้สองประการ: มีผลจริง หรือผลที่ได้คือความบังเอิญที่ไม่น่าจะเป็นไปได้ วิธีการของฟิชเชอร์ไม่มีทางรู้ได้เลยว่าวิธีไหน ในทางกลับกัน หากการศึกษาพบว่าไม่มีผลกระทบที่มีนัยสำคัญทางสถิติ ก็ไม่สามารถพิสูจน์อะไรได้เช่นกัน บางทีอาจไม่มีผลกระทบ หรือบางทีการทดสอบทางสถิติอาจไม่มีประสิทธิภาพเพียงพอที่จะตรวจจับผลกระทบเพียงเล็กน้อยแต่มีอยู่จริง

“การทดสอบนั้นไม่จำเป็นและไม่เพียงพอสำหรับการพิสูจน์ผลลัพธ์ทางวิทยาศาสตร์” สตีเฟน ซิเลียก นักประวัติศาสตร์เศรษฐกิจที่มหาวิทยาลัยรูสเวลต์ในชิคาโกกล่าว

ไม่นานหลังจากที่ฟิชเชอร์สร้างระบบที่มีนัยสำคัญทางสถิติของเขาขึ้น มันถูกโจมตีโดยนักคณิตศาสตร์คนอื่นๆ โดยเฉพาะอย่างยิ่ง Egon Pearson และ Jerzy Neyman แทนที่จะทดสอบสมมติฐานว่าง พวกเขาโต้แย้ง การทดสอบสมมติฐานที่แข่งขันกันเองกับอีกกลุ่มหนึ่งนั้นสมเหตุสมผลกว่า วิธีการดังกล่าวยังสร้างค่า P ซึ่งใช้เพื่อวัดความน่าจะเป็นของ “ผลบวกที่ผิดพลาด” โดยสรุปผลกระทบจะเป็นจริงทั้งที่มันไม่ได้เป็นจริง สิ่งที่เกิดขึ้นในท้ายที่สุดก็คือการผสมผสานระหว่างแนวทางของฟิชเชอร์และเนย์แมน-เพียร์สันที่ไม่สอดคล้องกันร่วมกัน ซึ่งทำให้การตีความสถิติมาตรฐานสับสนอย่างดีที่สุดและผิดพลาดอย่างร้ายแรงที่สุด เป็นผลให้นักวิทยาศาสตร์ส่วนใหญ่สับสนเกี่ยวกับความหมายของค่า P หรือวิธีตีความ “แทบจะไม่เคยเลย ไม่เคย พูดถูกเลยว่ามันหมายถึงอะไร” กู๊ดแมนกล่าว

วลีที่ถูกต้อง ข้อมูลการทดลองที่ให้ค่า P เท่ากับ .05 หมายความว่ามีโอกาสเพียง 5 เปอร์เซ็นต์ที่จะได้ผลลัพธ์ที่สังเกตได้ (หรือรุนแรงกว่านั้น) หากไม่มีผลจริง (นั่นคือ ถ้าสมมติฐานที่ไม่มีความแตกต่างนั้นถูกต้อง) แต่คำอธิบายจำนวนมากทำให้รายละเอียดปลีกย่อยในคำจำกัดความนั้นยุ่งเหยิง ตัวอย่างเช่น หนังสือยอดนิยมเกี่ยวกับประเด็นที่เกี่ยวข้องกับวิทยาศาสตร์ระบุความเข้าใจผิดโดยทั่วไปเกี่ยวกับความหมายของนัยสำคัญทางสถิติที่ระดับ .05: “หมายความว่า 95 เปอร์เซ็นต์แน่ใจว่าความแตกต่างที่สังเกตได้ระหว่างกลุ่มหรือชุดของตัวอย่าง มีจริงและไม่อาจเกิดขึ้นโดยบังเอิญ”

การตีความนั้นทำให้เกิดข้อผิดพลาดทางตรรกะอย่างมหันต์ (คำศัพท์ทางเทคนิค: “การเปลี่ยนเงื่อนไข”): ทำให้เกิดความสับสนในการได้รับผลลัพธ์ (หากสมมติฐานเป็นจริง) ด้วยอัตราต่อรองที่เข้าข้างสมมติฐานหากคุณสังเกตเห็นผลลัพธ์นั้น สุนัขที่ได้รับการเลี้ยงดูอย่างดีอาจไม่ค่อยเห่า แต่การสังเกตการเห่าที่หายากไม่ได้หมายความว่าสุนัขกำลังหิว สุนัขอาจเห่า 5 เปอร์เซ็นต์ของเวลา แม้ว่ามันจะได้รับอาหารอย่างดีตลอดเวลาก็ตาม ( ดูกรอบที่ 2 )

ข้อผิดพลาดทั่วไปอีกประการหนึ่งมีความหมายทางสถิติเท่ากับ “ความสำคัญ” ในการใช้คำทั่วไป เนื่องจากวิธีการทำงานของสูตรทางสถิติ การศึกษาที่มีกลุ่มตัวอย่างขนาดใหญ่มากจึงสามารถตรวจพบ “นัยสำคัญทางสถิติ” สำหรับผลเล็กน้อยที่ไม่มีความหมายในทางปฏิบัติ ยาชนิดใหม่อาจดีกว่ายาตัวเก่าในทางสถิติ แต่สำหรับทุกๆ พันคนที่คุณรักษา คุณอาจได้รับการรักษาเพิ่มเติมเพียงหนึ่งหรือสองครั้ง ซึ่ง

แนะนำ : ข่าวดารา | กัญชา | เกมส์มือถือ | เกมส์ฟีฟาย | สัตว์เลี้ยง