ขนาดผลเป็นสมมติฐานสำหรับการทดสอบอย่างมีนัยสำคัญ


37

วันนี้ที่สโมสรวารสารที่ผ่านการตรวจสอบความถูกต้องของไขว้ (ทำไมคุณไม่อยู่ที่นั่น?) @mbq ถาม:

คุณคิดว่าพวกเรา (นักวิทยาศาสตร์ด้านข้อมูลสมัยใหม่) รู้หรือไม่ว่าความหมายสำคัญคืออะไร? และเกี่ยวข้องกับความมั่นใจในผลลัพธ์ของเราอย่างไร

@ มิเชลตอบว่าบางคน (รวมถึงฉัน) มักจะทำ:

ฉันค้นหาแนวคิดของความสำคัญ (ตามค่า p) มีประโยชน์น้อยลงเรื่อย ๆ เมื่อฉันทำงานต่อไป ตัวอย่างเช่นฉันสามารถใช้ชุดข้อมูลที่มีขนาดใหญ่มากดังนั้นทุกอย่างมีความสำคัญทางสถิติ ( พี<.01 )

นี่อาจเป็นคำถามที่งี่เง่า แต่ไม่ใช่ปัญหาที่การทดสอบสมมติฐานใช่หรือไม่ ถ้าคุณทดสอบสมมุติฐานว่าง "A เท่ากับ B" คุณก็รู้คำตอบคือ "ไม่" ชุดข้อมูลที่ใหญ่กว่าจะนำคุณเข้าใกล้ข้อสรุปที่แท้จริงอย่างหลีกเลี่ยงไม่ได้เท่านั้น ฉันเชื่อว่ามันคือเดมิงที่เคยยกตัวอย่างกับสมมติฐาน "จำนวนขนที่อยู่ทางด้านขวาของลูกแกะเท่ากับจำนวนขนที่อยู่ทางซ้าย" แน่นอนว่าไม่ใช่

สมมติฐานที่ดีกว่าคือ "A ไม่แตกต่างจาก B มากกว่ามาก" หรือในตัวอย่างเนื้อแกะ "จำนวนขนที่ด้านข้างของแกะไม่แตกต่างกันเกิน X%"

มันสมเหตุสมผลหรือไม่


1) การทดสอบความเท่ากันของค่าเฉลี่ย (สมมติว่าเป็นสิ่งที่คุณต้องการ) ในบางกรณีอาจทำให้การทดสอบที่มีนัยสำคัญของความแตกต่างเฉลี่ยของพวกเขาง่ายขึ้น ด้วยข้อผิดพลาดมาตรฐานสำหรับการประมาณความแตกต่างนี้คุณสามารถทำการทดสอบได้ทุกประเภทของ "ไม่แตกต่างจาก B มากกว่า ... " 2) สำหรับขนาดตัวอย่าง - ใช่สำหรับเอสเอสขนาดใหญ่ความสำคัญของการลดความสำคัญ แต่ก็ยังคงมีความสำคัญสำหรับตัวอย่างขนาดเล็กซึ่งคุณไม่สามารถสร้างค่าเพิ่มเติมได้
Ondrej

11
เรื่อง "แน่นอนมันไม่ใช่" โดยการคาดเดาลูกแกะมีขนตามลำดับขนในแต่ละด้าน หากมีจำนวนคู่ของเส้นขนดังกล่าวและพวกเขาจะกระจายสุ่มโอกาสเท่าเทียมกันทั้งสองด้านและด้านข้างที่มีความชัดเจนแล้วโอกาสที่ว่าตัวเลขทั้งสองมีความตรงเท่ากับเป็น 0.178% ในฝูงใหญ่หลายร้อยตัวคุณควรคาดหวังว่าจะได้เห็นลูกแกะที่สมดุลอย่างสมบูรณ์ซึ่งเกิดมาอย่างน้อยหนึ่งครั้งในแต่ละทศวรรษ (สมมติว่ามีขนจำนวนเท่ากันเกิดขึ้นประมาณ 50% ของเวลา) หรือ: เกษตรกรแกะอายุประมาณทุกคนมีลูกแกะตัวนั้น! 105
whuber

1
@whuber มันถูกกำหนดโดยวัตถุประสงค์ของการวิเคราะห์ การเปรียบเทียบที่ดีกว่านั้นคือขนาดของเอฟเฟกต์ขั้นต่ำที่จะแสดงให้เห็นถึงการลงทุนในยาต่อไปหลังจากการทดลอง การดำรงอยู่ของผลกระทบที่มีนัยสำคัญทางสถิตินั้นไม่เพียงพอเนื่องจากการพัฒนายามีราคาแพงและอาจมีผลข้างเคียงที่ต้องพิจารณา มันไม่ใช่คำถามเชิงสถิติ แต่เป็นคำถามเชิงปฏิบัติ
Dikran Marsupial

2
@whuber ฉันสงสัยว่าในการใช้งานส่วนใหญ่ที่ไม่มีข้อมูลที่เป็นประโยชน์สำหรับการตัดสินใจขนาดผลกระทบขั้นต่ำที่น่าสนใจจากนั้นการทดสอบสมมติฐานมาตรฐานนั้นใช้ได้สำหรับการทดสอบปกติ ในฐานะที่เป็นเบย์ฉันจะเห็นด้วยกับมุมมองว่าเป็นปัญหาการเพิ่มประสิทธิภาพมากกว่าปัญหาการทดสอบสมมติฐาน ส่วนหนึ่งของปัญหากับการทดสอบสมมติฐานเป็นผลมาจากวิธีการทำตำราทางสถิติซึ่งการทดสอบจะดำเนินการเป็นประเพณีโดยไม่พิจารณาวัตถุประสงค์ของการฝึกซ้อมหรือความหมายที่แท้จริงของผลลัพธ์ (แน่นอนว่า IMHO ทั้งหมด)
Dikran Marsupial

1
@DikranMarsupial ไม่ใช่กุญแจสำคัญที่นักเรียนจะได้รับการสอนแบบทดสอบโดยการท่องจำตามที่ระบุโดย gung ด้านล่างมากกว่าความสำคัญของการออกแบบการศึกษาที่ดีหรือไม่? การเน้นการออกแบบการศึกษามากกว่านี้จะช่วยแก้ปัญหาบางอย่างได้หรือไม่ไม่จำเป็นต้องมีชุดข้อมูลขนาดใหญ่
มิเชล

คำตอบ:


25

เท่าที่การทดสอบความสำคัญดำเนินไป (หรือสิ่งอื่นใดที่ทำสิ่งเดียวกันกับการทดสอบความสำคัญ) ฉันคิดมานานแล้วว่าวิธีที่ดีที่สุดในสถานการณ์ส่วนใหญ่มีแนวโน้มที่จะประเมินขนาดของเอฟเฟ็กต์มาตรฐานด้วยช่วงความมั่นใจ 95% ขนาดผลกระทบ ไม่มีอะไรใหม่ที่นั่น - คุณสามารถสลับไปมาระหว่างทางคณิตศาสตร์ได้ - ถ้าค่า p สำหรับ 'ไม่มีศูนย์' คือ <.05 ดังนั้น 0 จะอยู่นอก 95% CI และตรงกันข้าม ในความคิดของฉันข้อดีของมันคือจิตวิทยา; นั่นคือทำให้ข้อมูลสำคัญที่มีอยู่ แต่คนไม่สามารถมองเห็นได้เมื่อรายงานค่า p เท่านั้น ตัวอย่างเช่นเป็นเรื่องง่ายที่จะเห็นว่าผลกระทบนั้นสำคัญมาก 'แต่มีขนาดเล็กอย่างน่าขัน หรือ 'ไม่สำคัญ' แต่เพียงเพราะแถบข้อผิดพลาดมีขนาดใหญ่ในขณะที่ผลโดยประมาณเป็นสิ่งที่คุณคาดหวังมากหรือน้อย เหล่านี้สามารถจับคู่กับค่าดิบและ CI ของพวกเขา

ตอนนี้ในหลายสาขาค่าดิบมีความหมายอย่างแท้จริงและฉันรู้ว่าทำให้เกิดคำถามว่ามันยังคุ้มค่าหรือไม่ที่จะคำนวณขนาดของเอฟเฟกต์เนื่องจากเรามีค่าเช่นค่าเฉลี่ยและความลาดชัน ตัวอย่างอาจดูที่การเจริญเติบโตแบบแคระแกรน เรารู้ว่ามันหมายความว่าอะไรสำหรับเด็กชายอายุ 20 ปีที่ผิวขาวจะสั้นลง 6 +/- 2 นิ้ว (เช่น 15 +/- 5 ซม.) มากกว่าที่พวกเขาจะทำเช่นนั้นทำไมถึงพูดถึง ? ฉันมักจะคิดว่ายังคงมีค่าในการรายงานทั้งและฟังก์ชั่นสามารถเขียนเพื่อคำนวณสิ่งเหล่านี้เพื่อให้มันเป็นงานพิเศษเล็ก ๆ น้อย ๆ แต่ฉันตระหนักว่าความคิดเห็นจะแตกต่างกันไป ฉันยืนยันว่าการประเมินจุดด้วยช่วงความเชื่อมั่นจะแทนที่ค่า p เป็นส่วนแรกของการตอบกลับของฉัน d=-1.6±0.5

ในทางกลับกันฉันคิดว่าคำถามที่ใหญ่กว่าคือ 'เป็นสิ่งที่การทดสอบความสำคัญทำในสิ่งที่เราต้องการจริงๆหรือไม่' ฉันคิดว่าปัญหาที่แท้จริงคือสำหรับคนส่วนใหญ่ที่วิเคราะห์ข้อมูล (เช่นผู้ปฏิบัติงานที่ไม่ใช่นักสถิติ) การทดสอบที่สำคัญอาจกลายเป็นการวิเคราะห์ข้อมูลทั้งหมด สำหรับฉันแล้วสิ่งที่สำคัญที่สุดคือการมีวิธีคิดที่จะคิดเกี่ยวกับสิ่งที่เกิดขึ้นกับข้อมูลของเราและการทดสอบสมมติฐานที่ว่างเปล่านั้นสำคัญที่สุดก็คือส่วนเล็ก ๆ ของสิ่งนั้น ขอยกตัวอย่างจินตภาพ (ฉันยอมรับว่านี่เป็นภาพล้อเลียน แต่น่าเสียดายที่ฉันกลัวว่ามันจะเป็นไปได้)

บ๊อบทำการศึกษารวบรวมข้อมูลบางอย่างหรืออย่างอื่น เขาคาดว่าข้อมูลจะได้รับการกระจายโดยปกติการจัดกลุ่มรอบค่าบางอย่างแน่นหนาและตั้งใจที่จะทำการทดสอบหนึ่งตัวอย่างเพื่อดูว่าข้อมูลของเขานั้นแตกต่างอย่างมีนัยสำคัญจากค่าที่กำหนดไว้ล่วงหน้าหรือไม่ หลังจากรวบรวมตัวอย่างของเขาเขาตรวจสอบเพื่อดูว่าข้อมูลของเขามีการกระจายตามปกติและพบว่าพวกเขาไม่ได้ พวกมันไม่มีก้อนเนื้อที่อยู่ตรงกลาง แต่ค่อนข้างสูงในช่วงเวลาที่กำหนดและตามด้วยหางยาวซ้าย บ๊อบกังวลเกี่ยวกับสิ่งที่เขาควรทำเพื่อให้แน่ใจว่าการทดสอบของเขาถูกต้อง เขาลงเอยด้วยการทำอะไรบางอย่าง (เช่นการแปลงการทดสอบแบบไม่อิงพารามิเตอร์ ฯลฯ ) แล้วรายงานสถิติการทดสอบและค่า p

ฉันหวังว่ามันจะไม่ออกมาอย่างน่ารังเกียจ ฉันไม่ได้ตั้งใจจะล้อเลียนใคร แต่ฉันคิดว่าสิ่งนี้จะเกิดขึ้นเป็นครั้งคราว หากสถานการณ์นี้เกิดขึ้นเราทุกคนสามารถตกลงกันได้ว่ามันเป็นการวิเคราะห์ข้อมูลที่ไม่ดี อย่างไรก็ตามปัญหาไม่ใช่ว่าสถิติทดสอบหรือ p-value ผิด เราสามารถวางได้ว่าข้อมูลนั้นได้รับการจัดการอย่างเหมาะสมในแง่นั้น. ฉันจะยืนยันว่าปัญหาคือบ๊อบมีส่วนร่วมในสิ่งที่คลีฟแลนด์เรียกว่า "การวิเคราะห์ข้อมูลการท่องจำ" เขาดูเหมือนจะเชื่อว่าจุดเดียวคือการได้รับค่า p ที่ถูกต้องและคิดว่าน้อยมากเกี่ยวกับข้อมูลของเขานอกเหนือจากการใฝ่หาเป้าหมายนั้น เขาอาจเปลี่ยนไปใช้ข้อเสนอแนะของฉันด้านบนและรายงานขนาดเอฟเฟกต์มาตรฐานที่มีช่วงความมั่นใจ 95% และมันจะไม่เปลี่ยนสิ่งที่ฉันเห็นว่าเป็นปัญหาที่ใหญ่กว่า (นี่คือสิ่งที่ฉันหมายถึงโดยการทำ "สิ่งเดียวกัน "ด้วยวิธีอื่น) ในกรณีเฉพาะนี้ความจริงที่ว่าข้อมูลไม่ได้ดูอย่างที่เขาคาดหวัง (เช่นไม่ใช่ปกติ) เป็นข้อมูลจริงมันน่าสนใจและอาจมีความสำคัญมาก แต่ข้อมูลนั้นก็ถูกโยนทิ้งไป บ๊อบไม่รู้จักสิ่งนี้เพราะเน้นการทดสอบที่สำคัญ สำหรับใจของฉันนั่นคือปัญหาจริงที่มีการทดสอบอย่างมีนัยสำคัญ

ให้ฉันพูดถึงมุมมองอื่น ๆ ที่ได้รับการกล่าวถึงและฉันต้องการที่จะชัดเจนว่าฉันไม่ได้วิจารณ์ใคร

  1. มีการกล่าวถึงบ่อยครั้งว่าหลายคนไม่เข้าใจค่า p (เช่นคิดว่าพวกเขาน่าจะเป็นโมฆะจริง) ฯลฯ บางครั้งก็เป็นที่ถกเถียงกันอยู่ว่าถ้ามีคนเพียงคนเดียวที่ใช้วิธีเบส์ปัญหาเหล่านี้จะ ไปให้พ้น. ฉันเชื่อว่าผู้คนสามารถเข้าถึงการวิเคราะห์ข้อมูลแบบเบย์ในลักษณะที่ไม่น่าเชื่อและมีกลไก อย่างไรก็ตามฉันคิดว่าความเข้าใจที่ผิดเกี่ยวกับความหมายของค่า p จะเป็นอันตรายน้อยลงหากไม่มีใครคิดว่าการรับค่า p เป็นเป้าหมาย
  2. การมีอยู่ของ 'ข้อมูลขนาดใหญ่' โดยทั่วไปไม่เกี่ยวข้องกับปัญหานี้ ข้อมูลขนาดใหญ่ทำให้เห็นได้ชัดว่าการจัดระเบียบการวิเคราะห์ข้อมูลใน 'ความสำคัญ' ไม่ใช่วิธีการที่มีประโยชน์
  3. ฉันไม่เชื่อว่าปัญหาเกิดขึ้นจากการทดสอบสมมติฐาน หากผู้คนต้องการดูว่าค่าที่ประเมินนั้นอยู่นอกช่วงเวลาหรือไม่แทนที่จะเป็นค่าที่มีค่าอาจมีปัญหาเดียวกันหลายเรื่องเกิดขึ้น (อีกครั้งฉันต้องการชัดเจนฉันรู้ว่าคุณไม่ใช่ 'Bob' )
  4. สำหรับบันทึกฉันต้องการพูดถึงว่าข้อเสนอแนะของฉันเองจากย่อหน้าแรกไม่ได้แก้ไขปัญหาดังที่ฉันพยายามชี้ให้เห็น

สำหรับฉันนี้เป็นปัญหาหลัก: สิ่งที่เราต้องการจริงๆคือทางจริยธรรมจะคิดเกี่ยวกับสิ่งที่เกิดขึ้น สิ่งที่หมายถึงในสถานการณ์ที่กำหนดไม่ได้ถูกตัดและทำให้แห้ง วิธีการที่จะให้นักเรียนในชั้นเรียนวิธีการไม่ชัดเจนหรือง่าย การทดสอบความสำคัญมีความเฉื่อยและประเพณีเบื้องหลังมากมาย ในชั้นเรียนสถิติมันชัดเจนว่าต้องสอนอะไรและอย่างไร สำหรับนักเรียนและผู้ปฏิบัติงานเป็นไปได้ที่จะพัฒนาสคีแนวคิดเพื่อทำความเข้าใจเนื้อหาและรายการตรวจสอบ / ผังงาน (ฉันเคยเห็นบ้าง!) สำหรับการวิเคราะห์ การทดสอบความสำคัญสามารถพัฒนาเป็นวิเคราะห์ข้อมูลการท่องจำตามธรรมชาติโดยไม่มีใครโง่หรือขี้เกียจหรือไม่ดี นั่นคือปัญหา


ฉันชอบช่วงเวลาของความมั่นใจ :) คำถามหนึ่ง: คุณหมายถึงว่าการคำนวณโพสต์เฉพาะกิจของขนาดเอฟเฟกต์เป็นเรื่องปกติหรือไม่?
มิเชล

x¯1=10x¯2=14SD=6d=0.67

ใช่ฉันคิดว่าเราเห็นด้วยที่นี่
มิเชล

+1 เรื่องราวของ Bob ทำให้ฉันนึกถึงสิ่งนี้: pss.sagepub.com/content/early/2011/10/17/0956797611417632
Carlos Accioly

+1 ฉันชอบช่วงเวลาที่น่าเชื่อถือด้วยตัวเอง เกี่ยวกับประเด็นที่ 1 ฉันขอยืนยันว่าทางเลือกแบบเบย์มีแนวโน้มที่จะส่งผลให้การวิเคราะห์ข้อมูลลดน้อยลงเนื่องจากคำจำกัดความของความน่าจะเป็นนั้นไม่ตอบโต้ง่ายซึ่งทำให้ง่ายต่อการกำหนดคำถามที่คุณต้องการถามทางสถิติ . ปัญหาที่แท้จริงอยู่ที่การทดสอบนั้นต้องใช้ intergrals ซึ่งยากเกินไปสำหรับวิธีการดังกล่าวที่จะนำมาใช้อย่างกว้างขวาง หวังว่าซอฟต์แวร์จะพัฒนาไปจนถึงจุดที่ผู้ใช้สามารถตั้งคำถามและทิ้งส่วนที่เหลือไว้กับคอมพิวเตอร์
Dikran Marsupial

18

ทำไมเรายืนยันในการทดสอบสมมติฐานรูปแบบใด ๆในสถิติ?

ในสถิติหนังสือที่ยอดเยี่ยมในฐานะอาร์กิวเมนต์หลักการโรเบิร์ต Abelson ให้เหตุผลว่าการวิเคราะห์ทางสถิติเป็นส่วนหนึ่งของการโต้แย้งหลักการเกี่ยวกับเรื่องที่เป็นปัญหา เขาบอกว่าแทนที่จะได้รับการประเมินว่าเป็นสมมติฐานที่จะปฏิเสธหรือไม่ถูกปฏิเสธ (หรือยอมรับได้!!!) เราควรประเมินพวกเขาตามสิ่งที่เขาเรียกว่าเกณฑ์ MAGIC:

ขนาดมันใหญ่แค่ไหน? ข้อต่อ - มันเต็มไปด้วยข้อยกเว้น? ชัดเจนหรือไม่ Generality - ใช้งานได้ทั่วไปอย่างไร ความน่าสนใจ - เราสนใจเกี่ยวกับผลลัพธ์หรือไม่ ความน่าเชื่อถือ - เราเชื่อได้ไหม

ความเห็นของฉันเกี่ยวกับหนังสือในบล็อกของฉัน


4
ปัญหาถูกปลุกระดมโดยอาจารย์บางคน ปริญญาเอกของฉันอยู่ใน psychometrics ซึ่งอยู่ในแผนกจิตวิทยา ฉันได้ยินอาจารย์จากส่วนอื่น ๆ ของแผนกพูดสิ่งต่างๆเช่น "เพียงรายงานค่า p นั่นคือสิ่งที่สำคัญ" งานของฉันคือการให้คำปรึกษาส่วนใหญ่เป็นนักศึกษาระดับบัณฑิตศึกษาและนักวิจัยในสาขาสังคมพฤติกรรมการศึกษาและการแพทย์ จำนวนข้อมูลที่ผิดที่ได้รับจากคณะกรรมการระดับปริญญาเอกนั้นน่าประหลาดใจ
Peter Flom - Reinstate Monica

1
+1 สำหรับ "ทำไม ... " นั่นเป็นส่วนสำคัญของคำตอบที่ฉันพยายาม
gung - Reinstate Monica

อีกส่วนหนึ่งของสิ่งที่ฉันพยายามจะให้ได้ในคำตอบคือฉันคิดว่าสิ่งนี้เกิดขึ้นตามธรรมชาติ Btw ไม่ยุติธรรมรับสอง upvotes ;-) คุณสามารถรวมสิ่งเหล่านี้
gung - Reinstate Monica


6

การทดสอบสมมติฐานดั้งเดิมบอกคุณว่ามีหลักฐานสำคัญที่มีนัยสำคัญทางสถิติเกี่ยวกับการมีอยู่ของผลกระทบหรือไม่ในขณะที่สิ่งที่เราต้องการทราบบ่อยครั้งคือการมีหลักฐานที่มีผลกระทบที่มีนัยสำคัญทางปฏิบัติ

แน่นอนว่าเป็นไปได้ที่จะจัดทำแบบทดสอบสมมติฐาน "Bayesian" ที่มีขนาดเอฟเฟกต์ขั้นต่ำ (IIRC) มีตัวอย่างของหนังสือเล่มนี้ของ David MacKay ในหัวข้อ "ทฤษฎีสารสนเทศการอนุมานและอัลกอริทึมการเรียนรู้" .

การทดสอบตามปกติเป็นอีกตัวอย่างที่ดีเรามักจะรู้ว่าข้อมูลไม่ได้ถูกกระจายออกไปจริงๆเราแค่ทดสอบเพื่อดูว่ามีหลักฐานว่านี่ไม่ใช่การประมาณที่สมเหตุสมผลหรือไม่ หรือการทดสอบความเอนเอียงของเหรียญเรารู้ว่ามันไม่น่าจะลำเอียงได้อย่างสมบูรณ์เพราะมันเป็นแบบอะซิเมตริก


6

สิ่งเหล่านี้เกิดขึ้นกับคำถามที่คุณถามจริง ๆ ว่าคุณออกแบบการเรียนของคุณอย่างไรและแม้แต่ความหมายที่เท่าเทียมกัน

ฉันวิ่งเข้าไปแทรกสิ่งเล็ก ๆ น้อย ๆ ที่น่าสนใจในวารสารการแพทย์ของอังกฤษเมื่อพูดถึงสิ่งที่ผู้คนตีความหมายบางช่วงของความหมาย ปรากฎว่า "เสมอ" อาจหมายถึงสิ่งที่เกิดขึ้นต่ำถึง 91% ของเวลา (BMJ VOLUME 333 26 สิงหาคม 2549 หน้า 445) ดังนั้นอาจจะเท่ากับและเทียบเท่า (หรือภายใน X% สำหรับค่า X) อาจคิดว่ามีความหมายเหมือนกัน และขอให้คอมพิวเตอร์มีความเท่าเทียมอย่างง่ายโดยใช้ R:

> (1e+5 + 1e-50) == (1e+5 - 1e-50)
[1] TRUE

$$

หากสมมติฐานทางเลือกของเราคือHa:μ>μ0H0:μ=μ0H0:μμ0μμ0μ0μμ0μ0 μμμ0μμ0μ0 μ

สิ่งเหล่านี้มากมายที่เกิดขึ้นกับการถามคำถามที่ถูกต้องและออกแบบการศึกษาที่เหมาะสมสำหรับคำถามนั้น หากคุณมีข้อมูลมากพอที่จะแสดงให้เห็นว่าความแตกต่างที่ไม่มีความหมายในทางปฏิบัตินั้นมีนัยสำคัญทางสถิติคุณก็ต้องสูญเสียทรัพยากรที่จะได้รับข้อมูลจำนวนมาก มันจะเป็นการดีกว่าที่จะตัดสินใจว่าความแตกต่างที่มีความหมายจะเป็นอย่างไรและออกแบบการศึกษาเพื่อให้คุณมีพลังมากพอที่จะตรวจจับความแตกต่างนั้น แต่ไม่เล็กลง

และถ้าเราต้องการแยกขนจริง ๆ เราจะกำหนดว่าส่วนใดของลูกแกะที่อยู่ทางขวาและทางซ้าย หากเรากำหนดโดยบรรทัดที่คำจำกัดความมีขนจำนวนเท่ากันในแต่ละด้านคำตอบของคำถามข้างต้นจะกลายเป็น "แน่นอนว่ามันคือ"


ฉันสงสัยว่าคำตอบที่คุณได้จาก R นั้นเป็นเพียงผลของปัญหาเลขคณิตบางจุดไม่ใช่การตัดสินใจอย่างมีสติที่จะมองข้ามความแตกต่างที่ไม่เกี่ยวข้อง ลองพิจารณาตัวอย่างคลาสสิก (.1 + .2) == .3“ นักคณิตศาสตร์บริสุทธิ์” จะบอกคุณว่าพวกเขาเท่ากันทุกระดับความแม่นยำ แต่ R ส่งกลับค่า FALSE
งานเลี้ยง

@ GaëlLauransประเด็นของฉันคือว่าเนื่องจากการปัดเศษ (ไม่ว่าจะเป็นโดยมนุษย์หรือคอมพิวเตอร์) แนวคิดของความเท่าเทียมกันและภายใน X% สำหรับ X ที่มีขนาดเล็กเพียงพอนั้นเหมือนกัน
Greg Snow

5

จากมุมมองขององค์กรไม่ว่าจะเป็นรัฐบาลที่มีตัวเลือกนโยบายหรือ บริษัท ที่กำลังมองหากระบวนการ / ผลิตภัณฑ์ใหม่ ๆ การใช้การวิเคราะห์ผลประโยชน์ต้นทุนอย่างง่ายก็สามารถช่วยได้เช่นกัน ในอดีตที่ผ่านมาฉันได้แย้งว่า (ไม่สนใจเหตุผลทางการเมือง) เนื่องจากค่าใช้จ่ายที่เป็นที่รู้จักของการริเริ่มใหม่อะไรคือจุดคุ้มทุนสำหรับคนที่ต้องได้รับผลกระทบในเชิงบวกจากความคิดริเริ่ม ตัวอย่างเช่นหากความคิดริเริ่มใหม่คือการทำให้คนตกงานเข้ามาทำงานมากขึ้นและค่าใช้จ่ายในการริเริ่ม$100,000มันจะลดการถ่ายโอนการว่างงานอย่างน้อย$100,000? ถ้าไม่เช่นนั้นผลของความคิดริเริ่มจะไม่สำคัญจริง

สำหรับผลลัพธ์ด้านสุขภาพคุณค่าของชีวิตทางสถิตินั้นมีความสำคัญ นี่เป็นเพราะประโยชน์ต่อสุขภาพจะเกิดขึ้นตลอดชีวิต (และดังนั้นประโยชน์จะถูกปรับลดลงในมูลค่าตามอัตราคิดลด ) ดังนั้นแทนที่จะมีนัยสำคัญทางสถิติเราจะได้รับข้อโต้แย้งเกี่ยวกับวิธีการประเมินมูลค่าของชีวิตทางสถิติและอัตราคิดลดที่ควรใช้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.