คำถามติดแท็ก p-value

ในการทดสอบสมมติฐานบ่อยครั้ง พี- ค่าคือความน่าจะเป็นของผลลัพธ์ที่รุนแรง (หรือมากกว่า) กว่าผลที่สังเกตได้ภายใต้สมมติฐานที่ว่าสมมติฐานว่างเป็นจริง

7
เหตุใดจึงไม่ดีที่จะสอนนักเรียนว่าค่า p เป็นความน่าจะเป็นที่การค้นพบเกิดขึ้นเนื่องจากโอกาส
ใครช่วยได้โปรดอธิบายสั้น ๆ ว่าทำไมมันไม่ดีที่จะสอนนักเรียนว่าค่า p เป็นค่าโพรบ (การค้นพบของพวกเขาเกิดจาก [สุ่ม] โอกาส) ความเข้าใจของฉันคือว่า p-value เป็นโพรบ (รับข้อมูลที่มากขึ้น | สมมติฐานว่างเป็นจริง) ความสนใจที่แท้จริงของฉันคือสิ่งที่อันตรายจากการบอกพวกเขาว่ามันคืออดีต (นอกเหนือจากความจริงที่ว่ามันไม่ได้เป็นเช่นนั้น)

2
ทำความเข้าใจกับค่า p
ฉันรู้ว่ามีวัสดุมากมายที่อธิบายค่า p อย่างไรก็ตามแนวคิดไม่ใช่เรื่องง่ายที่จะเข้าใจอย่างแน่นหนาโดยไม่ต้องชี้แจงเพิ่มเติม นี่คือคำจำกัดความของ p-value จาก Wikipedia: p-value คือความน่าจะเป็นที่จะได้รับสถิติการทดสอบอย่างน้อยที่สุดเท่าที่จะสังเกตได้จริงโดยสมมติว่าสมมติฐานว่างเป็นจริง ( http://en.wikipedia.org/wiki/P-value ) คำถามแรกของฉันเกี่ยวข้องกับการแสดงออก "อย่างน้อยที่สุดเท่าที่สังเกตได้จริง ๆ " ความเข้าใจของฉันเกี่ยวกับตรรกะที่ใช้ p-value มีดังต่อไปนี้: ถ้า p-value มีขนาดเล็กมันไม่น่าเป็นไปได้ที่การสังเกตจะเกิดขึ้นโดยสมมุติฐานว่างและเราอาจต้องการสมมติฐานทางเลือกเพื่ออธิบายการสังเกต หากค่า p-value ไม่เล็กอาจเป็นไปได้ว่าการสังเกตเกิดขึ้นเพียงสมมติว่าสมมติฐานว่างเปล่าและไม่จำเป็นต้องใช้สมมติฐานทางเลือกเพื่ออธิบายการสังเกต ดังนั้นถ้ามีคนต้องการยืนยันสมมติฐานเขา / เธอต้องแสดงว่าค่า p ของสมมติฐานว่างนั้นเล็กมาก เมื่อคำนึงถึงมุมมองนี้ความเข้าใจของฉันเกี่ยวกับนิพจน์ที่ไม่ชัดเจนคือ p-value คือmin[P(X&lt;x),P(x&lt;X)]min[P(X&lt;x),P(x&lt;X)]\min[P(X<x),P(x<X)]ถ้า PDF ของสถิติเป็น unimodal โดยที่XXXคือสถิติทดสอบและxxxคือค่าที่ได้จากการสังเกต ถูกต้องหรือไม่ ถ้ามันถูกต้องมันยังใช้กับ PDF bimodal ของสถิติได้หรือไม่? หากยอดเขาสองอันของ PDF ถูกแยกออกจากกันอย่างดีและค่าที่สังเกตนั้นอยู่ที่ไหนสักแห่งในบริเวณความหนาแน่นของความน่าจะเป็นต่ำระหว่างสองยอดเขา p-value ช่วงใดให้ความน่าจะเป็น คำถามที่สองเป็นเรื่องเกี่ยวกับความหมายของ p-value จาก …

4
ต้นกำเนิดของเกณฑ์“ 5
รายงานข่าวกล่าวว่าเซิร์นจะมีการประกาศในวันพรุ่งนี้ว่าฮิกส์โบซอนได้รับการตรวจทดลอง 5 หลักฐาน อ้างอิงจากบทความ:σσ\sigma 5 เท่ากับโอกาส 99.99994% ที่ข้อมูลที่เครื่องตรวจจับ CMS และ ATLAS กำลังเห็นไม่ใช่แค่เสียงสุ่ม - และมีโอกาส 0.00006% ที่พวกเขาได้รับการกระพริบ 5 σเป็นความมั่นใจที่จำเป็นสำหรับบางสิ่งบางอย่างที่จะระบุว่าเป็น“ การค้นพบทางวิทยาศาสตร์” อย่างเป็นทางการσσ\sigmaσσ\sigma สิ่งนี้ไม่ได้เข้มงวดมากนัก แต่ดูเหมือนว่านักฟิสิกส์ใช้วิธีการทางสถิติแบบ "การทดสอบสมมติฐาน" มาตรฐานโดยตั้งค่าเป็น0.0000006ซึ่งสอดคล้องกับz = 5 (แบบสองด้าน)? หรือมีความหมายอื่น ๆ บ้าง?αα\alpha0.00000060.00000060.0000006z=5z=5z=5 แน่นอนว่าในทางวิทยาศาสตร์ส่วนใหญ่การตั้งค่าอัลฟ่าเป็น 0.05 จะทำเป็นประจำ นี่จะเทียบเท่ากับหลักฐาน"two- " ถึงแม้ว่าฉันไม่เคยได้ยินชื่อนี้มาก่อน มีสาขาอื่น ๆ (นอกเหนือจากฟิสิกส์ของอนุภาค) ที่คำจำกัดความที่เข้มงวดกว่าของอัลฟ่าเป็นมาตรฐานหรือไม่? ใครทราบข้อมูลอ้างอิงสำหรับวิธีการที่ห้าσกฎได้รับการยอมรับจากฟิสิกส์ของอนุภาค?σσ\sigmaσσ\sigma ปรับปรุง:ฉันถามคำถามนี้ด้วยเหตุผลง่ายๆ หนังสือของฉันชีวสถิติที่ใช้งานง่าย (เช่นหนังสือสถิติส่วนใหญ่) มีส่วนที่อธิบายว่ากฎ "P &lt;0.05" ตามปกติคืออะไร ฉันต้องการเพิ่มตัวอย่างของเขตข้อมูลทางวิทยาศาสตร์ที่จำเป็นต้องใช้ค่าที่น้อยกว่า (มาก!) …

3
ค่า p เป็นค่าประมาณหรือไม่?
เนื่องจากสามารถคำนวณช่วงความเชื่อมั่นสำหรับค่า p และเนื่องจากการประมาณช่วงเวลาตรงข้ามคือการประมาณค่าจุด: ค่า p เป็นค่าประมาณจุดหรือไม่

2
กำลังทำการทดสอบทางสถิติหลังจากแสดงข้อมูลเป็นภาพ - การขุดลอกข้อมูลหรือไม่
ฉันจะเสนอคำถามนี้โดยใช้ตัวอย่าง สมมติว่าฉันมีชุดข้อมูลเช่นชุดข้อมูลราคาบ้านบอสตันซึ่งฉันมีตัวแปรแบบต่อเนื่องและหมวดหมู่ ที่นี่เรามีตัวแปร "คุณภาพ" ตั้งแต่ 1 ถึง 10 และราคาขาย ฉันสามารถแยกข้อมูลออกเป็นบ้านคุณภาพ "ต่ำ", "ปานกลาง" และ "สูง" โดย (โดยพลการ) สร้างการตัดเพื่อคุณภาพ จากนั้นใช้การจัดกลุ่มเหล่านี้ฉันสามารถพล็อตฮิสโตแกรมของราคาขายต่อกันได้ ชอบมาก ที่นี่ "ต่ำ" คือและ "สูง" คือในคะแนน "คุณภาพ" ตอนนี้เรามีการกระจายของราคาขายสำหรับแต่ละกลุ่ม เป็นที่ชัดเจนว่ามีความแตกต่างในศูนย์กลางของที่ตั้งสำหรับบ้านขนาดกลางและคุณภาพสูง ตอนนี้เมื่อทำสิ่งนี้ทั้งหมดเสร็จฉันคิดว่า "หืมดูเหมือนว่าจะมีความแตกต่างในจุดศูนย์กลางของที่ตั้ง! จากนั้นฉันได้รับค่า p ที่ดูเหมือนว่าจะปฏิเสธสมมติฐานว่างที่ถูกต้องว่าไม่มีความแตกต่างในค่าเฉลี่ย≤ 3≤3\leq 3&gt; 7&gt;7>7 ทีนี้สมมติว่าฉันไม่มีอะไรในใจที่จะทดสอบสมมติฐานนี้จนกว่าฉันจะพล็อตข้อมูล ข้อมูลนี้ขุดลอกหรือไม่ มันยังคงเป็นข้อมูลที่ขุดขึ้นมาหรือไม่ถ้าฉันคิดว่า: "หืมฉันว่าบ้านคุณภาพสูงราคาแพงกว่าเพราะฉันเป็นมนุษย์ที่เคยอาศัยอยู่ในบ้านก่อนหน้านี้ฉันจะลงจุดข้อมูลอาฮ่า! เพื่อทดสอบ t! " ตามธรรมชาติแล้วมันไม่ใช่การขุดลอกข้อมูลถ้าชุดข้อมูลถูกเก็บรวบรวมด้วยความตั้งใจที่จะทดสอบสมมติฐานนี้จากการเดินทาง แต่บ่อยครั้งที่เราต้องทำงานกับชุดข้อมูลที่เรามอบให้และบอกให้ "มองหารูปแบบ" บางคนหลีกเลี่ยงการขุดข้อมูลด้วยงานที่คลุมเครือในใจ สร้างชุดค้างไว้สำหรับการทดสอบข้อมูลหรือไม่ การสร้างภาพข้อมูล "นับ" เป็นการสอดแนมโอกาสที่จะทดสอบสมมติฐานที่เสนอโดยข้อมูลหรือไม่

4
ค่า p ที่เล็กลงมีความน่าเชื่อถือมากกว่าหรือไม่
ฉันอ่านค่า value, อัตราข้อผิดพลาดประเภท 1, ระดับนัยสำคัญ, การคำนวณพลังงาน, ขนาดผลกระทบและการอภิปราย Fisher vs Neyman-Pearson นี่ทำให้ฉันรู้สึกท่วมท้นไปเล็กน้อย ฉันขอโทษสำหรับกำแพงข้อความ แต่ฉันรู้สึกว่าจำเป็นต้องให้ภาพรวมของความเข้าใจปัจจุบันของฉันเกี่ยวกับแนวคิดเหล่านี้ก่อนที่ฉันจะย้ายไปยังคำถามจริงของฉันppp จากสิ่งที่ฉันรวบรวมมาค่าเป็นเพียงการวัดความประหลาดใจความน่าจะเป็นที่จะได้ผลลัพธ์อย่างน้อยที่สุดเท่าที่เป็นไปได้เนื่องจากสมมติฐานว่างเป็นจริง ฟิชเชอร์มีจุดประสงค์เพื่อให้มันเป็นมาตรการต่อเนื่องppp ในกรอบงานของ Neyman-Pearson คุณเลือกระดับนัยสำคัญล่วงหน้าและใช้สิ่งนี้เป็นจุดตัด (โดยพลการ) ระดับนัยสำคัญเท่ากับอัตราข้อผิดพลาดประเภท 1 มันถูกกำหนดโดยความถี่ในระยะยาวเช่นถ้าคุณต้องทำการทดสอบซ้ำ 1,000 ครั้งและสมมติฐานว่างเป็นจริงการประมาณ 50 ของการทดลองเหล่านั้นจะส่งผลอย่างมีนัยสำคัญเนื่องจากความแปรปรวนของการสุ่มตัวอย่าง โดยการเลือกระดับความสำคัญเราจะป้องกันตนเองจากความผิดพลาดเชิงบวกเหล่านี้ด้วยความน่าจะเป็น แบบดั้งเดิมจะไม่ปรากฏในกรอบนี้PPP หากเราพบค่า 0.01 นี่ไม่ได้หมายความว่าอัตราความผิดพลาดประเภท 1 คือ 0.01 ข้อผิดพลาดประเภท 1 จะถูกระบุเป็นค่าเริ่มต้น ฉันเชื่อว่านี่เป็นหนึ่งในข้อโต้แย้งที่สำคัญในการอภิปราย Fisher vs NP เนื่องจากค่า value มักถูกรายงานเป็น 0.05 *, 0.01 **, 0.001 *** …

2
ค่าที่แน่นอนของ 'p-value' ไม่มีความหมายหรือไม่?
ฉันได้พูดคุยกับนักสถิติย้อนกลับไปเมื่อปี 2552 ซึ่งเขากล่าวว่าค่าที่แน่นอนของ p-value นั้นไม่เกี่ยวข้อง: สิ่งเดียวที่สำคัญคือไม่ว่ามันจะสำคัญหรือไม่ก็ตาม เช่นผลลัพธ์หนึ่งจะไม่สำคัญกว่าอีก ตัวอย่างของคุณอาจมาจากประชากรเดียวกันหรือไม่ก็ได้ ฉันมีคุณสมบัติบางอย่างกับสิ่งนี้ แต่บางทีฉันสามารถเข้าใจอุดมการณ์: ขีด จำกัด 5% นั้นเป็นกฎเกณฑ์นั่นคือ p = 0.051 นั้นไม่มีนัยสำคัญและ p = 0.049 คือไม่ควรเปลี่ยนข้อสรุปของการสังเกตหรือการทดสอบของคุณจริงๆแม้ว่าผลลัพธ์หนึ่งรายการจะสำคัญ เหตุผลที่ทำให้ตอนนี้ขึ้นมาก็คือตอนนี้ฉันกำลังศึกษาปริญญาโทด้านชีวสารสนเทศศาสตร์และหลังจากพูดคุยกับผู้คนในภาคสนามดูเหมือนว่าจะมีความมุ่งมั่นที่จะได้รับค่า p ที่แน่นอนสำหรับสถิติทุกชุดที่พวกเขาทำ ตัวอย่างเช่นหากพวกเขา 'บรรลุ' ค่า p ของ p &lt;1.9 × 10 -12พวกเขาต้องการแสดงให้เห็นว่าผลลัพธ์ของพวกเขามีนัยสำคัญอย่างไรและผลลัพธ์นี้เป็นข้อมูลที่ยอดเยี่ยม ปัญหานี้เป็นตัวอย่างที่มีคำถามเช่น: เหตุใดฉันจึงไม่สามารถรับค่า p น้อยกว่า 2.2e-16 ได้ โดยที่พวกเขาต้องการบันทึกค่าที่บ่งชี้ว่าโดยบังเอิญเพียงอย่างเดียวนี่จะน้อยกว่า 1 ในล้านล้าน แต่ฉันเห็นความแตกต่างเล็กน้อยในการแสดงให้เห็นว่าผลลัพธ์นี้จะเกิดขึ้นน้อยกว่า 1 ในล้านล้านเมื่อเทียบกับ 1 ในพันล้าน ฉันรู้สึกซาบซึ้งที่ …

4
เหตุใดค่า p ต่ำกว่าจึงไม่มีหลักฐานมากขึ้นต่อโมฆะ? ข้อโต้แย้งจาก Johansson 2011
Johansson (2011) ใน " ทักทายสิ่งที่เป็นไปไม่ได้: ค่า p, หลักฐานและโอกาส " (ที่นี่ยังเชื่อมโยงไปยังวารสาร ) ระบุว่าค่าต่ำกว่ามักจะถือว่าเป็นหลักฐานที่แข็งแกร่งต่อโมฆะ Johansson หมายความว่าคนจะพิจารณาหลักฐานโมฆะจะแข็งแกร่งถ้าทดสอบทางสถิติของพวกเขาออกมาพี -value ของ0.01 , กว่าถ้าทดสอบทางสถิติของพวกเขาออกมาพี -value ของ0.45 Johansson แสดงเหตุผลสี่ประการที่ทำให้ไม่สามารถใช้ค่าpเป็นหลักฐานต่อโมฆะ:พีppพีpp0.010.010.01พีpp0.450.450.45พีpp ถูกกระจายอย่างสม่ำเสมอภายใต้สมมติฐานว่างดังนั้นจึงไม่สามารถระบุหลักฐานสำหรับโมฆะได้พีpp เป็นเงื่อนไขเพียงอย่างเดียวในสมมติฐานว่างและดังนั้นจึงไม่เหมาะสมที่จะหาหลักฐานเชิงปริมาณเพราะหลักฐานมักจะสัมพันธ์กันในความรู้สึกของการเป็นหลักฐานสำหรับหรือต่อต้านสมมติฐานที่เกี่ยวข้องกับสมมติฐานอื่นพีpp กำหนดความน่าจะเป็นในการได้มาซึ่งหลักฐาน (ให้เป็นโมฆะ) แทนที่จะเป็นความแข็งแกร่งของหลักฐานพีpp ขึ้นอยู่กับข้อมูลที่ไม่ได้ตรวจสอบและความตั้งใจส่วนตัวและดังนั้นจึงมีนัยถึงการตีความที่เป็นหลักฐานว่ากำลังของหลักฐานที่สังเกตได้นั้นขึ้นอยู่กับสิ่งที่ไม่ได้เกิดขึ้นและความตั้งใจส่วนตัวppp น่าเสียดายที่ฉันไม่สามารถเข้าใจได้อย่างง่ายจากบทความของ Johansson ให้ฉัน -value ของ0.01แสดงว่ามีโอกาสน้อย null เป็นจริงกว่าP -value ของ0.45 เหตุใดค่าpต่ำกว่าจึงไม่มีหลักฐานที่ดีกว่าต่อโมฆะ? ppp0.010.010.01ppp0.450.450.45ppp

3
รองรับมุมมองที่ยึดที่มั่นของค่า p
บางครั้งในรายงานฉันมีข้อจำกัดความรับผิดชอบเกี่ยวกับค่า p และสถิติเชิงอนุมานอื่น ๆ ที่ฉันได้ให้ไว้ ฉันบอกว่าเนื่องจากตัวอย่างไม่สุ่มดังนั้นสถิติดังกล่าวจะไม่ใช้อย่างเคร่งครัด ถ้อยคำเฉพาะของฉันมักจะได้รับในเชิงอรรถ: "ในขณะที่การพูดอย่างเคร่งครัดสถิติเชิงอนุมานใช้ได้เฉพาะในบริบทของการสุ่มตัวอย่างเราปฏิบัติตามการประชุมในการรายงานระดับนัยสำคัญและ / หรือช่วงความเชื่อมั่นเป็นแนวทางที่สะดวกแม้สำหรับตัวอย่างที่ไม่สุ่มดูการอนุมานทางสถิติของ Michael Oakes : พฤติกรรมศาสตร์ (NY: Wiley, 1986) ในโอกาสสองครั้ง - หนึ่งครั้งสำหรับเอกสารที่ผ่านการตรวจสอบโดยเพื่อนครั้งหนึ่งหรือสองครั้งในการตั้งค่าที่ไม่ใช่เชิงวิชาการ - บรรณาธิการหรือผู้ตรวจสอบคัดค้านข้อจำกัดความรับผิดชอบนี้เรียกมันว่าทำให้สับสนและรู้สึกว่าการค้นพบเชิงอนุมาน (และจะได้รับเสื้อคลุมของผู้มีอำนาจ) มีใครประสบปัญหานี้และหาทางออกที่ดี? ในอีกด้านหนึ่งความเข้าใจของผู้คนเกี่ยวกับค่า p โดยทั่วไปมักจะไม่พอใจแม้แต่ในบริบทของการสุ่มตัวอย่างดังนั้นบางทีมันอาจจะไม่สำคัญกับสิ่งที่เราพูด ในอีกทางหนึ่งการมีส่วนร่วมต่อไปกับความเข้าใจผิดดูเหมือนจะทำให้ส่วนหนึ่งของปัญหา ฉันควรเพิ่มว่าฉันมักจะจัดการกับการศึกษาการสำรวจที่ไม่ได้รับมอบหมายแบบสุ่มและสถานที่ที่การจำลองสถานการณ์ของมอนติคาร์โลมักจะล้มเหลวในการแก้ไขปัญหาของการเป็นตัวแทน

2
ใครที่ใช้ / ประดิษฐ์ค่า p เป็นอันดับแรก
ฉันพยายามเขียนบทความในบล็อกเกี่ยวกับค่า p และฉันคิดว่ามันน่าสนใจที่จะกลับไปที่จุดเริ่มต้นทั้งหมดซึ่งดูเหมือนจะเป็นกระดาษ 1900 ของ Pearson หากคุณคุ้นเคยกับกระดาษแผ่นนั้นคุณจะจำได้ว่าสิ่งนี้ครอบคลุมการทดสอบความเหมาะสม เพียร์สันค่อนข้างหลวมกับภาษาของเขาเมื่อมันมาถึงค่า p เขาใช้ "อัตราต่อรอง" ซ้ำ ๆ เมื่ออธิบายวิธีตีความค่า p ของเขา ตัวอย่างเช่นในหน้า 168 เมื่อพูดถึงผลลัพธ์ของการทอยลูกเต๋าซ้ำ 12 ลูกเต๋าเขากล่าวว่า " ... ซึ่งทำให้เราไปที่ P = .00000016 หรืออัตราต่อรองคือ 62,499 ต่อ 1 กับระบบการเบี่ยงเบนแบบสุ่ม การเลือกด้วยอัตราต่อรองดังกล่าวมันจะสมเหตุสมผลที่จะสรุปว่าลูกเต๋าแสดงอคติต่อคะแนนที่สูงขึ้น " ในบทความนี้เขาอ้างถึงงานก่อนหน้านี้รวมถึงหนังสือ 1891 บนสี่เหลี่ยมอย่างน้อยโดย Merriman แต่เพียร์สันจัดทำแคลคูลัสสำหรับ p-values ​​(ความดีของการทดสอบพอดี) เพียร์สันเป็นคนแรกที่คิดค่า p หรือไม่? เมื่อฉันค้นหาค่า p จะมีการพูดถึง Fisher และงานของเขาในทศวรรษ 1920 …

5
นักวิจัยแต่ละคนควรคิดอย่างไรเกี่ยวกับอัตราการค้นพบที่ผิด?
ฉันได้พยายามสรุปว่า False Discovery Rate (FDR) ควรแจ้งข้อสรุปของนักวิจัยแต่ละคนอย่างไร ตัวอย่างเช่นถ้าการศึกษาของคุณจะ underpowered คุณควรลดผลลัพธ์ของคุณแม้ว่าพวกเขาจะมีนัยสำคัญที่ ? หมายเหตุ: ฉันกำลังพูดถึง FDR ในบริบทของการตรวจสอบผลลัพธ์ของการศึกษาหลาย ๆ ครั้งในภาพรวมไม่ใช่วิธีการแก้ไขการทดสอบหลายรายการα=.05α=.05\alpha = .05 การสร้างสมมุติฐาน (อาจเผื่อแผ่) ที่ของการทดสอบสมมติฐานเป็นจริงจริง FDR เป็นหน้าที่ของทั้งอัตราการผิดพลาดประเภทที่ 1 และประเภท II ดังต่อไปนี้:∼.5∼.5\sim.5 FDR=αα+1−β.FDR=αα+1−β.\text{FDR} = \frac{\alpha}{\alpha+1-\beta}. มีเหตุผลที่ว่าหากการศึกษามีความไม่เพียงพอเราไม่ควรเชื่อถือผลลัพธ์แม้ว่าจะมีความสำคัญเท่าที่เราจะได้รับการศึกษาอย่างเพียงพอ ดังนั้นตามที่นักสถิติบางคนอาจกล่าวว่ามีสถานการณ์ที่ "ในระยะยาว" เราอาจเผยแพร่ผลลัพธ์ที่สำคัญหลายอย่างที่เป็นเท็จหากเราปฏิบัติตามแนวทางดั้งเดิม หากร่างกายของการวิจัยมีเอกลักษณ์เฉพาะด้วยการศึกษาที่ไม่ได้รับการยอมรับอย่างต่อเนื่อง (เช่นยีนของผู้สมัครวรรณกรรมเกี่ยวกับสภาพแวดล้อมของทศวรรษก่อนหน้า ) แม้กระทั่งการค้นพบที่มีนัยสำคัญที่ทำซ้ำ××\times การใช้แพคเกจการ R extrafont, ggplot2และxkcdผมคิดว่านี่อาจจะมีแนวความคิดที่เป็นประโยชน์ในฐานะที่เป็นปัญหาของมุมมอง: รับข้อมูลนี้สิ่งที่นักวิจัยแต่ละคนควรจะทำอย่างไรต่อไป ? ถ้าฉันเดาได้ว่าขนาดของเอฟเฟกต์ที่ฉันกำลังศึกษาควรจะเป็นขนาดใด (และด้วยการประมาณ1−β1−β1 - \betaตามขนาดตัวอย่างของฉัน) ฉันควรปรับระดับของฉันαα\alphaจนกว่า FDR …

2
การปฏิเสธสมมติฐานโดยใช้ p-value เทียบเท่ากับสมมติฐานที่ไม่ได้อยู่ในช่วงความเชื่อมั่นหรือไม่?
ในขณะที่ได้รับช่วงความเชื่อมั่นอย่างเป็นทางการของการประเมินฉันลงเอยด้วยสูตรที่คล้ายกับวิธีคำนวณค่าppp ดังนั้นคำถาม: พวกเขาเทียบเท่าอย่างเป็นทางการ? Ie กำลังปฏิเสธสมมติฐานมีค่าวิกฤตเทียบเท่ากับไม่ได้อยู่ในช่วงความเชื่อมั่นที่มีค่าวิกฤต ?α 0 αH0=0H0=0H_0 = 0αα\alpha000αα\alpha

4
การกระจายค่า p-value หลายชุดให้หลักฐานทางสถิติว่า H0 จริงหรือไม่?
การทดสอบทางสถิติเดียวสามารถให้หลักฐานว่าสมมติฐานว่าง (H0) เป็นเท็จและดังนั้นสมมติฐานทางเลือก (H1) เป็นจริง แต่ไม่สามารถใช้เพื่อแสดงว่า H0 เป็นจริงเนื่องจากความล้มเหลวในการปฏิเสธ H0 ไม่ได้หมายความว่า H0 เป็นจริง แต่สมมติว่าคุณมีความเป็นไปได้ที่จะทำการทดสอบทางสถิติหลายครั้งเพราะคุณมีชุดข้อมูลจำนวนมากทั้งหมดเป็นอิสระจากกัน ชุดข้อมูลทั้งหมดเป็นผลมาจากกระบวนการเดียวกันและคุณต้องการที่จะทำคำสั่ง (H0 / H1) เหนือกระบวนการเองและไม่สนใจผลลัพธ์ของการทดสอบแต่ละครั้ง จากนั้นคุณจะรวบรวมค่า p ทั้งหมดที่เกิดขึ้นและดูผ่านพล็อตฮิสโตแกรมที่ค่า p ถูกกระจายอย่างสม่ำเสมอ เหตุผลของฉันตอนนี้คือสิ่งนี้สามารถเกิดขึ้นได้ถ้า H0 เป็นจริงเท่านั้นมิฉะนั้นค่า p จะถูกกระจายออกไปต่างกัน นี่เป็นหลักฐานเพียงพอที่จะสรุปว่า H0 เป็นจริงหรือไม่? หรือฉันพลาดอะไรบางอย่างที่นี่ไปแล้วเพราะมันทำให้ฉันมีความมุ่งมั่นในการเขียน "สรุปว่า H0 นั้นเป็นจริง" ซึ่งฟังดูผิดอย่างน่ากลัวในหัวของฉัน

1
การคำนวณซ้ำของเอฟเฟกต์จากโมเดล lmer
ฉันเพิ่งอ่านบทความนี้ซึ่งอธิบายถึงวิธีการคำนวณความสามารถในการทำซ้ำ (ความน่าเชื่อถือหรือความสัมพันธ์ภายในอินทราเน็ต) ของการวัดผ่านการสร้างแบบจำลองเอฟเฟกต์ผสม รหัส R จะเป็น: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

3
การคำนวณค่า p โดยใช้ bootstrap ด้วย R
ฉันใช้แพคเกจ "boot" เพื่อคำนวณค่าp-value bootstrapped แบบสองด้านโดยประมาณแต่ผลลัพธ์นั้นอยู่ห่างจาก p-value ของการใช้ t.test มากเกินไป ฉันไม่สามารถหาสิ่งที่ฉันทำผิดในรหัส R ของฉัน ใครช่วยได้โปรดให้คำแนะนำสำหรับเรื่องนี้กับฉัน time = c(14,18,11,13,18,17,21,9,16,17,14,15, 12,12,14,13,6,18,14,16,10,7,15,10) group=c(rep(1:2, each=12)) sleep = data.frame(time, group) require(boot) diff = function(d1,i){ d = d1[i,] Mean= tapply(X=d$time, INDEX=d$group, mean) Diff = Mean[1]-Mean[2] Diff } set.seed(1234) b3 = boot(data = sleep, statistic = diff, R = …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.