คำถามติดแท็ก hypothesis-testing

การทดสอบสมมติฐานจะประเมินว่าข้อมูลไม่สอดคล้องกับสมมติฐานที่กำหนดแทนที่จะเป็นผลของความผันผวนแบบสุ่มหรือไม่

1
เอกสารทางประสาทวิทยาศาสตร์ 40,000 ฉบับอาจผิด
ฉันเห็นบทความนี้ในหมู่นักเศรษฐศาสตร์เกี่ยวกับกระดาษทำลายล้างที่ดูเหมือนจะเป็นข้อกังขาว่า "มีบางอย่างที่ตีพิมพ์ [fMRI] การศึกษา 40,000 รายการ" ข้อผิดพลาดพวกเขากล่าวว่าเป็นเพราะ "สมมติฐานทางสถิติที่ผิดพลาด" ฉันอ่านกระดาษและดูว่ามันเป็นปัญหาส่วนหนึ่งของการแก้ไขเปรียบเทียบหลายอย่าง แต่ฉันไม่ใช่ผู้เชี่ยวชาญ fMRI และฉันพบว่ามันยากที่จะติดตาม ข้อผิดพลาดที่ผู้เขียนพูดถึงคืออะไร? เหตุใดจึงมีการตั้งสมมติฐาน มีวิธีใดบ้างในการสร้างสมมุติฐานเหล่านี้ ด้านหลังของการคำนวณซองจดหมายกล่าวว่าเอกสาร 40,000 fMRI มีมูลค่ามากกว่าพันล้านเหรียญสหรัฐ (เงินเดือนนักศึกษาค่าใช้จ่ายในการดำเนินงาน ฯลฯ ) [1] Eklund et al., ความล้มเหลวของคลัสเตอร์: เหตุใดการอ้างถึง fMRI สำหรับขอบเขตเชิงพื้นที่จึงมีอัตราการบวกเท็จที่สูงเกินจริง PNAS 2016

3
นี่เป็นวิธีแก้ไขปัญหาค่า p หรือไม่
ในเดือนกุมภาพันธ์ 2559 สมาคมสถิติอเมริกันออกแถลงการณ์อย่างเป็นทางการเกี่ยวกับนัยสำคัญทางสถิติและค่า p หัวข้อของเราเกี่ยวกับมันกล่าวถึงปัญหาเหล่านี้อย่างกว้างขวาง อย่างไรก็ตามไม่มีผู้มีอำนาจออกมาเสนอทางเลือกที่ได้รับการยอมรับในระดับสากลจนถึงปัจจุบัน สมาคมสถิติอเมริกัน (ASS) ได้เผยแพร่การตอบสนองค่า p: มีอะไรต่อไป "p-value ไม่ค่อยดีเท่าไหร่" เราคิดว่า ASA ไม่ได้ไปไกลพอ ถึงเวลาที่ต้องยอมรับว่ายุคของค่า p จบลงแล้ว นักสถิติได้ใช้พวกเขาในการทำให้นักศึกษาปริญญาตรียุ่งเหยิงหลอกนักวิทยาศาสตร์และบรรณาธิการหลอกไปทุกที่ แต่โลกเริ่มมองผ่านอุบายนี้ เราจำเป็นต้องละทิ้งความพยายามในช่วงต้นศตวรรษที่ 20 โดยนักสถิติเพื่อควบคุมการตัดสินใจ เราต้องกลับไปที่สิ่งที่ใช้งานได้จริง ข้อเสนอ ASS อย่างเป็นทางการคือ: แทนที่ค่า p, ASS สนับสนุน STOP (ขั้นตอนการ SeaT-Of-Pants) วิธีการที่ได้รับเกียรติและผ่านการทดสอบครั้งนี้ถูกใช้โดยชาวกรีกโบราณชายยุคฟื้นฟูศิลปวิทยาและนักวิทยาศาสตร์ทุกคนจนกระทั่งโรนัลด์ฟิชเชอร์เข้ามาและทำลายสิ่งต่างๆ STOP นั้นง่ายตรงตามข้อมูลและเชื่อถือได้ เพื่อดำเนินการร่างอำนาจ (ชายที่มีอายุมากกว่าโดยการตั้งค่า) ตรวจสอบข้อมูลและตัดสินใจว่าพวกเขาเห็นด้วยกับความเห็นของเขา เมื่อเขาตัดสินใจว่าจะทำผลก็คือ“ สำคัญ” มิฉะนั้นแล้วมันก็ไม่ใช่และทุกคนจะต้องลืมเรื่องทั้งหมด หลักการ การตอบสนองที่อยู่ของแต่ละหกหลักการ ASA STOP สามารถระบุว่าข้อมูลไม่เข้ากันกับแบบจำลองทางสถิติที่ระบุได้อย่างไร เราชอบวลีนี้เพราะมันเป็นวิธีแฟนซีในการบอกว่า …

8
อะไรคือตัวอย่างที่ดีและน่าเชื่อถือที่ค่า p มีประโยชน์?
คำถามของฉันในชื่อเป็นคำอธิบายตัวเอง แต่ฉันต้องการที่จะให้บริบท ASA ออกแถลงการณ์เมื่อต้นสัปดาห์นี้“ บนค่า p: บริบทกระบวนการและวัตถุประสงค์ ” สรุปความเข้าใจผิดที่หลากหลายของค่า p และเรียกร้องให้ระมัดระวังไม่ใช้โดยไม่มีบริบทและความคิด (ซึ่งอาจกล่าวได้เพียงเกี่ยวกับ วิธีการทางสถิติใด ๆ จริงๆ) ในการตอบสนองต่อ ASA ศาสตราจารย์ Matloff เขียนบล็อกโพสต์หัวข้อ: หลังจาก 150 ปี, เอเอสเอกล่าวว่าไม่มีค่า P- จากนั้นอาจารย์ Benjamini (และฉัน) โพสต์ตอบกลับหัวข้อมันไม่ใช่ความผิด P-ค่า - การสะท้อนความเห็นในงบ เพื่อตอบสนองต่อมันศาสตราจารย์ Matloff ถามในโพสต์ติดตาม : สิ่งที่ฉันต้องการเห็น [... คือ] - เป็นตัวอย่างที่ดีและน่าเชื่อถือซึ่งค่า p มีประโยชน์ นั่นจะต้องเป็นบรรทัดล่าง เพื่ออ้างถึงสองข้อโต้แย้งที่สำคัญของเขากับประโยชน์ของค่า:ppp ด้วยตัวอย่างขนาดใหญ่การทดสอบอย่างมีนัยสำคัญจะกระโจนเข้าหาตัวเล็ก ๆ ซึ่งไม่สำคัญออกไปจากสมมติฐานว่าง เกือบจะไม่มีสมมติฐานว่างใด ๆ …

3
การอ้างอิงที่มีข้อโต้แย้งเปรียบเทียบกับการทดสอบนัยสำคัญสมมุติฐานว่าง?
ในช่วงไม่กี่ปีที่ผ่านมาฉันได้อ่านเอกสารจำนวนหนึ่งที่โต้แย้งการใช้การทดสอบสมมติฐานที่ไม่มีนัยสำคัญทางวิทยาศาสตร์ในทางวิทยาศาสตร์ แต่ไม่คิดว่าจะเก็บรายการถาวร เมื่อเร็ว ๆ นี้มีเพื่อนร่วมงานคนหนึ่งขอให้ฉันทำรายการแบบนี้ฉันคิดว่าฉันจะขอให้ทุกคนที่นี่ช่วยสร้างมันขึ้นมา เพื่อเริ่มต้นสิ่งต่าง ๆ นี่คือสิ่งที่ฉันมีจนถึงตอนนี้: Johansson (2011) "ยกย่องสิ่งที่เป็นไปไม่ได้: ค่า p, หลักฐานและความน่าจะเป็น" Haller & Kraus (2002) "การตีความความหมายที่ผิด: นักเรียนมีปัญหาแบ่งปันกับครู" Wagenmakers (2007) "วิธีแก้ปัญหาที่ใช้งานได้จริงเพื่อแก้ไขปัญหา p-values" Rodgers (2010) "ญาณวิทยาของการสร้างแบบจำลองทางคณิตศาสตร์และสถิติ: การปฏิวัติระเบียบวิธีที่เงียบสงบ" Dixon (1998) "ทำไมนักวิทยาศาสตร์ถึงให้คุณค่ากับค่า p" Glover & Dixon (2004) "อัตราส่วนความน่าจะเป็น: สถิติที่ง่ายและยืดหยุ่นสำหรับนักจิตวิทยาเชิงประจักษ์"

6
อะไรคือความแตกต่างระหว่าง“ แบบซ้อน” และแบบ“ ไม่ซ้อนกัน”?
ในวรรณคดีเกี่ยวกับตัวแบบลำดับชั้น / หลายระดับฉันมักจะอ่านเกี่ยวกับ "แบบจำลองซ้อน" และ "แบบจำลองที่ไม่ซ้อนกัน" แต่สิ่งนี้หมายความว่าอย่างไร ใครบ้างที่อาจให้ฉันตัวอย่างหรือบอกฉันเกี่ยวกับความหมายทางคณิตศาสตร์ของคำนี้

15
ทำไมสถิติแบบพารามิเตอร์จะได้รับความนิยมมากกว่าแบบ nonparametric
ใครสามารถอธิบายให้ฉันฟังได้ว่าทำไมทุกคนจะเลือกพาราเมทริกสำหรับวิธีการทดสอบสมมติฐานหรือการวิเคราะห์การถดถอย ในใจของฉันมันเหมือนกับการไปล่องแพและเลือกนาฬิกาที่ไม่กันน้ำเพราะคุณอาจไม่เปียก ทำไมไม่ใช้เครื่องมือที่ใช้ได้กับทุกโอกาส?

5
ทำไมการรวบรวมข้อมูลจนกว่าจะได้ผลลัพธ์ที่มีนัยสำคัญจะเพิ่มอัตราความผิดพลาด Type I
ฉันสงสัยว่าทำไมการรวบรวมข้อมูลจนกว่าจะได้ผลลัพธ์ที่สำคัญ (เช่น ) ได้รับ (เช่นการแฮ็ค p) เพิ่มอัตราความผิดพลาด Type I หรือไม่p < .05p<.05p \lt .05 ฉันขอชื่นชมการRสาธิตปรากฏการณ์นี้อย่างมาก

13
ถ้าเราล้มเหลวในการปฏิเสธสมมติฐานว่างในการศึกษาขนาดใหญ่มันไม่ได้เป็นหลักฐานสำหรับโมฆะ?
ข้อ จำกัด พื้นฐานของการทดสอบนัยสำคัญสมมุติฐานว่างคือมันไม่อนุญาตให้นักวิจัยรวบรวมหลักฐานเพื่อสนับสนุน null ( แหล่งที่มา ) ฉันเห็นการอ้างสิทธิ์นี้ซ้ำหลายครั้ง แต่ฉันไม่สามารถหาเหตุผลได้ หากเราทำการศึกษาขนาดใหญ่และเราไม่พบหลักฐานที่มีนัยสำคัญทางสถิติต่อสมมติฐานว่างเปล่านั่นไม่ใช่หลักฐานสำหรับสมมติฐานว่างหรือไม่

12
การทดสอบสองด้าน…ฉันไม่มั่นใจ ประเด็นคืออะไร?
ข้อความที่ตัดตอนมาต่อไปนี้มาจากการเข้า, อะไรคือความแตกต่างระหว่างการทดสอบแบบด้านเดียวและแบบสองด้าน? บนเว็บไซต์ช่วยเหลือสถิติของ UCLA ... พิจารณาถึงผลที่จะตามมาจากการขาดหายไปในทิศทางอื่น ลองนึกภาพคุณได้พัฒนายาใหม่ที่คุณเชื่อว่าเป็นการพัฒนายาที่มีอยู่เดิม คุณต้องการเพิ่มความสามารถในการตรวจจับการปรับปรุงให้สูงสุดเพื่อที่คุณจะได้เลือกการทดสอบแบบด้านเดียว ในการทำเช่นนี้คุณไม่สามารถทดสอบความเป็นไปได้ที่ยาใหม่จะมีประสิทธิภาพน้อยกว่ายาที่มีอยู่เดิม หลังจากเรียนรู้พื้นฐานที่แน่นอนของการทดสอบสมมติฐานและไปที่ส่วนเกี่ยวกับการทดสอบแบบเทลด์ vs การทดสอบสองแบบ ... ฉันเข้าใจคณิตศาสตร์พื้นฐานและความสามารถในการตรวจจับที่เพิ่มขึ้นของการทดสอบแบบเทลด์หนึ่งการทดสอบ ฯลฯ ... แต่ฉันไม่สามารถพันรอบศีรษะ รอบ ๆ สิ่งหนึ่ง ... ประเด็นคืออะไร? ฉันล้มเหลวที่จะเข้าใจว่าทำไมคุณควรแยกอัลฟ่าของคุณระหว่างสุดขั้วทั้งสองเมื่อผลลัพธ์ตัวอย่างของคุณสามารถเป็นหนึ่งหรืออย่างอื่นหรือทั้งสองอย่าง ใช้สถานการณ์ตัวอย่างจากข้อความที่ยกมาด้านบน คุณอาจจะ "ล้มเหลวในการทดสอบ" สำหรับผลลัพธ์ในทิศทางตรงกันข้ามได้อย่างไร? คุณมีค่าเฉลี่ยตัวอย่าง คุณมีค่าเฉลี่ยประชากรของคุณ เลขคณิตอย่างง่ายจะบอกให้คุณทราบว่าอะไรสูงกว่า มีการทดสอบอะไรหรือล้มเหลวในการทดสอบในทิศทางตรงกันข้าม สิ่งที่หยุดคุณเพิ่งเริ่มต้นจากศูนย์ด้วยสมมติฐานตรงกันข้ามถ้าคุณเห็นชัดเจนว่าค่าเฉลี่ยตัวอย่างจะไปในทิศทางอื่น? อ้างจากหน้าเดียวกันอีก: การเลือกการทดสอบแบบหนึ่งด้านหลังจากรันการทดสอบแบบสองด้านที่ล้มเหลวในการปฏิเสธสมมติฐานว่างไม่เหมาะสมไม่ว่า "ปิด" ถึงการทดสอบแบบสองด้านนั้นมีนัยสำคัญก็ตาม ฉันคิดว่าสิ่งนี้ยังใช้กับการสลับขั้วของการทดสอบแบบด้านเดียว แต่วิธีนี้ "หมอ" ส่งผลให้ถูกต้องน้อยกว่าถ้าคุณเพียงแค่เลือกการทดสอบหนึ่งด้านที่ถูกต้องในตอนแรก? เห็นได้ชัดว่าฉันพลาดภาพส่วนใหญ่ที่นี่ ทุกอย่างดูเหมือนจะไม่เจาะจงเกินไป ซึ่งก็คือฉันคิดว่าในแง่ที่สิ่งที่หมายถึง "นัยสำคัญทางสถิติ" - 95%, 99%, 99.9% ... โดยพลการเริ่มต้นด้วย

3
อธิบายการ์ตูน xkcd jelly bean: อะไรทำให้ตลก?
ฉันเห็นว่าหนึ่งครั้งจากการทดสอบทั้งหมดยี่สิบครั้งที่พวกเขารันดังนั้นพวกเขาจึงคิดผิด ๆ ว่าในช่วงหนึ่งของการทดสอบยี่สิบครั้งผลลัพธ์จะมีนัยสำคัญ ( )0.05 = 1 / 20p &lt; 0.05p&lt;0.05p < 0.050.05 = 1 / 200.05=1/200.05 = 1/20 xkcd jelly bean comic - "สำคัญ" หัวข้อ: สำคัญ ข้อความโฉบ: "'งั้นเอ่อเราได้ทำการศึกษาสีเขียวอีกครั้งและไม่มีการเชื่อมโยงมันอาจเป็น -' 'การวิจัยมีความขัดแย้งกับการเชื่อมโยงสีเขียวของถั่วเขียว / สิว;

6
“ ลูกผสม” ระหว่างฟิชเชอร์และเนย์แมน - เพียร์สันใกล้ถึงวิธีการทดสอบทางสถิติจริงๆแล้วเป็น
มีโรงเรียนแห่งความคิดบางแห่งตามที่วิธีการทดสอบทางสถิติที่แพร่หลายที่สุดคือ "ลูกผสม" ระหว่างสองวิธี: ฟิชเชอร์และเนย์แมน - เพียร์สัน; ทั้งสองวิธีการเรียกร้องไปเป็น "เข้ากันไม่ได้" และด้วยเหตุนี้ "ลูกผสม" ที่เกิดขึ้นจึงเป็น "ยำ mashmash" ฉันจะให้บรรณานุกรมและคำพูดบางส่วนด้านล่าง แต่ตอนนี้พอจะพูดได้ว่ามีจำนวนมากที่เขียนเกี่ยวกับว่าในบทความวิกิพีเดียในการทดสอบสมมติฐานทางสถิติ ที่นี่บน CV จุดนี้ทำซ้ำโดย @Michael Lew (ดูที่นี่และที่นี่ ) คำถามของฉันคือ: ทำไม F และ NP ถึงวิธีอ้างว่าไม่เข้ากันและทำไมไฮบริดที่อ้างว่าไม่สอดคล้องกัน? โปรดทราบว่าฉันอ่านเอกสารต่อต้านไฮบริดอย่างน้อยหกฉบับ (ดูด้านล่าง) แต่ก็ยังไม่เข้าใจปัญหาหรือข้อโต้แย้ง สังเกตว่าฉันไม่แนะนำให้อภิปรายว่า F หรือ NP เป็นวิธีที่ดีกว่าหรือไม่ ฉันไม่เสนอที่จะพูดคุยเกี่ยวกับกรอบบ่อยครั้งกับเบย์ แต่คำถามคือการยอมรับว่าทั้ง F และ NP เป็นวิธีที่ถูกต้องและมีความหมายอะไรที่แย่เกี่ยวกับลูกผสมของพวกเขา นี่คือวิธีที่ฉันเข้าใจสถานการณ์ วิธีการของฟิชเชอร์คือการคำนวณค่าและใช้เป็นหลักฐานต่อสมมติฐานว่าง ยิ่งเล็กเท่าไหร่หลักฐานก็ยิ่งน่าเชื่อถือมากเท่านั้น ผู้วิจัยควรรวมหลักฐานนี้กับความรู้พื้นฐานของเขาตัดสินใจว่ามันน่าเชื่อถือเพียงพอและดำเนินการต่อไป (หมายเหตุว่ามุมมองของฟิชเชอร์การเปลี่ยนแปลงในช่วงปีที่ผ่านมา แต่นี่คือสิ่งที่เขาดูเหมือนว่าจะมีการแปรสภาพในที่สุดก็ไป.) ในทางตรงกันข้ามวิธี Neyman …

9
จะรับค่า p-value (ตรวจสอบนัยสำคัญ) ของผลกระทบในรูปแบบผสม lme4 ได้อย่างไร
ฉันใช้ lme4 ใน R เพื่อให้พอดีกับโมเดลผสม lmer(value~status+(1|experiment))) โดยที่ค่านั้นต่อเนื่องสถานะและการทดลองเป็นปัจจัยและฉันได้รับ Linear mixed model fit by REML Formula: value ~ status + (1 | experiment) AIC BIC logLik deviance REMLdev 29.1 46.98 -9.548 5.911 19.1 Random effects: Groups Name Variance Std.Dev. experiment (Intercept) 0.065526 0.25598 Residual 0.053029 0.23028 Number of obs: 264, groups: experiment, …

8
ทำไมต้องสอนและใช้การทดสอบสมมติฐานต่อไป (เมื่อมีช่วงความมั่นใจ)
เหตุใดจึงต้องสอนและใช้การทดสอบสมมติฐาน (ด้วยแนวคิดที่ยากทั้งหมดและเป็นความผิดทางสถิติมากที่สุด) สำหรับปัญหาที่มีการประมาณช่วงเวลา (ความเชื่อมั่น bootstrap ความน่าเชื่อถือหรืออะไรก็ตาม) คำอธิบายที่ดีที่สุด (ถ้ามี) ให้กับนักเรียนคืออะไร? ประเพณีเท่านั้น มุมมองจะได้รับการต้อนรับอย่างมาก

4
คัมมิง (2008) อ้างว่าการกระจายของค่า p ที่ได้รับในการจำลองขึ้นอยู่กับค่า p เดิมเท่านั้น มันจะเป็นจริงได้อย่างไร?
ผมได้อ่านเจฟฟ์คัมมิงกระดาษ 2008 การจำลองแบบและช่วงเวลา:ค่าทำนายอนาคตเพียงราง ๆ แต่ช่วงความเชื่อมั่นทำได้ดีกว่าpppppp พีพี[~ 200 อ้างอิงใน Google Scholar] - และกำลังสับสนโดยหนึ่งของการเรียกร้องที่อยู่ใจกลางเมือง นี่คือหนึ่งในชุดเอกสารที่คัมมิงโต้แย้งกับ value และสนับสนุนช่วงความมั่นใจ คำถามของฉัน แต่เป็นไม่ได้เกี่ยวกับการอภิปรายครั้งนี้และมีเพียงการเรียกร้องความกังวลหนึ่งที่เฉพาะเจาะจงเกี่ยวกับ -valuespppppp ให้ฉันอ้างอิงจากนามธรรม: บทความนี้แสดงให้เห็นว่าถ้าผลการทดสอบครั้งแรกในสองด้าน , มี โอกาสที่นกหนึ่ง -value จากการจำลองแบบจะตกอยู่ในช่วงเวลาเป็นโอกาสที่และอย่างเต็มที่โอกาสที่0.44 ช่วงเวลาที่เรียกว่าช่วงเวลามีความกว้างนี้ แต่ขนาดตัวอย่างใหญ่p=.05p=.05p= .0580%80%80\%ppp(.00008,.44)(.00008,.44)(.00008, .44)10%10%10\%p&lt;.00008p&lt;.00008p < .0000810%10%10\%p&gt;.44p&gt;.44p > .44ppp คัมมิงอ้างว่า "ช่วง" และในความเป็นจริงการกระจายทั้ง -values ที่หนึ่งจะได้รับเมื่อจำลองการทดลองเดิม (แบบเดียวกับขนาดตัวอย่างคงที่) ขึ้นอยู่เฉพาะในต้นฉบับ -valueและไม่ขึ้นอยู่กับขนาดผลกระทบที่แท้จริงกำลังไฟขนาดตัวอย่างหรือสิ่งอื่นใด:pppp p o b tpppppppobtpobtp_\mathrm{obt} [... ] การกระจายความน่าจะเป็นของสามารถได้มาโดยไม่ทราบหรือสมมติว่ามีค่าสำหรับ (หรือพลังงาน) [... …

3
พวกเรามีปัญหาเรื่อง“ สงสาร upvotes” หรือไม่?
ฉันรู้ว่านี่อาจฟังดูเหมือนว่าเป็นหัวข้อนอก แต่ได้ยินฉัน ที่ Stack Overflow และที่นี่เราได้รับคะแนนโหวตจากโพสต์ทั้งหมดนี้เก็บไว้ในรูปแบบตาราง เช่น: โพสต์ id ผู้มีสิทธิเลือกตั้ง ID ลงคะแนนประเภท datetime ------- -------- --------- -------- 10 1 2 2000-1-1 10:00:01 11 3 3 2000-1-1 10:00:01 10 5 2 2000-1-1 10:00:01 ... และต่อไป โหวตประเภท 2 คือ upvote, โหวตโหวต 3 คือ downvote คุณสามารถสอบถามรุ่นนี้ของข้อมูลนี้แบบไม่เปิดเผยชื่อได้ที่http://data.stackexchange.com มีการรับรู้ว่าหากโพสต์ถึงคะแนน -1 หรือต่ำกว่าก็มีแนวโน้มที่จะ upvoted นี่อาจเป็นเพียงการยืนยันความลำเอียงหรือมันอาจจะหยั่งรากในความเป็นจริง เราจะวิเคราะห์ข้อมูลนี้เพื่อยืนยันหรือปฏิเสธสมมติฐานนี้อย่างไร เราจะวัดผลกระทบของอคตินี้อย่างไร

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.