คำถามติดแท็ก hypothesis-testing

การทดสอบสมมติฐานจะประเมินว่าข้อมูลไม่สอดคล้องกับสมมติฐานที่กำหนดแทนที่จะเป็นผลของความผันผวนแบบสุ่มหรือไม่

2
อะไรคือความแตกต่างระหว่าง "การทดสอบสมมติฐาน" และ "ทดสอบความสำคัญ"?
วลี "การทดสอบสมมติฐาน" และ "การทดสอบความสำคัญ" มีความแตกต่างหรือไม่หรือไม่ หลังจากคำตอบอย่างละเอียดจาก @Micheal Lew ฉันมีความสับสนอย่างหนึ่งที่ทุกวันนี้สมมติฐาน (เช่น t-test to test mean) เป็นตัวอย่างของ "การทดสอบนัยสำคัญ" หรือ "การทดสอบสมมติฐาน"? หรือเป็นการรวมกันของทั้งคู่? คุณจะแยกแยะพวกเขาด้วยตัวอย่างง่ายๆได้อย่างไร?

4
t-test ที่แข็งแกร่งสำหรับค่าเฉลี่ย
ฉันกำลังพยายามทดสอบ nullเทียบกับทางเลือกทางเลือกสำหรับตัวแปรสุ่มซึ่งมีระดับความเบ้เล็กน้อยถึงปานกลางและความผิดปกติของตัวแปรสุ่ม ตามคำแนะนำของวิลคอกซ์ใน 'การแนะนำเบื้องต้นเกี่ยวกับการประมาณค่าที่ทนทานและการทดสอบสมมติฐาน' ฉันได้ดูการทดสอบตามค่าเฉลี่ยที่ถูกตัดค่ามัธยฐานและค่าประมาณ M ของสถานที่ตั้ง (ขั้นตอนเดียว "วิลค็อกซ์") การทดสอบที่มีประสิทธิภาพเหล่านี้มีประสิทธิภาพเหนือกว่ามาตรฐาน t-test ในแง่ของพลังเมื่อทดสอบกับการกระจายที่ไม่เบ้E[X]=0E[X]=0E[X] = 0E[X]>0E[X]>0E[X] > 0XXX อย่างไรก็ตามเมื่อทำการทดสอบด้วยการแจกแจงแบบเบ้การทดสอบด้านเดียวเหล่านี้มีความเสรีมากเกินไปหรือมากเกินไปที่จะอนุรักษ์ภายใต้สมมติฐานว่างขึ้นอยู่กับว่าการแจกแจงนั้นเอียงไปทางซ้ายหรือขวาเอียงตามลำดับ ตัวอย่างเช่นเมื่อมีการสังเกต 1,000 ครั้งการทดสอบตามค่ามัธยฐานจะปฏิเสธจริง ~ 40% ของเวลาที่ระดับ 5% เล็กน้อย เหตุผลนี้ชัดเจนสำหรับการแจกแจงแบบเบ้ค่ามัธยฐานและค่าเฉลี่ยต่างกัน อย่างไรก็ตามในใบสมัครของฉันฉันต้องทดสอบค่าเฉลี่ยไม่ใช่ค่ามัธยฐานไม่ใช่ค่าเฉลี่ยที่ถูกตัดทอน t-test เวอร์ชันที่แข็งแกร่งกว่านี้จริง ๆ แล้วทำการทดสอบหาค่าเฉลี่ยหรือไม่ โดยหลักการแล้วกระบวนการนี้จะทำงานได้ดีในกรณีที่ไม่มีการเอียงและมีความรุนแรงสูงเช่นกัน การทดสอบ 'ขั้นตอนเดียว' เกือบจะดีพอโดยที่พารามิเตอร์ 'bend' ตั้งค่าค่อนข้างสูง แต่มีประสิทธิภาพน้อยกว่าการทดสอบค่าเฉลี่ยที่ถูกตัดเมื่อไม่มีความลาดเอียงและมีปัญหาบางอย่างในการรักษาระดับการปฏิเสธภายใต้ความเบ้ . พื้นหลัง:เหตุผลที่ฉันสนใจค่าเฉลี่ยและไม่ใช่ค่ามัธยฐานคือการทดสอบจะถูกใช้ในการสมัครทางการเงิน ตัวอย่างเช่นหากคุณต้องการทดสอบว่าพอร์ตโฟลิโอมีผลตอบแทนที่คาดหวังในเชิงบวกหรือไม่ค่าเฉลี่ยนั้นเหมาะสมจริง ๆ เพราะถ้าคุณลงทุนในพอร์ตโฟลิโอคุณจะได้รับผลตอบแทนทั้งหมด (ซึ่งเป็นค่าเฉลี่ยคูณด้วยจำนวนตัวอย่าง) แทนซ้ำกันของค่ามัธยฐาน นั่นคือผมสนใจเกี่ยวกับผลรวมของดึงจาก RV XnnnnnnXXX

4
ความสัมพันธ์ระหว่าง
ฉันสงสัยว่ามีความสัมพันธ์ระหว่างR2R2R^2กับการทดสอบ F หรือไม่ โดยปกติR2=∑(Y^t−Y¯)2/T−1∑(Yt−Y¯)2/T−1R2=∑(Y^t−Y¯)2/T−1∑(Yt−Y¯)2/T−1R^2=\frac {\sum (\hat Y_t - \bar Y)^2 / T-1} {\sum( Y_t - \bar Y)^2 / T-1}และจะวัดความแข็งแรงของความสัมพันธ์เชิงเส้นในการถดถอย การทดสอบ F-Test เป็นการพิสูจน์สมมติฐาน มีความสัมพันธ์ระหว่างR2R2R^2กับการทดสอบ F หรือไม่?

5
ทำไมค่า R-squared ต่ำมากเมื่อสถิติ t ของฉันใหญ่มาก
ฉันทำการถดถอยด้วยตัวแปร 4 ตัวและทั้งหมดมีความสำคัญทางสถิติโดยมีค่า Tและ31 (ฉันพูดว่า≈เพราะดูเหมือนว่าไม่เกี่ยวข้องกับการรวมทศนิยม) ซึ่งสูงมากและมีความสำคัญอย่างชัดเจน แต่R 2นั้นเป็นเพียง. 2284 ฉันตีความตีความค่า t ที่นี่เพื่อหมายถึงบางสิ่งที่ไม่ได้ใช่หรือไม่ ปฏิกิริยาแรกของฉันเมื่อเห็นค่า t คือว่าR 2จะค่อนข้างสูง แต่อาจจะสูงR 2หรือไม่?≈7,9,26≈7,9,26\approx 7,9,26313131≈≈\approxR2R2R^2R2R2R^2R2R2R^2

2
ทำไมการแจกแจงแบบ T ใช้สำหรับการทดสอบสมมุติฐานสัมประสิทธิ์การถดถอยเชิงเส้น?
ในทางปฏิบัติการใช้ T-test มาตรฐานเพื่อตรวจสอบความสำคัญของสัมประสิทธิ์การถดถอยเชิงเส้นคือการปฏิบัติทั่วไป กลไกของการคำนวณนั้นสมเหตุสมผลสำหรับฉัน ทำไมการแจกแจงแบบ T สามารถใช้เป็นแบบจำลองสถิติการทดสอบมาตรฐานที่ใช้ในการทดสอบสมมติฐานการถดถอยเชิงเส้น สถิติทดสอบมาตรฐานฉันหมายถึงที่นี่: T0=βˆ−β0SE(βˆ)T0=β^−β0SE(β^) T_{0} = \frac{\widehat{\beta} - \beta_{0}}{SE(\widehat{\beta})}

3
ตัวแบบโมฆะในการถดถอยคืออะไรและเกี่ยวข้องกับสมมติฐานว่างอย่างไร
ตัวแบบโมฆะในการถดถอยคืออะไรและความสัมพันธ์ระหว่างตัวแบบโมฆะกับสมมติฐานว่างคืออะไร? เพื่อความเข้าใจของฉันมันหมายถึงอะไร ใช้ "ค่าเฉลี่ยของตัวแปรตอบสนอง" เพื่อทำนายตัวแปรตอบสนองต่อเนื่องหรือไม่ ใช้ "การกระจายฉลาก" ในการทำนายตัวแปรการตอบสนองแบบแยก? หากเป็นกรณีนี้ดูเหมือนว่าจะไม่มีการเชื่อมต่อระหว่างสมมติฐานว่าง

2
ความแปรปรวนสูงของการกระจายของค่า p (อาร์กิวเมนต์ใน Taleb 2016)
ฉันพยายามที่จะเข้าใจการเรียกร้องภาพใหญ่ทำในTaleb 2016, The Meta-การแพร่กระจายของมาตรฐาน P-ค่า ในนั้น Taleb ทำให้อาร์กิวเมนต์ต่อไปนี้สำหรับความไม่น่าเชื่อถือของค่า p (ตามที่ฉันเข้าใจ): ขั้นตอนการประเมินดำเนินการกับจุดข้อมูลที่มาจากการแจกจ่ายX outputs ค่า ap หากเราดึงจุด n เพิ่มเติมจากการกระจายนี้และส่งออกค่า p อื่นเราสามารถหาค่า p-values ​​เหล่านี้ที่ได้รับในขีด จำกัด ที่เรียกว่า "ค่า p จริง"nnnXXX "ค่า p จริง" นี้แสดงว่ามีความแปรปรวนสูงรบกวนดังนั้นการแจกแจง + โพรซีเดอร์ที่มี "ค่า p จริง" จะ 60% ของเวลารายงานค่า p-. 05.12.12.12 คำถาม : วิธีนี้จะสามารถคืนดีกับอาร์กิวเมนต์ดั้งเดิมในความโปรดปรานของค่า ดังที่ฉันเข้าใจแล้วค่า p ควรบอกคุณว่าเปอร์เซ็นต์ของเวลาที่กระบวนการของคุณจะให้ช่วงเวลาที่ถูกต้อง (หรืออะไรก็ตาม) อย่างไรก็ตามบทความนี้ดูเหมือนจะโต้แย้งว่าการตีความนี้ทำให้เข้าใจผิดเนื่องจากค่า p จะไม่เหมือนกันถ้าคุณเรียกใช้ขั้นตอนอีกครั้งppp …

2
“ จุดข้อมูลทั้งหมดเหล่านี้มาจากการกระจายตัวแบบเดียวกัน” จะทดสอบอย่างไร?
ฉันรู้สึกว่าฉันเคยเห็นหัวข้อนี้ที่กล่าวถึงที่นี่มาก่อน แต่ฉันไม่สามารถหาสิ่งที่เฉพาะเจาะจง จากนั้นอีกครั้งฉันไม่แน่ใจจริงๆว่าจะค้นหาอะไร ฉันมีชุดข้อมูลที่สั่งหนึ่งมิติ ฉันตั้งสมมติฐานว่าทุกจุดในเซตนั้นมาจากการกระจายตัวแบบเดียวกัน ฉันจะทดสอบสมมติฐานนี้ได้อย่างไร มันสมเหตุสมผลหรือไม่ที่จะทดสอบกับทางเลือกทั่วไปของ "การสังเกตในชุดข้อมูลนี้มาจากการแจกแจงสองแบบที่แตกต่างกัน"? เป็นการดีที่ฉันต้องการระบุว่าคะแนนใดมาจากการกระจาย "อื่น ๆ " เนื่องจากข้อมูลของฉันถูกสั่งซื้อฉันจะสามารถระบุจุดตัดหลังจากทำการทดสอบว่า "ถูกต้อง" เพื่อตัดข้อมูลหรือไม่ แก้ไข: ตามคำตอบของ Glen_b ฉันจะสนใจเรื่องการแจกแจงเชิงบวกและแบบอิสระที่เคร่งครัด ฉันยังมีความสนใจในกรณีพิเศษของสมมติกระจายแล้วการทดสอบที่แตกต่างกันสำหรับพารามิเตอร์

4
เข้าใจผิดเกี่ยวกับค่า P หรือไม่
ดังนั้นฉันจึงอ่านมากเกี่ยวกับวิธีตีความค่า P อย่างถูกต้องและจากสิ่งที่ฉันอ่านค่า p บอกว่าไม่มีความน่าจะเป็นที่สมมติฐานว่างเป็นจริงหรือเท็จ อย่างไรก็ตามเมื่ออ่านคำสั่งต่อไปนี้: p - value แสดงถึงความน่าจะเป็นที่ทำให้เกิดข้อผิดพลาดประเภทที่ 1 หรือปฏิเสธสมมติฐานว่างเมื่อเป็นจริง ยิ่งค่า p น้อยลงเท่าใดความน่าจะเป็นที่คุณจะปฏิเสธสมมติฐานที่ผิดพลาดนั้นจะผิดไป แก้ไข: แล้ว 5 นาทีต่อมาฉันอ่าน: การตีความค่า P ไม่ถูกต้องเป็นเรื่องธรรมดามาก ข้อผิดพลาดที่พบบ่อยที่สุดคือการตีความค่า P เนื่องจากความน่าจะเป็นในการทำผิดพลาดโดยการปฏิเสธสมมติฐานว่างเปล่าที่แท้จริง (ข้อผิดพลาด Type I) สิ่งนี้ทำให้ฉันสับสน อันไหนที่ถูก? และทุกคนสามารถอธิบายวิธีการแปลค่า p อย่างถูกต้องและมันเกี่ยวข้องกับความน่าจะเป็นในการทำข้อผิดพลาดประเภทที่ 1 ได้อย่างไร

1
เหตุใดการควบคุม FDR จึงเข้มงวดน้อยกว่าการควบคุม FWER
ฉันได้อ่านแล้วว่าการควบคุม FDR นั้นเข้มงวดน้อยกว่าการควบคุม FWER เช่นในWikipedia : ขั้นตอนการควบคุม FDR ออกแรงควบคุมที่เข้มงวดน้อยกว่าการค้นพบที่ผิดพลาดเมื่อเปรียบเทียบกับขั้นตอนอัตราข้อผิดพลาดในระดับครอบครัว (FWER) (เช่นการแก้ไข Bonferroni) สิ่งนี้จะเพิ่มพลังงานที่ค่าใช้จ่ายในการเพิ่มอัตราข้อผิดพลาดประเภทที่ 1 เช่นการปฏิเสธสมมติฐานว่างไม่มีผลเมื่อมันควรได้รับการยอมรับ แต่ฉันสงสัยว่ามันแสดงให้เห็นว่าเป็นจริงทางคณิตศาสตร์ได้อย่างไร มีความสัมพันธ์ระหว่าง FDR และ FWER บ้างไหม

3
ทดสอบว่าตัวแปรติดตามการแจกแจงแบบเดียวกันหรือไม่
หากคุณต้องการทดสอบว่าตัวแปรสองตัวตามการแจกแจงแบบเดียวกันหรือไม่มันเป็นการทดสอบที่ดีที่จะเรียงลำดับตัวแปรทั้งสองอย่างจากนั้นตรวจสอบความสัมพันธ์ของพวกเขาหรือไม่ หากสูง (อย่างน้อย 0.9?) แสดงว่าตัวแปรนั้นมีแนวโน้มที่มาจากการแจกแจงแบบเดียวกัน ด้วยการกระจายที่นี่ฉันหมายถึง "ปกติ", "ไคสแควร์", "แกมมา" ฯลฯ

2
อธิบายการทดสอบสองด้าน
ฉันกำลังมองหาวิธีต่างๆในการอธิบายให้นักเรียนของฉัน (ในหลักสูตรสถิติเบื้องต้น) การทดสอบสองแบบคืออะไรและการคำนวณค่า P ของมันอย่างไร คุณอธิบายให้นักเรียนของคุณทราบถึงการทดสอบแบบสองทางแบบหนึ่งได้อย่างไร

1
ฉันสามารถใช้ Kolmogorov-Smirnov เพื่อเปรียบเทียบการแจกแจงเชิงประจักษ์สองแบบได้หรือไม่?
มันเป็นการดีหรือไม่ที่จะใช้การทดสอบความดีแบบพอดีของ Kolmogorov-Smirnov เพื่อเปรียบเทียบการแจกแจงเชิงประจักษ์สองครั้งเพื่อพิจารณาว่าพวกมันดูเหมือนว่ามาจากการแจกแจงพื้นฐานเดียวกันแทนที่จะเปรียบเทียบการกระจายเชิงประจักษ์หนึ่งไปสู่การแจกแจงอ้างอิงที่ระบุล่วงหน้าหรือไม่ ให้ฉันลองถามอีกวิธีนี้ ฉันรวบรวมตัวอย่าง N จากการแจกจ่ายในที่เดียว ฉันรวบรวมตัวอย่าง M ที่สถานที่อื่น ข้อมูลมีความต่อเนื่อง (แต่ละตัวอย่างเป็นจำนวนจริงระหว่าง 0 ถึง 10 พูด) แต่ไม่แจกแจงตามปกติ ฉันต้องการทดสอบว่าตัวอย่าง N + M เหล่านี้ทั้งหมดมาจากการแจกแจงพื้นฐานเดียวกันหรือไม่ มันเหมาะสมที่จะใช้การทดสอบ Kolmogorov-Smirnov เพื่อจุดประสงค์นี้หรือไม่? F0F0F_0NNNF1F1F_1MMMF0F0F_0F1F1F_1D=supx|F0(x)−F1(x)|D=supx|F0(x)−F1(x)|D = \sup_x |F_0(x) - F_1(x)|DDD (ฉันอ่านที่อื่นว่าการทดสอบ Kolmogorov-Smirnov สำหรับความดีของพอดีไม่ถูกต้องสำหรับการกระจายโดยสิ้นเชิงแต่ฉันยอมรับว่าฉันไม่เข้าใจสิ่งนี้หมายความว่าหรือทำไมมันอาจจะเป็นจริงนั่นหมายความว่าวิธีการเสนอของฉันไม่ดี ) หรือคุณแนะนำอย่างอื่นแทน

5
การตรวจสอบสมมติฐานของโนวา
ไม่กี่เดือนที่ผ่านมาฉันโพสต์คำถามเกี่ยวกับการทดสอบความเป็นเนื้อเดียวกันใน R บน SO และ Ian Fellows ตอบว่า (ฉันจะถอดความคำตอบของเขาอย่างหลวม ๆ ): การทดสอบความเป็นเนื้อเดียวกันนั้นไม่ใช่เครื่องมือที่ดีเมื่อทำการทดสอบความดีของแบบจำลองของคุณ ด้วยตัวอย่างขนาดเล็กคุณไม่มีพลังมากพอที่จะตรวจจับขาออกจากกระเทยขณะที่กลุ่มตัวอย่างขนาดใหญ่คุณมี "พลังมากมาย" ดังนั้นคุณจึงมีแนวโน้มที่จะคัดกรองแม้กระทั่งการออกเดินทางเล็กน้อยจากความเท่าเทียมกัน คำตอบที่ยอดเยี่ยมของเขามาเป็นตบหน้าฉัน ฉันเคยตรวจสอบความเป็นมาตรฐานและข้อสมมุติฐานเรื่องความเป็นเนื้อเดียวกันทุกครั้งที่ฉันใช้ ANOVA ในความเห็นของคุณคือวิธีปฏิบัติที่ดีที่สุดเมื่อตรวจสอบสมมติฐานของ ANOVA

5
การเปรียบเทียบความแปรปรวนของการสังเกตแบบจับคู่
ฉันมีการสังเกตแบบจับคู่NNN ( XiXiX_i , YiYiY_i ) มาจากการแจกแจงที่ไม่รู้จักทั่วไปซึ่งมีช่วงเวลาที่หนึ่งและสองที่แน่นอนและมีความสมมาตรรอบค่าเฉลี่ย ขอσXσX\sigma_Xค่าเบี่ยงเบนมาตรฐานของXXX (ไม่มีเงื่อนไขบนYYY ), และσYσY\sigma_Yเหมือนกันสำหรับ Y. ฉันอยากทดสอบสมมติฐาน H0H0H_0 :σX=σYσX=σY\sigma_X = \sigma_Y H1H1H_1 :σX≠σYσX≠σY\sigma_X \neq \sigma_Y ไม่มีใครรู้ว่าการทดสอบดังกล่าวหรือไม่ ฉันสามารถสันนิษฐานได้ในการวิเคราะห์ก่อนว่าการแจกแจงเป็นเรื่องปกติแม้ว่ากรณีทั่วไปน่าสนใจกว่า ฉันกำลังมองหาวิธีแก้ปัญหาแบบปิด Bootstrap เป็นทางเลือกสุดท้ายเสมอ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.