คำถามติดแท็ก hypothesis-testing

การทดสอบสมมติฐานจะประเมินว่าข้อมูลไม่สอดคล้องกับสมมติฐานที่กำหนดแทนที่จะเป็นผลของความผันผวนแบบสุ่มหรือไม่

3
ทำไมการทดสอบสมมติฐานขั้นพื้นฐานมุ่งเน้นไปที่ค่าเฉลี่ยและไม่ได้อยู่บนค่ามัธยฐาน?
ในหลักสูตรสถิติขั้นพื้นฐานระดับล่างนักเรียนจะได้รับการสอนการทดสอบสมมติฐานสำหรับค่าเฉลี่ยของประชากร เหตุใดจึงให้ความสำคัญกับค่าเฉลี่ยและไม่ใช่ค่ามัธยฐาน? ฉันเดาว่ามันง่ายกว่าที่จะทดสอบค่าเฉลี่ยเนื่องจากทฤษฎีบทขีด จำกัด กลาง แต่ฉันชอบอ่านคำอธิบายที่มีการศึกษา

8
ฉันควรจะสอนแบบเบย์หรือสถิติผู้ใช้บ่อยก่อน
ฉันกำลังช่วยลูก ๆ ของฉันอยู่ในโรงเรียนมัธยมเข้าใจสถิติและฉันกำลังพิจารณาเริ่มต้นด้วยตัวอย่างง่ายๆโดยไม่มองข้ามทฤษฎี เป้าหมายของฉันคือการทำให้พวกเขามีวิธีการที่ใช้งานง่ายและสร้างสรรค์ที่สุดเพื่อเรียนรู้สถิติตั้งแต่เริ่มต้นเพื่อกระตุ้นความสนใจในการติดตามสถิติและการเรียนรู้เชิงปริมาณเพิ่มเติม ก่อนที่จะเริ่มต้นฉันมีคำถามเฉพาะที่มีนัยโดยทั่วไป: เราควรเริ่มสอนสถิติโดยใช้ Bayesian หรือกรอบบ่อยๆหรือไม่? การค้นคว้ารอบตัวฉันได้เห็นแล้วว่าวิธีการทั่วไปนั้นเริ่มต้นด้วยการแนะนำสั้น ๆ เกี่ยวกับสถิติผู้ใช้บ่อยตามด้วยการอภิปรายเชิงลึกของสถิติแบบเบย์ (เช่นStangl )

3
เป็นไปได้หรือไม่ที่จะเปลี่ยนสมมติฐานเพื่อให้ตรงกับข้อมูลที่สังเกต (หรือที่เรียกว่าการตกปลา) และหลีกเลี่ยงข้อผิดพลาด Type I ที่เพิ่มขึ้น?
เป็นที่ทราบกันดีว่านักวิจัยควรใช้เวลาในการสังเกตและสำรวจข้อมูลและการวิจัยที่มีอยู่ก่อนสร้างสมมติฐานแล้วรวบรวมข้อมูลเพื่อทดสอบสมมติฐานนั้น (หมายถึงการทดสอบนัยสำคัญของสมมติฐานว่างเปล่า) หนังสือสถิติพื้นฐานหลายเล่มเตือนว่าต้องมีการตั้งสมมติฐานก่อนและไม่สามารถเปลี่ยนแปลงได้หลังจากการรวบรวมข้อมูลมิฉะนั้นวิธีการจะไม่ถูกต้อง ฉันเข้าใจว่าเหตุผลข้อหนึ่งที่ว่าทำไมการเปลี่ยนสมมติฐานให้พอดีกับข้อมูลที่สังเกตนั้นเป็นปัญหาเพราะมีโอกาสมากขึ้นที่จะยอมรับข้อผิดพลาดประเภทที่ 1 เนื่องจากข้อมูลปลอม แต่คำถามของฉันคือ: เป็นเหตุผลเดียวหรือมีปัญหาพื้นฐานอื่น ๆ เดินทางไปตกปลา? ในฐานะที่เป็นคำถามโบนัสมีวิธีที่จะไปสำรวจการตกปลาโดยไม่ต้องเปิดเผยตัวเองถึงข้อผิดพลาดที่อาจเกิดขึ้น? ตัวอย่างเช่นหากคุณมีข้อมูลเพียงพอคุณสามารถสร้างสมมติฐานจากครึ่งหนึ่งของข้อมูลแล้วใช้อีกครึ่งหนึ่งเพื่อทดสอบพวกเขาได้หรือไม่ ปรับปรุง ฉันซาบซึ้งในความสนใจในคำถามของฉัน แต่คำตอบและความคิดเห็นส่วนใหญ่มุ่งไปที่สิ่งที่ฉันคิดว่าฉันกำหนดไว้เป็นข้อมูลพื้นฐาน ฉันสนใจที่จะรู้ว่าถ้ามีคนอื่น ๆด้วยเหตุผลที่ว่าทำไมมันไม่ดีเกินความเป็นไปได้ที่สูงขึ้นของผลการปลอมและถ้ามีวิธีการเช่นข้อมูลแยกแรกของการเปลี่ยนแปลงสมมติฐานโพสต์เฉพาะกิจแต่หลีกเลี่ยงการเพิ่มขึ้นในข้อผิดพลาดประเภทฉัน ฉันได้อัปเดตชื่อแล้วเพื่อให้สะท้อนถึงคำถามที่ฉันต้องการ ขอบคุณและขออภัยในความสับสน!

2
กำลังทำการทดสอบทางสถิติหลังจากแสดงข้อมูลเป็นภาพ - การขุดลอกข้อมูลหรือไม่
ฉันจะเสนอคำถามนี้โดยใช้ตัวอย่าง สมมติว่าฉันมีชุดข้อมูลเช่นชุดข้อมูลราคาบ้านบอสตันซึ่งฉันมีตัวแปรแบบต่อเนื่องและหมวดหมู่ ที่นี่เรามีตัวแปร "คุณภาพ" ตั้งแต่ 1 ถึง 10 และราคาขาย ฉันสามารถแยกข้อมูลออกเป็นบ้านคุณภาพ "ต่ำ", "ปานกลาง" และ "สูง" โดย (โดยพลการ) สร้างการตัดเพื่อคุณภาพ จากนั้นใช้การจัดกลุ่มเหล่านี้ฉันสามารถพล็อตฮิสโตแกรมของราคาขายต่อกันได้ ชอบมาก ที่นี่ "ต่ำ" คือและ "สูง" คือในคะแนน "คุณภาพ" ตอนนี้เรามีการกระจายของราคาขายสำหรับแต่ละกลุ่ม เป็นที่ชัดเจนว่ามีความแตกต่างในศูนย์กลางของที่ตั้งสำหรับบ้านขนาดกลางและคุณภาพสูง ตอนนี้เมื่อทำสิ่งนี้ทั้งหมดเสร็จฉันคิดว่า "หืมดูเหมือนว่าจะมีความแตกต่างในจุดศูนย์กลางของที่ตั้ง! จากนั้นฉันได้รับค่า p ที่ดูเหมือนว่าจะปฏิเสธสมมติฐานว่างที่ถูกต้องว่าไม่มีความแตกต่างในค่าเฉลี่ย≤ 3≤3\leq 3> 7>7>7 ทีนี้สมมติว่าฉันไม่มีอะไรในใจที่จะทดสอบสมมติฐานนี้จนกว่าฉันจะพล็อตข้อมูล ข้อมูลนี้ขุดลอกหรือไม่ มันยังคงเป็นข้อมูลที่ขุดขึ้นมาหรือไม่ถ้าฉันคิดว่า: "หืมฉันว่าบ้านคุณภาพสูงราคาแพงกว่าเพราะฉันเป็นมนุษย์ที่เคยอาศัยอยู่ในบ้านก่อนหน้านี้ฉันจะลงจุดข้อมูลอาฮ่า! เพื่อทดสอบ t! " ตามธรรมชาติแล้วมันไม่ใช่การขุดลอกข้อมูลถ้าชุดข้อมูลถูกเก็บรวบรวมด้วยความตั้งใจที่จะทดสอบสมมติฐานนี้จากการเดินทาง แต่บ่อยครั้งที่เราต้องทำงานกับชุดข้อมูลที่เรามอบให้และบอกให้ "มองหารูปแบบ" บางคนหลีกเลี่ยงการขุดข้อมูลด้วยงานที่คลุมเครือในใจ สร้างชุดค้างไว้สำหรับการทดสอบข้อมูลหรือไม่ การสร้างภาพข้อมูล "นับ" เป็นการสอดแนมโอกาสที่จะทดสอบสมมติฐานที่เสนอโดยข้อมูลหรือไม่

4
ค่า p ที่เล็กลงมีความน่าเชื่อถือมากกว่าหรือไม่
ฉันอ่านค่า value, อัตราข้อผิดพลาดประเภท 1, ระดับนัยสำคัญ, การคำนวณพลังงาน, ขนาดผลกระทบและการอภิปราย Fisher vs Neyman-Pearson นี่ทำให้ฉันรู้สึกท่วมท้นไปเล็กน้อย ฉันขอโทษสำหรับกำแพงข้อความ แต่ฉันรู้สึกว่าจำเป็นต้องให้ภาพรวมของความเข้าใจปัจจุบันของฉันเกี่ยวกับแนวคิดเหล่านี้ก่อนที่ฉันจะย้ายไปยังคำถามจริงของฉันppp จากสิ่งที่ฉันรวบรวมมาค่าเป็นเพียงการวัดความประหลาดใจความน่าจะเป็นที่จะได้ผลลัพธ์อย่างน้อยที่สุดเท่าที่เป็นไปได้เนื่องจากสมมติฐานว่างเป็นจริง ฟิชเชอร์มีจุดประสงค์เพื่อให้มันเป็นมาตรการต่อเนื่องppp ในกรอบงานของ Neyman-Pearson คุณเลือกระดับนัยสำคัญล่วงหน้าและใช้สิ่งนี้เป็นจุดตัด (โดยพลการ) ระดับนัยสำคัญเท่ากับอัตราข้อผิดพลาดประเภท 1 มันถูกกำหนดโดยความถี่ในระยะยาวเช่นถ้าคุณต้องทำการทดสอบซ้ำ 1,000 ครั้งและสมมติฐานว่างเป็นจริงการประมาณ 50 ของการทดลองเหล่านั้นจะส่งผลอย่างมีนัยสำคัญเนื่องจากความแปรปรวนของการสุ่มตัวอย่าง โดยการเลือกระดับความสำคัญเราจะป้องกันตนเองจากความผิดพลาดเชิงบวกเหล่านี้ด้วยความน่าจะเป็น แบบดั้งเดิมจะไม่ปรากฏในกรอบนี้PPP หากเราพบค่า 0.01 นี่ไม่ได้หมายความว่าอัตราความผิดพลาดประเภท 1 คือ 0.01 ข้อผิดพลาดประเภท 1 จะถูกระบุเป็นค่าเริ่มต้น ฉันเชื่อว่านี่เป็นหนึ่งในข้อโต้แย้งที่สำคัญในการอภิปราย Fisher vs NP เนื่องจากค่า value มักถูกรายงานเป็น 0.05 *, 0.01 **, 0.001 *** …

4
เหตุใดค่า p ต่ำกว่าจึงไม่มีหลักฐานมากขึ้นต่อโมฆะ? ข้อโต้แย้งจาก Johansson 2011
Johansson (2011) ใน " ทักทายสิ่งที่เป็นไปไม่ได้: ค่า p, หลักฐานและโอกาส " (ที่นี่ยังเชื่อมโยงไปยังวารสาร ) ระบุว่าค่าต่ำกว่ามักจะถือว่าเป็นหลักฐานที่แข็งแกร่งต่อโมฆะ Johansson หมายความว่าคนจะพิจารณาหลักฐานโมฆะจะแข็งแกร่งถ้าทดสอบทางสถิติของพวกเขาออกมาพี -value ของ0.01 , กว่าถ้าทดสอบทางสถิติของพวกเขาออกมาพี -value ของ0.45 Johansson แสดงเหตุผลสี่ประการที่ทำให้ไม่สามารถใช้ค่าpเป็นหลักฐานต่อโมฆะ:พีppพีpp0.010.010.01พีpp0.450.450.45พีpp ถูกกระจายอย่างสม่ำเสมอภายใต้สมมติฐานว่างดังนั้นจึงไม่สามารถระบุหลักฐานสำหรับโมฆะได้พีpp เป็นเงื่อนไขเพียงอย่างเดียวในสมมติฐานว่างและดังนั้นจึงไม่เหมาะสมที่จะหาหลักฐานเชิงปริมาณเพราะหลักฐานมักจะสัมพันธ์กันในความรู้สึกของการเป็นหลักฐานสำหรับหรือต่อต้านสมมติฐานที่เกี่ยวข้องกับสมมติฐานอื่นพีpp กำหนดความน่าจะเป็นในการได้มาซึ่งหลักฐาน (ให้เป็นโมฆะ) แทนที่จะเป็นความแข็งแกร่งของหลักฐานพีpp ขึ้นอยู่กับข้อมูลที่ไม่ได้ตรวจสอบและความตั้งใจส่วนตัวและดังนั้นจึงมีนัยถึงการตีความที่เป็นหลักฐานว่ากำลังของหลักฐานที่สังเกตได้นั้นขึ้นอยู่กับสิ่งที่ไม่ได้เกิดขึ้นและความตั้งใจส่วนตัวppp น่าเสียดายที่ฉันไม่สามารถเข้าใจได้อย่างง่ายจากบทความของ Johansson ให้ฉัน -value ของ0.01แสดงว่ามีโอกาสน้อย null เป็นจริงกว่าP -value ของ0.45 เหตุใดค่าpต่ำกว่าจึงไม่มีหลักฐานที่ดีกว่าต่อโมฆะ? ppp0.010.010.01ppp0.450.450.45ppp

1
แนวทางที่มีประโยชน์สำหรับพารามิเตอร์ GBM คืออะไร
แนวทางที่มีประโยชน์สำหรับการทดสอบพารามิเตอร์ (เช่นความลึกของการโต้ตอบ, minchild, อัตราตัวอย่าง ฯลฯ ) โดยใช้ GBM คืออะไร? สมมติว่าฉันมีคุณสมบัติ 70-100 ประชากร 200,000 และฉันต้องการทดสอบความลึกของการโต้ตอบที่ 3 และ 4 ชัดเจนว่าฉันต้องทำการทดสอบบางอย่างเพื่อดูว่าการรวมกันของพารามิเตอร์ใดถือตัวอย่างที่ดีที่สุด ข้อเสนอแนะเกี่ยวกับวิธีการออกแบบการทดสอบนี้?

1
มีบทเรียนทางสถิติจากตอน "รหัสพระคัมภีร์"
แม้ว่าคำถามนี้ค่อนข้างอัตนัยผมหวังว่ามันจะมีคุณสมบัติเป็นคำถามอัตนัยที่ดีตามแนวทางคำถามที่พบบ่อย มันขึ้นอยู่กับคำถามที่ Olle Häggströmถามฉันเมื่อหนึ่งปีก่อนและแม้ว่าฉันจะมีความคิดบางอย่างเกี่ยวกับเรื่องนี้ฉันไม่มีคำตอบที่ชัดเจนและฉันขอขอบคุณความช่วยเหลือจากผู้อื่น พื้นหลัง: กระดาษชื่อ "ลำดับตัวอักษรที่เท่ากันในหนังสือปฐมกาล" โดย D. Witztum, E. Rips และ Y. Rosenberg ได้กล่าวอ้างพิเศษว่าข้อความภาษาฮีบรูของพระธรรมปฐมกาลเข้ารหัสเหตุการณ์ที่ไม่ได้เกิดขึ้นจนกระทั่งนับพันปีหลังจากข้อความ เขียน. กระดาษถูกตีพิมพ์โดย "สถิติวิทยาศาสตร์" ในปี 1994 (ฉบับที่ 9 429-438) และได้รับการเสนอเป็น "ปริศนาที่ท้าทาย" ซึ่งการแก้ปัญหาอาจนำไปสู่สาขาสถิติ ในการตอบกลับบทความอื่นที่มีชื่อว่า "การไขปริศนารหัสพระคัมภีร์" โดย B. McKay, D. Bar-Natan, M. Bar-Hillel และ G. Kalai ปรากฏในวิทยาศาสตร์ทางสถิติในปี 1999 (ฉบับที่ 14 (1999) 150-173) . กระดาษใหม่ระบุว่ากรณีของ Witztum, Rips และ …

3
ความสัมพันธ์ระหว่างช่วงความมั่นใจและการทดสอบสมมติฐานทางสถิติสำหรับการทดสอบที
เป็นที่ทราบกันดีว่าช่วงความมั่นใจและการทดสอบสมมติฐานทางสถิติมีความสัมพันธ์กันอย่างมาก คำถามของฉันมุ่งเน้นไปที่การเปรียบเทียบค่าเฉลี่ยสำหรับสองกลุ่มโดยยึดตามตัวแปรตัวเลข สมมุติว่าสมมุติฐานนั้นถูกทดสอบโดยใช้ t-test ในอีกด้านหนึ่งเราสามารถคำนวณช่วงความมั่นใจสำหรับค่าเฉลี่ยของทั้งสองกลุ่ม มีความสัมพันธ์ระหว่างการทับซ้อนกันของช่วงความเชื่อมั่นและการปฏิเสธสมมติฐานว่างที่หมายถึงว่ามีความเท่าเทียมกันหรือไม่ ตัวอย่างเช่นการทดสอบอาจปฏิเสธสมมติฐานว่างถ้าช่วงความเชื่อมั่นไม่ทับซ้อนกัน

2
ทดสอบการกระจาย bimodal
ฉันสงสัยว่ามีการทดสอบทางสถิติเพื่อ "ทดสอบ" ความสำคัญของการกระจาย bimodal หรือไม่ ฉันหมายความว่าข้อมูลของฉันตรงกับการกระจาย bimodal มากแค่ไหน? ถ้าเป็นเช่นนั้นมีการทดสอบในโปรแกรม R หรือไม่?

3
คำแนะนำสำหรับวารสารโอเพนซอร์ซที่ผ่านการตรวจสอบโดยเพื่อน
ฉันมีต้นฉบับบนวิธีบูตสแตรปสำหรับทดสอบสมมุติฐานของค่าเฉลี่ยเดียวและฉันต้องการส่งเพื่อเผยแพร่ แต่ฉันมีปัญหาทางศีลธรรม ฉันได้ลงนามในการประท้วงต่อต้าน Elsevier สำหรับการดำเนินธุรกิจที่ผิดจรรยาบรรณของพวกเขาและการอ่านในประเด็นทั้งหมดทำให้ฉันถามจริยธรรมของวารสารวิชาการที่แสวงหาผลกำไรอื่น ๆ ดังนั้นฉันจึงต้องการที่จะตีพิมพ์ในวารสารที่ไม่แสวงหาผลกำไรโดยเฉพาะโอเพนซอร์สแม้ว่าฉันจะเข้าใจว่าวารสารดังกล่าวยังไม่ได้รับการพิจารณาเทียบเท่ากับวารสารที่เป็นที่ยอมรับมากกว่าเท่าที่มีชื่อเสียง โชคดีที่ฉันมีตำแหน่งนานแล้วนั่นไม่ใช่เรื่องสำคัญสำหรับฉัน ฉันขอขอบคุณคำแนะนำใด ๆ

4
ตรวจสอบว่าสองตัวอย่างปัวซองมีค่าเฉลี่ยเดียวกัน
นี่เป็นคำถามเบื้องต้น แต่ฉันไม่สามารถหาคำตอบได้ ฉันมีการวัดสองรายการ: เหตุการณ์ n1 ในเวลา t1 และเหตุการณ์ n2 ในเวลา t2 ทั้งคู่ผลิต (พูด) โดยกระบวนการปัวซงด้วยค่าแลมบ์ดาที่แตกต่างกัน อันนี้มาจากบทความข่าวซึ่งอ้างว่าตั้งแต่ที่ทั้งสองแตกต่างกัน แต่ฉันไม่แน่ใจว่าการอ้างสิทธิ์นั้นถูกต้อง สมมติว่าช่วงเวลาไม่ได้ถูกเลือกอย่างมีเจตนาร้าย (เพื่อเพิ่มเหตุการณ์ให้ใหญ่ที่สุดอย่างใดอย่างหนึ่ง)n1/ t1≠ n2/ t2n1/เสื้อ1≠n2/เสื้อ2n_1/t_1\neq n_2/t_2 ฉันสามารถเพียงแค่ทำT -test หรือจะว่าไม่เหมาะสม? จำนวนเหตุการณ์น้อยเกินไปสำหรับฉันที่จะโทรหาการแจกแจงแบบปกติโดยประมาณ

5
การแยกความแตกต่างระหว่างสองกลุ่มในสถิติและการเรียนรู้ของเครื่อง: การทดสอบสมมติฐานเทียบกับการจำแนกและการทำคลัสเตอร์
สมมติว่าฉันมีกลุ่มข้อมูลสองกลุ่มระบุว่า A และ B (แต่ละกลุ่มประกอบด้วยตัวอย่าง 200 ตัวอย่างและคุณสมบัติ 1) และฉันต้องการทราบว่าพวกเขาแตกต่างกันหรือไม่ ฉันทำได้: a) ทำการทดสอบทางสถิติ (เช่น t-test) เพื่อดูว่ามีความแตกต่างทางสถิติหรือไม่ b) ใช้การเรียนรู้ของเครื่องควบคุม (เช่นการสนับสนุนตัวจําแนกเวกเตอร์หรือลักษณนามฟอเรสต์แบบสุ่ม) ฉันสามารถฝึกอบรมสิ่งนี้ในส่วนของข้อมูลของฉันและตรวจสอบในส่วนที่เหลือ หากอัลกอริทึมการเรียนรู้ของเครื่องจำแนกส่วนที่เหลืออย่างถูกต้องหลังจากนั้นฉันสามารถมั่นใจได้ว่าตัวอย่างจะแตกต่างกัน c) ใช้อัลกอริทึมที่ไม่มีผู้ดูแล (เช่น K-Means) และปล่อยให้มันแบ่งข้อมูลทั้งหมดออกเป็นสองตัวอย่าง ฉันสามารถตรวจสอบว่าตัวอย่างที่พบทั้งสองนี้เห็นด้วยกับฉลากของฉัน A และ B หรือไม่ คำถามของฉันคือ: วิธีที่แตกต่างกันสามวิธีนี้ทับซ้อนกัน / พิเศษอย่างไร b) และ c) มีประโยชน์สำหรับข้อโต้แย้งทางวิทยาศาสตร์หรือไม่? ฉันจะได้รับ“ นัยสำคัญ” สำหรับความแตกต่างระหว่างตัวอย่าง A และ B จากวิธีการ b) และ c) อย่างไร จะเกิดอะไรขึ้นถ้าข้อมูลมีคุณสมบัติหลายอย่างมากกว่า …

4
วารสารวิทยาศาสตร์ให้การรับรองเส้นทางการ์เด้นออฟฟอร์คกิ้งหรือไม่?
แนวคิดของการวิเคราะห์ข้อมูลแบบปรับตัวคือคุณปรับเปลี่ยนแผนสำหรับการวิเคราะห์ข้อมูลในขณะที่คุณเรียนรู้เพิ่มเติมเกี่ยวกับมัน ในกรณีของการวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) โดยทั่วไปเป็นความคิดที่ดี (คุณมักจะมองหารูปแบบที่ไม่คาดฝันในข้อมูล) แต่สำหรับการศึกษาเชิงยืนยันสิ่งนี้ได้รับการยอมรับอย่างกว้างขวางว่าเป็นวิธีการวิเคราะห์ที่มีข้อบกพร่องมาก ขั้นตอนมีการกำหนดไว้อย่างชัดเจนและวางแผนอย่างเหมาะสมในขั้นสูง) ดังที่ได้กล่าวไปแล้วการวิเคราะห์ข้อมูลที่ปรับตัวได้นั้นโดยทั่วไปแล้วมีนักวิจัยจำนวนเท่าใดที่ทำการวิเคราะห์จริง ๆ เช่นนี้หากใครสามารถทำได้ในลักษณะที่ถูกต้องทางสถิติมันจะปฏิวัติการปฏิบัติทางสถิติ บทความวิทยาศาสตร์ต่อไปนี้อ้างว่าได้พบวิธีในการทำเช่นนั้น (ฉันขอโทษสำหรับ paywall แต่ถ้าคุณอยู่ในมหาวิทยาลัยคุณน่าจะเข้าถึงได้): Dwork et al, 2015, holdout ที่นำมาใช้ใหม่ได้: รักษาความถูกต้องในการวิเคราะห์ข้อมูลแบบปรับตัว . โดยส่วนตัวฉันมักสงสัยเกี่ยวกับบทความสถิติที่ตีพิมพ์ในวิทยาศาสตร์และบทความนี้ก็ไม่ต่างกัน ในความเป็นจริงหลังจากอ่านบทความสองครั้งรวมถึงเนื้อหาเพิ่มเติมฉันไม่เข้าใจ (เลย) ทำไมผู้เขียนอ้างว่าวิธีการของพวกเขาป้องกันไม่ให้เกินความเหมาะสม ความเข้าใจของฉันคือพวกเขามีชุดข้อมูลแบบโฮลด์ซึ่งพวกเขาจะใช้ซ้ำ พวกเขาดูเหมือนจะเรียกร้องโดย "fuzzing" ผลลัพธ์ของการวิเคราะห์ยืนยันในชุดข้อมูลที่ไม่ยอมอ่อนข้อกว่ากระชับจะได้รับการป้องกัน (มันเป็นที่น่าสังเกตว่า fuzzing น่าจะเป็นเพียงการเพิ่มเสียงถ้าสถิติการคำนวณเกี่ยวกับข้อมูลการฝึกอบรมคือพอไกล จากสถิติที่คำนวณได้ในข้อมูลโฮลด์ ) เท่าที่ฉันสามารถบอกได้ว่าไม่มีเหตุผลจริงที่จะป้องกันไม่ให้มีความเหมาะสมมากเกินไป ฉันเข้าใจผิดในสิ่งที่ผู้เขียนเสนอหรือไม่? มีลักษณะพิเศษบางอย่างที่ฉันมองเห็นหรือไม่? หรือวิทยาศาสตร์ ได้รับรองการฝึกฝนทางสถิติที่เลวร้ายที่สุดจนถึงปัจจุบันหรือไม่?

2
การปฏิเสธสมมติฐานโดยใช้ p-value เทียบเท่ากับสมมติฐานที่ไม่ได้อยู่ในช่วงความเชื่อมั่นหรือไม่?
ในขณะที่ได้รับช่วงความเชื่อมั่นอย่างเป็นทางการของการประเมินฉันลงเอยด้วยสูตรที่คล้ายกับวิธีคำนวณค่าppp ดังนั้นคำถาม: พวกเขาเทียบเท่าอย่างเป็นทางการ? Ie กำลังปฏิเสธสมมติฐานมีค่าวิกฤตเทียบเท่ากับไม่ได้อยู่ในช่วงความเชื่อมั่นที่มีค่าวิกฤต ?α 0 αH0=0H0=0H_0 = 0αα\alpha000αα\alpha

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.