คำถามติดแท็ก statistical-significance

นัยสำคัญทางสถิติหมายถึงความน่าจะเป็นที่ถ้าในประชากรที่ตัวอย่างนี้ถูกดึงออกมาผลที่แท้จริงคือ 0 (หรือค่าที่ตั้งสมมติฐานไว้บางส่วน) สถิติทดสอบที่มากหรือสุดขั้วเกินกว่าที่จะเกิดขึ้นในกลุ่มตัวอย่าง

3
รูปแบบร่วมกับเงื่อนไขการทำงานร่วมกับการถดถอยแบบแยกต่างหากสำหรับการเปรียบเทียบกลุ่ม
หลังจากรวบรวมข้อเสนอแนะที่มีค่าจากคำถามและการอภิปรายก่อนหน้านี้ฉันได้พบกับคำถามต่อไปนี้: สมมติว่าเป้าหมายคือการตรวจจับความแตกต่างของเอฟเฟ็กต์ทั้งสองกลุ่ม มีสองวิธีในการทำ: ใช้การถดถอยสองแบบแยกกันสำหรับทั้งสองกลุ่มและใช้การทดสอบ Wald เพื่อปฏิเสธ (หรือไม่) สมมติฐานว่าง : b 1 - b 2 = 0โดยที่b 1คือสัมประสิทธิ์ของหนึ่ง IV ในการถดถอยชายและb 2คือ สัมประสิทธิ์ของ IV เดียวกันในการถดถอยหญิงH0H0H_0ข1- ข2= 0b1−b2=0b_1-b_2=0ข1b1b_1ข2b2b_2 รวมกลุ่มทั้งสองเข้าด้วยกันและเรียกใช้โมเดลร่วมโดยรวมเพศจำลองและคำที่ใช้โต้ตอบ (IV * genderdummy) จากนั้นการตรวจจับผลกระทบของกลุ่มจะขึ้นอยู่กับสัญลักษณ์ของการมีปฏิสัมพันธ์และการทดสอบ t เพื่อความสำคัญ เกิดอะไรขึ้นถ้าโฮถูกปฏิเสธในกรณีที่ (1) เช่นความแตกต่างของกลุ่มมีความสำคัญ แต่ค่าสัมประสิทธิ์ของระยะการโต้ตอบในกรณีที่ (2) ไม่มีนัยสำคัญทางสถิตินั่นคือความแตกต่างของกลุ่มนั้นไม่สำคัญ หรือในทางกลับกันโฮจะไม่ปฏิเสธในกรณีที่ (1) และคำที่ใช้ในการโต้ตอบนั้นมีความสำคัญในกรณีที่ (2) ฉันลงเอยด้วยผลลัพธ์นี้หลายครั้งและฉันสงสัยว่าผลลัพธ์จะน่าเชื่อถือมากขึ้นและอะไรคือเหตุผลเบื้องหลังความขัดแย้งนี้ ขอบคุณมาก!

1
ฉันจะคำนวณค่าวิกฤติด้วยการใช้ R ได้อย่างไร
ขออภัยหากเป็นคำถามใหม่ ฉันพยายามสอนสถิติตัวเองเป็นครั้งแรก ฉันคิดว่าฉันมีกระบวนการขั้นพื้นฐานที่ลง แต่ฉันพยายามที่จะดำเนินการกับอาร์ ดังนั้นฉันจึงพยายามประเมินความสำคัญของสัมประสิทธิ์การถดถอยในการถดถอยเชิงเส้นหลายรูปแบบ y^=Xβ^y^=Xβ^ \hat y = X \hat \beta ฉันคิดว่าสถิติสำหรับการทดสอบมอบให้โดยH0:β^j=0,Ha:β^j≠0H0:β^j=0,Ha:β^j≠0H_0: \hat \beta_j = 0, H_a: \hat \beta_j \neq 0 เสื้อ0= β^J- 0se ( β^J)= β^Jσ^2คเจเจ-----√= β^JคเจเจSSR e s/ (n-p)--------------√t0=β^j−0se(β^j)=β^jσ^2Cjj=β^jCjjSSRes/(n−p)t_0 = \frac{\hat \beta_j - 0}{\text{se}(\hat \beta_j)} = \frac{\hat \beta_j}{\sqrt{\hat \sigma^2 C_{jj}}} = \frac{\hat \beta_j}{\sqrt{C_{jj} SS_{Res}/(n-p)}} โดยที่คือรายการในแนวทแยงมุมของ1} j t …

1
ฉันจะทดสอบได้อย่างไรว่าการประมาณการพารามิเตอร์ทั้งสองในรูปแบบเดียวกันนั้นแตกต่างกันอย่างมีนัยสำคัญหรือไม่
ฉันมีรูปแบบ y=xa×zb+ey=xa×zb+e y=x^a \times z^b + e โดยที่คือตัวแปรที่ขึ้นต่อกันและเป็นตัวแปรอธิบายและเป็นพารามิเตอร์และเป็นคำผิดพลาด ฉันมีการประมาณพารามิเตอร์ของและและเมทริกซ์ความแปรปรวนร่วมของการประมาณเหล่านี้ ฉันจะทดสอบว่าและแตกต่างอย่างมีนัยสำคัญได้อย่างไรyyyxxxzzzaaabbbeeeaaabbbaaabbb

1
นัยสำคัญทางสถิติของความแตกต่างระหว่างระยะทาง
ฉันมีเวกเตอร์มากกว่า 3,000 ตัวบนกริดสองมิติพร้อมการกระจายแบบไม่ต่อเนื่องโดยประมาณ เวกเตอร์คู่หนึ่งตอบสนองเงื่อนไขที่แน่นอน หมายเหตุ: เงื่อนไขนี้ใช้ได้กับคู่เวกเตอร์เท่านั้นไม่ใช่กับเวกเตอร์แต่ละตัว ฉันมีรายการประมาณ 1,500 คู่ดังกล่าวลองเรียกมันว่ากลุ่ม 1 กลุ่มที่ 2 มีคู่เวกเตอร์อื่น ๆ ทั้งหมด ฉันต้องการตรวจสอบว่าระยะห่างระหว่างเวกเตอร์ในคู่ในกลุ่ม 1 นั้นมีขนาดเล็กกว่าระยะทางเฉลี่ยระหว่างสองเวกเตอร์หรือไม่ ฉันจะทำสิ่งนั้นได้อย่างไร การทดสอบทางสถิติ : ทฤษฎีบทขีด จำกัด กลางสามารถใช้กับกรณีของฉันได้หรือไม่? นั่นคือฉันสามารถใช้ตัวอย่างระยะทางและใช้การทดสอบ t ของนักเรียนเพื่อเปรียบเทียบวิธีของตัวอย่างที่ปฏิบัติตามเงื่อนไขด้วยวิธีการตัวอย่างที่ไม่ตรงตามเงื่อนไขหรือไม่ มิฉะนั้นการทดสอบทางสถิติใดที่เหมาะสมที่นี่ ขนาดตัวอย่างและจำนวนตัวอย่าง : ฉันเข้าใจว่ามีสองตัวแปรที่นี่สำหรับแต่ละกลุ่มสองฉันต้องใช้ตัวอย่างnขนาดmและหาค่าเฉลี่ยของตัวอย่างแต่ละตัวอย่าง มีวิธีใดหลักการในการเลือกnและm ? พวกเขาควรมีขนาดใหญ่ที่สุด หรือควรให้น้อยที่สุดเท่าที่จะเป็นไปได้ตราบใดที่พวกเขาแสดงนัยสำคัญทางสถิติ? พวกเขาควรจะเหมือนกันสำหรับแต่ละกลุ่มหรือไม่ หรือควรใหญ่กว่าสำหรับกลุ่ม 2 ซึ่งมีจำนวนคู่เวกเตอร์มากกว่านี้

6
Brexit: สำคัญคือ“ ลา” อย่างมีนัยสำคัญทางสถิติหรือไม่ [ปิด]
ปิด คำถามนี้เป็นคำถามความคิดเห็นตาม ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้สามารถตอบข้อเท็จจริงและการอ้างอิงได้โดยแก้ไขโพสต์นี้ ปิดให้บริการใน3 ปีที่ผ่านมา ในบทความนี้เราถามคำถามเกี่ยวกับปรากฏการณ์ธรรมชาติที่เรียกว่ามนุษย์พยายามที่จะหาการตัดสินใจด้วยคะแนนเสียงนับ เหตุการณ์ที่เกิดขึ้นที่เฉพาะเจาะจงของปรากฏการณ์ธรรมชาติดังกล่าวว่าคำถามนี้เป็นเรื่องเกี่ยวกับกรณีของBrexit หมายเหตุ:คำถามไม่ได้เกี่ยวกับการเมือง เป้าหมายคือการพยายามพูดคุยปรากฏการณ์ทางธรรมชาติดังกล่าวจากมุมมองทางสถิติตามการสังเกต คำถามเฉพาะคือ: คำถาม:อะไรคะแนนเสียง Brexit จะออกหมายถึง? เช่นนี้หมายความว่าประชาชนต้องการออกจากสหภาพยุโรปหรือไม่ หมายความว่าประชาชนไม่แน่ใจและต้องการเวลาในการคิดเพิ่มขึ้นหรือไม่ หรือมันเป็นอย่างอื่น?51.9 %51.9%51.9\% ข้อสมมติฐานที่ 1:ไม่มีข้อผิดพลาดในกระบวนการลงคะแนน

3
จะเลือกระดับความมั่นใจได้อย่างไร
ฉันมักจะใช้ระดับความเชื่อมั่น 90% โดยยอมรับว่าสิ่งนี้มีระดับความไม่แน่นอนมากกว่า 95% หรือ 99% แต่มีแนวทางใดบ้างในการเลือกระดับความมั่นใจที่ถูกต้อง? หรือแนวทางสำหรับระดับความเชื่อมั่นที่ใช้ในด้านต่างๆ นอกจากนี้ในการตีความและนำเสนอระดับความเชื่อมั่นมีคำแนะนำในการเปลี่ยนตัวเลขเป็นภาษาหรือไม่ ตัวอย่างเช่นคำแนะนำเช่นนี้สำหรับ r ของ Pearson ( แก้ไข:คำอธิบายเหล่านี้มีไว้สำหรับสังคมศาสตร์): http://faculty.quinnipiac.edu/libarts/polsci/Statistics.html ปรับปรุง ขอบคุณสำหรับคำตอบด้านล่าง พวกเขาล้วนมีประโยชน์มีประโยชน์ลึกซึ้งและให้คำแนะนำ นอกจากนี้ด้านล่างเป็นบทความที่ดีเกี่ยวกับการเลือกระดับนัยสำคัญ (โดยพื้นฐานแล้วเป็นคำถามเดียวกัน) ที่ฉันได้พบขณะที่มองคำถามนี้ พวกเขาตรวจสอบสิ่งที่พูดในคำตอบด้านล่าง "นัยสำคัญของนัยสำคัญ 0.05 คืออะไร" http://www.p-value.info/2013/01/whats-significance-of-005-significance_6.html "บนต้นกำเนิดของนัยสำคัญทางสถิติที่ระดับ. 05" http://www.radford.edu/~jaspelme/611/Spring-2007/Cowles-n-Davis_Am-Psyc_orignis-of-05-level.pdf "วิธีการทางวิทยาศาสตร์: ข้อผิดพลาดทางสถิติ" http://www.nature.com/news/scientific-method-statistical-errors-1.14700

1
ถ้าการกระจายตัวของสถิติทดสอบเป็น bimodal, p-value จะมีความหมายอะไรไหม?
P-value ถูกกำหนดความน่าจะเป็นที่จะได้รับสถิติการทดสอบอย่างน้อยที่สุดเท่าที่จะสังเกตได้โดยสมมติว่าสมมติฐานว่างเป็นจริง ในคำอื่น ๆ P( X≥ t | H0)P(X≥t|H0)P( X \ge t | H_0 ) แต่จะเป็นอย่างไรถ้าสถิติการทดสอบนั้นมีค่า bimodal ในการแจกแจง? p-value มีความหมายอะไรในบริบทนี้หรือไม่? ตัวอย่างเช่นฉันจะจำลองข้อมูล bimodal ใน R: set.seed(0) # Generate bi-modal distribution bimodal <- c(rnorm(n=100,mean=25,sd=3),rnorm(n=100,mean=100,sd=5)) hist(bimodal, breaks=100) และสมมติว่าเราสังเกตค่าสถิติทดสอบ 60 และที่นี่เรารู้จากภาพค่านี้ไม่น่ามาก ดังนั้นฉันต้องการให้ขั้นตอนสถิติที่ฉันใช้ (พูด p-value) เปิดเผยสิ่งนี้ แต่ถ้าเราคำนวณค่า p ตามที่กำหนดเราจะได้ค่าสูงมาก observed <- 60 # Get P-value …

2
การทดสอบทางสถิติสำหรับค่าที่เพิ่มขึ้นอย่างมีนัยสำคัญจากค่าเฉลี่ยประชากร: มันเป็นการทดสอบ Z หรือการทดสอบ T หรือไม่?
ค่านี้มีนัยสำคัญเมื่อเปรียบเทียบกับรายการค่าหรือไม่ ในกรณีส่วนใหญ่การทดสอบทางสถิติเกี่ยวข้องกับการเปรียบเทียบตัวอย่างชุดกับประชากร ในกรณีของฉันตัวอย่างทำด้วยค่าหนึ่งค่าและเราเปรียบเทียบกับประชากร ฉันเป็นผู้เชี่ยวชาญในการทดสอบสมมติฐานทางสถิติที่เผชิญหน้ากับปัญหาพื้นฐานที่สุด มันไม่ใช่แค่การทดสอบเพียงอย่างเดียว แต่มีหลายร้อยรายการ ฉันมีพื้นที่พารามิเตอร์และต้องทำการทดสอบที่สำคัญสำหรับทุกจุด ทั้งค่าและรายการพื้นหลัง (ประชากร) ถูกสร้างขึ้นสำหรับการรวมกันของพารามิเตอร์แต่ละตัว จากนั้นฉันกำลังสั่งสิ่งนี้ด้วยค่า p และหาชุดค่าพารามิเตอร์ที่น่าสนใจ ในความเป็นจริงการค้นหาของการรวมกันของพารามิเตอร์ที่ p-val นี้สูง (ไม่สำคัญ) ก็มีความสำคัญ ลองทำแบบทดสอบเดียว: ฉันมีค่าจากการคำนวณที่สร้างขึ้นจากชุดที่เลือกและชุดค่าพื้นหลังที่คำนวณโดยการเลือกชุดฝึกแบบสุ่ม ค่าที่คำนวณได้คือ 0.35 และชุดแบ็คกราวน์คือ (อาจจะ?) กระจายตามปกติด้วยค่าเฉลี่ยของ 0.25 และ std ที่แคบมาก (e-7) จริง ๆ แล้วฉันไม่มีความรู้เกี่ยวกับการแจกแจงเนื่องจากตัวอย่างถูกคำนวณจากอย่างอื่นพวกมันไม่ใช่ตัวอย่างแบบสุ่มจากการแจกแจงดังนั้นพื้นหลังจึงเป็นคำที่ถูกต้องสำหรับมัน สมมติฐานว่างจะเป็น "ค่าเฉลี่ยของการทดสอบตัวอย่างเท่ากับค่าที่คำนวณได้ของฉันเท่ากับ 0.35" เมื่อใดที่ฉันควรพิจารณาว่านี่เป็นการทดสอบ Z หรือการทดสอบ T ฉันต้องการให้ค่าสูงกว่าค่าเฉลี่ยประชากรอย่างมีนัยสำคัญดังนั้นจึงเป็นการทดสอบแบบปลายเดี่ยว ฉันสับสนเล็กน้อยเกี่ยวกับสิ่งที่ควรพิจารณาเป็นตัวอย่าง: ฉันมีตัวอย่างหนึ่งรายการ (การสังเกต) และรายการพื้นหลังเป็นประชากรหรือตัวอย่างของฉันคือรายการพื้นหลังและฉันกำลังเปรียบเทียบกับทั้งหมด (ไม่ได้สุ่มตัวอย่าง) ประชากรซึ่งเป็นไปตามสมมติฐานว่างควรมีค่าเฉลี่ยเท่ากัน เมื่อตัดสินใจแล้วการทดสอบจะไปในทิศทางที่แตกต่างกันที่ฉันเดา หากเป็นการทดสอบแบบ T …

2
เราจะทำแบบทดสอบสมมติฐาน MCMC กับแบบจำลองการถดถอยแบบผสมเอฟเฟกต์ด้วยความชันแบบสุ่มได้อย่างไร
ไลบรารี่ languageR จัดเตรียมวิธีการ (pvals.fnc) เพื่อทำการทดสอบ MCMC อย่างมีนัยสำคัญของเอฟเฟกต์คงที่ในรูปแบบการถดถอยเอฟเฟกต์เอฟเฟกต์แบบพอดีโดยใช้ lmer อย่างไรก็ตาม pvals.fnc ให้ข้อผิดพลาดเมื่อโมเดล lmer มีความลาดชันแบบสุ่ม มีวิธีการทำแบบทดสอบสมมติฐาน MCMC ของแบบจำลองดังกล่าวหรือไม่? ถ้าเป็นเช่นนั้นได้อย่างไร (หากได้รับคำตอบคำตอบควรมีตัวอย่างการทำงานใน R) ถ้าไม่มีเหตุผลทางความคิด / การคำนวณว่าทำไมไม่มีทาง? คำถามนี้อาจเกี่ยวข้องกับคำถามนี้แต่ฉันไม่เข้าใจเนื้อหาที่นั่นเพียงพอที่จะแน่ใจ แก้ไข 1 : หลักฐานของแนวคิดที่แสดงว่า pvals.fnc () ยังคงทำ 'บางสิ่งบางอย่าง' กับโมเดล lme4 แต่มันไม่ได้ทำอะไรกับแบบจำลองความชันแบบสุ่ม library(lme4) library(languageR) #the example from pvals.fnc data(primingHeid) # remove extreme outliers primingHeid = primingHeid[primingHeid$RT < 7.1,] …

1
การทดสอบที่แน่นอนของฟิชเชอร์และการกระจาย hypergeometric
ฉันต้องการที่จะเข้าใจการทดสอบที่แม่นยำของฟิชเชอร์มากขึ้นดังนั้นฉันจึงคิดค้นตัวอย่างของเล่นต่อไปนี้โดยที่ f และ m สอดคล้องกับเพศชายและเพศหญิงและ n และ y สอดคล้องกับ "การบริโภคโซดา" เช่นนี้: > soda_gender f m n 0 5 y 5 0 เห็นได้ชัดว่านี่คือการทำให้เข้าใจง่ายมาก แต่ฉันไม่ต้องการให้บริบทเข้ามาขวางทาง ที่นี่ฉันเพิ่งสันนิษฐานว่าผู้ชายไม่ดื่มโซดาและหญิงดื่มโซดาและต้องการดูว่าวิธีการทางสถิติมาถึงข้อสรุปเดียวกัน เมื่อฉันทำการทดสอบฟิชเชอร์ที่แน่นอนใน R ฉันจะได้ผลลัพธ์ต่อไปนี้: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 …

5
ช่วงความเชื่อมั่นและความน่าจะเป็น - ข้อผิดพลาดในคำสั่งนี้อยู่ที่ไหน?
หากมีคนทำคำสั่งเช่นด้านล่าง: "โดยรวมผู้ที่ไม่สูบบุหรี่ที่สัมผัสกับควันสิ่งแวดล้อมมีความเสี่ยงสัมพัทธ์ของโรคหลอดเลือดหัวใจที่ 1.25 (ช่วงความเชื่อมั่น 95 เปอร์เซ็นต์, 1.17-1.32) เมื่อเทียบกับผู้สูบบุหรี่ที่ไม่ได้สัมผัสกับควัน" อะไรคือความเสี่ยงสัมพัทธ์ของประชากรโดยรวม? สิ่งที่เกี่ยวข้องกับโรคหลอดเลือดหัวใจ? ในหลาย ๆ สิ่งที่สามารถทดสอบได้มีเพียงไม่กี่คนเท่านั้นที่เชื่อมโยงกับโรคหลอดเลือดหัวใจดังนั้นโอกาสที่สิ่งใดก็ตามที่ถูกเลือกแบบสุ่มนั้นเชื่อมต่อกันจะหายไป ดังนั้นเราจึงสามารถพูดได้ว่าความเสี่ยงสัมพัทธ์สำหรับประชากรคือ 1 แต่ช่วงเวลาที่ยกมาไม่มีค่า 1 ดังนั้นอย่างใดอย่างหนึ่งมีการเชื่อมต่อระหว่างสองสิ่งความน่าจะเป็นที่มีขนาดเล็กหายไปหรือนี่คือหนึ่งใน 5% ของช่วงเวลาที่ไม่มีพารามิเตอร์ ในฐานะที่เป็นหลังมีโอกาสมากขึ้นกว่าในอดีตมันเป็นสิ่งที่เราควรคิด ดังนั้นข้อสรุปที่เหมาะสมคือชุดข้อมูลเกือบผิดปกติของประชากร แน่นอนถ้ามีพื้นฐานบางอย่างที่สมมติว่ามากกว่า 5% ของสิ่งต่าง ๆ เชื่อมโยงกับโรคหลอดเลือดหัวใจอาจมีหลักฐานบางอย่างในสถิติเพื่อสนับสนุนข้อเสนอแนะว่าควันสิ่งแวดล้อมเป็นหนึ่งในนั้น สามัญสำนึกแนะนำว่าสิ่งนี้ไม่น่าเป็นไปได้ อะไรคือข้อผิดพลาดในการใช้เหตุผลของพวกเขา (เนื่องจากองค์กรด้านสุขภาพทั้งหมดเห็นด้วยว่ามีวรรณกรรมสำคัญเกี่ยวกับผลกระทบที่เป็นอันตรายจากการสูบบุหรี่มือสอง) เป็นเพราะหลักฐานของพวกเขาที่ว่า "ในจำนวนที่มากของสิ่งที่สามารถทดสอบได้จริง ๆ น้อยมากที่เชื่อมต่อกับโรคหลอดเลือดหัวใจ"? ประโยคนี้อาจเป็นจริงสำหรับปัจจัยที่สุ่มเลือกใด ๆ (เช่นจำนวนสุนัขที่บุคคลหนึ่งเป็นเจ้าของที่มีความเสี่ยงต่อโรคหลอดเลือดหัวใจ) แต่ความน่าจะเป็นนิรนัยนั้นสูงกว่าการสูบบุหรี่มือสองและโรคหลอดเลือดหัวใจมากกว่าแค่ 'ปัจจัยสุ่มใด ๆ ' . นี่เป็นเหตุผลที่ถูกต้องหรือไม่? หรือมีอย่างอื่นอีกไหม

1
อะไรคือดัชนีที่ดีของระดับของการละเมิดกฎเกณฑ์และฉลากที่สื่อความหมายสามารถแนบกับดัชนีนั้นได้?
บริบท: ในคำถามก่อนหน้านี้ @Robbie ถามในการศึกษามีประมาณ 600 กรณีว่าทำไมการทดสอบภาวะปกติอย่างมีนัยสำคัญปัญหาที่ไม่ปกติยังแปลงปัญหาการแจกแจงปกติ หลายคนระบุว่าการทดสอบความสำคัญของภาวะปกตินั้นไม่มีประโยชน์มากนัก ด้วยตัวอย่างขนาดเล็กการทดสอบดังกล่าวไม่มีอำนาจมากพอที่จะตรวจจับการละเมิดกฎเกณฑ์และตัวอย่างที่มีขนาดใหญ่พวกเขาจะตรวจพบการละเมิดกฎเกณฑ์ที่มีขนาดเล็กเพียงพอไม่ต้องกังวล สำหรับฉันแล้วดูเหมือนว่าปัญหานี้จะคล้ายกับการอภิปรายเกี่ยวกับการทดสอบที่สำคัญและขนาดผลกระทบ หากคุณมุ่งเน้นเฉพาะการทดสอบที่สำคัญเมื่อคุณมีกลุ่มตัวอย่างขนาดใหญ่คุณสามารถตรวจจับเอฟเฟ็กต์เล็ก ๆ ที่ไม่เกี่ยวข้องกับการใช้งานจริงและตัวอย่างขนาดเล็กคุณไม่มีพลังเพียงพอ ในบางกรณีที่ฉันเคยเห็นหนังสือแนะนำคนที่คุณสามารถมีตัวอย่าง "ใหญ่เกินไป" เพราะเอฟเฟกต์ขนาดเล็กจะมีความสำคัญทางสถิติ ในบริบทของการทดสอบอย่างมีนัยสำคัญและขนาดของเอฟเฟ็กต์การแก้ปัญหาอย่างง่ายอย่างหนึ่งคือการมุ่งเน้นไปที่การประเมินขนาดของเอฟเฟกต์ที่น่าสนใจแทนที่จะหมกมุ่นอยู่กับกฎการตัดสินใจแบบไบนารีว่ามีหรือไม่มีผล ช่วงความเชื่อมั่นที่มีต่อขนาดเอฟเฟกต์เป็นหนึ่งในวิธีการดังกล่าวหรือคุณสามารถใช้วิธีการแบบเบย์บางรูปแบบ ยิ่งไปกว่านั้นโดเมนงานวิจัยต่าง ๆ สร้างความคิดเกี่ยวกับขนาดของเอฟเฟกต์ที่กำหนดในทางปฏิบัติสำหรับดีขึ้นหรือแย่ลงการใช้ฮิวริสติกฉลากเช่น "เล็ก", "ปานกลาง" และ "เอฟเฟ็กต์ขนาดใหญ่" สิ่งนี้ยังนำไปสู่การแนะนำอย่างชาญฉลาดในการเพิ่มขนาดตัวอย่างเพื่อให้ได้ความแม่นยำสูงสุดในการประมาณค่าพารามิเตอร์ที่กำหนด นี่ทำให้ฉันสงสัยว่าทำไมวิธีการที่คล้ายกันโดยยึดตามช่วงความเชื่อมั่นของขนาดเอฟเฟกต์นั้นไม่ได้ดำเนินการอย่างกว้างขวางมากขึ้นในการทดสอบสมมติฐาน คำถาม: อะไรคือดัชนีเดี่ยวที่ดีที่สุดของระดับที่ข้อมูลละเมิดกฎเกณฑ์? หรือเป็นเรื่องที่ดีกว่าถ้าพูดถึงดัชนีการฝ่าฝืนกฎเกณฑ์หลาย ๆ อย่าง (เช่นความเบ้, เคิร์ตซีส, ความแพร่หลายในค่าผิดปกติ) จะคำนวณช่วงความมั่นใจได้อย่างไร (หรืออาจใช้วิธีการแบบเบย์) สำหรับดัชนี? คุณสามารถกำหนดป้ายกำกับด้วยวาจาแบบใดให้กับดัชนีนั้นเพื่อระบุระดับของการละเมิดกฎเกณฑ์ (เช่นอ่อนปานกลางปานกลางแข็งแรงมาก ฯลฯ ) จุดประสงค์ของฉลากดังกล่าวอาจช่วยนักวิเคราะห์ที่มีประสบการณ์น้อยลงในการฝึกอบรมสัญชาตญาณว่าการละเมิดกฎเกณฑ์เป็นปัญหาหรือไม่

3
ฉันจะทดสอบได้อย่างไรว่าการจัดกลุ่มข้อมูลไบนารีของฉันมีความสำคัญ
ฉันกำลังทำตะกร้าสินค้าวิเคราะห์ชุดข้อมูลของฉันคือชุดของเวกเตอร์ธุรกรรมพร้อมรายการสินค้าที่ซื้อ เมื่อใช้ K-วิธีการในการทำธุรกรรมที่ฉันมักจะได้รับบางผล เมทริกซ์แบบสุ่มอาจแสดงกลุ่มบางส่วนเช่นกัน มีวิธีทดสอบว่าการจัดกลุ่มที่ฉันพบนั้นสำคัญหรือไม่หรืออาจเป็นเรื่องบังเอิญ ถ้าใช่ฉันจะทำอย่างไร

1
การทดสอบความสำคัญขึ้นอยู่กับความแม่นยำ / การเรียกคืน / F1
เป็นไปได้หรือไม่ที่จะทำการทดสอบอย่างมีนัยสำคัญโดยพิจารณาจากคะแนนความแม่นยำ / การเรียกคืน / F1 เท่านั้น ตัวอย่างเช่นหากคุณเจอ 2 ระบบในกระดาษซึ่งมีรายงาน P / R / F1 เท่านั้น (ในชุดข้อมูลเดียวกัน ฯลฯ ) คุณสามารถทำการทดสอบนัยสำคัญทางสถิติได้หรือไม่? ถ้าใช่มันเป็นเช่นไร?

2
ทำความเข้าใจกับ Gelman & Carlin“ เหนือกว่าการคำนวณพลัง: …” (2014)
ฉันกำลังอ่าน Gelman & Carlin "นอกเหนือจากการคำนวณกำลังไฟ: การประเมินข้อผิดพลาดประเภท S (เครื่องหมาย) และประเภท M (ขนาด)" (2014) ฉันพยายามที่จะเข้าใจความคิดหลักทางเดินหลัก แต่ฉันสับสน ใครสามารถช่วยกลั่นสาระสำคัญให้ฉันได้บ้าง กระดาษมีลักษณะดังนี้ (ถ้าฉันเข้าใจถูกต้อง) สถิติการศึกษาทางจิตวิทยามักถูกรบกวนด้วยตัวอย่างเล็ก ๆ เงื่อนไขในผลลัพธ์ที่มีนัยสำคัญทางสถิติในการศึกษาที่กำหนด (1) ขนาดของผลกระทบที่แท้จริงมีแนวโน้มที่จะประเมินค่าสูงเกินไปอย่างรุนแรงและ (2) เครื่องหมายของผลกระทบอาจตรงข้ามกับความน่าจะเป็นสูง - เว้นแต่ขนาดตัวอย่างมีขนาดใหญ่พอ ด้านบนแสดงโดยใช้การคาดเดาขนาดของเอฟเฟกต์ก่อนหน้าและโดยทั่วไปเอฟเฟกต์นี้จะมีขนาดเล็ก ปัญหาแรกของฉันคือทำไมเงื่อนไขกับผลลัพธ์ที่มีนัยสำคัญทางสถิติ? มันคือการสะท้อนอคติสิ่งพิมพ์? แต่ดูเหมือนจะไม่เป็นเช่นนั้น แล้วทำไมล่ะ ปัญหาที่สองของฉันคือถ้าฉันทำการศึกษาด้วยตัวเองฉันควรปฏิบัติกับผลลัพธ์ของฉันแตกต่างจากที่ฉันเคยทำหรือไม่ (ฉันทำสถิติบ่อยครั้งไม่คุ้นเคยกับเบย์) เช่นฉันจะใช้ตัวอย่างข้อมูลประเมินแบบจำลองและบันทึกการประมาณค่าพอยต์สำหรับผลของความสนใจและความมั่นใจที่ผูกไว้ ตอนนี้ฉันควรจะเชื่อผลของฉันหรือไม่ หรือฉันควรจะเชื่อใจถ้ามันมีนัยสำคัญทางสถิติ? มีการเปลี่ยนแปลงใด ๆ ก่อนหน้านั้น สิ่งที่เป็นประเด็นหลัก (1) สำหรับ "ผู้ผลิต" ของการวิจัยเชิงสถิติและ (2) สำหรับผู้อ่านของเอกสารทางสถิติประยุกต์? อ้างอิง: Gelman, Andrew และ …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.