คำถามติดแท็ก statistical-significance

นัยสำคัญทางสถิติหมายถึงความน่าจะเป็นที่ถ้าในประชากรที่ตัวอย่างนี้ถูกดึงออกมาผลที่แท้จริงคือ 0 (หรือค่าที่ตั้งสมมติฐานไว้บางส่วน) สถิติทดสอบที่มากหรือสุดขั้วเกินกว่าที่จะเกิดขึ้นในกลุ่มตัวอย่าง

9
นี่เป็นวิธีที่ค่า p ทำงานได้จริงหรือ งานวิจัยหนึ่งล้านชิ้นต่อปีสามารถใช้แบบแผนที่บริสุทธิ์ได้หรือไม่?
ฉันมากใหม่สถิติและฉันแค่เรียนรู้ที่จะเข้าใจพื้นฐานรวมทั้ง -values แต่ตอนนี้มีเครื่องหมายคำถามขนาดใหญ่ในใจของฉันและฉันหวังว่าฉันจะเข้าใจผิด นี่คือกระบวนการคิดของฉัน:พีpp ไม่ใช่งานวิจัยทั่วโลกเหมือนลิงในทฤษฎีบทอนันต์ลิงหรือไม่? พิจารณาว่ามีมหาวิทยาลัย 23887 แห่งในโลก หากแต่ละมหาวิทยาลัยมีนักศึกษา 1,000 คนนั่นคือนักเรียน 23 ล้านคนในแต่ละปี สมมติว่าในแต่ละปีนักเรียนแต่ละคนไม่อย่างน้อยหนึ่งชิ้นส่วนของการวิจัยโดยใช้การทดสอบสมมติฐานด้วย\α = 0.05α=0.05\alpha=0.05 นั่นไม่ได้หมายความว่าแม้ว่าตัวอย่างการวิจัยทั้งหมดจะถูกดึงจากประชากรสุ่ม แต่ประมาณ 5% ของพวกเขาจะ "ปฏิเสธสมมติฐานว่างเปล่าว่าไม่ถูกต้อง" ว้าว. ลองคิดดู นั่นคือประมาณหนึ่งล้านงานวิจัยต่อปีได้รับการเผยแพร่เนื่องจากผลลัพธ์ "สำคัญ" หากนี่เป็นวิธีการทำงานนี่น่ากลัว มันหมายความว่า "ความจริงทางวิทยาศาสตร์" จำนวนมากที่เราได้รับนั้นขึ้นอยู่กับการสุ่มอย่างแท้จริง รหัส R อันเรียบง่ายดูเหมือนจะสนับสนุนความเข้าใจของฉัน: library(data.table) dt <- data.table(p=sapply(1:100000,function(x) t.test(rnorm(10,0,1))$p.value)) dt[p<0.05,] ดังนั้นบทความนี้ในที่ประสบความสำเร็จ -fishing: ฉันหลงกลล้านในความคิดของช็อคโกแลตช่วยลดน้ำหนัก นี่คือวิธีการพีpp ทั้งหมดนี้มีไว้เพื่ออะไรหรือ? นี่เป็นวิธีที่ "วิทยาศาสตร์" ควรทำงานหรือไม่

2
เรารู้มากแค่ไหนเกี่ยวกับการแฮ็ก p-in“ ในป่า”?
วลีp -hacking (เช่น: "data dredging" , "snooping" หรือ "Fishing") หมายถึงการทุจริตต่อหน้าที่ทางสถิติหลายรูปแบบซึ่งผลลัพธ์กลายเป็นนัยสำคัญทางสถิติเชิงประจักษ์ มีหลายวิธีในการจัดหาผลลัพธ์ "ที่สำคัญกว่า" ซึ่งรวมถึง แต่ไม่ จำกัด เพียง: วิเคราะห์เฉพาะชุดย่อย "น่าสนใจ" ของข้อมูลซึ่งพบรูปแบบ ล้มเหลวในการปรับอย่างเหมาะสมสำหรับการทดสอบหลายรายการโดยเฉพาะการทดสอบหลังการทดสอบและความล้มเหลวในการรายงานการทดสอบที่ไม่ได้มีนัยสำคัญ ลองการทดสอบที่แตกต่างกันของสมมติฐานเดียวกันเช่นทั้งการทดสอบแบบพารามิเตอร์และแบบไม่อิงพารามิเตอร์ ( มีการพูดคุยกันในหัวข้อนี้ ) แต่มีการรายงานที่สำคัญที่สุดเท่านั้น ทำการทดลองกับการรวม / แยกจุดข้อมูลจนกว่าจะได้ผลลัพธ์ที่ต้องการ โอกาสครั้งหนึ่งเกิดขึ้นเมื่อ "การทำความสะอาดข้อมูลผิดปกติ" แต่เมื่อใช้คำจำกัดความที่คลุมเครือ (เช่นในการศึกษาทางเศรษฐมิติของ "ประเทศที่พัฒนาแล้ว" คำจำกัดความที่แตกต่างกันทำให้เกิดกลุ่มประเทศที่แตกต่างกัน) หรือเกณฑ์การคัดเลือกเชิงคุณภาพ อาจเป็นข้อโต้แย้งที่สมดุลอย่างละเอียดว่าวิธีการศึกษาเฉพาะนั้นมีความแข็งแกร่งเพียงพอที่จะรวม); ตัวอย่างก่อนหน้านี้เกี่ยวข้องกับการหยุดที่ไม่จำเป็นเช่นการวิเคราะห์ชุดข้อมูลและตัดสินใจว่าจะรวบรวมข้อมูลมากขึ้นหรือไม่ขึ้นอยู่กับข้อมูลที่เก็บจนถึงปัจจุบัน ("นี่เป็นสิ่งสำคัญเกือบจะเป็นไปได้ลองวัดนักเรียนอีกสามคน!") ในการวิเคราะห์ การทดลองระหว่างการปรับตัวแบบจำลองโดยเฉพาะอย่างยิ่ง covariates ที่จะรวม แต่ยังเกี่ยวกับการแปลงข้อมูล / รูปแบบการทำงาน ดังนั้นเราจึงรู้ว่าการแฮ็คpสามารถทำได้ มันมักจะถูกระบุว่าเป็นหนึ่งใน"อันตรายของp-value "และถูกกล่าวถึงในรายงาน ASA เกี่ยวกับนัยสำคัญทางสถิติที่กล่าวถึงที่นี่ในการตรวจสอบข้ามดังนั้นเราจึงรู้ว่ามันเป็นสิ่งที่ไม่ดี …

9
เกี่ยวกับค่า p ทำไม 1% และ 5% ทำไมไม่ 6% หรือ 10%
เกี่ยวกับp-value s ผมสงสัยว่าทำไม % และ % ดูเหมือนจะเป็นมาตรฐานทองคำสำหรับ ทำไมค่าอื่น ๆ เช่น % หรือ %111555"statistical significance"666101010 มีเหตุผลทางคณิตศาสตร์พื้นฐานสำหรับเรื่องนี้หรือนี่เป็นเพียงการประชุมที่จัดขึ้นอย่างกว้างขวาง?

3
ตัวอย่าง: การถดถอย LASSO โดยใช้ glmnet สำหรับผลลัพธ์ไบนารี
ฉันเริ่มตะลุยกับการใช้งานglmnetกับการถดถอยแบบ LASSOซึ่งผลลัพธ์ของความสนใจของฉันนั้นเป็นแบบขั้วคู่ ฉันได้สร้างกรอบข้อมูลจำลองขนาดเล็กด้านล่าง: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

3
นี่เป็นวิธีแก้ไขปัญหาค่า p หรือไม่
ในเดือนกุมภาพันธ์ 2559 สมาคมสถิติอเมริกันออกแถลงการณ์อย่างเป็นทางการเกี่ยวกับนัยสำคัญทางสถิติและค่า p หัวข้อของเราเกี่ยวกับมันกล่าวถึงปัญหาเหล่านี้อย่างกว้างขวาง อย่างไรก็ตามไม่มีผู้มีอำนาจออกมาเสนอทางเลือกที่ได้รับการยอมรับในระดับสากลจนถึงปัจจุบัน สมาคมสถิติอเมริกัน (ASS) ได้เผยแพร่การตอบสนองค่า p: มีอะไรต่อไป "p-value ไม่ค่อยดีเท่าไหร่" เราคิดว่า ASA ไม่ได้ไปไกลพอ ถึงเวลาที่ต้องยอมรับว่ายุคของค่า p จบลงแล้ว นักสถิติได้ใช้พวกเขาในการทำให้นักศึกษาปริญญาตรียุ่งเหยิงหลอกนักวิทยาศาสตร์และบรรณาธิการหลอกไปทุกที่ แต่โลกเริ่มมองผ่านอุบายนี้ เราจำเป็นต้องละทิ้งความพยายามในช่วงต้นศตวรรษที่ 20 โดยนักสถิติเพื่อควบคุมการตัดสินใจ เราต้องกลับไปที่สิ่งที่ใช้งานได้จริง ข้อเสนอ ASS อย่างเป็นทางการคือ: แทนที่ค่า p, ASS สนับสนุน STOP (ขั้นตอนการ SeaT-Of-Pants) วิธีการที่ได้รับเกียรติและผ่านการทดสอบครั้งนี้ถูกใช้โดยชาวกรีกโบราณชายยุคฟื้นฟูศิลปวิทยาและนักวิทยาศาสตร์ทุกคนจนกระทั่งโรนัลด์ฟิชเชอร์เข้ามาและทำลายสิ่งต่างๆ STOP นั้นง่ายตรงตามข้อมูลและเชื่อถือได้ เพื่อดำเนินการร่างอำนาจ (ชายที่มีอายุมากกว่าโดยการตั้งค่า) ตรวจสอบข้อมูลและตัดสินใจว่าพวกเขาเห็นด้วยกับความเห็นของเขา เมื่อเขาตัดสินใจว่าจะทำผลก็คือ“ สำคัญ” มิฉะนั้นแล้วมันก็ไม่ใช่และทุกคนจะต้องลืมเรื่องทั้งหมด หลักการ การตอบสนองที่อยู่ของแต่ละหกหลักการ ASA STOP สามารถระบุว่าข้อมูลไม่เข้ากันกับแบบจำลองทางสถิติที่ระบุได้อย่างไร เราชอบวลีนี้เพราะมันเป็นวิธีแฟนซีในการบอกว่า …

3
การอ้างอิงที่มีข้อโต้แย้งเปรียบเทียบกับการทดสอบนัยสำคัญสมมุติฐานว่าง?
ในช่วงไม่กี่ปีที่ผ่านมาฉันได้อ่านเอกสารจำนวนหนึ่งที่โต้แย้งการใช้การทดสอบสมมติฐานที่ไม่มีนัยสำคัญทางวิทยาศาสตร์ในทางวิทยาศาสตร์ แต่ไม่คิดว่าจะเก็บรายการถาวร เมื่อเร็ว ๆ นี้มีเพื่อนร่วมงานคนหนึ่งขอให้ฉันทำรายการแบบนี้ฉันคิดว่าฉันจะขอให้ทุกคนที่นี่ช่วยสร้างมันขึ้นมา เพื่อเริ่มต้นสิ่งต่าง ๆ นี่คือสิ่งที่ฉันมีจนถึงตอนนี้: Johansson (2011) "ยกย่องสิ่งที่เป็นไปไม่ได้: ค่า p, หลักฐานและความน่าจะเป็น" Haller & Kraus (2002) "การตีความความหมายที่ผิด: นักเรียนมีปัญหาแบ่งปันกับครู" Wagenmakers (2007) "วิธีแก้ปัญหาที่ใช้งานได้จริงเพื่อแก้ไขปัญหา p-values" Rodgers (2010) "ญาณวิทยาของการสร้างแบบจำลองทางคณิตศาสตร์และสถิติ: การปฏิวัติระเบียบวิธีที่เงียบสงบ" Dixon (1998) "ทำไมนักวิทยาศาสตร์ถึงให้คุณค่ากับค่า p" Glover & Dixon (2004) "อัตราส่วนความน่าจะเป็น: สถิติที่ง่ายและยืดหยุ่นสำหรับนักจิตวิทยาเชิงประจักษ์"

10
“ นักวิทยาศาสตร์ลุกขึ้นเทียบกับนัยสำคัญทางสถิติ” หมายความว่าอะไร? (ความคิดเห็นในธรรมชาติ)
ชื่อของความคิดเห็นในนักวิทยาศาสตร์ธรรมชาติลุกขึ้นต่อต้านความสำคัญทางสถิติเริ่มต้นด้วย: Valentin Amrhein, Sander Greenland, Blake McShane และผู้ลงนามมากกว่า 800 คนเรียกร้องให้ยุติการเรียกร้องค่าสินไหมทดแทนและการยกเลิกผลกระทบที่สำคัญ และหลังจากนั้นมีข้อความเช่น: อีกครั้งเราจะไม่สนับสนุนการห้ามค่า P ช่วงเวลาความเชื่อมั่นหรือมาตรการทางสถิติอื่น ๆ - เฉพาะที่เราไม่ควรปฏิบัติต่อพวกเขาอย่างเด็ดขาด ซึ่งรวมถึงการแบ่งแยกขั้วที่มีนัยสำคัญทางสถิติหรือไม่รวมถึงการจัดหมวดหมู่ตามมาตรการทางสถิติอื่น ๆ เช่นปัจจัย Bayes ฉันคิดว่าฉันสามารถเข้าใจได้ว่าภาพด้านล่างไม่ได้บอกว่าการศึกษาทั้งสองไม่เห็นด้วยเพราะ "กฎ" ไม่มีผลในขณะที่อีกคนไม่ทำ แต่บทความดูเหมือนจะลึกลงไปมากกว่าที่ฉันเข้าใจได้ ในตอนท้ายดูเหมือนว่าจะมีการสรุปในสี่จุด เป็นไปได้หรือไม่ที่จะสรุปสิ่งเหล่านี้ด้วยคำศัพท์ที่ง่ายขึ้นสำหรับพวกเราที่อ่านสถิติแทนที่จะเขียนมัน? เมื่อพูดถึงช่วงเวลาที่ใช้งานร่วมกันได้โปรดคำนึงถึงสี่สิ่ง ก่อนอื่นเพียงเพราะช่วงเวลาให้ค่าที่เข้ากันได้กับข้อมูลมากที่สุดเนื่องจากข้อสมมติฐานมันไม่ได้หมายความว่าค่าภายนอกนั้นไม่เข้ากัน พวกมันเข้ากันได้น้อยกว่า ... ประการที่สองค่าทั้งหมดภายในไม่สามารถใช้งานร่วมกันกับข้อมูลได้อย่างเท่าเทียมกันเนื่องจากข้อสมมติฐาน ... ประการที่สามเช่นเดียวกับขีด จำกัด 0.05 ที่มาถึงค่าเริ่มต้น 95% ที่ใช้ในการคำนวณช่วงเวลานั้นเป็นข้อตกลงโดยพลการ ... สุดท้ายและที่สำคัญที่สุดคือจงอ่อนน้อม: การประเมินความเข้ากันได้นั้นขึ้นอยู่กับความถูกต้องของสมมติฐานทางสถิติที่ใช้ในการคำนวณช่วงเวลา ...

12
การทดสอบสองด้าน…ฉันไม่มั่นใจ ประเด็นคืออะไร?
ข้อความที่ตัดตอนมาต่อไปนี้มาจากการเข้า, อะไรคือความแตกต่างระหว่างการทดสอบแบบด้านเดียวและแบบสองด้าน? บนเว็บไซต์ช่วยเหลือสถิติของ UCLA ... พิจารณาถึงผลที่จะตามมาจากการขาดหายไปในทิศทางอื่น ลองนึกภาพคุณได้พัฒนายาใหม่ที่คุณเชื่อว่าเป็นการพัฒนายาที่มีอยู่เดิม คุณต้องการเพิ่มความสามารถในการตรวจจับการปรับปรุงให้สูงสุดเพื่อที่คุณจะได้เลือกการทดสอบแบบด้านเดียว ในการทำเช่นนี้คุณไม่สามารถทดสอบความเป็นไปได้ที่ยาใหม่จะมีประสิทธิภาพน้อยกว่ายาที่มีอยู่เดิม หลังจากเรียนรู้พื้นฐานที่แน่นอนของการทดสอบสมมติฐานและไปที่ส่วนเกี่ยวกับการทดสอบแบบเทลด์ vs การทดสอบสองแบบ ... ฉันเข้าใจคณิตศาสตร์พื้นฐานและความสามารถในการตรวจจับที่เพิ่มขึ้นของการทดสอบแบบเทลด์หนึ่งการทดสอบ ฯลฯ ... แต่ฉันไม่สามารถพันรอบศีรษะ รอบ ๆ สิ่งหนึ่ง ... ประเด็นคืออะไร? ฉันล้มเหลวที่จะเข้าใจว่าทำไมคุณควรแยกอัลฟ่าของคุณระหว่างสุดขั้วทั้งสองเมื่อผลลัพธ์ตัวอย่างของคุณสามารถเป็นหนึ่งหรืออย่างอื่นหรือทั้งสองอย่าง ใช้สถานการณ์ตัวอย่างจากข้อความที่ยกมาด้านบน คุณอาจจะ "ล้มเหลวในการทดสอบ" สำหรับผลลัพธ์ในทิศทางตรงกันข้ามได้อย่างไร? คุณมีค่าเฉลี่ยตัวอย่าง คุณมีค่าเฉลี่ยประชากรของคุณ เลขคณิตอย่างง่ายจะบอกให้คุณทราบว่าอะไรสูงกว่า มีการทดสอบอะไรหรือล้มเหลวในการทดสอบในทิศทางตรงกันข้าม สิ่งที่หยุดคุณเพิ่งเริ่มต้นจากศูนย์ด้วยสมมติฐานตรงกันข้ามถ้าคุณเห็นชัดเจนว่าค่าเฉลี่ยตัวอย่างจะไปในทิศทางอื่น? อ้างจากหน้าเดียวกันอีก: การเลือกการทดสอบแบบหนึ่งด้านหลังจากรันการทดสอบแบบสองด้านที่ล้มเหลวในการปฏิเสธสมมติฐานว่างไม่เหมาะสมไม่ว่า "ปิด" ถึงการทดสอบแบบสองด้านนั้นมีนัยสำคัญก็ตาม ฉันคิดว่าสิ่งนี้ยังใช้กับการสลับขั้วของการทดสอบแบบด้านเดียว แต่วิธีนี้ "หมอ" ส่งผลให้ถูกต้องน้อยกว่าถ้าคุณเพียงแค่เลือกการทดสอบหนึ่งด้านที่ถูกต้องในตอนแรก? เห็นได้ชัดว่าฉันพลาดภาพส่วนใหญ่ที่นี่ ทุกอย่างดูเหมือนจะไม่เจาะจงเกินไป ซึ่งก็คือฉันคิดว่าในแง่ที่สิ่งที่หมายถึง "นัยสำคัญทางสถิติ" - 95%, 99%, 99.9% ... โดยพลการเริ่มต้นด้วย

3
อธิบายการ์ตูน xkcd jelly bean: อะไรทำให้ตลก?
ฉันเห็นว่าหนึ่งครั้งจากการทดสอบทั้งหมดยี่สิบครั้งที่พวกเขารันดังนั้นพวกเขาจึงคิดผิด ๆ ว่าในช่วงหนึ่งของการทดสอบยี่สิบครั้งผลลัพธ์จะมีนัยสำคัญ ( )0.05 = 1 / 20p &lt; 0.05p&lt;0.05p < 0.050.05 = 1 / 200.05=1/200.05 = 1/20 xkcd jelly bean comic - "สำคัญ" หัวข้อ: สำคัญ ข้อความโฉบ: "'งั้นเอ่อเราได้ทำการศึกษาสีเขียวอีกครั้งและไม่มีการเชื่อมโยงมันอาจเป็น -' 'การวิจัยมีความขัดแย้งกับการเชื่อมโยงสีเขียวของถั่วเขียว / สิว;

6
“ ลูกผสม” ระหว่างฟิชเชอร์และเนย์แมน - เพียร์สันใกล้ถึงวิธีการทดสอบทางสถิติจริงๆแล้วเป็น
มีโรงเรียนแห่งความคิดบางแห่งตามที่วิธีการทดสอบทางสถิติที่แพร่หลายที่สุดคือ "ลูกผสม" ระหว่างสองวิธี: ฟิชเชอร์และเนย์แมน - เพียร์สัน; ทั้งสองวิธีการเรียกร้องไปเป็น "เข้ากันไม่ได้" และด้วยเหตุนี้ "ลูกผสม" ที่เกิดขึ้นจึงเป็น "ยำ mashmash" ฉันจะให้บรรณานุกรมและคำพูดบางส่วนด้านล่าง แต่ตอนนี้พอจะพูดได้ว่ามีจำนวนมากที่เขียนเกี่ยวกับว่าในบทความวิกิพีเดียในการทดสอบสมมติฐานทางสถิติ ที่นี่บน CV จุดนี้ทำซ้ำโดย @Michael Lew (ดูที่นี่และที่นี่ ) คำถามของฉันคือ: ทำไม F และ NP ถึงวิธีอ้างว่าไม่เข้ากันและทำไมไฮบริดที่อ้างว่าไม่สอดคล้องกัน? โปรดทราบว่าฉันอ่านเอกสารต่อต้านไฮบริดอย่างน้อยหกฉบับ (ดูด้านล่าง) แต่ก็ยังไม่เข้าใจปัญหาหรือข้อโต้แย้ง สังเกตว่าฉันไม่แนะนำให้อภิปรายว่า F หรือ NP เป็นวิธีที่ดีกว่าหรือไม่ ฉันไม่เสนอที่จะพูดคุยเกี่ยวกับกรอบบ่อยครั้งกับเบย์ แต่คำถามคือการยอมรับว่าทั้ง F และ NP เป็นวิธีที่ถูกต้องและมีความหมายอะไรที่แย่เกี่ยวกับลูกผสมของพวกเขา นี่คือวิธีที่ฉันเข้าใจสถานการณ์ วิธีการของฟิชเชอร์คือการคำนวณค่าและใช้เป็นหลักฐานต่อสมมติฐานว่าง ยิ่งเล็กเท่าไหร่หลักฐานก็ยิ่งน่าเชื่อถือมากเท่านั้น ผู้วิจัยควรรวมหลักฐานนี้กับความรู้พื้นฐานของเขาตัดสินใจว่ามันน่าเชื่อถือเพียงพอและดำเนินการต่อไป (หมายเหตุว่ามุมมองของฟิชเชอร์การเปลี่ยนแปลงในช่วงปีที่ผ่านมา แต่นี่คือสิ่งที่เขาดูเหมือนว่าจะมีการแปรสภาพในที่สุดก็ไป.) ในทางตรงกันข้ามวิธี Neyman …

2
เราจำเป็นต้องมีการทดสอบระดับโลกก่อนการทดสอบแบบโพสต์เฉพาะกิจหรือไม่?
ฉันมักจะได้ยินว่าการทดสอบโพสต์เฉพาะกิจหลังจาก ANOVA สามารถใช้ได้เฉพาะในกรณีที่ ANOVA นั้นมีความสำคัญ อย่างไรก็ตามการทดสอบโพสต์เฉพาะกิจจะปรับค่าเพื่อให้อัตราการพิมพ์ผิดพลาดทั่วโลกอยู่ที่ 5% ใช่ไหม?ppp แล้วทำไมเราต้องมีการทดสอบระดับโลกก่อน หากเราไม่ต้องการการทดสอบระดับโลกคำศัพท์ "post hoc" ถูกต้องหรือไม่ หรือมีการทดสอบหลังจบหลายแบบบางคนคิดว่าเป็นผลการทดสอบระดับโลกที่สำคัญและอื่น ๆ โดยไม่มีข้อสันนิษฐานนั้น?

4
การคำนวณค่า P ด้วยตนเองจาก t-value ใน t-test
ฉันมีชุดข้อมูลตัวอย่างที่มี 31 ค่า ฉันใช้การทดสอบสองทางโดยใช้ R เพื่อทดสอบว่าค่าเฉลี่ยจริงเท่ากับ 10: t.test(x=data, mu=10, conf.level=0.95) เอาท์พุท: t = 11.244, df = 30, p-value = 2.786e-12 alternative hypothesis: true mean is not equal to 10 95 percent confidence interval: 19.18980 23.26907 sample estimates: mean of x 21.22944 ตอนนี้ฉันกำลังพยายามทำสิ่งเดียวกันด้วยตนเอง: t.value = (mean(data) - 10) / (sd(data) / …

7
ทำไม“ สำคัญทางสถิติ” ไม่เพียงพอ?
ฉันเสร็จสิ้นการวิเคราะห์ข้อมูลและได้รับ "ผลลัพธ์ที่มีนัยสำคัญทางสถิติ" ซึ่งสอดคล้องกับสมมติฐานของฉัน อย่างไรก็ตามนักเรียนในสถิติบอกว่านี่เป็นข้อสรุปก่อนวัยอันควร ทำไม? จำเป็นต้องมีสิ่งอื่นอีกไหมในรายงานของฉัน?

3
การแปลความหมายของตัวทำนายการแปลงสภาพบันทึกและ / หรือการตอบสนอง
ฉันสงสัยว่ามันจะสร้างความแตกต่างในการตีความไม่ว่าจะเป็นเพียงขึ้นอยู่กับทั้งขึ้นอยู่กับและเป็นอิสระหรือตัวแปรอิสระเท่านั้นที่ถูกเปลี่ยนเข้าสู่ระบบ พิจารณากรณีของ log(DV) = Intercept + B1*IV + Error ฉันสามารถตีความ IV เป็นเปอร์เซ็นต์เพิ่มขึ้น แต่จะเปลี่ยนแปลงได้อย่างไรเมื่อฉันมี log(DV) = Intercept + B1*log(IV) + Error หรือเมื่อฉันมี DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

4
ทำไมนักสถิติบอกว่าผลลัพธ์ที่ไม่สำคัญหมายความว่า“ คุณไม่สามารถปฏิเสธโมฆะ” ได้เมื่อเทียบกับการยอมรับสมมติฐานว่าง
การทดสอบทางสถิติแบบดั้งเดิมเช่นการทดสอบตัวอย่างสองตัวอย่างให้ความสำคัญกับการพยายามกำจัดสมมติฐานที่ไม่มีความแตกต่างระหว่างฟังก์ชั่นของสองตัวอย่างอิสระ จากนั้นเราเลือกระดับความเชื่อมั่นและบอกว่าหากความแตกต่างของค่าเฉลี่ยอยู่เกินระดับ 95% เราสามารถปฏิเสธสมมติฐานว่างได้ ถ้าไม่ใช่เรา "ไม่สามารถปฏิเสธสมมติฐานว่างได้" นี่ดูเหมือนจะบอกเป็นนัยว่าเราไม่สามารถยอมรับได้เช่นกัน หมายความว่าเราไม่แน่ใจว่าสมมุติฐานว่างเป็นจริงหรือไม่? ตอนนี้ฉันต้องการออกแบบการทดสอบโดยที่สมมติฐานของฉันคือหน้าที่ของสองตัวอย่างนั้นเหมือนกัน (ซึ่งตรงกันข้ามกับการทดสอบสถิติแบบดั้งเดิมโดยที่สมมติฐานนั้นคือทั้งสองตัวอย่างนั้นแตกต่างกัน) สมมุติฐานว่างของฉันกลายเป็นว่าทั้งสองตัวอย่างต่างกัน ฉันจะออกแบบการทดสอบได้อย่างไร? มันจะง่ายเหมือนการบอกว่าถ้า p-value น้อยกว่า 5% เราสามารถยอมรับสมมติฐานที่ว่าไม่มีความแตกต่างอย่างมีนัยสำคัญ?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.