คำถามติดแท็ก statistical-significance

นัยสำคัญทางสถิติหมายถึงความน่าจะเป็นที่ถ้าในประชากรที่ตัวอย่างนี้ถูกดึงออกมาผลที่แท้จริงคือ 0 (หรือค่าที่ตั้งสมมติฐานไว้บางส่วน) สถิติทดสอบที่มากหรือสุดขั้วเกินกว่าที่จะเกิดขึ้นในกลุ่มตัวอย่าง

2
ตรวจสอบความถูกต้องของการทดสอบเว็บ / b ด้วยการเรียกใช้การทดสอบอีกครั้ง - สิ่งนี้ถูกต้องหรือไม่
การสัมมนาทางเว็บในวันอื่น ๆ โดย บริษัท ทดสอบ a / b มีผู้อยู่อาศัย "นักวิทยาศาสตร์ข้อมูล" ของพวกเขาอธิบายว่าคุณควรตรวจสอบความถูกต้องของผลลัพธ์ของคุณโดยทำการทดสอบอีกครั้ง สถานที่ตั้งคือถ้าคุณเลือกความมั่นใจ 95% มีโอกาส 5% (1/20) ของการบวกผิด หากคุณเรียกใช้การทดสอบอีกครั้งด้วยข้อ จำกัด เดียวกันตอนนี้มี 1/400 (ฉันสมมติว่าพวกเขาระบุว่าเป็น 0.05 ^ 2 = 1/400) นี่เป็นคำสั่งที่ถูกต้องหรือไม่? (กล่าวคือ "รันสองครั้งความสำคัญทางสถิติทั้งสองชนะ = ความน่าจะเป็นที่ผิดพลาด 1/400 บวก")? เป็นวิธีที่ดีกว่าหรือไม่ที่จะเพิ่มระดับนัยสำคัญของคุณ? จากมุมมองทางธุรกิจสิ่งที่ฉันกังวลคือการเรียกใช้การทดสอบอีกครั้งคุณกำลังเปิดเผยผู้ใช้มากขึ้นไปยังหน้าเว็บที่ด้อยกว่า (การรักษา) และทำให้ยอดขายที่อาจเกิดขึ้นลดลง

2
มันหมายความว่าอย่างไรเมื่อทุกขอบในเครือข่าย / กราฟในโลกแห่งความเป็นจริงมีความเป็นไปได้ที่จะเกิดขึ้นโดยบังเอิญ
ฉันใช้วิธีการแยกเครือข่ายกระดูกสันหลังที่ระบุไว้ในบทความนี้: http://www.pnas.org/content/106/16/6483.abstract โดยทั่วไปผู้เขียนเสนอวิธีการตามสถิติที่ก่อให้เกิดความน่าจะเป็นสำหรับแต่ละขอบของกราฟที่เกิดขึ้นโดยบังเอิญ ฉันใช้การตัดนัยสำคัญทางสถิติทั่วไปที่ 0.05 ฉันใช้วิธีนี้กับเครือข่ายในโลกแห่งความจริงหลายแห่งและบางเครือข่ายก็น่าสนใจที่ไม่มีอะไรจะสำคัญ ฉันพยายามที่จะเข้าใจว่าสิ่งนี้เกี่ยวข้องกับเครือข่าย เวลาอื่นที่ฉันใช้วิธีการกับเครือข่ายและไม่มีขอบออกมาเป็นสำคัญคือเมื่อฉันใช้วิธีการกับเครือข่ายแบบสุ่มที่ฉันสร้างขึ้นซึ่งเป็นสิ่งที่เราคาดหวัง ในฐานะที่เป็นตัวอย่างเครือข่ายโลกแห่งความจริงคุณอาจเห็นภาพเครือข่ายล่าสุดที่เกิดขึ้นกับนักเศรษฐศาสตร์ซึ่งแสดงให้เห็นถึงการแบ่งขั้วของวุฒิสภาสหรัฐอเมริกาในช่วง 25 ปีที่ผ่านมา: http://www.economist.com/news/united-states/21591190 -United ฉันใช้วิธีการแยกเครือข่ายกระดูกสันหลังกับเครือข่ายเหล่านั้นและไม่มีขอบปรากฏขึ้นอย่างมีนัยสำคัญ ถึงแม้ว่าขอบดิบจะแสดงสิ่งที่แนบและการจัดกลุ่มแบบพิเศษ แต่ก็เป็นไปได้หรือไม่ เครือข่ายการลงคะแนนของวุฒิสภาเป็นแบบสุ่มหรือไม่

7
คุณจะอธิบายความสำคัญทางสถิติต่อผู้ที่ไม่มีพื้นฐานทางสถิติได้อย่างไร
ที่มา: ฉันต้องทำการวิเคราะห์ข้อมูลสำหรับลูกค้า (ทนายความบางประเภท) ซึ่งเป็นผู้เริ่มต้นแน่นอนในสถิติ เขาถามฉันว่าคำว่า "นัยสำคัญทางสถิติ" หมายถึงอะไรและฉันพยายามอธิบายจริงๆ ... แต่เนื่องจากฉันไม่เก่งในการอธิบายสิ่งที่ฉันล้มเหลว;)

2
ตัวพยากรณ์ที่สำคัญไม่ได้มีนัยสำคัญในการถดถอยหลายครั้ง
เมื่อฉันวิเคราะห์ตัวแปรของฉันในแบบจำลองการถดถอยโลจิสติกสองแบบที่แยกกัน Predictor 1: B= 1.049, SE=.352, Exp(B)=2.85, 95% CI=(1.43, 5.69), p=.003 Constant: B=-0.434, SE=.217, Exp(B)=0.65, p=.046 Predictor 2: B= 1.379, SE=.386, Exp(B)=3.97, 95% CI=(1.86, 8.47), p<.001 Constant: B=-0.447, SE=.205, Exp(B)=0.64, p=.029 แต่เมื่อฉันป้อนลงในโมเดลการถดถอยโลจิสติกหลายรายการเดียวฉันจะได้รับ: Predictor 1: B= 0.556, SE=.406, Exp(B)=1.74, 95% CI=(0.79, 3.86), p=.171 Predictor 2: B= 1.094, SE=.436, Exp(B)=2.99, 95% CI=(1.27, …

1
การพิจารณาว่าการเปลี่ยนแปลงในอนุกรมเวลามีนัยสำคัญทางสถิติหรือไม่
ฉันมีจำนวนการโทรทั้งหมดที่ได้รับในแต่ละสัปดาห์และได้วางแผนไว้ในแผนภูมิย้อนกลับไปเกือบ 3 ปี ดูเหมือนว่าในวันคริสต์มาสจะมีการลดลงครั้งใหญ่ซึ่งดูเหมือนว่าจะไม่สามารถฟื้นตัวได้ดูเหมือนว่ามีการเปลี่ยนแปลงขั้นตอนในการร้องขอ มีการทดสอบที่ฉันสามารถทำได้ที่สามารถวัดความแตกต่างนี้ได้หรือไม่? ไชโย เบน

4
การศึกษามีความหมายมากเกินไปหมายความว่าอย่างไร
การศึกษามีความหมายมากเกินไปหมายความว่าอย่างไร ความประทับใจของฉันคือมันหมายความว่าขนาดตัวอย่างของคุณมีขนาดใหญ่มากจนคุณมีอำนาจในการตรวจจับขนาดเอฟเฟกต์จิ๋ว ขนาดของเอฟเฟกต์เหล่านี้อาจมีขนาดเล็กจนพวกมันมีแนวโน้มที่จะเป็นผลมาจากความเอนเอียงเล็กน้อยในกระบวนการสุ่มตัวอย่างมากกว่าการเชื่อมต่อเชิงสาเหตุ (ไม่จำเป็นโดยตรง) ระหว่างตัวแปร นี่เป็นสัญชาตญาณที่ถูกต้องหรือไม่? ถ้าเป็นเช่นนั้นฉันไม่เห็นว่าเรื่องใหญ่คืออะไรตราบใดที่ผลลัพธ์ถูกตีความในแสงนั้นและคุณตรวจสอบด้วยตนเองและดูว่าขนาดของเอฟเฟกต์โดยประมาณนั้นใหญ่พอที่จะ "มีความหมาย" หรือไม่ ฉันพลาดอะไรไปรึเปล่า? มีข้อเสนอแนะที่ดีกว่าว่าจะทำอย่างไรในสถานการณ์นี้?

4
ตัวอย่างของการศึกษาโดยใช้ p <0.001, p <0.0001 หรือแม้แต่ค่า p ต่ำกว่า?
ฉันมาจากสังคมศาสตร์โดยที่ p &lt;0.05 เป็นบรรทัดฐานค่อนข้างมากโดยที่ p &lt;0.1 และ p &lt;0.01 ก็ปรากฏขึ้นด้วย แต่ฉันสงสัยว่า: สาขาวิชาใดถ้ามีให้ใช้ค่า p ต่ำกว่าเป็นเรื่องธรรมดา มาตรฐาน?

2
p-values“ เสรี”
คำถามของฉันค่อนข้างมีความหมาย เมื่อเมธอดสร้างค่า p สูงเป็นประจำจะเรียกว่าการอนุรักษ์ คุณจะเรียกสิ่งที่ตรงกันข้ามนั่นคือวิธีการที่มีอัตราการพิมพ์ผิดพลาดสูงหรือไม่?

1
R / mgcv: เพราะเหตุใดผลิตภัณฑ์ te () และ ti () เทนเซอร์จึงให้พื้นผิวที่แตกต่างกัน
mgcvแพคเกจสำหรับการRมีสองฟังก์ชั่นสำหรับการปฏิสัมพันธ์กระชับเมตริกซ์ผลิตภัณฑ์: และte() ti()ฉันเข้าใจการแบ่งขั้นพื้นฐานของการใช้แรงงานระหว่างคนทั้งสอง (ปรับให้เหมาะสมกับการทำงานแบบไม่เป็นเชิงเส้นเปรียบเทียบกับการย่อยสลายการโต้ตอบนี้เป็นผลกระทบหลักและการโต้ตอบ) สิ่งที่ฉันไม่เข้าใจคือสาเหตุte(x1, x2)และti(x1) + ti(x2) + ti(x1, x2)อาจให้ผลลัพธ์ที่แตกต่าง (เล็กน้อย) MWE (ดัดแปลงมาจาก?ti): require(mgcv) test1 &lt;- function(x,z,sx=0.3,sz=0.4) { x &lt;- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n &lt;- 500 x &lt;- runif(n)/20;z &lt;- runif(n); xs &lt;- seq(0,1,length=30)/20;zs &lt;- seq(0,1,length=30) pr &lt;- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth &lt;- matrix(test1(pr$x,pr$z),30,30) f &lt;- test1(x,z) y &lt;- f …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
ความสำคัญของสัมประสิทธิ์สหสัมพันธ์เฉลี่ย
ข้อจำกัดความรับผิดชอบ: หากคุณพบว่าคำถามนี้คล้ายกับคำถามอื่นมากเกินไปฉันยินดีที่จะรวมเข้าด้วยกัน อย่างไรก็ตามฉันไม่พบคำตอบที่น่าพอใจที่อื่น (และยังไม่มี "ชื่อเสียง" ที่จะแสดงความคิดเห็นหรือ upvote) ดังนั้นฉันคิดว่ามันเป็นการดีที่สุดที่จะถามคำถามใหม่ด้วยตัวเอง คำถามของฉันคือสิ่งนี้ สำหรับวิชามนุษย์ 12 คนฉันได้คำนวณค่าสัมประสิทธิ์สหสัมพันธ์ (Spearman's rho) ระหว่าง 6 ระดับของตัวแปรอิสระ X และการสังเกตที่สอดคล้องกันของตัวแปรตาม Y (หมายเหตุ: ระดับของ X ไม่เท่ากันในทุกวิชา) สมมุติฐานว่างคือในประชากรทั่วไปความสัมพันธ์นี้เท่ากับศูนย์ ฉันได้ทดสอบสมมติฐานนี้สองวิธี: ใช้การทดสอบทีหนึ่งตัวอย่างในสัมประสิทธิ์สหสัมพันธ์ที่ได้รับจาก 12 วิชาของฉัน โดยการจัดศูนย์กลางของระดับ X และการสังเกตของ Y เช่นนั้นสำหรับผู้เข้าร่วมแต่ละคนค่าเฉลี่ย (X) = 0 และค่าเฉลี่ย (Y) = 0 จากนั้นคำนวณความสัมพันธ์กับข้อมูลรวม (72 ระดับของ X และ 72 การสังเกตของ Y) . …

1
สองวิธีของการทดสอบนัยสำคัญ bootstrap
การใช้ bootstrap ฉันคำนวณค่า p ของการทดสอบนัยสำคัญโดยใช้สองวิธี: resampling ภายใต้สมมติฐานว่างและนับผลลัพธ์อย่างน้อยที่สุดเท่าที่ผลลัพธ์มาจากข้อมูลต้นฉบับ การ resampling ใหม่ภายใต้สมมติฐานทางเลือกและการนับผลลัพธ์อย่างน้อยที่สุดห่างจากผลลัพธ์ดั้งเดิมเป็นค่าที่สอดคล้องกับสมมติฐานว่าง ผมเชื่อว่า 1 เซนต์วิธีการที่ถูกต้องทั้งหมดเป็นไปตามความหมายของค่าเอพี ฉันไม่ค่อยแน่ใจเกี่ยวกับวินาที แต่มักจะให้ผลลัพธ์ที่คล้ายกันมากและเตือนให้ฉันทดสอบ Wald ฉันถูกไหม? วิธีการทั้งสองถูกต้องหรือไม่ พวกเขาเหมือนกัน (สำหรับตัวอย่างขนาดใหญ่) หรือไม่ ตัวอย่างสำหรับทั้งสองวิธี (แก้ไขหลังจากคำถามของ DWIN และคำตอบของ Erik): ตัวอย่างที่ 1 ลองสร้างการทดสอบบูตสแตรปเหมือนกับการทดสอบ T สองตัวอย่าง วิธีที่ 1 จะสุ่มตัวอย่างจากตัวอย่างหนึ่ง (ได้จากการรวมสองต้นฉบับ) วิธีที่ 2 จะสุ่มตัวอย่างจากตัวอย่างทั้งสองอย่างอิสระ ตัวอย่างที่ 2 เรามาสร้าง bootstrap test ของสหสัมพันธ์ระหว่างx₁…xₐและy₁…yₐ วิธีที่ 1 จะไม่ถือว่ามีความสัมพันธ์และการสุ่มตัวอย่างใหม่อนุญาตสำหรับคู่ (xₑ, yₔ) โดยที่≠ …

1
ฟิชเชอร์ทดสอบใน R
สมมติว่าเรามีชุดข้อมูลต่อไปนี้: Men Women Dieting 10 30 Non-dieting 5 60 ถ้าฉันใช้การทดสอบที่แน่นอนของฟิชเชอร์ใน R ดังนั้นอะไรalternative = greater(หรือน้อยกว่า) หมายถึงอะไร ตัวอย่างเช่น: mat = matrix(c(10,5,30,60), 2,2) fisher.test(mat, alternative="greater") ฉันจะได้รับและp-value = 0.01588 odds ratio = 3.943534นอกจากนี้เมื่อฉันพลิกแถวของตารางฉุกเฉินเช่นนี้ mat = matrix(c(5,10,60,30), 2, 2) fisher.test(mat, alternative="greater") แล้วฉันจะได้รับและp-value = 0.9967 odds ratio = 0.2535796แต่เมื่อผมทำงานตารางสองฉุกเฉินโดยไม่มีข้อโต้แย้งทางเลือก (เช่นfisher.test(mat)) p-value = 0.02063แล้วฉันจะได้รับ คุณช่วยอธิบายเหตุผลให้ฉันได้ไหม นอกจากนี้สมมติฐานว่างและสมมติฐานทางเลือกในกรณีข้างต้นคืออะไร? ฉันสามารถทำการทดสอบการประมงบนโต๊ะฉุกเฉินได้ไหม …

3
การคำนวณค่า p ในกำลังสองน้อยที่สุด (ไม่เป็นลบ) ข้อ จำกัด
ฉันใช้ Matlab เพื่อดำเนินการแบบไม่ จำกัด สแควร์น้อย (กำลังสองน้อยที่สุดธรรมดา) และมันจะส่งออกสัมประสิทธิ์, สถิติการทดสอบและค่า p โดยอัตโนมัติ คำถามของฉันคือเมื่อทำการ จำกัด กำลังสองน้อยสุด (สัมประสิทธิ์ nonnegative อย่างเคร่งครัด), มันจะออกเฉพาะค่าสัมประสิทธิ์, ไม่มีสถิติทดสอบ, ค่า p เป็นไปได้หรือไม่ที่จะคำนวณค่าเหล่านี้เพื่อให้แน่ใจว่ามีความสำคัญ? และทำไมถึงไม่สามารถใช้งานได้โดยตรงบนซอฟต์แวร์ (หรือซอฟต์แวร์อื่น ๆ สำหรับเรื่องนั้น)

2
การทดสอบสัมประสิทธิ์นัยสำคัญในการถดถอยโลจิสติก Lasso
[คำถามที่คล้ายกันถูกถามที่นี่โดยไม่มีคำตอบ] ฉันมีโมเดลการถดถอยโลจิสติกที่มีการทำให้เป็นมาตรฐาน L1 (การถดถอยโลจิสติก Lasso) และฉันต้องการทดสอบค่าสัมประสิทธิ์ที่เหมาะสมสำหรับความสำคัญและรับค่า p ของพวกเขา ฉันรู้ว่าการทดสอบของ Wald (ตัวอย่าง) เป็นตัวเลือกในการทดสอบความสำคัญของสัมประสิทธิ์ส่วนบุคคลในการถดถอยแบบเต็มโดยไม่มีการทำให้เป็นมาตรฐาน แต่ด้วย Lasso ฉันคิดว่าปัญหาอื่น ๆ เกิดขึ้นซึ่งไม่อนุญาตให้ใช้สูตร Wald ตามปกติ ตัวอย่างเช่นการประมาณค่าความแปรปรวน neded สำหรับการทดสอบไม่เป็นไปตามการแสดงออกปกติ กระดาษ Lasso ดั้งเดิม http://statweb.stanford.edu/~tibs/lasso/lasso.pdf แนะนำให้ใช้ขั้นตอนการบูตบู๊ตเพื่อประเมินความแปรปรวนของสัมประสิทธิ์ซึ่งอาจต้องใช้ (อีกครั้งฉันคิดว่า) สำหรับการทดสอบ (ส่วน 2.5 วรรคสุดท้ายของหน้า 272 และจุดเริ่มต้นที่ 273): วิธีการหนึ่งคือผ่าน bootstrap:สามารถแก้ไขได้หรือเราอาจปรับให้เหมาะสมกับสำหรับตัวอย่าง bootstrap แต่ละตัวอย่าง การแก้ไขนั้นคล้ายคลึงกับการเลือกชุดย่อยที่ดีที่สุด ( จากคุณสมบัติ ) แล้วใช้ข้อผิดพลาดมาตรฐานกำลังสองน้อยที่สุดสำหรับชุดย่อยนั้นเสื้อเสื้อtเสื้อเสื้อtเสื้อเสื้อt สิ่งที่ฉันเข้าใจคือ: ติดตั้ง Lasso regression ซ้ำ ๆ …

2
เปรียบเทียบนัยสำคัญทางสถิติของความแตกต่างระหว่างการถดถอยพหุนามทั้งสองใน R
ดังนั้นก่อนอื่นเลยฉันทำการค้นคว้าเกี่ยวกับฟอรัมนี้และฉันรู้ว่ามี คำถามที่คล้ายกันมากถูกถาม แต่พวกเขามักจะไม่ได้รับคำตอบที่ถูกต้องหรือบางครั้งคำตอบนั้นไม่ละเอียดพอที่จะเข้าใจ ดังนั้นเวลานี้คำถามของฉันคือฉันมีชุดข้อมูลสองชุดในแต่ละชุดฉันทำการถดถอยพหุนามดังนี้: Ratio&lt;-(mydata2[,c(2)]) Time_in_days&lt;-(mydata2[,c(1)]) fit3IRC &lt;- lm( Ratio~(poly(Time_in_days,2)) ) พหุนามถดถอยพหุนามคือ: ค่าสัมประสิทธิ์คือ: &gt; as.vector(coef(fit3CN)) [1] -0.9751726 -4.0876782 0.6860041 &gt; as.vector(coef(fit3IRC)) [1] -1.1446297 -5.4449486 0.5883757 และตอนนี้ฉันอยากรู้ว่าถ้ามีวิธีใช้ฟังก์ชัน R เพื่อทำการทดสอบที่จะบอกฉันว่ามีนัยสำคัญทางสถิติหรือไม่ในความแตกต่างระหว่างการถดถอยพหุนามทั้งสองที่รู้ว่าช่วงเวลาที่เกี่ยวข้องของวันคือ [ 1,100] จากสิ่งที่ฉันเข้าใจฉันไม่สามารถใช้การทดสอบ anova โดยตรงเพราะค่ามาจากชุดข้อมูลที่แตกต่างกันสองชุดหรือ AIC ซึ่งใช้ในการเปรียบเทียบแบบจำลอง / ข้อมูลจริง ฉันพยายามทำตามคำแนะนำของ @Roland ในคำถามที่เกี่ยวข้อง แต่ฉันอาจเข้าใจผิดบางอย่างเมื่อดูผลลัพธ์ของฉัน: นี่คือสิ่งที่ฉันทำ: ฉันรวมทั้งชุดข้อมูลของฉันเป็นหนึ่ง fเป็นตัวแปรที่ @Roland พูดถึง ฉันใส่ 1s สำหรับเซตแรกและ 0s …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.