คำถามติดแท็ก hypothesis-testing

การทดสอบสมมติฐานจะประเมินว่าข้อมูลไม่สอดคล้องกับสมมติฐานที่กำหนดแทนที่จะเป็นผลของความผันผวนแบบสุ่มหรือไม่

2
ทำไมการหยุดการทดสอบ A / B ก่อนที่จะถึงขนาดตัวอย่างที่ดีที่สุด
ฉันรับผิดชอบในการนำเสนอผลการทดสอบ A / B (ทำงานกับรูปแบบของเว็บไซต์) ที่ บริษัท ของฉัน เราใช้ทดสอบเป็นเวลาหนึ่งเดือนแล้วตรวจสอบค่า P-ในช่วงเวลาปกติจนกว่าจะถึงอย่างมีนัยสำคัญ (หรือละทิ้งความสำคัญถ้าไม่ถึงหลังจากใช้ทดสอบเป็นเวลานาน) บางสิ่งบางอย่างตอนนี้ผมกำลังหาออกเป็นปฏิบัติเข้าใจผิด ฉันต้องการที่จะหยุดการปฏิบัตินี้ในขณะนี้ แต่การทำเช่นนั้นฉันต้องการที่จะเข้าใจว่าทำไมมันผิด ฉันเข้าใจว่าขนาดของเอฟเฟกต์ขนาดตัวอย่าง (N) เกณฑ์นัยสำคัญของอัลฟา (α) และกำลังทางสถิติหรือเบต้าที่เลือกหรือโดยนัย (β) มีความสัมพันธ์ทางคณิตศาสตร์ แต่สิ่งที่เปลี่ยนแปลงเมื่อเราหยุดการทดสอบของเราก่อนที่เราจะถึงขนาดตัวอย่างที่ต้องการ? ฉันได้อ่านโพสต์ไม่กี่ที่นี่ (คือนี้ , นี้และนี้ ) และพวกเขาบอกฉันว่าประมาณการของฉันจะลำเอียงและอัตราการของฉันประเภทที่ 1 การเพิ่มขึ้นของข้อผิดพลาดอย่างมาก แต่มันเกิดขึ้นได้อย่างไร? ฉันกำลังมองหาคำอธิบายทางคณิตศาสตร์บางอย่างที่จะแสดงผลของขนาดตัวอย่างต่อผลลัพธ์อย่างชัดเจน ฉันเดาว่ามันมีบางอย่างเกี่ยวกับความสัมพันธ์ระหว่างปัจจัยที่ฉันกล่าวถึงข้างต้น แต่ฉันไม่สามารถค้นหาสูตรที่แน่นอนและทำงานออกมาได้ด้วยตัวเอง สำหรับตัวอย่างเช่นการหยุดการทดสอบจะเพิ่มอัตราความผิดพลาด Type 1 ก่อนกำหนด Alright แต่ทำไม เกิดอะไรขึ้นเพื่อเพิ่มอัตราข้อผิดพลาดประเภท 1 ฉันขาดสัญชาตญาณตรงนี้ ช่วยด้วย.


3
ทำไมการทดสอบสมมติฐานทางพารามิเตอร์หลายอย่าง (ถ้าไม่ได้ทั้งหมด) จะเป็นการสุ่มตัวอย่างแบบสุ่ม?
การทดสอบอย่าง Z, t และอีกหลายคนคิดว่าข้อมูลนั้นมาจากการสุ่มตัวอย่าง ทำไม? สมมติว่าฉันกำลังทำวิจัยเชิงทดลองที่ฉันสนใจเรื่องความถูกต้องภายในมากกว่าสิ่งภายนอก ดังนั้นหากตัวอย่างของฉันอาจมีอคติเล็กน้อยโอเคอย่างที่ฉันยอมรับไม่ได้อนุมานสมมติฐานสำหรับประชากรทั้งหมด และการจัดกลุ่มจะยังคงเป็นแบบสุ่มนั่นคือฉันจะเลือกเพื่อความสะดวกของผู้เข้าร่วมตัวอย่าง แต่ฉันจะสุ่มให้กลุ่มต่าง ๆ ทำไมฉันถึงเพิกเฉยต่อสมมติฐานนี้ไม่ได้?

5
การกำหนดขนาดตัวอย่างก่อนเริ่มการทดสอบหรือเรียกใช้การทดสอบอย่างไม่มีกำหนด
ฉันศึกษาสถิติเมื่อหลายปีก่อนและลืมไปหมดดังนั้นสิ่งเหล่านี้อาจดูเหมือนคำถามเชิงแนวคิดทั่วไปมากกว่าสิ่งใดโดยเฉพาะ แต่นี่คือปัญหาของฉัน ฉันทำงานให้กับเว็บไซต์อีคอมเมิร์ซในฐานะนักออกแบบ UX เรามีกรอบการทดสอบ A / B ที่สร้างขึ้นเมื่อหลายปีก่อนซึ่งฉันเริ่มสงสัย การวัดที่เราทำการตัดสินใจทั้งหมดของเรานั้นเรียกว่าการแปลงและขึ้นอยู่กับเปอร์เซ็นต์ของผู้ใช้ที่เข้าชมเว็บไซต์และซื้อสิ่งต่างๆ ดังนั้นเราต้องการทดสอบการเปลี่ยนสีของปุ่มซื้อจากสีเขียวเป็นสีน้ำเงิน การควบคุมคือสิ่งที่เรามีอยู่แล้วปุ่มสีเขียวที่เรารู้ว่าอัตราการแปลงโดยเฉลี่ยของเราคืออะไร การทดลองกำลังแทนที่ปุ่มสีเขียวด้วยปุ่มสีฟ้า เราเห็นด้วยอย่างมีนัยสำคัญ 95% คือระดับความมั่นใจที่เรามีความสุขและเราเปิดการทดสอบปล่อยให้มันทำงาน เมื่อผู้ใช้เยี่ยมชมเว็บไซต์เบื้องหลังมีโอกาส 50/50 พวกเขาจะถูกส่งไปยังรุ่นควบคุม (ปุ่มสีเขียว) เทียบกับรุ่นทดสอบ (ปุ่มสีน้ำเงิน) หลังจากดูการทดสอบหลังจาก 7 วันฉันเห็นการแปลงเพิ่มขึ้น 10.2% ตามการทดลองด้วยขนาดตัวอย่าง 3000 (1500 ไปสู่การควบคุม 1500 การทดลอง 1500 และนัยสำคัญทางสถิติที่ 99.2% ยอดเยี่ยมฉันคิดว่า การทดสอบดำเนินต่อไปขนาดของตัวอย่างเพิ่มขึ้นจากนั้นฉันเห็นการแปลงเพิ่มขึ้น + 9% โดยมีนัยสำคัญที่ 98.1% ตกลงให้การทดสอบทำงานต่อไปนานขึ้นและตอนนี้การทดลองแสดงให้เห็นว่าการแปลงเพิ่มขึ้น 5% โดยมีนัยสำคัญทางสถิติเพียง 92% โดยกรอบการทำงานบอกฉันว่าฉันต้องการตัวอย่างเพิ่ม 4600 ก่อนที่จะถึงนัยสำคัญ 95%? การทดสอบสรุปได้ในจุดใด? …

2
วิธีการปรับอัตราข้อผิดพลาดที่เป็นเท็จบวก / เท็จลบที่เลือกอย่างเข้มงวดและอัตราส่วนต้นทุนต้นแบบ?
บริบท กลุ่มนักสังคมศาสตร์และนักสถิติ ( Benjamin et al., 2017 ) ได้แนะนำเมื่อเร็ว ๆ นี้ว่าอัตราการบวกลบ ( = .05) โดยทั่วไปใช้เป็นเกณฑ์ในการกำหนด "นัยสำคัญทางสถิติ" เพื่อปรับเกณฑ์อนุรักษ์ให้มากกว่าเดิม ( = .005) กลุ่มนักวิทยาศาสตร์สังคมศาสตร์และนักสถิติ ( Lakens et al., 2018 ) ได้ทำการแข่งขันโต้เถียงกับการใช้สิ่งนี้หรืออื่น ๆ - เกณฑ์ที่เลือกโดยพลการ ต่อไปนี้เป็นคำพูดจาก Lakens และคณะ (หน้า 16) ที่ช่วยเป็นตัวอย่างของคำถามของฉัน:αα\alphaαα\alpha เป็นการดีที่ระดับอัลฟาจะถูกกำหนดโดยการเปรียบเทียบค่าใช้จ่ายและผลประโยชน์กับฟังก์ชั่นยูทิลิตี้โดยใช้ทฤษฎีการตัดสินใจ การวิเคราะห์ต้นทุน - ผลประโยชน์ (และระดับอัลฟ่า) แตกต่างกันเมื่อทำการวิเคราะห์ชุดข้อมูลที่มีอยู่ขนาดใหญ่เมื่อเปรียบเทียบกับการรวบรวมข้อมูลจากตัวอย่างที่ยากที่จะได้รับ วิทยาศาสตร์นั้นมีความหลากหลายและขึ้นอยู่กับนักวิทยาศาสตร์ที่จะพิสูจน์ระดับอัลฟาที่พวกเขาตัดสินใจใช้ ... การวิจัยควรได้รับการชี้นำโดยหลักการของวิทยาศาสตร์ที่เข้มงวดไม่ใช่ด้วยการวิเคราะห์พฤติกรรมและขีด จำกัด แบบครอบคลุมโดยพลการ คำถาม ฉันสงสัยว่าจะมีความเป็นไปได้อย่างไรในการพิสูจน์ให้เห็นถึงการเลือกอัลฟ่าในแบบที่ …

2
การแข่งขัน Kaggle เพิ่งชนะโดยบังเอิญหรือไม่?
การแข่งขัน Kaggle กำหนดอันดับสุดท้ายตามชุดการทดสอบที่จัดขึ้น ชุดการทดสอบที่จัดขึ้นค้างไว้เป็นตัวอย่าง; มันอาจไม่ได้เป็นตัวแทนของประชากรที่ถูกจำลอง เนื่องจากการส่งแต่ละครั้งเป็นเหมือนสมมติฐานอัลกอริทึมที่ชนะการแข่งขันอาจมีเพียงแค่โอกาสโดยรวมเท่านั้นที่จบลงด้วยการจับคู่ชุดทดสอบที่ดีกว่าชุดทดสอบอื่น ๆ กล่าวอีกนัยหนึ่งหากเลือกชุดทดสอบที่แตกต่างกันและการแข่งขันซ้ำการจัดอันดับจะยังคงเหมือนเดิมหรือไม่ สำหรับ บริษัท ที่ให้การสนับสนุนสิ่งนี้ไม่สำคัญเลย (อาจส่ง 20 อันดับแรกจะปรับปรุงพื้นฐานของพวกเขา) ถึงแม้ว่าแดกดันพวกเขาอาจจบลงด้วยการใช้รูปแบบอันดับแรกที่เลวร้ายยิ่งกว่าห้าอันดับแรก แต่สำหรับผู้เข้าร่วมการแข่งขันดูเหมือนว่า Kaggle เป็นเกมแห่งโอกาสในท้ายที่สุดโชคไม่จำเป็นต้องสะดุดในการแก้ปัญหาที่ถูกต้องมันจำเป็นต้องสะดุดกับชุดทดสอบที่ตรงกับชุดทดสอบ! เป็นไปได้หรือไม่ที่จะเปลี่ยนการแข่งขันเพื่อให้ทีมชั้นนำทั้งหมดที่ไม่สามารถชนะได้อย่างมีนัยสำคัญ? หรือในกลุ่มนี้แบบจำลองที่มีราคาต่ำสุดหรือราคาถูกที่สุดสามารถชนะได้หรือไม่

1
ใช้
สมมติว่าฉันมีเป็น iid และฉันต้องการทดสอบสมมติฐานที่μคือ 0 สมมติว่าฉันมีขนาดใหญ่ n และสามารถใช้ทฤษฎีขีด จำกัด กลางได้ ฉันสามารถทำการทดสอบที่μ 2คือ 0 ซึ่งควรเทียบเท่ากับการทดสอบที่μคือ 0 ยิ่งไปกว่านั้นn ( ˉ X 2 - 0 )มาบรรจบกับไค - สแควร์โดยที่√X1,…,XnX1,…,XnX_1,\ldots,X_nμμ\muμ2μ2\mu^2μμ\mun(X¯2−0)n(X¯2−0)n(\bar{X}^2 - 0)เป็นค่าปกติ เนื่องจาก ˉ X 2มีอัตราคอนเวอร์เจนซ์ที่เร็วกว่าฉันไม่ควรใช้มันสำหรับสถิติการทดสอบและดังนั้นฉันจะได้อัตราคอนเวอร์เจนซ์ที่เร็วขึ้นและการทดสอบจะมีประสิทธิภาพมากขึ้นหรือไม่n−−√(X¯−0)n(X¯−0)\sqrt{n}(\bar{X} - 0)X¯2X¯2\bar{X}^2 ฉันรู้ว่าตรรกะนี้ผิด แต่ฉันคิดและค้นหามานานและไม่สามารถหาสาเหตุได้

2
ใช้ lm สำหรับการทดสอบสัดส่วนตัวอย่าง 2 ตัวอย่าง
ฉันใช้แบบจำลองเชิงเส้นเพื่อทำการทดสอบสัดส่วนตัวอย่าง 2 ระยะเวลาหนึ่ง แต่ได้ตระหนักว่าอาจไม่ถูกต้องสมบูรณ์ ปรากฏว่าการใช้ตัวแบบเชิงเส้นแบบทั่วไปกับลิงค์แบบทวินาม + ตระกูลนั้นให้ผลการทดสอบสัดส่วนตัวอย่าง 2 ตัวอย่าง อย่างไรก็ตามการใช้โมเดลเชิงเส้น (หรือ glm กับตระกูล Gaussian) จะให้ผลลัพธ์ที่แตกต่างออกไปเล็กน้อย ฉันหาเหตุผลเข้าข้างตนเองว่านี่อาจเป็นเพราะ R แก้ไข glm สำหรับตระกูลทวินามและตระกูลเกาส์ แต่อาจมีสาเหตุอื่นได้หรือไม่ ## prop.test gives pooled 2-sample proportion result ## glm w/ binomial family gives unpooled 2-sample proportion result ## lm and glm w/ gaussian family give unknown result library(dplyr) library(broom) …

1
การทดสอบความเหมาะสมในการถดถอยโลจิสติก เราต้องการทดสอบแบบใด
ฉันหมายถึงคำถามและคำตอบ: วิธีการเปรียบเทียบ (ความน่าจะเป็น) ความสามารถในการทำนายของแบบจำลองที่พัฒนาจากการถดถอยโลจิสติก? โดย @Clark Chong และคำตอบ / ความคิดเห็นโดย @Frank Harrell และคำถามองศาความเป็นอิสระของในการทดสอบ Hosmer-Lemeshowχ2χ2\chi^2และความคิดเห็น ฉันได้อ่านเอกสารDW Hosmer, T. Hosmer, S. Le Cessie, S. Lemeshow, "การเปรียบเทียบการทดสอบความดีพอดีสำหรับรูปแบบการถดถอยโลจิสติก", สถิติการแพทย์, ฉบับที่ 16, 965-980 (1997) หลังจากอ่านฉันสับสนเพราะคำถามที่ฉันอ้างถึงขอให้ชัดเจนสำหรับ "(ความน่าจะเป็น) ความสามารถในการทำนาย" ซึ่งในความคิดของฉันไม่เหมือนกับสิ่งที่ดี - ของ - พอดี - แบบทดสอบในกระดาษ supra มุ่ง: ดังที่พวกเราส่วนใหญ่ทราบกันว่าการถดถอยแบบลอจิสติกถือว่าการเชื่อมโยงรูปตัว S ระหว่างตัวแปรอธิบายและความน่าจะเป็นของความสำเร็จรูปแบบการทำงานของรูปตัว S คือ P(y=1|xi)=11+e−(β0+∑iβixi)P(y=1|xi)=11+e−(β0+∑iβixi)P(y=1|_{x_i})=\frac{1}{1+e^{-(\beta_0+\sum_i \beta_i x_i)}} โดยไม่ต้องแสร้งว่าไม่มีข้อบกพร่องในการทดสอบ …

1
'การทดสอบสมมติฐาน' และ 'การเลือกแบบจำลอง' แตกต่างกันอย่างไร
ในวรรณคดีคำทั้งสองมักจะใช้คำพ้องความหมายหรือ interwoven ตอนนี้ฉันกำลังพยายามหาความแตกต่างที่ชัดเจนระหว่างคำทั้งสอง จากมุมมองของฉันสมมติฐานมักจะแสดงออกผ่านแบบจำลอง ดังนั้นแม้ว่าเราจะทดสอบสมมติฐานว่างกับทางเลือกจากมุมมองของฉันเรากำลังทำการเลือกแบบจำลอง ใครสามารถให้คำอธิบายที่เข้าใจง่ายเกี่ยวกับความแตกต่างนี้ได้?

5
จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?
ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
ทำไมชุดการกระจายสินค้านี้
เรากำลังตรวจสอบการทดสอบทางสถิติแบบเบย์และพบกับปรากฏการณ์แปลก ๆ (สำหรับฉันอย่างน้อยที่สุด) พิจารณากรณีต่อไปนี้: เราสนใจที่จะวัดว่าประชากร A หรือ B ใดที่มีอัตราการแปลงสูงกว่า สำหรับการตรวจสอบสติเราตั้งค่านั่นคือความน่าจะเป็นของการแปลงเท่ากันทั้งสองกลุ่ม เราสร้างข้อมูลเทียมโดยใช้แบบจำลองทวินามเช่นpA=pBpA=pBp_A = p_BnA∼Binomial(N,pA)nA∼Binomial(N,pA)n_A \sim \text{Binomial}(N, p_A) จากนั้นเราพยายามประเมินโดยใช้แบบจำลองเบต้า - ทวินามแบบเบย์เพื่อให้เราได้รับสำหรับแต่ละอัตราการแปลงเช่นpA,pBpA,pBp_A, p_BPA∼Beta(1+nA,N−nA+1)PA∼Beta(1+nA,N−nA+1)P_A \sim \text{Beta}(1 + n_A, N - n_A +1 ) สถิติการทดสอบของเราคำนวณโดยการคำนวณผ่านทาง monte carloS=P(PA>PB|N,nA,nB)S=P(PA>PB|N,nA,nB)S = P(P_A > P_B\; |\; N, n_A, n_B) สิ่งที่ทำให้ผมประหลาดใจคือว่าถ้าแล้ว(0,1)} ความคิดของฉันคือว่ามันจะอยู่กึ่งกลางประมาณ 0.5 และยังมาบรรจบกันถึง 0.5 เป็นขนาดตัวอย่าง, , เติบโต pA=pBpA=pBp_A = …

1
วิธีการทดสอบ bootstrap เพื่อเปรียบเทียบค่าเฉลี่ยของสองตัวอย่าง?
ฉันมีตัวอย่างที่บิดเบี้ยวสองตัวอย่างและพยายามใช้การบูตสแตรปเพื่อเปรียบเทียบค่าเฉลี่ยของพวกเขาโดยใช้สถิติที ขั้นตอนที่ถูกต้องในการทำคืออะไร? กระบวนการที่ฉันใช้ ฉันกังวลเกี่ยวกับความเหมาะสมของการใช้ข้อผิดพลาดมาตรฐานของข้อมูลต้นฉบับ / การสังเกตในขั้นตอนสุดท้ายเมื่อฉันรู้ว่านี่ไม่ใช่การกระจายแบบปกติ นี่คือขั้นตอนของฉัน: Bootstrap - สุ่มเลือกตัวอย่างพร้อมเปลี่ยน (N = 1,000) คำนวณเสื้อสถิติสำหรับแต่ละบูตเพื่อสร้างเสื้อกระจาย: T( b ) = ( X)¯¯¯¯ข1- X¯¯¯¯ข2) - ( X¯¯¯¯1- X¯¯¯¯2)σ2x b 1/ n+ σ2x b 2/ n-------------√T(b)=(X¯b1−X¯b2)−(X¯1−X¯2)σxb12/n+σxb22/n T(b) = \frac{(\overline{X}_{b1}-\overline{X}_{b2})-(\overline{X}_1-\overline{X}_2) }{\sqrt{ \sigma^2_{xb1}/n + \sigma^2_{xb2}/n }} ประมาณค่าช่วงความเชื่อมั่น t โดยรับและ1 - α / 2เปอร์เซ็นต์ของการแจกแจงแบบ tα / 2α/2\alpha/21 …

1
ถ้าการกระจายตัวของสถิติทดสอบเป็น bimodal, p-value จะมีความหมายอะไรไหม?
P-value ถูกกำหนดความน่าจะเป็นที่จะได้รับสถิติการทดสอบอย่างน้อยที่สุดเท่าที่จะสังเกตได้โดยสมมติว่าสมมติฐานว่างเป็นจริง ในคำอื่น ๆ P( X≥ t | H0)P(X≥t|H0)P( X \ge t | H_0 ) แต่จะเป็นอย่างไรถ้าสถิติการทดสอบนั้นมีค่า bimodal ในการแจกแจง? p-value มีความหมายอะไรในบริบทนี้หรือไม่? ตัวอย่างเช่นฉันจะจำลองข้อมูล bimodal ใน R: set.seed(0) # Generate bi-modal distribution bimodal <- c(rnorm(n=100,mean=25,sd=3),rnorm(n=100,mean=100,sd=5)) hist(bimodal, breaks=100) และสมมติว่าเราสังเกตค่าสถิติทดสอบ 60 และที่นี่เรารู้จากภาพค่านี้ไม่น่ามาก ดังนั้นฉันต้องการให้ขั้นตอนสถิติที่ฉันใช้ (พูด p-value) เปิดเผยสิ่งนี้ แต่ถ้าเราคำนวณค่า p ตามที่กำหนดเราจะได้ค่าสูงมาก observed <- 60 # Get P-value …

1
ทำไมการทดสอบ F ในแบบจำลองเชิงเส้น Gaussian จึงมีประสิทธิภาพมากที่สุด
สำหรับแบบจำลองเชิงเส้นแบบเกาส์โดยที่ถูกสมมติให้อยู่ในปริภูมิเวกเตอร์และมีการแจกแจงแบบปกติมาตรฐานใน , สถิติของ -test สำหรับโดยที่เป็นปริภูมิเวกเตอร์เป็นการเพิ่มฟังก์ชันหนึ่งต่อหนึ่งของสถิติเบี่ยงเบน : เราจะรู้ได้อย่างไรว่าสถิตินี้ให้การทดสอบที่มีประสิทธิภาพที่สุดสำหรับH_0Y=μ+σGY=μ+σGY=\mu+\sigma Gμμ\muWWWGGGRnRn\mathbb{R}^nFFFH0:{μ∈U}H0:{μ∈U}H_0\colon\{\mu \in U\}U⊂WU⊂WU \subset Wf=ϕ(2logsupμ∈W,σ>0L(μ,σ|y)supμ∈U,σ>0L(μ,σ|y)).f=ϕ(2log⁡supμ∈W,σ>0L(μ,σ|y)supμ∈U,σ>0L(μ,σ|y)).f=\phi\left( 2\log \frac{\sup_{\mu \in W, \sigma>0} L(\mu, \sigma | y)}{\sup_{\mu \in U, \sigma>0} L(\mu, \sigma | y)} \right).H0H0H_0(อาจหลังจากทิ้งกรณีที่ผิดปกติ) หรือไม่ สิ่งนี้ไม่ได้เกิดจากทฤษฎีบทของเนย์แมน - เพียร์สันเพราะทฤษฎีนี้ยืนยันว่าการทดสอบอัตราส่วนความน่าจะเป็นมีประสิทธิภาพมากที่สุดสำหรับจุดสมมุติH0:{μ=μ0,σ=σ0}H0:{μ=μ0,σ=σ0}H_0\colon\{\mu=\mu_0, \sigma=\sigma_0\}และH1:{μ=μ1,σ=σ1}H1:{μ=μ1,σ=σ1}H_1\colon\{\mu=\mu_1,\sigma=\sigma_1\}\}

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.