คำถามติดแท็ก likelihood-ratio

อัตราส่วนความน่าจะเป็นคืออัตราส่วนของความน่าจะเป็นของทั้งสองรุ่น (หรือค่า Null และค่าพารามิเตอร์ทางเลือกภายในโมเดลเดียว) ซึ่งอาจใช้เพื่อเปรียบเทียบหรือทดสอบโมเดล หากแบบจำลองใดไม่ได้ระบุอย่างครบถ้วนโอกาสสูงสุดที่จะเกิดขึ้นกับพารามิเตอร์อิสระทั้งหมด - บางครั้งเรียกว่าอัตราส่วนความน่าจะเป็นแบบทั่วไป

2
การเลือกรูปแบบที่ไม่ซ้อนกัน
ทั้งการทดสอบอัตราส่วนความน่าจะเป็นและ AIC เป็นเครื่องมือสำหรับการเลือกระหว่างสองรุ่นและทั้งสองแบบนั้นขึ้นอยู่กับความน่าจะเป็นบันทึก แต่ทำไมการทดสอบอัตราส่วนความน่าจะเป็นไม่สามารถใช้ในการเลือกระหว่างแบบจำลองสองแบบที่ไม่ซ้อนกันในขณะที่ AIC สามารถทำได้

1
ทำไมการทดสอบ F ในแบบจำลองเชิงเส้น Gaussian จึงมีประสิทธิภาพมากที่สุด
สำหรับแบบจำลองเชิงเส้นแบบเกาส์โดยที่ถูกสมมติให้อยู่ในปริภูมิเวกเตอร์และมีการแจกแจงแบบปกติมาตรฐานใน , สถิติของ -test สำหรับโดยที่เป็นปริภูมิเวกเตอร์เป็นการเพิ่มฟังก์ชันหนึ่งต่อหนึ่งของสถิติเบี่ยงเบน : เราจะรู้ได้อย่างไรว่าสถิตินี้ให้การทดสอบที่มีประสิทธิภาพที่สุดสำหรับH_0Y=μ+σGY=μ+σGY=\mu+\sigma Gμμ\muWWWGGGRnRn\mathbb{R}^nFFFH0:{μ∈U}H0:{μ∈U}H_0\colon\{\mu \in U\}U⊂WU⊂WU \subset Wf=ϕ(2logsupμ∈W,σ>0L(μ,σ|y)supμ∈U,σ>0L(μ,σ|y)).f=ϕ(2log⁡supμ∈W,σ>0L(μ,σ|y)supμ∈U,σ>0L(μ,σ|y)).f=\phi\left( 2\log \frac{\sup_{\mu \in W, \sigma>0} L(\mu, \sigma | y)}{\sup_{\mu \in U, \sigma>0} L(\mu, \sigma | y)} \right).H0H0H_0(อาจหลังจากทิ้งกรณีที่ผิดปกติ) หรือไม่ สิ่งนี้ไม่ได้เกิดจากทฤษฎีบทของเนย์แมน - เพียร์สันเพราะทฤษฎีนี้ยืนยันว่าการทดสอบอัตราส่วนความน่าจะเป็นมีประสิทธิภาพมากที่สุดสำหรับจุดสมมุติH0:{μ=μ0,σ=σ0}H0:{μ=μ0,σ=σ0}H_0\colon\{\mu=\mu_0, \sigma=\sigma_0\}และH1:{μ=μ1,σ=σ1}H1:{μ=μ1,σ=σ1}H_1\colon\{\mu=\mu_1,\sigma=\sigma_1\}\}

2
ทำไมการทดสอบอัตราส่วนความน่าจะเป็นไม่สามารถใช้กับแบบจำลองที่ไม่ซ้อนกันได้
โดยเฉพาะอย่างยิ่งเหตุใดการทดสอบอัตราส่วนความน่าจะเป็นจึงมีการ asymptoticallyถ้าแบบจำลองซ้อนกัน แต่นี่ไม่ใช่กรณีของแบบจำลองที่ไม่ซ้อนกันอีกต่อไป? ผมเข้าใจว่าเรื่องนี้ต่อจากทฤษฎีบท Wilks' แต่โชคไม่ดีที่ฉันไม่เข้าใจหลักฐานχ2χ2\chi^2

1
อะไรคือเงื่อนไขปกติสำหรับการทดสอบอัตราส่วนความน่าจะเป็น
ใครช่วยกรุณาบอกฉันว่าเงื่อนไขปกติสำหรับการกระจาย asymptotic ของการทดสอบอัตราส่วนความน่าจะเป็นคืออะไร? ทุกที่ที่ฉันมองมันเขียนว่า 'ภายใต้เงื่อนไขของระเบียบ' หรือ 'ภายใต้ระเบียบที่น่าจะเป็น' เงื่อนไขอะไรกันแน่? มีอนุพันธ์ของความน่าจะเป็นบันทึกแรกและตัวที่สองและเมทริกซ์ข้อมูลไม่เป็นศูนย์หรือไม่? หรืออย่างอื่นอย่างสิ้นเชิง?

2
จะเกิดอะไรขึ้นกับอัตราส่วนความน่าจะเป็นเมื่อมีการรวบรวมข้อมูลมากขึ้นเรื่อย ๆ
ให้ ,และเป็นความหนาแน่นและสมมติว่าคุณมี ,{N} เกิดอะไรขึ้นกับอัตราส่วนความน่าจะเป็น เป็น ? (มันมาบรรจบกันเพื่ออะไรนะ?)fffggghhhxi∼hxi∼hx_i \sim hi∈Ni∈Ni \in \mathbb{N}∏i=1nf(xi)g(xi)∏i=1nf(xi)g(xi) \prod_{i=1}^n \frac{f(x_i)}{g(x_i)} n→∞n→∞n \rightarrow \infty ตัวอย่างเช่นเราอาจคิดกรัม กรณีทั่วไปก็เป็นที่สนใจเช่นกันh=gh=gh = g

1
คุณสมบัติทางสถิติ '' ที่ต้องการ '' ของการทดสอบอัตราส่วนความน่าจะเป็นคืออะไร
ฉันกำลังอ่านบทความที่มีวิธีการทดสอบอย่างเต็มรูปแบบตามอัตราส่วนความน่าจะเป็น ผู้เขียนกล่าวว่าการทดสอบ LR กับทางเลือกด้านเดียวคือ UMP เขาดำเนินการโดยอ้างว่า "... ถึงแม้จะไม่สามารถแสดงให้เห็นว่ามีประสิทธิภาพมากที่สุด แต่การทดสอบ LR มักจะมีคุณสมบัติทางสถิติที่น่าพอใจ ฉันสงสัยว่าคุณสมบัติทางสถิติมีความหมายที่นี่ เนื่องจากผู้เขียนอ้างถึงคนที่ผ่านไปฉันถือว่าพวกเขาเป็นความรู้ทั่วไปในหมู่นักสถิติ คุณสมบัติที่พึงประสงค์เพียงอย่างเดียวที่ฉันสามารถหาได้คือการกระจายแบบไคม์สแควร์ asymptotic ของ (ภายใต้เงื่อนไขปกติ) โดยที่เป็นอัตราส่วน LR−2logλ−2log⁡λ-2 \log \lambdaλλ\lambda ฉันจะขอบคุณสำหรับการอ้างอิงถึงข้อความคลาสสิกที่หนึ่งสามารถอ่านเกี่ยวกับคุณสมบัติที่ต้องการ

3
การเปรียบเทียบตัวแบบการถดถอยกับข้อมูลการนับ
ฉันเพิ่งพอดีแบบจำลองการถดถอย 4 แบบสำหรับข้อมูลตัวทำนาย / ตอบกลับเดียวกัน รุ่นที่ฉันพอดีกับการถดถอยของปัวซอง model.pois <- glm(Response ~ P1 + P2 +...+ P5, family=poisson(), ...) model.pois.inter <- glm(Response ~ (P1 + P2 +...+ P5)^2, family=poisson(), ...) แบบจำลองสองแบบที่ฉันพอดีกับการถดถอยแบบทวินาม library(MASS) model.nb <- glm.nb(Response ~ P1 + P2 +...+ P5, ...) model.nb.inter <- glm.nb(Response ~ (P1 + P2 +...+ P5)^2, ...) …

1
การทดสอบอัตราส่วนความน่าจะเป็นและการทดสอบ Wald ให้ข้อสรุปที่แตกต่างกันสำหรับ glm ใน R
ฉันทำซ้ำเช่นจากทั่วไปเชิงเส้นและรูปแบบผสม MWE ของฉันอยู่ด้านล่าง: Dilution <- c(1/128, 1/64, 1/32, 1/16, 1/8, 1/4, 1/2, 1, 2, 4) NoofPlates <- rep(x=5, times=10) NoPositive <- c(0, 0, 2, 2, 3, 4, 5, 5, 5, 5) Data <- data.frame(Dilution, NoofPlates, NoPositive) fm1 <- glm(formula=NoPositive/NoofPlates~log(Dilution), family=binomial("logit"), data=Data) summary(object=fm1) เอาท์พุต Call: glm(formula = NoPositive/NoofPlates ~ log(Dilution), family …

2
การทดสอบอัตราส่วนความน่าจะเป็นบันทึกทั่วไปสำหรับโมเดลที่ไม่ซ้อนกัน
ฉันเข้าใจว่าถ้าฉันมีสองรุ่น A และ B และ A ซ้อนกันใน B ดังนั้นจากข้อมูลบางอย่างฉันสามารถใส่พารามิเตอร์ของ A และ B โดยใช้ MLE และใช้การทดสอบอัตราส่วนความน่าจะเป็นบันทึกทั่วไป โดยเฉพาะอย่างยิ่งการกระจายของการทดสอบควรจะกับองศาอิสระที่คือความแตกต่างในจำนวนของพารามิเตอร์ที่และมีχ2χ2\chi^2nnnnnnAAABBB อย่างไรก็ตามจะเกิดอะไรขึ้นถ้าและมีจำนวนพารามิเตอร์เท่ากัน แต่โมเดลไม่ซ้อนกัน? นั่นคือพวกเขาเป็นรุ่นที่แตกต่างกันเพียง มีวิธีใดที่จะใช้การทดสอบอัตราส่วนความน่าจะเป็นหรือใครจะทำอย่างอื่นได้บ้างAAABBB

1
ฉันจะรวมเอานวัตกรรมล้ำสมัยที่การสังเกตที่ 48 ในโมเดล ARIMA ของฉันได้อย่างไร
ฉันกำลังทำงานกับชุดข้อมูล หลังจากใช้เทคนิคการระบุตัวแบบบางอย่างฉันก็ออกมาพร้อมกับแบบจำลอง ARIMA (0,2,1) ผมใช้detectIOฟังก์ชั่นในแพคเกจTSAในการวิจัยที่จะตรวจพบนวัตกรรมขอบเขต (IO) ที่สังเกต 48th ของชุดข้อมูลเดิมของฉัน ฉันจะรวมค่าผิดปกตินี้ไว้ในแบบจำลองของฉันเพื่อที่ฉันจะสามารถใช้เพื่อวัตถุประสงค์ในการพยากรณ์ได้อย่างไร ฉันไม่ต้องการใช้แบบจำลอง ARIMAX เนื่องจากฉันอาจไม่สามารถคาดการณ์ได้จากสิ่งนั้นใน R มีวิธีอื่นที่ฉันสามารถทำได้หรือไม่ นี่คือค่านิยมของฉันตามลำดับ: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

1
ฉันแค่วิ่งถอยหลังสองล้านถอยหลัง - ความน่าจะเป็นแบบบูรณาการ
ขณะนี้ฉันกำลังพยายามใช้วิธีการที่ใช้ในเอกสารยอดนิยมที่มีชื่อว่า "ฉันเพิ่งผ่านการถดถอยสองล้านครั้ง" แนวคิดพื้นฐานที่อยู่เบื้องหลังคือมีบางกรณีที่ไม่ชัดเจนว่าควรรวมตัวควบคุมในแบบจำลองใด สิ่งหนึ่งที่คุณสามารถทำได้ในกรณีเช่นนี้คือการวาดตัวควบคุมสุ่มเรียกใช้การถดถอยต่าง ๆ นับล้านจากนั้นดูว่าตัวแปรที่คุณสนใจมีปฏิกิริยาอย่างไร หากโดยทั่วไปมีเครื่องหมายเดียวกันในข้อกำหนดทั้งหมดเราสามารถพิจารณาได้ว่ามีความแข็งแกร่งมากกว่าตัวแปรที่มีการเปลี่ยนแปลงของสัญญาณเสมอ กระดาษส่วนใหญ่มีความชัดเจนมาก อย่างไรก็ตามกระดาษน้ำหนักการถดถอยที่แตกต่างกันเหล่านั้นทั้งหมดในลักษณะดังต่อไปนี้: ความน่าจะเป็นแบบบูรณาการของข้อกำหนดที่กำหนดจะถูกหารด้วยผลรวมของความน่าจะเป็นแบบบูรณาการทั้งหมดสำหรับข้อกำหนดทั้งหมด ปัญหาที่ฉันมีคือฉันไม่แน่ใจว่าความเป็นไปได้แบบบูรณาการเกี่ยวข้องกับการถดถอยแบบ OLS ที่ฉันต้องการเรียกใช้ (ใน Stata) Googling หัวข้อต่าง ๆ เช่น "ความน่าจะเป็นแบบบูรณาการ stata" นั้นเป็นจุดจบที่ฉันยังคงทำงานในสิ่งต่าง ๆ เช่นการถดถอยแบบโลจิสติกส์ ฉันยอมรับว่าแบบจำลองเหล่านี้ซับซ้อนเกินกว่าที่ฉันจะเข้าใจได้ งานปัจจุบันของฉันคือการที่มีรูปแบบการถ่วงน้ำหนักที่แตกต่างกันที่ใช้ในวรรณกรรมที่ฉันทำ (ชนิด) เข้าใจ ตัวอย่างเช่นเป็นไปได้ที่จะถ่วงน้ำหนักแต่ละการถดถอยตามดัชนีอัตราส่วนความน่าจะเป็น มีแม้แต่แพ็คเกจ R ที่ใช้ lri เป็นตุ้มน้ำหนัก แม้ว่าโดยธรรมชาติแล้วฉันต้องการที่จะใช้ต้นฉบับ คำแนะนำใด ๆ? ลิงค์กระดาษ: http://down.cenet.org.cn/upfile/34/2009112141315158.pdf

2
สมมติฐานการพึ่งพา Benjamini-Hochberg เป็นธรรม?
ฉันมีชุดข้อมูลที่ฉันทดสอบความแตกต่างอย่างมีนัยสำคัญระหว่างสามประชากรที่เกี่ยวกับตัวแปรที่แตกต่างกัน 50 รายการ ฉันทำสิ่งนี้โดยใช้การทดสอบ Kruskal-Wallis บนมือข้างหนึ่งและโดยการทดสอบอัตราส่วนความน่าจะเป็นของโมเดล GLM แบบซ้อนกันพอดี (ที่มีและไม่มีประชากรเป็นตัวแปรอิสระ) ในอีกด้านหนึ่ง เป็นผลให้ฉันมีรายชื่อ Kruskal-Wallis ppp- ค่าในมือข้างหนึ่งและสิ่งที่ฉันคิดว่าเป็นไคสแควร์ ppp- ค่าจากการเปรียบเทียบ LRT ที่อื่น ๆ ฉันต้องทำการแก้ไขการทดสอบหลายรูปแบบบางรูปแบบเนื่องจากมีการทดสอบมากกว่า 50 รายการและ Benjamini-Hochberg FDR ดูเหมือนว่าเป็นตัวเลือกที่เหมาะสมที่สุด อย่างไรก็ตามตัวแปรอาจไม่เป็นอิสระโดยมี "แคลน" หลายตัวที่สัมพันธ์กัน คำถามคือ: ฉันจะบอกได้อย่างไรว่าชุดของสถิติพื้นฐานสำหรับฉันppp- ค่าตอบสนองความต้องการของการพึ่งพาในเชิงบวกที่จำเป็นสำหรับกระบวนการ Benjamini-Hochberg ที่จะยังคงผูกพันกับ FDR? กระดาษ Benjamini-Hochberg-Yekutieli จากปี 2544 ระบุว่าสภาพ PRDS มีไว้สำหรับการแจกแจงแบบปกติหลายตัวแปรและการแจกแจงแบบนักศึกษา สิ่งที่เกี่ยวกับการทดสอบอัตราส่วนความน่าจะเป็นของฉันค่าไคสแควร์สำหรับการเปรียบเทียบแบบจำลอง? เกี่ยวกับppp- ค่าที่ฉันมีสำหรับการทดสอบ Kruskal-Wallis? ฉันสามารถใช้การแก้ไข FDR ที่เลวร้ายที่สุดกรณี Benjamini-Hochberg-Yekutieli ที่ไม่มีอะไรขึ้นอยู่กับการพึ่งพา …

1
จำเป็นต้องมีการนับศูนย์สำหรับการทดสอบอัตราส่วนความน่าจะเป็นของโมเดลปัวซอง / loglinear หรือไม่
หากมี 0 อยู่ในตารางฉุกเฉินและเรากำลังจัดวางแบบจำลอง Poisson / loglinear ที่ซ้อนกัน (ใช้glmฟังก์ชั่นR ) สำหรับการทดสอบอัตราส่วนความน่าจะเป็นเราจำเป็นต้องปรับข้อมูลก่อนที่จะติดตั้งแบบจำลอง glm (เช่นเพิ่ม 1/2 ลงในทั้งหมด จำนวน) เห็นได้ชัดว่าบางพารามิเตอร์ไม่สามารถประมาณได้หากไม่มีการปรับ แต่การปรับ / ขาดการปรับมีผลต่อการทดสอบ LR อย่างไร

2
การวัดความดีพอดีในโมเดลที่รวมการแจกแจงสองแบบ
ฉันมีข้อมูลที่มีจุดสูงสุดสองเท่าที่ฉันพยายามทำแบบจำลองและมีการทับซ้อนกันระหว่างจุดสูงสุดที่ฉันไม่สามารถปฏิบัติกับพวกเขาได้อย่างอิสระ ฮิสโตแกรมของข้อมูลอาจมีลักษณะดังนี้: ฉันได้สร้างแบบจำลองสองแบบสำหรับสิ่งนี้: แบบหนึ่งใช้การแจกแจงแบบปัวซงสองแบบส่วนอีกแบบใช้การแจกแจงแบบทวินามลบสองตัว วิธีที่เหมาะสมในการบอกว่าแบบจำลองใดที่เหมาะสมกับข้อมูลมากขึ้น ความคิดเริ่มต้นของฉันคือฉันสามารถใช้การทดสอบ Kolmogorov-Smirnov เพื่อเปรียบเทียบแต่ละแบบจำลองกับข้อมูลจากนั้นทำการทดสอบอัตราส่วนความน่าจะเป็นเพื่อดูว่าแบบทดสอบมีความเหมาะสมดีกว่าหรือไม่ มันสมเหตุสมผลหรือไม่ ถ้าเป็นเช่นนั้นฉันไม่แน่ใจว่าจะทำการทดสอบอัตราส่วนความน่าจะเป็นอย่างไร ไคสแควร์เหมาะสมหรือไม่และฉันมีอิสระในระดับใด? หากช่วยได้รหัส R บางตัว (ง่ายมาก) สำหรับรุ่นอาจมีลักษณะดังนี้: ## inital data points a <- read.table("data") #create model data model.pois = c(rpois(1000000,200),rpois(500000,250)) model.nb = c(rnbinom(1000000,200,0.5),rnbinom(500000,275,0.5) #Kolmogorov-Smirnov test #use ks.boot, since it's count data that may contain duplicate values kpois = ks.boot(model.pois,a) knb = …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.