คำถามติดแท็ก logistic

โดยทั่วไปหมายถึงกระบวนการทางสถิติที่ใช้ฟังก์ชันลอจิสติกซึ่งเป็นรูปแบบต่าง ๆ ส่วนใหญ่ของการถดถอยโลจิสติก

3
กรณีการใช้ RBF SVM (เทียบกับการถดถอยโลจิสติกและฟอเรสต์แบบสุ่ม)
สนับสนุนเครื่องเวกเตอร์ที่มีเคอร์เนลฟังก์ชั่นพื้นฐานเป็นตัวจําแนกภายใต้การดูแลทั่วไป ในขณะที่ฉันรู้พื้นฐานทางทฤษฎีสำหรับ SVM เหล่านี้และจุดแข็งของพวกเขาฉันไม่ทราบถึงกรณีที่พวกเขาเป็นวิธีที่ต้องการ ดังนั้นจึงมีปัญหาหลายระดับที่ RBF SVMs เหนือกว่าเทคนิค ML อื่น ๆ หรือไม่? (ทั้งในแง่ของคะแนนหรืออื่น ๆ - เช่นความแข็งแกร่งความง่ายในการเริ่มต้นการตีความ ฯลฯ ) ฉันถามว่าเนื่องจากวิธีการเริ่มต้นของฉันอยู่ที่การถดถอยแบบโลจิสติกส์ (อาจมีการโต้ตอบ) ป่าสุ่มและเครือข่ายประสาท ไม่มีเพื่อนของฉันที่ทำ ML (บางคนเป็นผู้ชนะ Kaggle) เป็นผู้ใช้ SVM (แต่อาจเป็นสิ่งประดิษฐ์ของชุมชนของฉันหรือปัญหาที่พวกเขาทำ)

1
เป็นความคิดที่ดีหรือไม่ที่จะให้ "เครดิตบางส่วน" (ผลอย่างต่อเนื่อง) ในการฝึกอบรมการถดถอยโลจิสติก?
ฉันกำลังฝึกอบรมการถดถอยโลจิสติกส์เพื่อคาดการณ์ว่านักวิ่งคนใดที่มีแนวโน้มที่จะจบการแข่งขันที่ทรหด นักวิ่งน้อยมากที่จะเสร็จสิ้นการแข่งขันนี้ดังนั้นฉันจึงมีความไม่สมดุลระดับรุนแรงและเป็นตัวอย่างเล็ก ๆ ของความสำเร็จ ฉันรู้สึกเหมือนฉันจะได้รับบางดี "สัญญาณ" จากหลายสิบของนักวิ่งใครเกือบจะทำให้มัน (ข้อมูลการฝึกอบรมของฉันไม่เพียง แต่ทำให้เสร็จ แต่ยังรวมถึงข้อมูลที่ไม่เสร็จสมบูรณ์ด้วย) ฉันจึงสงสัยว่ามันเป็นความคิดที่น่ากลัวหรือไม่ที่จะรวมบางส่วนของ "เครดิตบางส่วน" ฉันมาพร้อมกับฟังก์ชั่นคู่สำหรับเครดิตบางส่วนทางลาดและโค้งโลจิสติกซึ่งอาจได้รับพารามิเตอร์ต่างๆ ความแตกต่างเพียงอย่างเดียวกับการถดถอยคือฉันจะใช้ข้อมูลการฝึกอบรมเพื่อทำนายผลลัพธ์ที่ได้รับการแก้ไขและต่อเนื่องแทนที่จะเป็นผลลัพธ์ไบนารี การเปรียบเทียบการคาดการณ์ของพวกเขาในชุดทดสอบ (โดยใช้การตอบกลับแบบไบนารี่) ฉันได้ผลลัพธ์ที่สรุปไม่ได้ - เครดิตบางส่วนของโลจิสติกดูเหมือนจะปรับปรุง R-squared, AUC, P / R เล็กน้อย แต่นี่เป็นเพียงความพยายามครั้งเดียว ตัวอย่างเล็ก ๆ ฉันไม่สนใจเกี่ยวกับการคาดการณ์ที่มีอคติอย่างสม่ำเสมอไปสู่ความสมบูรณ์ - สิ่งที่ฉันสนใจคือการจัดอันดับผู้เข้าแข่งขันให้ถูกต้องตามความเป็นไปได้ที่จะเสร็จหรืออาจประเมินความน่าจะเป็นของการทำ ฉันเข้าใจว่าการถดถอยโลจิสติกถือว่าความสัมพันธ์เชิงเส้นระหว่างตัวทำนายและบันทึกของอัตราต่อรองและเห็นได้ชัดว่าอัตราส่วนนี้ไม่มีการตีความที่แท้จริงถ้าฉันเริ่มยุ่งกับผลลัพธ์ ฉันแน่ใจว่านี่ไม่ใช่สมาร์ทจากมุมมองทางทฤษฎี แต่มันอาจช่วยให้ได้รับสัญญาณเพิ่มเติมและป้องกันการ overfitting (ฉันมีตัวทำนายเกือบเท่าความสำเร็จดังนั้นมันอาจเป็นประโยชน์ในการใช้ความสัมพันธ์กับการทำให้สมบูรณ์บางส่วนเป็นการตรวจสอบความสัมพันธ์กับการทำให้สมบูรณ์) วิธีนี้เคยใช้ในการฝึกอย่างรับผิดชอบหรือไม่? ไม่ว่าจะด้วยวิธีใดมีรุ่นอื่น ๆ ออกมาบ้างหรือบางทีอาจเป็นสิ่งที่จำลองแบบอัตราการเกิดอันตรายอย่างชัดเจนใช้ระยะทางมากกว่าระยะเวลาแทนซึ่งอาจเหมาะกว่าสำหรับการวิเคราะห์ประเภทนี้

3
คุณสมบัติการจัดอันดับในการถดถอยโลจิสติก
ฉันใช้การถดถอยโลจิสติก ฉันมีหกคุณสมบัติฉันต้องการทราบคุณสมบัติที่สำคัญในตัวจําแนกนี้ที่มีผลต่อผลลัพธ์มากกว่าคุณสมบัติอื่น ๆ ฉันใช้ Information Gain แต่ดูเหมือนว่ามันไม่ได้ขึ้นอยู่กับตัวจําแนกที่ใช้แล้ว มีวิธีการจัดอันดับคุณลักษณะตามความสำคัญของพวกเขาตามตัวจําแนกเฉพาะ (เช่น Logistic Regression) หรือไม่ ความช่วยเหลือใด ๆ จะได้รับการชื่นชมอย่างมาก

1
การถดถอยโลจิสติกเทียบกับไคสแควร์ใน 2x2 และ Ix2 (ปัจจัยเดียว - การตอบสนองแบบไบนารี) ตารางฉุกเฉิน?
ฉันพยายามที่จะเข้าใจการใช้การถดถอยโลจิสติกในตารางฉุกเฉิน 2x2 และ Ix2 ตัวอย่างเช่นการใช้สิ่งนี้เป็นตัวอย่าง ความแตกต่างระหว่างการใช้การทดสอบไคสแควร์และการใช้การถดถอยโลจิสติกคืออะไร? เกี่ยวกับตารางที่มีปัจจัยหลายอย่าง (ตาราง Ix2) ดังนี้: มีคำถามที่คล้ายกันที่นี่ - แต่คำตอบคือส่วนใหญ่ที่ไคสแควร์สามารถจัดการตาราง mxn แต่คำถามของฉันคือสิ่งที่เป็น specificalyl เมื่อมีผลไบนารีและปัจจัยเดียวที่ระบุ (เธรดที่เชื่อมโยงนั้นอ้างถึงเธรดนี้ด้วย แต่สิ่งนี้เกี่ยวข้องกับตัวแปร / ปัจจัยหลายตัว) หากเป็นเพียงปัจจัยเดียว (เช่นไม่จำเป็นต้องควบคุมตัวแปรอื่น ๆ ) ด้วยการตอบกลับแบบไบนารีจุดประสงค์ของการถดถอยแบบโลจิสติกคืออะไร

2
RMSE (Root Mean Squared Error) สำหรับโมเดลโลจิสติก
ฉันมีคำถามเกี่ยวกับความถูกต้องของการใช้ RMSE (Root Mean Squared Error) เพื่อเปรียบเทียบโมเดลโลจิสติกที่แตกต่างกัน การตอบสนองเป็นอย่างใดอย่างหนึ่ง0หรือ1และการคาดการณ์ที่มีความน่าจะเป็นระหว่าง0- 1? วิธีที่ใช้ด้านล่างนี้ใช้ได้กับการตอบกลับแบบไบนารีหรือไม่ # Using glmnet require(glmnet) load(url("https://github.com/cran/glmnet/raw/master /data/BinomialExample.RData")) cvfit = cv.glmnet(x, y, family = "binomial", type.measure = "mse") A <- predict(cvfit, newx = x, s = "lambda.min", type = "response") RMSE1 <- mean((y - A)^2) # 0.05816881 # glm mydata <- read.csv("https://stats.idre.ucla.edu/stat/data/binary.csv") …

3
เหตุใดจึงควรทำการเปลี่ยนแปลง WOE ของตัวพยากรณ์เชิงหมวดหมู่ในการถดถอยโลจิสติก
การเปลี่ยนแปลงน้ำหนักของหลักฐาน (WOE) ของตัวแปรเด็ดขาดมีประโยชน์เมื่อใด ตัวอย่างสามารถเห็นได้ในการแปลง WOE (ดังนั้นสำหรับการตอบสนอง , & ตัวทำนายหมวดหมู่ที่มีหมวดหมู่ , & ประสบความสำเร็จจากการทดลองภายในหมวดหมู่ที่ของตัวทำนายนี้, WOE สำหรับหมวดหมู่ที่ถูกกำหนดให้เป็นk y j n j j jyyykkkyjyjy_jnjnjn_jjjjjjj เข้าสู่ระบบYJΣkJYJΣkJ( nJ- yJ)nJ- yJlog⁡yj∑jkyj∑jk(nj−yj)nj−yj\log \frac{y_j} {\sum_j^k {y_j}} \frac{\sum_j^k (n_j-y_j)}{n_j-y_j} & การเปลี่ยนแปลงประกอบด้วยการเข้ารหัสแต่ละหมวดหมู่ของตัวทำนายหมวดหมู่ด้วย WOE เพื่อสร้างตัวทำนายแบบต่อเนื่องใหม่) ฉันต้องการเรียนรู้สาเหตุที่การแปลง WOE ช่วยการถดถอยโลจิสติกส์ ทฤษฎีที่อยู่เบื้องหลังสิ่งนี้คืออะไร?

3
การเปรียบเทียบแบบจำลองการถดถอยแบบโลจิสติกไบนารีที่ซ้อนกันเมื่อมีขนาดใหญ่
ที่ดีกว่าการถามคำถามของฉันฉันได้ให้บางส่วนของเอาท์พุทจากทั้งรุ่น 16 ตัวแปร ( fit) และรุ่น 17 ตัวแปร ( fit2) ด้านล่าง (ทุกตัวแปรในรูปแบบเหล่านี้เป็นอย่างต่อเนื่องที่แตกต่างระหว่างรุ่นเหล่านี้ก็คือfitไม่ได้ มีตัวแปร 17 (var17)): fit Model Likelihood Discrimination Rank Discrim. Ratio Test Indexes Indexes Obs 102849 LR chi2 13602.84 R2 0.173 C 0.703 0 69833 d.f. 17 g 1.150 Dxy 0.407 1 33016 Pr(> chi2) <0.0001 gr 3.160 gamma …

1
การประมาณค่าสัมประสิทธิ์การถดถอยโลจิสติกในการออกแบบตัวควบคุมเคสเมื่อตัวแปรผลลัพธ์ไม่ใช่สถานะตัวควบคุม / ตัวควบคุม
พิจารณาการสุ่มตัวอย่างข้อมูลจากประชากรขนาดด้วยวิธีต่อไปนี้: สำหรับNNNk=1,...,Nk=1,...,Nk=1, ..., N สังเกตบุคคล 'โรค' สถานะ 'skkk หากพวกเขามีโรครวมพวกเขาในตัวอย่างที่มีความน่าจะเป็นpk1pk1p_{k1} หากพวกเขาไม่ได้มีโรคที่รวมไว้ด้วยความน่าจะ{K0}pk0pk0p_{k0} สมมติว่าคุณสังเกตตัวแปรและไบนารี่เวกเตอร์ทำนายผล , สำหรับอาสาสมัครทดลองด้วยวิธีนี้ ตัวแปรผลลัพธ์ไม่ใช่สถานะ "โรค" ฉันต้องการประเมินพารามิเตอร์ของตัวแบบการถดถอยโลจิสติก:YiYiY_iXiXi{\bf X}_ii=1,...,ni=1,...,ni=1, ..., n log(P(Yi=1|Xi)P(Yi=0|Xi))=α+Xiβlog⁡(P(Yi=1|Xi)P(Yi=0|Xi))=α+Xiβ \log \left( \frac{ P(Y_i = 1 | {\bf X}_i) }{ P(Y_i = 0 | {\bf X}_i) } \right) = \alpha + {\bf X}_i {\boldsymbol \beta} ทั้งหมดที่ฉันดูแลเกี่ยวกับการเป็นอัตราส่วน (log) ต่อรองββ{\boldsymbol \beta}เบต้า} การสกัดกั้นไม่เกี่ยวข้องกับฉัน …

1
การตรวจสอบความทนทานของการถดถอยโลจิสติกกับการละเมิดความเป็นเชิงเส้นของ logit
ฉันกำลังทำการถดถอยโลจิสติกด้วยผลลัพธ์ไบนารี (เริ่มต้นและไม่เริ่ม) การผสมผสานของผู้ทำนายของฉันนั้นล้วน แต่เป็นตัวแปรแบบต่อเนื่องหรือแบบแบ่งขั้ว การใช้วิธี Box-Tidwell หนึ่งในเครื่องมือทำนายอย่างต่อเนื่องของฉันอาจละเมิดสมมติฐานของความเป็นเชิงเส้นของ logit ไม่มีข้อบ่งชี้จากสถิติความดีพอดีว่าเป็นปัญหา ฉันได้เรียกใช้โมเดลการถดถอยอีกครั้งโดยแทนที่ตัวแปรต่อเนื่องดั้งเดิมด้วย: ประการแรกการแปลงรากที่สองและที่สองคือตัวแปรที่มีการแบ่งขั้ว ในการตรวจสอบผลลัพธ์ดูเหมือนว่าความดีของพอดีช่วยปรับปรุงเล็กน้อย แต่เศษเหลือเป็นปัญหา การประมาณพารามิเตอร์, ข้อผิดพลาดมาตรฐานและยังคงคล้ายกัน การตีความข้อมูลไม่เปลี่ยนแปลงตามสมมติฐานของฉันทั้ง 3 แบบประสบการณ์( β)ประสบการณ์⁡(β)\exp(\beta) ดังนั้นในแง่ของประโยชน์ของผลลัพธ์และความหมายในการตีความข้อมูลของฉันมันดูเหมือนว่าจะเหมาะสมที่จะรายงานตัวแบบการถดถอยโดยใช้ตัวแปรต่อเนื่องดั้งเดิม ฉันสงสัยว่านี้: การถดถอยโลจิสติกส์แข็งแกร่งเมื่อใดเมื่อเปรียบเทียบกับการละเมิดความเป็นเส้นตรงของข้อสมมติฐาน logit จากตัวอย่างข้างต้นของฉันดูเหมือนจะยอมรับได้หรือไม่ที่จะรวมตัวแปรต่อเนื่องดั้งเดิมไว้ในโมเดล มีการอ้างอิงหรือคำแนะนำสำหรับการแนะนำเมื่อเป็นที่พอใจหรือไม่ที่จะยอมรับว่าแบบจำลองนั้นมีความทนทานต่อการละเมิดความเป็นเส้นตรงของ logit หรือไม่?

3
วิธีรับช่วงความมั่นใจในการเปลี่ยนแปลงประชากร r-square
ตัวอย่างง่ายๆสมมติว่ามีตัวแบบถดถอยเชิงเส้นสองแบบ รุ่นที่ 1 มีสามทำนาย, x1a, x2bและx2c แบบจำลอง 2 มีตัวทำนายสามตัวจากแบบจำลอง 1 และสองตัวทำนายเพิ่มเติมx2aและx2b มีสมการถดถอยที่ประชากรประชากรแปรปรวนอธิบายคือเป็น สำหรับรุ่นที่ 1 และρ 2 ( 2 )สำหรับรุ่น 2. แปรปรวนเพิ่มขึ้นอธิบายโดยรุ่น 2 ในประชากรที่อยู่Δ ρ 2 = ρ 2 ( 2 ) - ρ 2 ( 1 )ρ2(1)ρ(1)2\rho^2_{(1)}ρ2(2)ρ(2)2\rho^2_{(2)}Δρ2=ρ2(2)−ρ2(1)Δρ2=ρ(2)2−ρ(1)2\Delta\rho^2 = \rho^2_{(2)} - \rho^2_{(1)} ฉันสนใจในการได้รับข้อผิดพลาดมาตรฐานและช่วงความเชื่อมั่นสำหรับประมาณการของ 2 ในขณะที่ตัวอย่างเกี่ยวข้องกับตัวทำนาย 3 และ 2 ตามลำดับความสนใจงานวิจัยของฉันเกี่ยวข้องกับตัวทำนายจำนวนต่าง ๆ (เช่น …

1
ฉันจะรวมเอานวัตกรรมล้ำสมัยที่การสังเกตที่ 48 ในโมเดล ARIMA ของฉันได้อย่างไร
ฉันกำลังทำงานกับชุดข้อมูล หลังจากใช้เทคนิคการระบุตัวแบบบางอย่างฉันก็ออกมาพร้อมกับแบบจำลอง ARIMA (0,2,1) ผมใช้detectIOฟังก์ชั่นในแพคเกจTSAในการวิจัยที่จะตรวจพบนวัตกรรมขอบเขต (IO) ที่สังเกต 48th ของชุดข้อมูลเดิมของฉัน ฉันจะรวมค่าผิดปกตินี้ไว้ในแบบจำลองของฉันเพื่อที่ฉันจะสามารถใช้เพื่อวัตถุประสงค์ในการพยากรณ์ได้อย่างไร ฉันไม่ต้องการใช้แบบจำลอง ARIMAX เนื่องจากฉันอาจไม่สามารถคาดการณ์ได้จากสิ่งนั้นใน R มีวิธีอื่นที่ฉันสามารถทำได้หรือไม่ นี่คือค่านิยมของฉันตามลำดับ: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

2
การถดถอยโลจิสติกหลายครั้งเทียบกับการถดถอยหลายระดับ
มันเป็นไปได้ไหมที่จะทำการถดถอยโลจิสติกแบบไบนารีหลาย ๆ แบบแทนที่จะทำการถดถอยแบบหลายส่วน? จากคำถามนี้: การถดถอยโลจิสติก Multinomial เทียบกับการถดถอยโลจิสติกไบนารีหนึ่งส่วนที่เหลือฉันเห็นว่าการถดถอย Multinomial อาจมีข้อผิดพลาดมาตรฐานที่ต่ำกว่า อย่างไรก็ตามแพคเกจที่ฉันต้องการใช้ยังไม่ได้รับการสรุปในการถดถอยหลายระดับ ( ncvreg: http://cran.r-project.org/web/packages/ncvreg/ncvreg.pdf ) และดังนั้นฉันสงสัยว่าฉันสามารถทำได้ การถดถอยโลจิสติกไบนารีหลายรายการแทน

1
สัจพจน์ของ Luce ทางเลือกคำถามเกี่ยวกับความน่าจะเป็นแบบมีเงื่อนไข [ปิด]
ปิด คำถามนี้ต้องการรายละเอียดหรือความคมชัด ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ เพิ่มรายละเอียดและชี้แจงปัญหาโดยแก้ไขโพสต์นี้ ปิดให้บริการใน2 ปีที่ผ่านมา ฉันอ่านLuce (1959) จากนั้นฉันก็พบคำสั่งนี้: เมื่อคนเลือกระหว่างทางเลือกบ่อยครั้งที่การตอบสนองของพวกเขาดูเหมือนจะถูกควบคุมโดยความน่าจะเป็นซึ่งถูกกำหนดไว้ในชุดตัวเลือก แต่ทฤษฎีความน่าจะเป็นทั่วไปที่มีนิยามมาตรฐานของความน่าจะเป็นแบบมีเงื่อนไขนั้นดูเหมือนจะไม่เป็นสิ่งที่ต้องการ ตัวอย่างแสดงให้เห็นถึงความยากลำบาก เมื่อตัดสินใจว่าจะเดินทางจากบ้านไปยังเมืองอื่นตัวเลือกของคุณอาจเป็นเครื่องบิน (a) รถบัส (b) หรือรถยนต์ (c) ให้ A, B, C แสดงถึงสภาวะที่ไม่แน่นอนของธรรมชาติที่เกี่ยวข้องกับรูปแบบของการเดินทาง โปรดทราบว่าหากมีคนเลือกความไม่แน่นอนทั้งหมดของ A และ B อยู่เนื่องจากเครื่องบินบินและรถเมล์วิ่งไม่ว่าคุณจะอยู่บนเครื่องบินหรือไม่ก็ตาม อย่างไรก็ตามหากคุณเลือก a หรือ b ดังนั้นรถของคุณจะยังคงอยู่ในโรงรถและชุด C จะถูกเปลี่ยนอย่างรุนแรงเมื่อรถขับเคลื่อน สัจพจน์ตัวเลือกของบทที่ 1 ได้รับการแนะนำเป็นความพยายามครั้งแรกในการสร้างทฤษฎีความน่าจะเป็นแบบเลือกได้โดยผ่านสมมติฐานตัวอย่างพื้นที่คงที่ที่เป็นสากล แหล่งที่มา: http://www.scholarpedia.org/article/Luce's_choice_axiom สำหรับผมน่าจะเป็นตัวชี้วัดที่มีการกำหนดไว้กับแฝดพื้นที่ตัวอย่างเป็นพีชคณิตซิกมาFและในที่สุดก็เป็นมาตรการPΩΩ\OmegaFF\mathcal{F}PPP ด้วยความเคารพต่อตัวอย่างที่กล่าวมาแล้วสิ่งที่ดูเหมือนจะเป็นปัญหาถ้าฉันกำหนด: Ω={bus,car,airplane}Ω={bus,car,airplane}\Omega = \{ \text{bus}, \text{car}, \text{airplane} \} …

2
ความแตกต่างระหว่างการถดถอยเชิงเส้นของ logit-transformed, การถดถอยโลจิสติกและการผสมแบบโลจิสติกคืออะไร?
สมมติว่าฉันมีนักเรียน 10 คนแต่ละคนพยายามแก้ปัญหาคณิตศาสตร์ 20 ข้อ ปัญหาคะแนนถูกต้องหรือไม่ถูกต้อง (ใน longdata) และประสิทธิภาพของนักเรียนแต่ละคนสามารถสรุปได้ด้วยการวัดความแม่นยำ (ใน subjdata) แบบจำลอง 1, 2 และ 4 ด้านล่างดูเหมือนจะให้ผลลัพธ์ที่แตกต่างกัน แต่ฉันเข้าใจว่าพวกเขากำลังทำสิ่งเดียวกัน ทำไมพวกเขาถึงให้ผลลัพธ์ที่แตกต่างกัน? (ฉันรวมโมเดล 3 ไว้สำหรับการอ้างอิง) library(lme4) set.seed(1) nsubjs=10 nprobs=20 subjdata = data.frame('subj'=rep(1:nsubjs),'iq'=rep(seq(80,120,10),nsubjs/5)) longdata = subjdata[rep(seq_len(nrow(subjdata)), each=nprobs), ] longdata$correct = runif(nsubjs*nprobs)<pnorm(longdata$iq/50-1.4) subjdata$acc = by(longdata$correct,longdata$subj,mean) model1 = lm(logit(acc)~iq,subjdata) model2 = glm(acc~iq,subjdata,family=gaussian(link='logit')) model3 = glm(acc~iq,subjdata,family=binomial(link='logit')) model4 …

1
ทำไม Anova () และ drop1 () จึงให้คำตอบที่แตกต่างกันสำหรับ GLMM
ฉันมีแบบฟอร์ม GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) เมื่อฉันใช้drop1(model, test="Chi")ฉันได้รับผลลัพธ์ที่แตกต่างกว่าถ้าผมใช้จากแพคเกจรถหรือAnova(model, type="III") summary(model)สองหลังนี้ให้คำตอบเดียวกัน จากการใช้ข้อมูลที่ประดิษฐ์ขึ้นมาฉันพบว่าทั้งสองวิธีปกติไม่แตกต่างกัน พวกเขาให้คำตอบเดียวกันสำหรับแบบจำลองเชิงเส้นที่มีความสมดุลแบบจำลองเชิงเส้นที่ไม่สมดุล (ซึ่งไม่เท่ากันในกลุ่มต่าง ๆ ) และสำหรับแบบจำลองเชิงเส้นที่สมดุลแบบทั่วไป ดังนั้นจึงปรากฏว่าเฉพาะในกรณีที่มีการรวมปัจจัยแบบสุ่มเข้าด้วยกัน ทำไมจึงมีความคลาดเคลื่อนระหว่างสองวิธีนี้? เมื่อใช้ GLMM ควรAnova()หรือdrop1()จะใช้งานอย่างไร ความแตกต่างระหว่างสองสิ่งนี้ค่อนข้างเล็กน้อยอย่างน้อยสำหรับข้อมูลของฉัน มันมีความสำคัญต่อการใช้งานหรือไม่?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.