คำถามติดแท็ก generalized-linear-model

ลักษณะทั่วไปของการถดถอยเชิงเส้นที่อนุญาตให้มีความสัมพันธ์แบบไม่เชิงเส้นผ่าน "ฟังก์ชันลิงก์" และสำหรับความแปรปรวนของการตอบสนองขึ้นอยู่กับค่าที่ทำนายไว้ (เพื่อไม่ให้สับสนกับ "โมเดลเชิงเส้นทั่วไป" ซึ่งขยายโมเดลเชิงเส้นปกติไปยังโครงสร้างความแปรปรวนร่วมทั่วไปและการตอบสนองหลายตัวแปร)

2
หนังสือที่ดีที่มีความเครียดเท่า ๆ กันเกี่ยวกับทฤษฎีและคณิตศาสตร์
ฉันมีหลักสูตรสถิติเพียงพอในช่วงปีที่เรียนและที่มหาวิทยาลัย ฉันมีความเข้าใจอย่างเป็นธรรมเกี่ยวกับแนวคิดเช่น CI ค่า p การตีความนัยสำคัญทางสถิติการทดสอบหลายแบบสหสัมพันธ์การถดถอยเชิงเส้นอย่างง่าย (ที่มีกำลังสองน้อยที่สุด) (โมเดลเชิงเส้นทั่วไป) และการทดสอบสมมติฐานทั้งหมด ฉันได้รับการแนะนำให้รู้จักกับมันมากของวันก่อนหน้านี้ส่วนใหญ่ทางคณิตศาสตร์ และเมื่อเร็ว ๆ นี้ด้วยความช่วยเหลือของหนังสือชีวสถิติที่ใช้งานง่ายฉันได้เข้าใจและไม่เคยมีมาก่อนเกี่ยวกับทฤษฎีแนวคิดจริงฉันเชื่อ ตอนนี้สิ่งที่ฉันพบว่าขาดคือความเข้าใจในตัวแบบที่เหมาะสม (การประมาณค่าพารามิเตอร์กับตัวแบบ) และสิ่งที่คล้ายกัน โดยเฉพาะอย่างยิ่งแนวคิดต่าง ๆ เช่นการประมาณค่าความน่าจะเป็นสูงสุดแบบจำลองเชิงเส้นแบบทั่วไปวิธีการแบบเบส์เพื่อสถิติเชิงอนุมาน มีตัวอย่างหรือแบบฝึกหัดไม่เพียงพอหรือมีเนื้อหาที่เป็นแนวคิดอย่างที่ควรจะเป็นในโมเดลที่น่าจะเป็นไปได้ง่ายหรือหัวข้ออื่น ๆ (พื้นฐาน) บนอินเทอร์เน็ต ฉันเป็นชีวสารสนเทศศาสตร์และฉันทำงานกับข้อมูล RNA-Seq ซึ่งเกี่ยวข้องกับจำนวนการอ่านดิบที่มีต่อการค้นหาสมมติว่าการแสดงออกของยีน (หรือการแสดงออกของยีนที่แตกต่างกัน) จากพื้นหลังของฉันแม้ว่าฉันจะไม่คุ้นเคยกับแบบจำลองทางสถิติฉันก็สามารถเข้าใจเหตุผลของการกระจายตัวแบบปัวซองและทวินามลบและอื่น ๆ .. แต่เอกสารบางฉบับเกี่ยวข้องกับตัวแบบเชิงเส้นทั่วไปและประมาณ MLE เป็นต้น .. ซึ่ง ฉันเชื่อว่าฉันมีพื้นฐานที่จำเป็นในการทำความเข้าใจ ฉันเดาว่าสิ่งที่ฉันขอเป็นวิธีการที่ผู้เชี่ยวชาญบางคนในหมู่คุณเห็นว่ามีประโยชน์และ (a) หนังสือ (s) ที่ช่วยให้ฉันเข้าใจแนวคิดเหล่านี้ในวิธีที่ง่ายขึ้น (ไม่ใช่แค่คณิตศาสตร์ที่เข้มงวด แต่ทฤษฎีที่สนับสนุนคณิตศาสตร์) ในขณะที่ฉันจะนำไปใช้เป็นส่วนใหญ่ฉันจะพอใจ (ในขณะนี้) ด้วยความเข้าใจว่าอะไรคืออะไรและหลังจากนั้นฉันสามารถกลับไปที่บทพิสูจน์ทางคณิตศาสตร์ที่เข้มงวด ... ไม่มีใครมีคำแนะนำหรือไม่? ฉันไม่รังเกียจที่จะซื้อหนังสือมากกว่า 1 …

1
การตีความผลกระทบคงที่จากการถดถอยโลจิสติกส์ผลผสม
ฉันสับสนกับข้อความที่หน้าเว็บของ UCLAเกี่ยวกับการถดถอยโลจิสติกเอฟเฟกต์ พวกเขาแสดงตารางของสัมประสิทธิ์ผลกระทบคงที่จากการปรับแบบจำลองดังกล่าวและย่อหน้าแรกข้างล่างดูเหมือนจะตีความค่าสัมประสิทธิ์เหมือนการถดถอยโลจิสติกปกติ แต่เมื่อพวกเขาพูดถึงอัตราต่อรองพวกเขาบอกว่าคุณต้องตีความเงื่อนไขแบบสุ่มตามเงื่อนไข อะไรจะทำให้การตีความของอัตราต่อรองที่แตกต่างจากค่า exponentiated ของพวกเขา? จะไม่ต้อง "ถือทุกอย่างอื่นคงที่"? วิธีที่เหมาะสมในการตีความสัมประสิทธิ์ผลคงที่จากรุ่นนี้คืออะไร? ฉันอยู่ภายใต้ความประทับใจเสมอไม่มีอะไรเปลี่ยนแปลงจากการถดถอยโลจิสติก "ปกติ" เพราะเอฟเฟกต์แบบสุ่มมีความคาดหวังเป็นศูนย์ ดังนั้นคุณจึงตีความอัตราต่อรองของอัตราต่อรองและอัตราต่อรองเหมือนกันโดยมีหรือไม่มีเอฟเฟกต์แบบสุ่ม - เปลี่ยนเฉพาะ SE เท่านั้น การประมาณการสามารถตีความได้อย่างเป็นหลักเช่นเคย ตัวอย่างเช่นสำหรับ IL6 การเพิ่มขึ้นหนึ่งหน่วยใน IL6 จะสัมพันธ์กับการลดลงของ. 053 หน่วยในอัตราต่อรองที่คาดหวังของการให้อภัย ในทำนองเดียวกันคนที่แต่งงานแล้วหรืออาศัยอยู่ในฐานะแต่งงานได้รับการคาดหวังว่าจะมีอัตราการอยู่รอดสูงถึง. 26 มากกว่าคนที่โสด หลายคนชอบตีความอัตราต่อรอง อย่างไรก็ตามสิ่งเหล่านี้มีความหมายที่เหมาะสมยิ่งขึ้นเมื่อมีเอฟเฟกต์แบบผสม ในการถดถอยโลจิสติกปกติอัตราเดิมพันอัตราส่วนอัตราต่อรองที่คาดว่าจะถือทำนายอื่น ๆ ทั้งหมดได้รับการแก้ไข สิ่งนี้สมเหตุสมผลเมื่อเรามักจะสนใจในการปรับทางสถิติสำหรับเอฟเฟกต์อื่น ๆ เช่นอายุเพื่อให้ได้ผลที่ "บริสุทธิ์" ของการแต่งงานหรืออะไรก็ตามที่ผู้ทำนายหลักสนใจ เช่นเดียวกันกับโมเดลเอฟเฟ็กต์โลจิสติกส์เอฟเฟกต์ผสมที่มีการเพิ่มทุกอย่างที่คงที่ไว้ นั่นคืออัตราส่วนอัตราต่อรองที่นี่คืออัตราต่อรองแบบมีเงื่อนไขสำหรับคนที่อายุและค่าคงที่ IL6 เช่นเดียวกับคนที่มีแพทย์เดียวกันหรือแพทย์ที่มีเอฟเฟกต์แบบสุ่มเหมือนกัน

1
แบบจำลองเชิงเส้นทั่วไปเทียบกับแบบจำลอง Timseries สำหรับการพยากรณ์
อะไรคือความแตกต่างในการใช้แบบจำลองเชิงเส้นทั่วไปเช่นการกำหนดความเกี่ยวข้องอัตโนมัติ (ARD) และการถดถอยแบบริดจ์กับแบบจำลองอนุกรมเวลาเช่น Box-Jenkins (ARIMA) หรือการทำให้เรียบแบบเอกซ์โพเนนเชียลสำหรับการคาดการณ์ มีกฎของหัวแม่มือในการใช้ GLM และเมื่อใช้ Time Series หรือไม่

1
บันทึกโอกาสสำหรับ GLM
ในรหัสต่อไปนี้ฉันทำการถดถอยโลจิสติกในข้อมูลที่จัดกลุ่มโดยใช้ glm และ "ด้วยมือ" โดยใช้ mle2 ทำไมฟังก์ชั่น logLik ใน R จึงให้ความเป็นไปได้ในการบันทึก logLik (fit.glm) = - 2.336 ที่แตกต่างจากหนึ่ง logLik (fit.ml) = - 5.514 ฉันได้รับด้วยมือ? library(bbmle) #successes in first column, failures in second Y <- matrix(c(1,2,4,3,2,0),3,2) #predictor X <- c(0,1,2) #use glm fit.glm <- glm(Y ~ X,family=binomial (link=logit)) summary(fit.glm) #use mle2 invlogit …

4
รูปแบบประวัติเหตุการณ์แบบไม่ต่อเนื่อง (การอยู่รอด) ใน R
ฉันกำลังพยายามปรับโมเดลที่ไม่ต่อเนื่องใน R แต่ฉันไม่แน่ใจว่าจะทำอย่างไร ฉันได้อ่านแล้วว่าคุณสามารถจัดระเบียบตัวแปรตามในแถวต่างกันหนึ่งตัวสำหรับแต่ละการสังเกตเวลาและการใช้glmฟังก์ชั่นที่มีลิงค์ logit หรือ cloglog ในแง่นี้ฉันมีสามคอลัมน์: ID, Event(1 หรือ 0 ในแต่ละช่วงเวลา) และTime Elapsed(ตั้งแต่จุดเริ่มต้นของการสังเกต) รวมทั้ง covariates อื่น ๆ ฉันจะเขียนรหัสเพื่อให้พอดีกับรุ่นได้อย่างไร ตัวแปรตามคืออะไร ฉันเดาว่าฉันสามารถใช้Eventเป็นตัวแปรตามและรวมTime Elapsedอยู่ใน covariates แต่สิ่งที่เกิดขึ้นกับID? ฉันต้องการมันไหม ขอบคุณ
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

1
การตีความค่าสัมประสิทธิ์ของการโต้ตอบระหว่างตัวแปรเด็ดขาดและตัวแปรต่อเนื่อง
ฉันมีคำถามเกี่ยวกับการตีความค่าสัมประสิทธิ์ของการโต้ตอบระหว่างตัวแปรแบบต่อเนื่องและหมวดหมู่ นี่คือแบบจำลองของฉัน: model_glm3=glm(cog~lg_hag+race+pdg+sex+as.factor(educa)+(lg_hag:as.factor(educa)), data=base_708) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 21.4836 2.0698 10.380 < 2e-16 *** lg_hag 8.5691 3.7688 2.274 0.02334 * raceblack -8.4715 1.7482 -4.846 1.61e-06 *** racemexican -3.0483 1.7073 -1.785 0.07469 . racemulti/other -4.6002 2.3098 -1.992 0.04687 * pdg 2.8038 0.4268 6.570 1.10e-10 *** sexfemale 4.5691 …

4
ฉันสามารถคำนวณเพียร์สันสถิติทดสอบสำหรับการขาดความพอดีกับรูปแบบการถดถอยโลจิสติกใน R?
อัตราส่วนความน่าจะเป็น (การเบี่ยงเบน aka)สถิติและการทดสอบแบบไม่พอดี (หรือความดีของความพอดี) นั้นค่อนข้างตรงไปตรงมาที่จะได้รับแบบจำลองการถดถอยแบบโลจิสติก (พอดีกับการใช้งาน) ในอาร์ ง่ายที่จะให้จำนวนเซลล์บางส่วนสิ้นสุดต่ำพอที่การทดสอบจะไม่น่าเชื่อถือ วิธีหนึ่งในการตรวจสอบความน่าเชื่อถือของการทดสอบอัตราส่วนความน่าจะเป็นสำหรับการขาดความพอดีคือการเปรียบเทียบสถิติการทดสอบและP- value กับการทดสอบไคสแควร์ของ Pearson (หรือ ) การทดสอบแบบไม่พอดีG2G2G^2glm(..., family = binomial)χ2χ2\chi^2 ทั้งglmวัตถุและsummary()วิธีการรายงานสถิติการทดสอบสำหรับการทดสอบไคสแควร์ของเพียร์สันสำหรับการขาดความพอดี ในการค้นหาของฉันสิ่งเดียวที่ฉันคิดไว้คือchisq.test()ฟังก์ชั่น (ในstatsแพ็คเกจ): เอกสารประกอบของมันบอกว่า " chisq.testทำการทดสอบตารางฉุกเฉินแบบไคสแควร์และการทดสอบความดีแบบพอดี" อย่างไรก็ตามเอกสารประกอบกระจัดกระจายในวิธีการทดสอบดังกล่าว: ถ้าxเป็นเมทริกซ์ที่มีหนึ่งแถวหรือคอลัมน์หรือถ้าxเป็นเวกเตอร์และyไม่ได้ให้ไว้จะทำการทดสอบความดี - พอดี ( xถือว่าเป็นตารางฉุกเฉินหนึ่งมิติ) รายการของxต้องเป็นจำนวนเต็มที่ไม่เป็นลบ ในกรณีนี้สมมติฐานที่ทดสอบคือความน่าจะเป็นของประชากรเท่ากับpหรือไม่เท่ากันทั้งหมดหากpไม่ได้รับ ฉันคิดว่าคุณสามารถใช้yส่วนประกอบของglmวัตถุสำหรับข้อโต้แย้งของx chisq.testอย่างไรก็ตามคุณไม่สามารถใช้fitted.valuesองค์ประกอบของglmวัตถุสำหรับการpโต้แย้งchisq.testเพราะคุณจะได้รับข้อผิดพลาด: " probabilities must sum to 1." อย่างน้อยฉันจะ (ใน R) คำนวณสถิติการทดสอบPearsonสำหรับการขาดความฟิตโดยไม่ต้องทำตามขั้นตอนด้วยตนเองได้อย่างไรχ2χ2\chi^2

1
R ตัวแปรเชิงเส้นถดถอยหมวดหมู่ "ซ่อน" ค่า
นี่เป็นเพียงตัวอย่างที่ฉันเจอหลายครั้งดังนั้นฉันจึงไม่มีข้อมูลตัวอย่าง ใช้แบบจำลองการถดถอยเชิงเส้นใน R: a.lm = lm(Y ~ x1 + x2) x1เป็นตัวแปรต่อเนื่อง x2เป็นหมวดหมู่และมีสามค่าเช่น "ต่ำ", "ปานกลาง" และ "สูง" อย่างไรก็ตามเอาต์พุตที่กำหนดโดย R จะเป็นดังนี้: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 ฉันเข้าใจว่า R แนะนำการเข้ารหัสแบบหลอกบางอย่างเกี่ยวกับปัจจัยดังกล่าว ( …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
ไม่ว่าจะใช้การชดเชยในการถดถอยปัวซองเมื่อทำนายเป้าหมายการทำงานทั้งหมดที่ผู้เล่นฮอกกี้ทำคะแนน
ฉันมีคำถามเกี่ยวกับสิ่งที่ดีกว่าหรือไม่ใช้การชดเชย สมมติว่าเป็นโมเดลที่ง่ายมากที่คุณต้องการอธิบายจำนวนเป้าหมาย (โดยรวม) ในฮอกกี้ ดังนั้นคุณมีเป้าหมายจำนวนเกมที่เล่นและตัวแปรดัมมี่ "กองหน้า" ซึ่งเท่ากับ 1 หากผู้เล่นเป็นกองหน้าและ 0 อย่างอื่น ดังนั้นรุ่นใดต่อไปนี้ที่ระบุไว้ถูกต้อง? เป้าหมาย = เกม + กองหน้าหรือ เป้าหมาย = ชดเชย (เกม) + กองหน้า อีกครั้งเป้าหมายคือเป้าหมายโดยรวมและจำนวนเกมเป็นเกมโดยรวมสำหรับผู้เล่นคนเดียว ตัวอย่างเช่นอาจมีผู้เล่นที่หยิบขึ้นมาที่มี 50 เป้าหมายใน 100 เกมและผู้เล่นอีกคนที่มี 20 เป้าหมายใน 50 เกมเป็นต้น ฉันควรทำอย่างไรเมื่อฉันต้องการประเมินจำนวนเป้าหมาย จำเป็นหรือไม่ที่จะใช้การชดเชยตรงนี้ อ้างอิง: ดูคำถามก่อนหน้านี้ที่พูดถึงเมื่อใช้ offsets ในการถดถอยปัวซองโดยทั่วไป

1
เอาต์พุตของโมเดลโลจิสติกใน R
ฉันพยายามตีความโมเดลโลจิสติกส์ประเภทต่อไปนี้: mdl <- glm(c(suc,fail) ~ fac1 + fac2, data=df, family=binomial) ผลลัพธ์ของpredict(mdl)อัตราความสำเร็จที่คาดหวังสำหรับแต่ละจุดข้อมูลเป็นเท่าใด มีวิธีง่าย ๆ ในการกำหนดอัตราเดิมพันสำหรับแต่ละระดับของโมเดลแทนที่จะเป็นจุดข้อมูลทั้งหมดหรือไม่

1
เชิงเส้นตรงกับ RKHS- การถดถอย
ฉันกำลังศึกษาความแตกต่างระหว่างการทำให้เป็นปกติในการถดถอย RKHS และการถดถอยเชิงเส้น แต่ฉันมีเวลายากที่จะเข้าใจความแตกต่างที่สำคัญระหว่างทั้งสอง รับคู่อินพุต - เอาต์พุต (xi,yi)(xi,yi)(x_i,y_i)ฉันต้องการประเมินฟังก์ชั่น f(⋅)f(⋅)f(\cdot) ดังนี้ f(x)≈u(x)=∑i=1mαiK(x,xi),f(x)≈u(x)=∑i=1mαiK(x,xi),\begin{equation}f(x)\approx u(x)=\sum_{i=1}^m \alpha_i K(x,x_i),\end{equation} ที่ไหน K(⋅,⋅)K(⋅,⋅)K(\cdot,\cdot)เป็นฟังก์ชั่นเคอร์เนล ค่าสัมประสิทธิ์αmαm\alpha_m สามารถพบได้โดยการแก้ minα∈Rn1n∥Y−Kα∥2Rn+λαTKα,minα∈Rn1n‖Y−Kα‖Rn2+λαTKα,\begin{equation} {\displaystyle \min _{\alpha\in R^{n}}{\frac {1}{n}}\|Y-K\alpha\|_{R^{n}}^{2}+\lambda \alpha^{T}K\alpha},\end{equation} ที่มีการละเมิดบางส่วนของโน้ตที่i,ji,ji,j 'รายการของเมทริกซ์เคอร์เนลวันที่KKKคือK(xi,xj)K(xi,xj){\displaystyle K(x_{i},x_{j})} {J})} สิ่งนี้จะให้ α∗=(K+λnI)−1Y.α∗=(K+λnI)−1Y.\begin{equation} \alpha^*=(K+\lambda nI)^{-1}Y. \end{equation} อีกวิธีหนึ่งเราสามารถรักษาปัญหาดังกล่าวเป็นปัญหาการถดถอยแบบเส้นตรง / ปัญหาการถดถอยเชิงเส้น: minα∈Rn1n∥Y−Kα∥2Rn+λαTα,minα∈Rn1n‖Y−Kα‖Rn2+λαTα,\begin{equation} {\displaystyle \min _{\alpha\in R^{n}}{\frac {1}{n}}\|Y-K\alpha\|_{R^{n}}^{2}+\lambda \alpha^{T}\alpha},\end{equation} พร้อมทางออก α∗=(KTK+λnI)−1KTY.α∗=(KTK+λnI)−1KTY.\begin{equation} {\alpha^*=(K^{T}K +\lambda nI)^{-1}K^{T}Y}. \end{equation} …

1
ความหมายที่แท้จริงของ alpha ใน GLM กับครอบครัวแกมม่าคืออะไร?
ฉันเหมาะสมกับแบบจำลองหลายแบบ .. glm(DV ~ I(1/IV), family = Gamma(link = "log") .. และฉันกำลังมองหาวิธีการเปรียบเทียบแบบจำลองที่ได้รับสำหรับตัวแปรที่แตกต่างกัน ฉันสงสัยว่าค่าอัลฟานั้นมีประโยชน์หรือไม่? สำหรับสามแปลงต่ำกว่าค่าอัลฟาคือ 17.85, 9.03 และ 6.27 ค่าเหล่านี้มีข้อมูลใด ๆ ที่ช่วยให้ฉันตีความข้อมูลของฉันหรือเพื่อเปรียบเทียบตัวแปรต่าง ๆ ได้หรือไม่?

5
เป็นวิธีที่ดีของกราฟิกที่แสดงจำนวนดาต้าพอยน์ที่จับคู่จำนวนมากคืออะไร?
ในเขตข้อมูลของฉันวิธีปกติในการพล็อตข้อมูลที่จับคู่นั้นเป็นชุดของส่วนของเส้นที่ลาดเอียงบาง ๆ ซ้อนทับมันด้วยค่ามัธยฐานและ CI ของค่ามัธยฐานของทั้งสองกลุ่ม: อย่างไรก็ตามพล็อตประเภทนี้กลายเป็นเรื่องยากที่จะอ่านเนื่องจากจำนวนดาต้าพอยน์มีขนาดใหญ่มาก (ในกรณีของฉันฉันมีตามลำดับ 10,000 คู่): การลดอัลฟ่าช่วยได้บ้าง แต่ก็ยังไม่ดีนัก ในขณะที่ค้นหาวิธีแก้ปัญหาฉันพบบทความนี้และตัดสินใจลองใช้ 'เส้นคู่ขนานพล็อต' อีกครั้งมันทำงานได้ดีมากสำหรับดาต้าพอยน์จำนวนน้อย: แต่มันก็ยิ่งยากที่จะทำให้เรื่องแบบนี้ดูดีเมื่อมีขนาดใหญ่มาก:ยังไม่มีข้อความยังไม่มีข้อความN ฉันคิดว่าฉันสามารถแสดงการแจกแจงของทั้งสองกลุ่มแยกต่างหากเช่นกับบ็อกซ์พล็อตหรือไวโอลินและพล็อตบรรทัดที่มีแถบข้อผิดพลาดด้านบนแสดงสองค่ามัธยฐาน / CIs แต่ฉันไม่ชอบความคิดนั้น ลักษณะการจับคู่ของข้อมูล ฉันยังไม่กระตือรือร้นในความคิดของพล็อตกระจาย 2D: ฉันต้องการการเป็นตัวแทนที่กะทัดรัดกว่าและเป็นแนวคิดหนึ่งที่ค่าของทั้งสองกลุ่มถูกพล็อตตามแกนเดียวกัน เพื่อความสมบูรณ์นี่คือข้อมูลที่มีลักษณะเหมือนการกระจายแบบสองมิติ: ไม่มีใครรู้วิธีที่ดีกว่าในการแสดงข้อมูลที่จับคู่กับขนาดตัวอย่างที่มีขนาดใหญ่มาก? คุณสามารถเชื่อมโยงฉันกับตัวอย่างได้ไหม แก้ไข ขออภัยฉันชัดเจนว่าไม่ได้ทำงานได้ดีพอที่จะอธิบายสิ่งที่ฉันกำลังมองหา ใช่พล็อตกระจายแบบ 2D ทำงานได้และมีหลายวิธีที่สามารถปรับปรุงให้ดีขึ้นเพื่อถ่ายทอดความหนาแน่นของคะแนนได้ดีขึ้น - ฉันสามารถกำหนดรหัสจุดตามการประมาณความหนาแน่นของเคอร์เนลได้ฉันสามารถสร้างฮิสโตแกรม 2D ได้ ฉันสามารถพล็อตรูปทรงที่ด้านบนของจุดเป็นต้น ฯลฯ ... อย่างไรก็ตามฉันคิดว่านี่เกินความจริงสำหรับข้อความที่ฉันพยายามสื่อ ฉันไม่สนใจเกี่ยวกับการแสดงความหนาแน่นของคะแนน 2 มิติต่อ se - ทั้งหมดที่ฉันต้องทำคือการแสดงให้เห็นว่าค่าสำหรับ 'บาร์' โดยทั่วไปมีขนาดใหญ่กว่าที่สำหรับ 'จุด' ในวิธีที่ง่ายและชัดเจนที่สุดเท่าที่จะทำได้ และโดยไม่สูญเสียธรรมชาติของข้อมูลที่จับคู่ …

1
การประมาณแบบจำลองการถดถอยโลจิสติกหลายระดับ
โมเดลโลจิสติกหลายระดับต่อไปนี้ที่มีตัวแปรอธิบายหนึ่งตัวที่ระดับ 1 (ระดับบุคคล) และตัวแปรอธิบายหนึ่งตัวที่ระดับ 2 (ระดับกลุ่ม): logit(pij)=π0j+π1jxij…(1)logit(pij)=π0j+π1jxij…(1)\text{logit}(p_{ij})=\pi_{0j}+\pi_{1j}x_{ij}\ldots (1) π0j=γ00+γ01zj+u0j…(2)π0j=γ00+γ01zj+u0j…(2)\pi_{0j}=\gamma_{00}+\gamma_{01}z_j+u_{0j}\ldots (2) π1j=γ10+γ11zj+u1j…(3)π1j=γ10+γ11zj+u1j…(3)\pi_{1j}=\gamma_{10}+\gamma_{11}z_j+u_{1j}\ldots (3) โดยที่ค่าคงที่ระดับกลุ่มและถูกสันนิษฐานว่ามีการแจกแจงปกติหลายตัวแปรที่มีค่าความคาดหวังเป็นศูนย์ ความแปรปรวนของข้อผิดพลาดที่เหลือ ถูกระบุเป็นและความแปรปรวนของข้อผิดพลาดที่เหลือ ถูกระบุเป็น\u0ju0ju_{0j}u1ju1ju_{1j}u0ju0ju_{0j}σ20σ02\sigma^2_0u1ju1ju_{1j}σ21σ12\sigma^2_1 ฉันต้องการที่จะประเมินค่าพารามิเตอร์ของรูปแบบและฉันชอบที่จะใช้ คำสั่งRglmmPQL สมการแทน (2) และ (3) ในสมการ (1) ผลตอบแทน logit(pij)=γ00+γ10xij+γ01zj+γ11xijzj+u0j+u1jxij…(4)logit(pij)=γ00+γ10xij+γ01zj+γ11xijzj+u0j+u1jxij…(4)\text{logit}(p_{ij})=\gamma_{00}+\gamma_{10}x_{ij}+\gamma_{01}z_j+\gamma_{11}x_{ij}z_j+u_{0j}+u_{1j}x_{ij}\ldots (4) มี 30 กลุ่มและ 5 คนในแต่ละกลุ่ม(j=1,...,30)(j=1,...,30)(j=1,...,30) รหัส R: #Simulating data from multilevel logistic distribution library(mvtnorm) set.seed(1234) J <- 30 ## number of groups n_j …

3
การสร้างแบบจำลองข้อมูลนับที่ตัวแปรออฟเซ็ตเป็น 0 สำหรับการสังเกตบางอย่าง
ฉันพยายามช่วยนักเรียนของเพื่อนร่วมงาน นักเรียนสังเกตและนับพฤติกรรมของนก (จำนวนสาย) ในชุดทดลอง จำนวนการโทรที่เกี่ยวข้องกับนกที่สังเกตได้เฉพาะในระหว่างการทดสอบแต่ละครั้งไม่สามารถระบุได้ แต่สามารถนับจำนวนนกที่สนับสนุนการบันทึกการโทรได้ ดังนั้นข้อเสนอแนะครั้งแรกของฉันคือการใส่หมายเลขของนกเป็นระยะชดเชยในรูปแบบ Poisson GLM เพราะฉะนั้นเราจะกระชับจำนวนที่คาดหวังของสายต่อนก ปัญหานี้คือว่าในช่วงเวลาที่สังเกตหลายครั้งไม่มีนก (และดังนั้นจึงไม่มีสาย) ถูกสังเกต ซอฟแวร์ (R ในกรณีนี้) บ่นเพราะ (R บ่นเกี่ยวกับการที่มีข้อมูล แต่ที่เป็นอย่างหมดจดผลมาจากการถูก)เข้าสู่ระบบ( 0 ) = - infเข้าสู่ระบบ⁡(0)=-INF\log(0) = -\infy-Infoffset(log(nbirds))-Inf ฉันสงสัยว่าจริง ๆ แล้วเราจำเป็นต้องมีแบบจำลองอุปสรรค์ (หรือคล้ายกัน) ที่เรามีรูปแบบทวินามแยกต่างหากสำหรับ "การสังเกตการโทร" (หรือไม่) และแบบจำลองการนับที่ถูกตัดทอนสำหรับจำนวนการโทร (ต่อนก) ในสถานการณ์ที่มีการโทรโดยที่เรารวมคำศัพท์ชดเชยเฉพาะในส่วนการนับของแบบจำลอง ต้องลองสิ่งนี้โดยใช้แพ็คเกจpsclใน R แต่ฉันยังคงได้รับข้อผิดพลาดเดิม: mod1 <- hurdle(NumberCallsCOPO ~ Condition * MoonVis + offset(log(NumberCOPO)) | …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.