สถิติและข้อมูลขนาดใหญ่ odds-ratio

2

การถดถอยปัวซองเพื่อประเมินความเสี่ยงสัมพัทธ์สำหรับผลลัพธ์ไบนารี

สรุปโดยย่อ เหตุใดจึงเป็นเรื่องธรรมดามากขึ้นที่จะใช้การถดถอยโลจิสติก (ด้วยอัตราต่อรอง) ในการศึกษาหมู่ที่มีผลลัพธ์เป็นเลขฐานสองเมื่อเทียบกับการถดถอยแบบปัวซอง (โดยมีความเสี่ยงสัมพัทธ์) พื้นหลัง ในระดับปริญญาตรีและระดับบัณฑิตศึกษาสถิติและหลักสูตรระบาดวิทยาในประสบการณ์ของฉันสอนโดยทั่วไปว่าการถดถอยโลจิสติกควรใช้สำหรับการสร้างแบบจำลองข้อมูลที่มีผลลัพธ์แบบไบนารีโดยมีการประเมินความเสี่ยงที่รายงานว่าเป็นอัตราต่อรอง อย่างไรก็ตามการถดถอยของปัวซอง (และที่เกี่ยวข้อง: กึ่งปัวซอง, ทวินามลบ ฯลฯ ) ยังสามารถใช้ในการสร้างแบบจำลองข้อมูลด้วยผลลัพธ์ไบนารีและด้วยวิธีการที่เหมาะสม (เช่นตัวประมาณความแปรปรวนแซนวิชที่แข็งแกร่ง) ให้การประเมินความเสี่ยง เช่น, Greenland S. , การประมาณแบบจำลองตามความเสี่ยงสัมพัทธ์และมาตรการทางระบาดวิทยาอื่น ๆ ในการศึกษาผลลัพธ์ทั่วไปและในกรณีศึกษาการควบคุม , Am J Epidemiol 2004 15 ส.ค. ; 160 (4): 301-5 Zou G. , วิธีการถดถอยแบบปัวซองเพื่อแก้ไขการศึกษาในอนาคตด้วยข้อมูลไบนารี , Am J Epidemiol 2004 1 เม.ย. ; 159 (7): 702-6 Zou …

42 logistic poisson-distribution epidemiology odds-ratio relative-risk

4

การถดถอยโลจิสติกใน R (อัตราต่อรอง)

Rฉันพยายามที่จะดำเนินการวิเคราะห์การถดถอยโลจิสติกใน ฉันเข้าร่วมหลักสูตรที่ครอบคลุมเนื้อหานี้โดยใช้ STATA Rฉันกำลังมองหามันยากมากที่จะทำซ้ำการทำงานใน มันเป็นผู้ใหญ่ในพื้นที่นี้หรือไม่? ดูเหมือนว่าจะมีเอกสารหรือคำแนะนำเล็กน้อย ดูเหมือนว่าจะต้องมีการติดตั้งepicalcและ / หรือepitoolsและ / หรือ / อื่น ๆ ซึ่งไม่สามารถที่จะทำงานออกเอกสารที่ล้าสมัยหรือขาดเอกสารได้ ฉันเคยglmทำการถดถอยโลจิสติก ข้อเสนอแนะใด ๆ ยินดีต้อนรับ ฉันควรทำให้คำถามนี้เป็นจริง ฉันจะรันการถดถอยโลจิสติกและสร้างอัตราต่อรองได้Rอย่างไร นี่คือสิ่งที่ฉันได้ทำการวิเคราะห์แบบ univariate: x = glm(Outcome ~ Age, family=binomial(link="logit")) และสำหรับหลายตัวแปร: y = glm(Outcome ~ Age + B + C, family=binomial(link="logit")) เราได้ตรวจสอบแล้วที่x, y, และ summary(x)summary(y) คือx$coefficientsค่าใด ๆ ?

40 r logistic odds-ratio

1

เหตุใดค่า p ของฉันจึงแตกต่างกันระหว่างเอาต์พุตการถดถอยโลจิสติกการทดสอบไคสแควร์และช่วงความมั่นใจสำหรับ OR

ฉันได้สร้างการถดถอยโลจิสติกที่ตัวแปรผลลัพธ์จะหายหลังจากได้รับการรักษา ( CureเทียบกับNo Cure) ผู้ป่วยทั้งหมดในการศึกษานี้ได้รับการรักษา ฉันสนใจที่จะดูว่ามีโรคเบาหวานเกี่ยวข้องกับผลลัพธ์นี้หรือไม่ ใน R ผลลัพธ์การถดถอยโลจิสติกของฉันมีลักษณะดังนี้: Call: glm(formula = Cure ~ Diabetes, family = binomial(link = "logit"), data = All_patients) ... Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.2735 0.1306 9.749 <2e-16 *** Diabetes -0.5597 0.2813 -1.990 0.0466 * ... Null deviance: 456.55 on 415 degrees …

37 r hypothesis-testing logistic generalized-linear-model odds-ratio

3

การตีความการทำนายอย่างง่ายต่ออัตราต่อรองในการถดถอยโลจิสติก

ฉันค่อนข้างใหม่ในการใช้การถดถอยโลจิสติกและสับสนเล็กน้อยโดยความแตกต่างระหว่างการตีความของฉันของค่าต่อไปนี้ซึ่งฉันคิดว่าจะเหมือนกัน: ค่าเบต้าแบบยกกำลัง ทำนายความน่าจะเป็นของผลลัพธ์โดยใช้ค่าเบต้า นี่คือรุ่นที่เรียบง่ายของรุ่นที่ฉันใช้ซึ่งการขาดสารอาหารและการประกันภัยเป็นทั้งไบนารีและความมั่งคั่งยังคงต่อเนื่อง: Under.Nutrition ~ insurance + wealth แบบจำลองของฉัน (จริง) คืนค่าเบต้าเป็นเลขชี้กำลัง 0.8 สำหรับการประกันซึ่งฉันจะตีความว่า: "ความน่าจะเป็นของการได้รับอาหารไม่เพียงพอสำหรับผู้ประกันตนคือ 0.8 เท่าของความน่าจะเป็นของการได้รับอาหารไม่เพียงพอสำหรับบุคคลที่ไม่มีประกัน" อย่างไรก็ตามเมื่อฉันคำนวณความแตกต่างของความน่าจะเป็นของแต่ละบุคคลโดยการใส่ค่า 0 และ 1 ลงในตัวแปรประกันภัยและค่าเฉลี่ยของความมั่งคั่งความแตกต่างของการขาดสารอาหารเพียง 0.04 นั่นคือการคำนวณดังนี้: Probability Undernourished = exp(β0 + β1*Insurance + β2*Wealth) / (1+exp(β0 + β1*Insurance + β2*wealth)) ฉันจะซาบซึ้งจริง ๆ ถ้ามีใครสามารถอธิบายได้ว่าทำไมค่าเหล่านี้แตกต่างกันและการตีความที่ดีกว่า (โดยเฉพาะสำหรับค่าที่สอง) อาจจะเป็นอย่างไร การแก้ไขคำชี้แจงเพิ่มเติม เมื่อฉันเข้าใจแล้วความน่าจะเป็นที่ได้รับการเลี้ยงดูสำหรับบุคคลที่ไม่มีประกัน (ที่ B1 สอดคล้องกับการประกันภัย) คือ: Prob(Unins) …

29 regression logistic interpretation prediction odds-ratio

1

ช่วยฉันเข้าใจอัตราส่วนอัตราต่อรองที่ปรับแล้วในการถดถอยโลจิสติกส์

ฉันมีปัญหาในการพยายามทำความเข้าใจการใช้การถดถอยโลจิสติกส์ในเอกสาร กระดาษที่มีให้ที่นี่ใช้การถดถอยโลจิสติกในการทำนายความน่าจะเป็นของภาวะแทรกซ้อนในระหว่างการผ่าตัดต้อกระจก สิ่งที่ทำให้ฉันสับสนคือกระดาษเสนอรูปแบบที่กำหนดอัตราต่อรองที่ 1 ให้กับค่าพื้นฐานที่อธิบายไว้ดังนี้ ผู้ป่วยที่มีความเสี่ยงอยู่ในกลุ่มอ้างอิงสำหรับตัวชี้วัดความเสี่ยงทั้งหมด (เช่นปรับ OR = 1.00 สำหรับทุกคนในตารางที่ 1) อาจถือได้ว่ามี 'โปรไฟล์ความเสี่ยงพื้นฐาน' และแบบจำลองการถดถอยโลจิสติกส์ระบุว่า สำหรับ PCR หรือ VL หรือทั้งคู่ = 0.736% ดังนั้นความน่าจะเป็นของ 0.00736 จะแสดงด้วยอัตราเดิมพัน 1 จากการเปลี่ยนแปลงจากความน่าจะเป็นอัตราส่วนอัตราต่อรอง:สิ่งนี้ไม่สามารถเท่ากับ 1: {}o=p1−po=p1−po=\frac{p}{1-p}0.00741=0.007361−0.007360.00741=0.007361−0.007360.00741=\frac{0.00736}{1-0.00736} มันยิ่งทำให้สับสนมากขึ้น อัตราส่วนอัตราต่อรองแบบคอมโพสิตที่แสดงถึงค่าความแปรปรวนร่วมหลายค่าที่มีค่าแตกต่างจากค่าพื้นฐานจะใช้ในการคำนวณความเสี่ยงที่คาดการณ์ไว้ ... คอมโพสิตหรือจากตารางที่ 1 จะเป็น 1.28 X 1.58 X 2.99 X 2.46 X 1.45 X 1.60 = 34.5 และจากกราฟในรูปที่ 1 …

20 logistic odds-ratio

2

มันเหมาะสมหรือไม่ที่จะใช้ Logistic regression กับผลลัพธ์ไบนารีและตัวทำนาย

ฉันมีตัวแปรผลลัพธ์ไบนารี {0,1} และตัวแปรตัวทำนาย {0,1} ความคิดของฉันคือว่ามันไม่สมเหตุสมผลที่จะทำเรื่องโลจิสติกส์ยกเว้นว่าฉันรวมตัวแปรอื่น ๆ และคำนวณอัตราต่อรอง ด้วยตัวทำนายไบนารีหนึ่งจะไม่คำนวณอัตราส่วนความน่าจะเป็นที่พอเพียงเทียบกับอัตราต่อรองหรือไม่

18 r regression probability logistic odds-ratio

1

ค่าสัมประสิทธิ์เชิงลบในการถดถอยโลจิสติกสั่ง

สมมติว่าเรามีการตอบสนองลำดับy:{Bad, Neutral, Good}→{1,2,3}y:{Bad, Neutral, Good}→{1,2,3}y:\{\text{Bad, Neutral, Good}\} \rightarrow \{1,2,3\}และชุดของตัวแปรX:=[x1,x2,x3]X:=[x1,x2,x3]X:=[x_1,x_2,x_3]ที่เราคิดว่าจะอธิบายYจากนั้นเราจะทำการถดถอยโลจิสติกสั่งของ (เมทริกซ์การออกแบบ) ใน (การตอบสนอง)yyyXXXyyy สมมติว่าค่าสัมประสิทธิ์ประมาณx1x1x_1เรียกว่าเบต้า 1ในสั่งการถดถอยโลจิสติกคือ- 0.5 ฉันจะตีความอัตราเดิมพัน (OR) ของe - 0.5 = 0.607 ได้อย่างไรβ^1β^1\hat{\beta}_1−0.5−0.5-0.5e−0.5=0.607e−0.5=0.607e^{-0.5} = 0.607 ฉันพูดว่า "สำหรับการเพิ่มขึ้น 1 หน่วยในx1x1x_1 , ceteris paribus ต่อรองในการสังเกตGoodGood\text{Good}เป็นครั้งต่อรองในการสังเกตและเปลี่ยนแปลงเดียวกันในที่ โอกาสของการสังเกต\ text {เป็นกลาง} \ cup \ text {ดี}คือ0.607เท่าของการสังเกต\ text {Bad} "0.6070.6070.607Bad∪NeutralBad∪Neutral\text{Bad}\cup \text{Neutral}x1x1x_1Neutral∪GoodNeutral∪Good\text{Neutral} \cup \text{Good}0.6070.6070.607BadBad\text{Bad} ฉันไม่พบตัวอย่างของการตีความสัมประสิทธิ์เชิงลบในหนังสือเรียนหรือ Google

17 logit odds-ratio ordered-logit

4

การเพิ่มความแม่นยำของเครื่องไล่ระดับสีจะลดลงเมื่อจำนวนการทำซ้ำเพิ่มขึ้น

ฉันกำลังทดลองกับอัลกอริทึมของเครื่องเร่งการไล่ระดับสีผ่านcaretแพ็คเกจใน R ใช้ชุดข้อมูลการรับสมัครวิทยาลัยขนาดเล็กฉันใช้รหัสต่อไปนี้: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

3

ทำไมอัตราต่อรองจากสูตรและการตกปลาของ R แตกต่างกันอย่างไร ควรเลือกแบบใด

ในตัวอย่างต่อไปนี้ > m = matrix(c(3, 6, 5, 6), nrow=2) > m [,1] [,2] [1,] 3 5 [2,] 6 6 > (OR = (3/6)/(5/6)) #1 [1] 0.6 > fisher.test(m) #2 Fisher's Exact Test for Count Data data: m p-value = 0.6699 alternative hypothesis: true odds ratio is not equal to 1 …

14 r odds-ratio fishers-exact

4

การกระจายของ OR (อัตราต่อรอง) คืออะไร?

ฉันมีบทความมากมายที่นำเสนอ "OR" ด้วย -95% CI (ช่วงความเชื่อมั่น) ฉันต้องการประเมินค่า P ของบทความสำหรับ OR ที่สังเกตได้จากบทความ สำหรับสิ่งนั้นฉันต้องการสมมติฐานเกี่ยวกับการแจกแจง OR ฉันสามารถสมมติ / ใช้การกระจายใดได้อย่างปลอดภัย

13 distributions odds-ratio

1

การวิเคราะห์อภิมานของอัตราส่วนราคาต่อรองเป็นสิ่งที่สิ้นหวังหรือไม่?

ในบทความล่าสุดของNorton และคณะ (2018)ระบุว่า[1][1]^{[1]} อัตราส่วนของอัตราต่อรองที่แตกต่างจากการศึกษาเดียวกันไม่สามารถเปรียบเทียบได้เมื่อแบบจำลองทางสถิติที่ส่งผลให้การประมาณอัตราต่อรองมีตัวแปรอธิบายที่แตกต่างกัน และขนาดของอัตราต่อรองจากการศึกษาหนึ่งสามารถเปรียบเทียบกับขนาดของอัตราต่อรองได้จากการศึกษาอื่นเพราะตัวอย่างที่แตกต่างกันและข้อกำหนดของแบบจำลองที่แตกต่างกันจะมีปัจจัยการปรับขนาดโดยพลการแตกต่างกัน อีกนัยหนึ่งคือขนาดของอัตราต่อรองของการเชื่อมโยงที่กำหนดในการศึกษาหลาย ๆ ครั้งไม่สามารถสังเคราะห์ได้ในการวิเคราะห์อภิมาน การจำลองขนาดเล็กแสดงให้เห็นถึงนี้ (รหัส R อยู่ที่ด้านล่างของคำถาม) สมมติว่ารูปแบบที่แท้จริงคือ: ลองจินตนาการอีกว่าข้อมูลเดียวกันที่สร้างขึ้นโดยตัวแบบข้างต้นถูกวิเคราะห์โดยนักวิจัยสี่คนโดยใช้การถดถอยโลจิสติกส์ นักวิจัย 1 รวมเป็น covariate เท่านั้นนักวิจัย 2 รวมทั้งและและอื่น ๆ การประมาณการแบบจำลองโดยเฉลี่ยของอัตราต่อรองสำหรับของสี่นักวิจัยคือ:logit(yi)=1+log(2)x1i+log(2.5)x2i+log(3)x3i+0x4ilogit(yi)=1+log⁡(2)x1i+log⁡(2.5)x2i+log⁡(3)x3i+0x4i \mathrm{logit}(y_{i})=1 + \log(2)x_{1i} + \log(2.5)x_{2i} + \log(3)x_{3i} + 0x_{4i} x1x1x_{1}x1x1x_{1}x2x2x_{2}x1x1x_{1} res_1 res_2 res_3 res_4 1.679768 1.776200 2.002157 2.004077 เห็นได้ชัดว่ามีเพียงนักวิจัย 3 และ 4 เท่านั้นที่ได้รับอัตราต่อรองที่ถูกต้องประมาณในขณะที่นักวิจัย 1 และ 2 ไม่ได้ …

12 r logistic meta-analysis odds-ratio adjustment

3

วิธีต่างๆในการสร้างช่วงความมั่นใจสำหรับอัตราต่อรองจากการถดถอยโลจิสติก

ฉันกำลังศึกษาวิธีสร้างช่วงความมั่นใจ 95% สำหรับอัตราส่วนอัตราต่อรองจากค่าสัมประสิทธิ์ที่ได้จากการถดถอยโลจิสติก ดังนั้นเมื่อพิจารณาถึงรูปแบบการถดถอยโลจิสติก log(p1−p)=α+βxlog⁡(p1−p)=α+βx \log\left(\frac{p}{1 - p}\right) = \alpha + \beta x \newcommand{\var}{\rm Var} \newcommand{\se}{\rm SE} เช่นนั้นx=0x=0x = 0สำหรับกลุ่มควบคุมและx=1x=1x = 1สำหรับกลุ่มเคส ฉันได้อ่านแล้วว่าวิธีที่ง่ายที่สุดคือการสร้าง 95% CI สำหรับββ\betaจากนั้นเราก็ใช้ฟังก์ชั่นเลขชี้กำลังนั่นคือ β^±1.96×SE(β^)→exp{β^±1.96×SE(β^)}β^±1.96×SE(β^)→exp⁡{β^±1.96×SE(β^)} \hat{\beta} \pm 1.96\times \se(\hat{\beta}) \rightarrow \exp\{\hat{\beta} \pm 1.96\times \se(\hat{\beta})\} คำถามของฉันคือ: อะไรคือเหตุผลทางทฤษฎีที่แสดงให้เห็นถึงขั้นตอนนี้? ฉันรู้ว่าodds ratio=exp{β}odds ratio=exp⁡{β}\mbox{odds ratio} = \exp\{\beta\}และตัวประมาณความน่าจะเป็นสูงสุดไม่เปลี่ยนแปลง อย่างไรก็ตามฉันไม่รู้จักการเชื่อมต่อระหว่างองค์ประกอบเหล่านี้ วิธีการเดลต้าควรสร้างช่วงความมั่นใจ 95% เช่นเดียวกับขั้นตอนก่อนหน้านี้หรือไม่ ใช้วิธีการเดลต้า exp{β^}∼˙N(β, …

12 logistic confidence-interval odds-ratio delta-method

2

ค่าสัมประสิทธิ์การถดถอยแบบโลจิสติกแบบเอ็กซ์โปเนนเชียลแตกต่างจากอัตราต่อรอง

ดังที่ฉันเข้าใจแล้วค่าเบต้าที่ยกกำลังจากการถดถอยโลจิสติกคืออัตราส่วนอัตราต่อรองของตัวแปรนั้นสำหรับตัวแปรตามความสนใจ อย่างไรก็ตามค่าไม่ตรงกับอัตราส่วนอัตราต่อรองที่คำนวณด้วยตนเอง แบบจำลองของฉันกำลังทำนายการสตัน (ตัวชี้วัดการขาดสารอาหาร) โดยใช้ตัวชี้วัดอื่น ๆ ในการประกัน // Odds ratio from LR, being done in stata logit stunting insurance age ... etc. or_insurance = exp(beta_value_insurance) // Odds ratio, manually calculated odds_stunted_insured = num_stunted_ins/num_not_stunted_ins odds_stunted_unins = num_stunted_unins/num_not_stunted_unins odds_ratio = odds_stunted_ins/odds_stunted_unins เหตุผลทางความคิดสำหรับค่าเหล่านี้แตกต่างกันอย่างไร การควบคุมปัจจัยอื่น ๆ ในการถดถอยหรือไม่? เพียงแค่ต้องการที่จะสามารถอธิบายความแตกต่าง

10 regression logistic interpretation odds-ratio

2

มีความแตกต่างในการทำงานระหว่างอัตราต่อรองและอัตราส่วนอันตรายหรือไม่?

ในการถดถอยโลจิสติกอัตราต่อรองที่ 2 หมายถึงเหตุการณ์นั้นมีความเป็นไปได้ที่จะมีโอกาสมากขึ้น 2 เท่าเมื่อเพิ่มการทำนายหนึ่งหน่วย ในการถดถอยแบบค็อกซ์อัตราส่วนความอันตรายที่ 2 หมายถึงเหตุการณ์จะเกิดขึ้นสองครั้งบ่อยครั้งในแต่ละช่วงเวลาที่มีการเพิ่มขึ้นหนึ่งหน่วยในตัวทำนาย สิ่งเหล่านี้ไม่เหมือนกันจริงหรือ อะไรคือข้อได้เปรียบในการทำ Cox Regression และการได้รับอัตราส่วนอันตรายหากเราสามารถได้รับข้อมูลที่เหมือนกันจากอัตราต่อรองของ Logistic Regression

10 logistic cox-model odds-ratio hazard

2

การอ้างอิงสำหรับการทดสอบทางสถิติสำหรับความแตกต่างระหว่างสองอัตราเดิมพัน?

ในความคิดเห็นที่นี่ @gung เขียน ฉันเชื่อว่าพวกเขาสามารถทับซ้อนกันเล็กน้อย (อาจ ~ 25%) และยังคงมีนัยสำคัญในระดับ 5% โปรดจำไว้ว่า 95% CI ที่คุณเห็นนั้นสำหรับแต่ละคนหรือ แต่การทดสอบ 2 ORs นั้นเกี่ยวกับความแตกต่างระหว่างพวกเขา อย่างไรก็ตามหากพวกเขาไม่ทับซ้อนกันเลยพวกเขาแตกต่างกันอย่างมีนัยสำคัญอย่างแน่นอน & ถ้า 95% CI ทับซ้อนกับค่าคาดคะเน OR อื่น ๆ พวกเขาจะไม่แน่นอน ไม่มีใครมีการอ้างอิงสำหรับคำสั่งดังกล่าวหรือไม่ ผู้ตรวจทานต้องการให้ฉันคำนวณว่าสองอัตราต่อรองแตกต่างกันหรือไม่

9 logistic confidence-interval odds-ratio references

คำถามติดแท็ก odds-ratio