ช่วยฉันเข้าใจอัตราส่วนอัตราต่อรองที่ปรับแล้วในการถดถอยโลจิสติกส์

ฉันมีปัญหาในการพยายามทำความเข้าใจการใช้การถดถอยโลจิสติกส์ในเอกสาร กระดาษที่มีให้ที่นี่ใช้การถดถอยโลจิสติกในการทำนายความน่าจะเป็นของภาวะแทรกซ้อนในระหว่างการผ่าตัดต้อกระจก

สิ่งที่ทำให้ฉันสับสนคือกระดาษเสนอรูปแบบที่กำหนดอัตราต่อรองที่ 1 ให้กับค่าพื้นฐานที่อธิบายไว้ดังนี้

ผู้ป่วยที่มีความเสี่ยงอยู่ในกลุ่มอ้างอิงสำหรับตัวชี้วัดความเสี่ยงทั้งหมด (เช่นปรับ OR = 1.00 สำหรับทุกคนในตารางที่ 1) อาจถือได้ว่ามี 'โปรไฟล์ความเสี่ยงพื้นฐาน' และแบบจำลองการถดถอยโลจิสติกส์ระบุว่า สำหรับ PCR หรือ VL หรือทั้งคู่ = 0.736%

ดังนั้นความน่าจะเป็นของ 0.00736 จะแสดงด้วยอัตราเดิมพัน 1 จากการเปลี่ยนแปลงจากความน่าจะเป็นอัตราส่วนอัตราต่อรอง:สิ่งนี้ไม่สามารถเท่ากับ 1: {} $o=\frac{p}{1-p}$ $0.00741=\frac{0.00736}{1-0.00736}$

มันยิ่งทำให้สับสนมากขึ้น อัตราส่วนอัตราต่อรองแบบคอมโพสิตที่แสดงถึงค่าความแปรปรวนร่วมหลายค่าที่มีค่าแตกต่างจากค่าพื้นฐานจะใช้ในการคำนวณความเสี่ยงที่คาดการณ์ไว้

... คอมโพสิตหรือจากตารางที่ 1 จะเป็น 1.28 X 1.58 X 2.99 X 2.46 X 1.45 X 1.60 = 34.5 และจากกราฟในรูปที่ 1 เราจะเห็นว่า OR นี้สอดคล้องกับความน่าจะเป็นที่คาดการณ์ของ PCR หรือ VL หรือทั้งสองของ ประมาณ 20%

วิธีเดียวที่จะได้มาซึ่งคุณค่าที่กระดาษมอบให้เป็นตัวอย่างคือการคูณความน่าจะเป็นพื้นฐานด้วยอัตราเดิมพันคอมโพสิตดังนี้ $0.2025=\frac{(34.50\ \times\ 0.00736)}{1\ +\ (34.50\ \times\ 0.00736)}$ )

แล้วเกิดอะไรขึ้นที่นี่? อะไรคือตรรกะในการกำหนดอัตราต่อรองที่ 1 ให้กับความน่าจะเป็นพื้นฐานที่ไม่ใช่ 0.5 สูตรการอัปเดตที่ฉันทำขึ้นมาพร้อมกับความน่าจะเป็นที่ถูกต้องสำหรับตัวอย่างในกระดาษ แต่นี่ไม่ใช่การคูณอัตราต่อรองที่ฉันคาดหวังโดยตรง ถ้าเช่นนั้นจะเป็นอะไร

logistic odds-ratio

— mahonya
แหล่งที่มา

คุณอาจมีความสับสนเล็กน้อยเกี่ยวกับคำศัพท์:

p / (1 - p)

$p/(1-p)$ เป็นอัตราต่อรองไม่ใช่อัตราต่อรอง อัตราส่วนอัตราเดิมพันคือการหารของนิพจน์ดังกล่าวอีกอันหนึ่ง

— whuber

อัตราต่อรองเป็นวิธีการแสดงโอกาส อัตราต่อรองเป็นเพียงนั้น: หนึ่งอัตราต่อรองหารด้วยอีก นั่นหมายถึงอัตราส่วนอัตราต่อรองคือสิ่งที่คุณคูณอัตราต่อรองโดยสร้างอีกอัตราหนึ่ง มาดูกันว่าพวกเขาทำงานอย่างไรในสถานการณ์ทั่วไปนี้

การแปลงระหว่างอัตราต่อรองและความน่าจะเป็น

อัตราต่อรองของการตอบกลับแบบไบนารี $Y$ คืออัตราส่วนของโอกาสที่มันเกิดขึ้น (เขียนด้วย $1$ ), เขียน $\Pr(Y=1)$ , ต่อโอกาสที่มันไม่ได้ (เขียนด้วย $0$ ), เขียน $\Pr(Y=0)$ :

Odds (Y) = \frac{Pr (Y = 1)}{Pr (Y = 0)} = \frac{Pr (Y = 1)}{1 - Pr (Y = 1)} .

$\text{Odds}(Y) = \frac{\Pr(Y=1)}{\Pr(Y=0)} = \frac{\Pr(Y=1)}{1 - \Pr(Y=1)}.$

นิพจน์ที่เทียบเท่ากันทางด้านขวาแสดงว่าพอเพียงกับรุ่น $\Pr(Y=1)$ เพื่อค้นหาอัตราต่อรอง โปรดทราบว่าเราสามารถแก้ไขได้

Pr (Y = 1) = \frac{Odds (Y)}{1 + Odds (Y)} = 1 - \frac{1}{1 + Odds (Y)} .

$\Pr(Y=1) = \frac{\text{Odds}(Y)}{1 + \text{Odds}(Y)} = 1 - \frac{1}{1 + \text{Odds}(Y)}.$

การถดถอยโลจิสติก

การถดถอยแบบลอจิสติกเป็นลอการิทึมของอัตราต่อรองของเป็นฟังก์ชันเชิงเส้นของตัวแปรอธิบาย โดยทั่วไปการเขียนตัวแปรเหล่านี้เป็นและรวมถึงเทอมคงที่ที่เป็นไปได้ในฟังก์ชันเชิงเส้นเราอาจตั้งชื่อสัมประสิทธิ์ (ซึ่งประมาณจากข้อมูล) เป็นและ\เป็นทางการผลิตรูปแบบนี้ $Y$ $x_1, \ldots, x_p$ $\beta_1,\ldots, \beta_p$ $\beta_0$

\log (Odds (Y)) = β_{0} + β_{1} x_{1} + \dots + β_{p} x_{p} .

$\log\left(\text{Odds}(Y)\right) = \beta_0 + \beta_1 x_1 + \cdots + \beta_p x_p.$

อัตราต่อรองที่สามารถกู้คืนได้โดยการยกเลิกลอการิทึม:

Odds (Y) = \exp (β_{0} + β_{1} x_{1} + \dots + β_{p} x_{p}) .

$\text{Odds}(Y) = \exp(\beta_0 + \beta_1 x_1 + \cdots + \beta_p x_p).$

ใช้ตัวแปรเด็ดขาด

ตัวแปรตามหมวดหมู่เช่นกลุ่มอายุเพศการปรากฏตัวของโรคต้อหินฯลฯถูกรวมเข้าด้วยกันโดยใช้ "การเข้ารหัสแบบจำลอง" เพื่อแสดงให้เห็นว่าการเข้ารหัสนั้นไม่สำคัญอย่างไรฉันจะให้ตัวอย่างง่ายๆของกลุ่มเล็ก ๆ กลุ่มหนึ่ง ลักษณะทั่วไปของมันไปยังหลายกลุ่มควรจะชัดเจน ในการศึกษานี้หนึ่งตัวแปรคือ "ขนาดนักเรียน" ซึ่งมีสามประเภทคือ "ใหญ่", "ปานกลาง" และ "เล็ก" (การศึกษาถือว่าสิ่งเหล่านี้เป็นหมวดหมู่ล้วน ๆ โดยไม่สนใจคำสั่งโดยธรรมชาติ) โดยสังหรณ์ใจแต่ละหมวดหมู่มีอัตราต่อรองของตัวเองพูดสำหรับ "ใหญ่",สำหรับ "ปานกลาง" และสำหรับ "เล็ก" . นี่หมายความว่าทุกสิ่งเท่าเทียมกัน $\alpha_L$ $\alpha_M$ $\alpha_S$

Odds (Y) = \exp (α_{L} + β_{0} + β_{1} x_{1} + \dots + β_{p} x_{p})

$\text{Odds}(Y) = \exp(\color{Blue}{\alpha_L + \beta_0} + \beta_1 x_1 + \cdots + \beta_p x_p)$

สำหรับใครก็ตามในหมวดหมู่ "ใหญ่"

Odds (Y) = \exp (α_{M} + β_{0} + β_{1} x_{1} + \dots + β_{p} x_{p})

$\text{Odds}(Y) = \exp(\color{Blue}{\alpha_M + \beta_0} + \beta_1 x_1 + \cdots + \beta_p x_p)$

สำหรับทุกคนในหมวดหมู่ "ปานกลาง" และ

Odds (Y) = \exp (α_{S} + β_{0} + β_{1} x_{1} + \dots + β_{p} x_{p})

$\text{Odds}(Y) = \exp(\color{Blue}{\alpha_S + \beta_0} + \beta_1 x_1 + \cdots + \beta_p x_p)$

สำหรับผู้ที่อยู่ในหมวดหมู่ "เล็ก"

การสร้างค่าสัมประสิทธิ์ที่สามารถระบุตัวตนได้

ฉันมีสีทั้งสองค่าสัมประสิทธิ์แรกที่จะเน้นพวกเขาเพราะผมต้องการให้คุณแจ้งให้ทราบว่าพวกเขาอนุญาตให้เปลี่ยนแปลงง่ายที่จะเกิดขึ้น: เราสามารถเลือกหมายเลขใด ๆและโดยเพิ่มไปและลบมันจากแต่ละ ,และ , เราจะไม่เปลี่ยนอัตราต่อรองที่คาดการณ์ใด ๆ นี่เป็นเพราะการเทียบเท่าที่ชัดเจนของแบบฟอร์ม $\gamma$ $\beta_0$ $\alpha_L$ $\alpha_M$ $\alpha_S$

α_{L} + β_{0} = (α_{L} - γ) + (γ + β_{0}),

$\alpha_L + \beta_0 = (\alpha_L - \gamma) + (\gamma + \beta_0 ),$

เป็นต้น แม้ว่าสิ่งนี้จะไม่มีปัญหาสำหรับตัวแบบ - มันยังคงทำนายสิ่งเดียวกัน - มันแสดงให้เห็นว่าพารามิเตอร์นั้นไม่สามารถตีความได้ในตัวเอง สิ่งที่ยังคงเหมือนเดิมเมื่อเราทำกลยุทธ์การบวกลบนี้คือความแตกต่างระหว่างค่าสัมประสิทธิ์ ตามอัตภาพเพื่อจัดการกับการขาดความสามารถในการระบุตัวบุคคลนี้ (และโดยค่าเริ่มต้นซอฟต์แวร์) เลือกหมวดหมู่หนึ่งในแต่ละตัวแปรว่า "ฐาน" หรือ "อ้างอิง" และเพียงกำหนดว่าค่าสัมประสิทธิ์จะเป็นศูนย์ สิ่งนี้จะลบความกำกวม

กระดาษจะแสดงหมวดหมู่อ้างอิงก่อน "ใหญ่" ในกรณีนี้ ดังนั้นจะถูกลบออกจากและและเพิ่มลงในเพื่อชดเชย $\alpha_L$ $\alpha_L, \alpha_M,$ $\alpha_S$ $\beta_0$

อัตราต่อรองสำหรับบุคคลสมมุติที่ตกอยู่ในหมวดหมู่ฐานทั้งหมดจึงเท่ากับบวกกลุ่มคำศัพท์ที่เกี่ยวข้องกับ "covariates" อื่น ๆ ทั้งหมด - ตัวแปรที่ไม่ใช่หมวดหมู่: $\beta_0$

Odds(Base category) = \exp (β_{0} + β_{1} X_{1} + \dots + β_{p} X_{p}) .

$\text{Odds(Base category)} = \exp(\beta_0 + \beta_1X_1 + \cdots + \beta_p X_p).$

ไม่มีคำศัพท์ที่เกี่ยวข้องกับตัวแปรเด็ดขาดใด ๆ ปรากฏที่นี่ (ฉันเปลี่ยนสัญกรณ์เล็กน้อย ณ จุดนี้: betasตอนนี้เป็นค่าสัมประสิทธิ์ของcovariatesเท่านั้นในขณะที่รุ่นเต็มมีอัลฟาสำหรับหมวดหมู่ต่างๆ) $\beta_i$ $\alpha_j$

เปรียบเทียบอัตราต่อรอง

ให้เราเปรียบเทียบราคา สมมติว่าบุคคลสมมุติเป็น

ผู้ป่วยเพศชายอายุระหว่าง 80 - 89 ปีที่มีต้อกระจกสีขาว, ไม่มีมุมมองด้านเงินทุน, และนักเรียนตัวเล็ก ๆ ดำเนินการโดยนายทะเบียนผู้เชี่ยวชาญ, ...

เชื่อมโยงกับผู้ป่วยรายนี้ (เรียกเขาว่าชาร์ลี) เป็นค่าสัมประสิทธิ์โดยประมาณสำหรับแต่ละหมวดหมู่:สำหรับกลุ่มอายุของเขาเพื่อเป็นเพศชายและอื่น ๆ เมื่อใดก็ตามที่คุณลักษณะของเขาเป็นพื้นฐานสำหรับหมวดหมู่ของมันค่าสัมประสิทธิ์เป็นศูนย์โดยการประชุมตามที่เราได้เห็น เนื่องจากนี่เป็นโมเดลเชิงเส้นสัมประสิทธิ์จะเพิ่ม ดังนั้นสำหรับอัตราต่อรองฐานที่ได้รับข้างต้นอัตราต่อรองสำหรับผู้ป่วยรายนี้จะได้รับโดยการเพิ่มระบบ $\alpha_\text{80-89}$ $\alpha_\text{male}$

α_{80-89} + α_{male} + α_{no Glaucoma} + \dots + α_{specialist registrar} .

$\alpha_\text{80-89}+\alpha_\text{male}+\alpha_\text{no Glaucoma}+ \cdots + \alpha_\text{specialist registrar}.$

นี่คือจำนวนเงินที่แน่นอนของอัตราต่อรองของผู้ป่วยรายนี้แตกต่างจากฐาน หากต้องการแปลงจากอัตราต่อรองให้ยกเลิกการทำลอการิทึมและจำได้ว่าสิ่งนี้เปลี่ยนเป็นการเพิ่มการคูณ ดังนั้นอัตราเดิมพันพื้นฐานจะต้องคูณด้วย

\exp (α_{80-89}) \exp (α_{male}) \exp (α_{no Glaucoma}) \dots \exp (α_{specialist registrar}) .

$\exp(\alpha_\text{80-89})\exp(\alpha_\text{male})\exp(\alpha_\text{no Glaucoma}) \cdots \exp(\alpha_\text{specialist registrar}).$

ตัวเลขเหล่านี้คือตัวเลขที่ระบุในตารางภายใต้ "Adjusted OR" (อัตราต่อรองที่ปรับ) (มันถูกเรียกว่า "ปรับปรุง" เนื่องจาก covariatesรวมอยู่ในแบบจำลองพวกเขาไม่มีบทบาทในการคำนวณใด ๆ ของเราดังที่คุณเห็นมันถูกเรียกว่า "อัตราส่วน" เพราะมันเป็นจำนวนที่แม่นยำโดย ซึ่งอัตราต่อรองพื้นฐานจะต้องคูณเพื่อสร้างอัตราต่อรองที่คาดการณ์ของผู้ป่วย: ดูย่อหน้าแรกของโพสต์นี้) ตามลำดับในตารางพวกเขาคือ , ,และต่อไป อ้างอิงจากบทความผลิตภัณฑ์ของพวกเขาทำงานออกไป34.5ดังนั้น $x_1, \ldots, x_p$ $\exp(\alpha_\text{80-89})=1.58$ $\exp(\alpha_\text{male})=1.28$ $\exp(\alpha_\text{no Glaucoma})=1.00$ $34.5$

Odds(Charlie) = 34.5 \times Odds(Base) .

$\text{Odds(Charlie)} = 34.5\times \text{Odds(Base)}.$

(โปรดสังเกตว่าหมวดหมู่ฐานทั้งหมดมีอัตราต่อรองที่เนื่องจากการรวมในผลิตภัณฑ์จะไม่เปลี่ยนแปลงนั่นคือวิธีที่คุณจะเห็นหมวดหมู่พื้นฐานในตาราง) $1.00=\exp(0)$ $1$

การคืนผลลัพธ์เป็นความน่าจะเป็น

สุดท้ายให้เราแปลงผลลัพธ์นี้เป็นความน่าจะเป็น เราก็บอกว่าน่าจะเป็นพื้นฐานที่คาดการณ์ไว้คือ0.736ดังนั้นการใช้สูตรที่เกี่ยวข้องกับอัตราต่อรองและความน่าจะเป็นที่ได้รับตั้งแต่เริ่มแรกเราอาจคำนวณ $0.736\%=0.00736$

Odds(Base) = \frac{0.00736}{1 - 0.00736} = 0.00741.

$\text{Odds(Base)} = \frac{0.00736}{1 - 0.00736} = 0.00741.$

ดังนั้นอัตราต่อรองของชาร์ลีคือ

Odds(Charlie) = 34.5 \times 0.00741 = 0.256.

$\text{Odds(Charlie)} = 34.5\times 0.00741 = 0.256.$

ในที่สุดการแปลงกลับเป็นความน่าจะเป็น

Pr (Y (Charlie) = 1) = 1 - \frac{1}{1 + 0.256} = 0.204.

$\Pr(Y(\text{Charlie})=1) = 1 - \frac{1}{1 + 0.256} = 0.204.$

— whuber
แหล่งที่มา

whuber: การอยู่หน้าคอมพิวเตอร์ของฉันหลังจากที่เหนื่อยมากเมื่อวันก่อนและการหาคำตอบพิเศษนี้จากคุณนั้นยอดเยี่ยมมาก คุณช่วยฉันมากในสถานการณ์ที่แน่นมาก ขอบคุณมาก. (อย่างใด @ whuber จะไม่แสดงขึ้น ... )

— mahonya