คำถามติดแท็ก logistic

โดยทั่วไปหมายถึงกระบวนการทางสถิติที่ใช้ฟังก์ชันลอจิสติกซึ่งเป็นรูปแบบต่าง ๆ ส่วนใหญ่ของการถดถอยโลจิสติก

3
การเลือกแบบจำลอง: การถดถอยโลจิสติก
สมมติว่าเรามีตัวแปรและผลไบนารีตัวแปรYโควาเรียเหล่านี้บางประเภทมีหลายระดับ อื่น ๆ อย่างต่อเนื่อง คุณจะเลือกรุ่นที่ดีที่สุดได้อย่างไร กล่าวอีกนัยหนึ่งคุณจะเลือกเพื่อนร่วมรัฐใดที่จะรวมอยู่ในแบบจำลองได้อย่างไรx 1 , … , x n ynnnx1, … , xnx1,…,xnx_1, \dots, x_nYyy คุณจะสร้างแบบจำลองกับ covariates แต่ละรายการโดยใช้การถดถอยโลจิสติกอย่างง่ายและเลือกอันที่มีความสัมพันธ์สำคัญหรือไม่?Yyy

2
การประเมินแบบจำลองการถดถอยโลจิสติก
คำถามนี้เกิดขึ้นจากความสับสนที่แท้จริงของฉันเกี่ยวกับวิธีการตัดสินใจว่าแบบจำลองโลจิสติกส์นั้นดีพอหรือไม่ ฉันมีรูปแบบที่ใช้สถานะของคู่แต่ละโครงการสองปีหลังจากที่พวกเขาจะกลายเป็นตัวแปรตาม ผลลัพธ์สำเร็จ (1) หรือไม่ (0) ฉันมีตัวแปรอิสระที่วัดได้ในเวลาที่ทำการก่อตัวของคู่ เป้าหมายของฉันคือการทดสอบว่าตัวแปรที่ฉันตั้งสมมติฐานจะมีอิทธิพลต่อความสำเร็จของคู่นั้นมีผลต่อความสำเร็จนั้นหรือไม่ควบคุมอิทธิพลที่อาจเกิดขึ้นอื่น ๆ ในโมเดลตัวแปรที่น่าสนใจมีความสำคัญ รุ่นได้ประมาณโดยใช้ฟังก์ชั่นในglm() Rเพื่อประเมินคุณภาพของรูปแบบที่ฉันได้ทำสิ่งที่ไม่กี่: glm()ช่วยให้คุณresidual devianceที่AICและBICตามค่าเริ่มต้น นอกจากนี้ฉันได้คำนวณอัตราความผิดพลาดของแบบจำลองและพล็อตสิ่งที่เหลือค้างแล้ว แบบจำลองที่สมบูรณ์มีความเบี่ยงเบนที่เหลืออยู่น้อยกว่า AIC และ BIC กว่าแบบจำลองอื่น ๆ ที่ฉันได้ประเมินไว้ (และซ้อนอยู่ในแบบจำลองที่สมบูรณ์) ซึ่งทำให้ฉันคิดว่าแบบจำลองนี้ "ดีกว่า" กว่าคนอื่น ๆ อัตราความผิดพลาดของโมเดลค่อนข้างต่ำ IMHO (เช่นเดียวกับGelman and Hill, 2007, pp.99 ): error.rate <- mean((predicted>0.5 & y==0) | (predicted<0.5 & y==1)ที่ประมาณ 20% จนถึงตอนนี้ดีมาก แต่เมื่อฉันพล็อตสิ่งที่เหลือค้าง (อีกครั้งตามคำแนะนำของ Gelman และ …

2
คุณคาดการณ์หมวดหมู่การตอบสนองอย่างไรตามรูปแบบการถดถอยโลจิสติกอันดับ
ฉันต้องการทำนายปัญหาสุขภาพ ฉันมีหมวดหมู่ผลลัพธ์ 3 รายการที่เรียงลำดับ: 'ปกติ', 'อ่อน' และ 'รุนแรง' ฉันต้องการที่จะทำนายสิ่งนี้จากตัวแปรทำนายสองตัว, ผลการทดสอบ (ความต่อเนื่อง, ช่วงเวลา covariate) และประวัติครอบครัวที่มีปัญหานี้ (ใช่หรือไม่ใช่) ในตัวอย่างของฉันความน่าจะเป็น 55% (ปกติ), 35% (ไม่รุนแรง) และ 10% (รุนแรง) ในแง่นี้ฉันสามารถทำนาย 'ปกติ' ได้เสมอและคิดถูก 55% ของเวลาแม้ว่ามันจะไม่ให้ข้อมูลกับฉันเกี่ยวกับคนไข้ ฉันพอดีกับรุ่นต่อไปนี้: จุดตัดสำหรับ ( y≥ 1 )ˆจุดตัดสำหรับ ( y≥ 2 )ˆβ^t e s tβ^ฉa m i l y h ฉันs t o r …

4
การรายงานผลลัพธ์ของการถดถอยโลจิสติก
ฉันมีผลลัพธ์การถดถอยโลจิสติกต่อไปนี้: Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.5716 0.1734 3.297 0.000978 *** R1 -0.4662 0.2183 -2.136 0.032697 * R2 -0.5270 0.2590 -2.035 0.041898 * เหมาะสมที่จะรายงานสิ่งนี้ด้วยวิธีต่อไปนี้: ค่าสัมประสิทธิ์เบต้า, อัตราต่อรอง, ค่า Z, ค่า P ถ้าใช่ฉันจะรับอัตราต่อรองได้อย่างไร
13 logistic 

3
ตัวทำนายที่มีความแปรปรวนมากขึ้น“ ดีกว่า” หรือไม่?
ฉันมีคำถามแนวคิดเกี่ยวกับ "สถิติพื้นฐาน" ในฐานะนักเรียนฉันอยากรู้ว่าฉันกำลังคิดผิดเกี่ยวกับเรื่องนี้โดยสิ้นเชิงหรือไม่และถ้าเป็นเช่นนั้น: สมมุติว่าฉันพยายามดูความสัมพันธ์ระหว่าง "ปัญหาการจัดการความโกรธ" และพูดว่าการหย่า (ใช่ / ไม่ใช่) ในการถดถอยโลจิสติกส์และฉันมีตัวเลือกในการใช้คะแนนการจัดการความโกรธสองแบบ - ทั้ง 100 คะแนน 1 มาจากเครื่องมือให้คะแนนแบบสอบถาม 1 และตัวเลือกอื่นของฉัน คะแนน 2 มาจากแบบสอบถามอื่น สมมุติฐานเรามีเหตุผลที่จะเชื่อว่าจากการทำงานก่อนหน้านี้ว่าปัญหาการจัดการความโกรธทำให้เกิดการหย่าร้าง หากในตัวอย่างของฉันมีคน 500 คนความแปรปรวนของคะแนน 1 สูงกว่าคะแนน 2 มากมีเหตุผลใดที่เชื่อว่าคะแนน 1 จะเป็นคะแนนที่ดีกว่าที่จะใช้เป็นตัวทำนายการหย่าร้างตามความแปรปรวนหรือไม่ สำหรับฉันแล้วสัญชาตญาณดูเหมือนว่าจะถูก แต่มันเป็นอย่างนั้นเหรอ?

5
การถดถอยแบบลอจิสติกและการสุ่มตัวอย่าง
ฉันเหมาะสมการถดถอยโลจิสติกแบบขั้นตอนในชุดของข้อมูลใน SPSS ในขั้นตอนนี้ฉันปรับโมเดลของฉันเป็นชุดย่อยแบบสุ่มที่มีค่าประมาณ 60% ของกลุ่มตัวอย่างทั้งหมดมีประมาณ 330 ราย สิ่งที่ฉันคิดว่าน่าสนใจคือทุกครั้งที่ฉันสุ่มตัวอย่างข้อมูลของฉันอีกครั้งฉันจะได้รับตัวแปรที่แตกต่างกันออกมาในรูปแบบสุดท้าย มีผู้ทำนายไม่กี่คนที่ปรากฏตัวในรุ่นสุดท้ายเสมอ คำถามของฉันคือสิ่งนี้ วิธีที่ดีที่สุดในการจัดการกับสิ่งนี้คืออะไร? ฉันหวังว่าจะเห็นการรวมกันของตัวแปรทำนาย แต่นั่นไม่ใช่กรณี บางรุ่นมีความรู้สึกที่เข้าใจง่ายกว่ามากจากมุมมองด้านปฏิบัติการ (และจะอธิบายได้ง่ายกว่ากับผู้มีอำนาจตัดสินใจ) และคนอื่น ๆ ก็พอดีกับข้อมูลที่ดีกว่าเล็กน้อย ในระยะสั้นเนื่องจากมีการสับเปลี่ยนตัวแปรคุณจะแนะนำให้จัดการกับสถานการณ์ของฉันได้อย่างไร ขอบคุณมากล่วงหน้า

2
การทำความเข้าใจเกณฑ์ AIC และ Schwarz
ฉันกำลังใช้โมเดลโลจิสติก ชุดข้อมูลโมเดลจริงมีตัวแปรมากกว่า 100 ตัว แต่ฉันเลือกชุดข้อมูลทดสอบที่มีตัวแปรประมาณ 25 ตัว ก่อนหน้านั้นฉันยังสร้างชุดข้อมูลซึ่งมีตัวแปร 8-9 ตัว ฉันถูกบอกว่าค่า AIC และ SC สามารถนำมาใช้เพื่อเปรียบเทียบแบบจำลอง ฉันสังเกตว่าโมเดลมีค่า SC สูงกว่าแม้ว่าตัวแปรจะมีค่า p ต่ำ (เช่น 0053) สำหรับสัญชาตญาณของฉันแบบจำลองที่มีตัวแปรที่มีระดับนัยสำคัญที่ดีควรทำให้ค่า SC และ AIC ต่ำ แต่นั่นไม่ได้เกิดขึ้น ใครก็ได้ช่วยอธิบายให้ฟังหน่อยได้ไหม ในระยะสั้นฉันต้องการถามคำถามต่อไปนี้: จำนวนตัวแปรเกี่ยวข้องกับ SC AIC หรือไม่ ฉันควรมุ่งเน้นที่ค่า p หรือค่า SC AIC ต่ำหรือไม่ อะไรคือวิธีทั่วไปในการลดค่า SC AIC

1
รูปแบบอินพุตสำหรับการตอบสนองใน binomial glm ใน R
ในRมีสามวิธีในการจัดรูปแบบข้อมูลอินพุตสำหรับการถดถอยโลจิสติกโดยใช้glmฟังก์ชัน: ข้อมูลสามารถอยู่ในรูปแบบ "ไบนารี" สำหรับการสังเกตแต่ละครั้ง (เช่น y = 0 หรือ 1 สำหรับการสังเกตแต่ละครั้ง); ข้อมูลสามารถอยู่ในรูปแบบ "Wilkinson-Rogers" (เช่นy = cbind(success, failure)) โดยแต่ละแถวแสดงถึงการรักษาหนึ่งครั้ง หรือ ข้อมูลสามารถอยู่ในรูปแบบถ่วงน้ำหนักสำหรับการสังเกตแต่ละครั้ง (เช่น y = 0.3, น้ำหนัก = 10) ทั้งสามวิธีมีการประมาณค่าสัมประสิทธิ์เท่ากัน แต่แตกต่างกันไปตามระดับของอิสรภาพและค่าเบี่ยงเบนและผลคะแนน AIC สองวิธีสุดท้ายมีการสังเกตน้อยกว่า (และดีกรีอิสระ) เพราะพวกเขาใช้การรักษาแต่ละครั้งสำหรับจำนวนการสังเกตในขณะที่วิธีแรกใช้การสังเกตแต่ละครั้งสำหรับจำนวนการสังเกต คำถามของฉัน:มีความได้เปรียบเชิงตัวเลขหรือเชิงสถิติในการใช้รูปแบบอินพุตหนึ่งมากกว่าอีกรูปแบบหนึ่งหรือไม่ ข้อได้เปรียบเดียวที่ฉันเห็นคือไม่ต้องฟอร์แมตข้อมูลRเพื่อใช้กับตัวแบบ ฉันได้ดูเอกสาร glmค้นหาบนเว็บและเว็บไซต์นี้และพบโพสต์ที่เกี่ยวข้องเป็นรูปธรรมแต่ไม่มีคำแนะนำในหัวข้อนี้ นี่คือตัวอย่างที่จำลองซึ่งแสดงให้เห็นถึงพฤติกรรมนี้: # Write function to help simulate data drc4 <- function(x, b =1.0, …

4
หากแต่ละเซลล์ประสาทในเครือข่ายประสาทนั้นเป็นฟังก์ชั่นการถดถอยแบบโลจิสติกทำไมมัลติเลเยอร์ถึงดีกว่า?
ฉันจะผ่านหลักสูตร Deepai ของ Cousera (วิดีโอสัปดาห์ที่ 3 1 "ภาพรวมโครงข่ายใยประสาท") และ Andrew Ng อธิบายว่าแต่ละเลเยอร์ในเครือข่ายประสาทเป็นเพียงการถดถอยโลจิสติกอื่น แต่เขาไม่ได้อธิบายว่ามันแม่นยำมากขึ้นอย่างไร ดังนั้นในเครือข่ายเลเยอร์ 2 การคำนวณโลจิสติกหลายครั้งทำให้แม่นยำยิ่งขึ้นได้อย่างไร

1
แพคเกจ GBM กับ Caret ใช้ GBM
ฉันเคยใช้การจูนโมเดลcaretแต่แล้วก็รันโมเดลอีกครั้งโดยใช้gbmแพ็คเกจ ฉันเข้าใจว่าcaretแพ็กเกจที่ใช้gbmและเอาต์พุตควรเหมือนกัน อย่างไรก็ตามการทดสอบการทำงานอย่างรวดเร็วโดยใช้data(iris)แสดงความแตกต่างในรูปแบบประมาณ 5% โดยใช้ RMSE และ R ^ 2 เป็นตัวชี้วัดการประเมินผล ฉันต้องการค้นหาประสิทธิภาพของแบบจำลองที่ดีที่สุดโดยใช้caretแต่เรียกใช้อีกครั้งgbmเพื่อใช้ประโยชน์จากแผนการพึ่งพาบางส่วน รหัสด้านล่างสำหรับการทำซ้ำ คำถามของฉันจะเป็น: 1) เหตุใดฉันจึงเห็นความแตกต่างระหว่างแพ็คเกจทั้งสองนี้ถึงแม้ว่าพวกเขาจะเหมือนกัน (ฉันเข้าใจว่าพวกมันสุ่ม แต่ 5% ค่อนข้างแตกต่างกันมากโดยเฉพาะอย่างยิ่งเมื่อฉันไม่ได้ใช้ชุดข้อมูลที่ดีirisสำหรับการสร้างแบบจำลองของฉัน) . 2) มีข้อดีหรือข้อเสียในการใช้ทั้งสองแพคเกจหรือไม่ 3) ไม่เกี่ยวข้อง: การใช้irisชุดข้อมูลที่ดีที่สุดinteraction.depthคือ 5 แต่สูงกว่าที่ฉันได้อ่านควรจะใช้สูงสุดfloor(sqrt(ncol(iris)))ซึ่งควรจะเป็น 2 นี่เป็นกฎง่ายๆหรือเข้มงวดหรือไม่? library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric …

2
ทำไม P> 0.5 cutoff ไม่“ ดีที่สุด” สำหรับการถดถอยโลจิสติก
คำนำ: ฉันไม่สนใจเกี่ยวกับข้อดีของการใช้ cutoff หรือไม่หรือควรเลือก cutoff ด้วยวิธีใด คำถามของฉันเป็นคณิตศาสตร์อย่างหมดจดและเนื่องจากความอยากรู้ การถดถอยแบบลอจิสติกเป็นแบบจำลองความน่าจะเป็นแบบมีเงื่อนไขหลังของคลาส A กับคลาส B และมันเหมาะกับไฮเปอร์เพลนที่ความน่าจะเป็นแบบเงื่อนไขหลังมีค่าเท่ากัน ดังนั้นในทางทฤษฎีฉันเข้าใจว่า 0.5 การจำแนกจุดจะลดข้อผิดพลาดทั้งหมดโดยไม่คำนึงถึงความสมดุลเนื่องจากมันเป็นแบบจำลองความน่าจะเป็นด้านหลัง (สมมติว่าคุณพบอัตราส่วนระดับเดียวกันอย่างสม่ำเสมอ) ในตัวอย่างชีวิตจริงของฉันฉันได้รับความแม่นยำต่ำมากโดยใช้ P> 0.5 เป็นตัวเลือกการแยกประเภทของฉัน (ความแม่นยำประมาณ 51%) อย่างไรก็ตามเมื่อฉันดูที่ AUC มันสูงกว่า 0.99 ดังนั้นฉันจึงดูค่า cutoff ที่แตกต่างกันและพบว่า P> 0.6 ให้ความแม่นยำ 98% (90% สำหรับคลาสที่เล็กกว่าและ 99% สำหรับคลาสที่ใหญ่กว่า) - มีเพียง 2% ของคดีที่ไม่ได้จัดประเภท ชั้นเรียนมีความไม่สมดุลอย่างมาก (1: 9) และเป็นปัญหาระดับสูง อย่างไรก็ตามฉันจัดสรรคลาสอย่างเท่าเทียมกันในแต่ละชุดการตรวจสอบความถูกต้องไขว้กันเพื่อไม่ให้มีความแตกต่างระหว่างความสมดุลของคลาสระหว่างแบบจำลองพอดีกับการคาดเดา ฉันพยายามใช้ข้อมูลเดียวกันจากตัวแบบและในการทำนายและปัญหาเดียวกันก็เกิดขึ้น ฉันสนใจในเหตุผลที่ 0.5 จะไม่ลดข้อผิดพลาดให้น้อยที่สุดฉันคิดว่านี่น่าจะเป็นเพราะการออกแบบถ้าแบบจำลองนั้นพอดีโดยลดการสูญเสียเอนโทรปี …

1
การค้นหาความเข้าใจเชิงทฤษฎีของการถดถอยโลจิสติก Firth
ฉันกำลังพยายามที่จะเข้าใจการถดถอยโลจิสติกของเฟิร์สต์ (วิธีการจัดการการแยกแบบสมบูรณ์ / สมบูรณ์หรือแบบกึ่งสมบูรณ์ในการถดถอยโลจิสติก) เพื่อให้ฉันสามารถอธิบายให้ผู้อื่นทราบในแง่ง่าย มีใครบ้างที่มีคำอธิบายแบบหล่นลงของการปรับเปลี่ยนการประเมิน Firth ใดที่ทำให้ MLE ฉันได้อ่านอย่างดีที่สุดแล้ว Firth (1993) และฉันเข้าใจว่าการแก้ไขนั้นถูกนำไปใช้กับฟังก์ชันคะแนน ฉันคลุมเครือเกี่ยวกับที่มาและเหตุผลของการแก้ไขและบทบาทของฟังก์ชันคะแนนใน MLE ขออภัยถ้านี่เป็นความรู้เบื้องต้น วรรณกรรมที่ฉันตรวจสอบดูเหมือนจะต้องการความเข้าใจที่ลึกซึ้งมากขึ้นเกี่ยวกับ MLE ที่ฉันมี

2
เหตุใดจึงใช้การแจกแจงแบบเบต้าบนพารามิเตอร์ Bernoulli สำหรับการถดถอยโลจิสติกแบบลำดับชั้น
ฉันกำลังอ่านหนังสือ "Doing Bayesian Data Analysis" ที่ยอดเยี่ยมของ Kruschke อย่างไรก็ตามบทที่เกี่ยวกับการถดถอยโลจิสติกแบบลำดับชั้น (บทที่ 20) ค่อนข้างสับสน รูปที่ 20.2 อธิบายการถดถอยโลจิสติกแบบลำดับชั้นที่พารามิเตอร์ Bernoulli ถูกกำหนดเป็นฟังก์ชันเชิงเส้นของสัมประสิทธิ์ที่ถูกแปลงผ่านฟังก์ชัน sigmoid นี่น่าจะเป็นวิธีการถดถอยโลจิสติกแบบลำดับชั้นในตัวอย่างส่วนใหญ่ที่ฉันเคยเห็นในแหล่งอื่น ๆ ทางออนไลน์เช่นกัน ตัวอย่างเช่น - http://polisci2.ucsd.edu/cfariss/code/SIMlogit02.bug อย่างไรก็ตามเมื่อตัวทำนายมีค่าน้อยที่สุดเขาจะเพิ่มเลเยอร์ในลำดับชั้น - พารามิเตอร์ Bernoulli ถูกดึงมาจากการแจกแจงแบบเบต้า (รูปที่ 20.5) ด้วยพารามิเตอร์ที่กำหนดโดย mu และ kappa โดยที่ mu คือการแปลง sigmoid ของฟังก์ชันเชิงเส้นของสัมประสิทธิ์ และคัปปาใช้แกมมามาก่อน ดูเหมือนว่าจะสมเหตุสมผลและคล้ายคลึงกับตัวอย่างการพลิกเหรียญจากบทที่ 9 แต่ฉันไม่เห็นว่าการคาดการณ์เล็กน้อยจะทำอย่างไรกับการเพิ่มการแจกแจงแบบเบต้า เหตุใดจึงไม่ทำเช่นนี้ในกรณีของตัวทำนายเมตริกและทำไมการแจกแจงเบต้าถูกเพิ่มเข้ามาสำหรับตัวทำนายที่ระบุ? แก้ไข:ชี้แจงเกี่ยวกับรูปแบบที่ฉันหมายถึง ก่อนอื่นโมเดลการถดถอยโลจิสติกพร้อมตัวทำนายเมตริก (ไม่มีเบต้าก่อน) นี่คล้ายกับตัวอย่างอื่น ๆ ของการถดถอยโลจิสติกส์แบบลำดับชั้นเช่นตัวอย่างข้อบกพร่องด้านบน: …

1
การตีความเอาต์พุตการถดถอยโลจิสติกใน R
ผมทำงานในการถดถอยโลจิสติกในหลาย R glmโดยใช้ ตัวแปรทำนายนั้นต่อเนื่องและจัดหมวดหมู่ แยกข้อมูลสรุปของแบบจำลองแสดงดังต่อไปนี้: Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 2.451e+00 2.439e+00 1.005 0.3150 Age 5.747e-02 3.466e-02 1.658 0.0973 . BMI -7.750e-02 7.090e-02 -1.093 0.2743 ... --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 ช่วงความเชื่อมั่น: 2.5 % 97.5 % (Intercept) …

3
ทดสอบความไม่เชิงเส้นในการถดถอยโลจิสติกส์ (หรือการถดถอยแบบอื่น ๆ )
หนึ่งในข้อสันนิษฐานของการถดถอยโลจิสติกคือความเป็นเส้นตรงใน logit ดังนั้นเมื่อฉันสร้างแบบจำลองและเรียกใช้แล้วฉันจะทดสอบความไม่เชิงเส้นโดยใช้การทดสอบ Box-Tidwell หนึ่งในเครื่องมือทำนายต่อเนื่อง (X) ของฉันได้ทดสอบค่าบวกสำหรับความไม่เชิงเส้น ฉันควรทำอย่างไรต่อไป เนื่องจากนี่เป็นการละเมิดสมมติฐานที่ฉันจะกำจัดตัวทำนาย (X) หรือรวมถึงการแปลงแบบไม่เชิงเส้น (X * X) หรือแปลงตัวแปรเป็นหมวดหมู่? หากคุณมีการอ้างอิงคุณช่วยชี้ให้ฉันเห็นด้วยได้ไหม?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.