คำถามติดแท็ก logistic

โดยทั่วไปหมายถึงกระบวนการทางสถิติที่ใช้ฟังก์ชันลอจิสติกซึ่งเป็นรูปแบบต่าง ๆ ส่วนใหญ่ของการถดถอยโลจิสติก

6
การถดถอยเชิงเส้นหรือการถดถอยโลจิสติกอันดับเพื่อทำนายการจัดอันดับไวน์ (จาก 0 และ 10)
ฉันมีข้อมูลไวน์จากที่นี่ซึ่งประกอบด้วยตัวแปรอิสระ 11 ตัวเลขที่มีการจัดอันดับที่สัมพันธ์กับแต่ละรายการที่มีค่าระหว่าง 0 ถึง 10 ทำให้ชุดข้อมูลที่ยอดเยี่ยมในการใช้แบบจำลองการถดถอยเพื่อตรวจสอบความสัมพันธ์ระหว่างตัวแปรและที่เกี่ยวข้อง อันดับ อย่างไรก็ตามการถดถอยเชิงเส้นจะเหมาะสมหรือดีกว่าที่จะใช้การถดถอยโลจิสติกแบบหลายชื่อ / สั่ง การถดถอยแบบลอจิสติกดูเหมือนจะดีกว่าในหมวดหมู่ที่เฉพาะเจาะจงนั่นคือไม่ใช่ตัวแปรที่ขึ้นอยู่กับแบบต่อเนื่อง แต่ (1) มี 11 หมวดหมู่ (มากไปหน่อย?) และ (2) เมื่อตรวจสอบมีข้อมูลเพียง 6-7 ประเภทเท่านั้น 5-4 หมวดหมู่ไม่มีตัวอย่างในชุดข้อมูล ในทางกลับกันการถดถอยเชิงเส้นควรประเมินเชิงเส้นตรงระหว่างระดับ 0-10 ซึ่งดูใกล้เคียงกับสิ่งที่ฉันกำลังพยายามหา แต่ตัวแปรที่ขึ้นต่อกันไม่ได้ต่อเนื่องในชุดข้อมูล วิธีใดดีกว่ากัน หมายเหตุ: ฉันกำลังใช้ R สำหรับการวิเคราะห์ แก้ไขโดยพูดถึงประเด็นที่กล่าวถึงในคำตอบ: ไม่มีเป้าหมายทางธุรกิจเนื่องจากเป็นหลักสูตรของมหาวิทยาลัย ภารกิจคือการวิเคราะห์ชุดข้อมูลที่เลือกได้ตามที่ฉันเห็นว่าเหมาะสม การแจกแจงเรตติ้งนั้นดูปกติ (ฮิสโตแกรม / qq-plot) ค่าจริงในชุดข้อมูลอยู่ระหว่าง 3-8 (แม้ว่าทางเทคนิคจะมีค่า 0-10)

2
มีข้อสมมติฐานเกี่ยวกับการถดถอยโลจิสติกหรือไม่
มีข้อสันนิษฐานเกี่ยวกับตัวแปรตอบสนองของการถดถอยโลจิสติก ตัวอย่างเช่นสมมติว่าเรามีจุดข้อมูลจุด ดูเหมือนว่าการตอบสนองY ฉันมาจากการกระจาย Bernoulli กับหน้าฉัน = logit ( β 0 + β 1 x ฉัน ) ดังนั้นเราจึงควรมี1,000กระจาย Bernoulli กับพารามิเตอร์ที่แตกต่างกันP100010001000YiYiY_ipi=logit(β0+β1xi)pi=logit(β0+β1xi)p_i=\text{logit}(\beta_0+\beta_1 x_i)100010001000ppp ดังนั้นพวกเขาจึงเป็น "อิสระ" แต่ไม่ได้ "เหมือนกัน" ฉันถูกไหม? PS ฉันเรียนรู้การถดถอยแบบลอจิสติกจากวรรณกรรม "การเรียนรู้ของเครื่อง" ซึ่งเราทำหน้าที่ของวัตถุประสงค์ให้เหมาะสมและตรวจสอบว่ามันดีในการทดสอบข้อมูลโดยไม่พูดถึงสมมติฐานมากเกินไปหรือไม่ คำถามของฉันเริ่มต้นด้วยโพสต์นี้ทำความเข้าใจกับฟังก์ชั่นการเชื่อมโยงในโมเดลเชิงเส้นทั่วไปที่ฉันพยายามเรียนรู้เพิ่มเติมเกี่ยวกับสมมติฐานทางสถิติ

3
วิธีการคำนวณข้อผิดพลาดมาตรฐานของสัมประสิทธิ์การถดถอยโลจิสติก
ฉันใช้ Scikit เรียนรู้ของ Python ในการฝึกอบรมและทดสอบการถดถอยโลจิสติก scikit-Learn จะส่งกลับค่าสัมประสิทธิ์การถดถอยของตัวแปรอิสระ แต่ไม่ได้ให้ข้อผิดพลาดมาตรฐานของสัมประสิทธิ์ ฉันต้องการข้อผิดพลาดมาตรฐานเหล่านี้เพื่อคำนวณสถิติ Wald สำหรับค่าสัมประสิทธิ์แต่ละค่าและเปรียบเทียบค่าสัมประสิทธิ์เหล่านี้กับแต่ละอื่น ๆ ฉันได้พบคำอธิบายวิธีการคำนวณข้อผิดพลาดมาตรฐานสำหรับค่าสัมประสิทธิ์ของการถดถอยโลจิสติก ( ที่นี่ ) แต่มันค่อนข้างยากที่จะติดตาม หากคุณรู้วิธีอธิบายง่ายๆเกี่ยวกับการคำนวณข้อผิดพลาดมาตรฐานเหล่านี้และ / หรือสามารถให้ข้อผิดพลาดมาตรฐานกับฉันได้ฉันขอขอบคุณจริงๆ! ฉันไม่ได้หมายถึงรหัสเฉพาะ (แต่โปรดโพสต์รหัสใด ๆ ที่อาจเป็นประโยชน์) แต่เป็นคำอธิบายอัลกอริทึมของขั้นตอนที่เกี่ยวข้อง

2
ตัวแปรสำคัญจาก GLMNET
ฉันกำลังดูการใช้ lasso เป็นวิธีการเลือกคุณสมบัติและปรับโมเดลการทำนายให้เหมาะสมกับเป้าหมายไบนารี ด้านล่างนี้เป็นรหัสที่ฉันเล่นด้วยเพื่อลองใช้วิธีที่มีการถดถอยโลจิสติกปกติ คำถามของฉันคือฉันได้รับกลุ่มตัวแปร "สำคัญ" แต่ฉันสามารถจัดอันดับสิ่งเหล่านี้เพื่อประเมินความสำคัญสัมพัทธ์ของแต่ละรายการได้หรือไม่ สัมประสิทธิ์สามารถเป็นมาตรฐานสำหรับจุดประสงค์ของการจัดอันดับนี้ด้วยค่าสัมบูรณ์ (ฉันเข้าใจว่าพวกเขาจะแสดงในระดับตัวแปรดั้งเดิมผ่านcoefฟังก์ชั่น)? หากดังนั้นวิธีที่จะทำเช่นนั้น (ใช้ค่าเบี่ยงเบนมาตรฐานของ x และ y) วางมาตรฐานค่าสัมประสิทธิ์การถดถอย รหัสตัวอย่าง: library(glmnet) #data comes from #http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Diagnostic) datasetTest <- read.csv('C:/Documents and Settings/E997608/Desktop/wdbc.data.txt',head=FALSE) #appears to use the first level as the target success datasetTest$V2<-as.factor(ifelse(as.character(datasetTest$V2)=="M","0","1")) #cross validation to find optimal lambda #using the lasso because alpha=1 cv.result<-cv.glmnet( x=as.matrix(dataset[,3:ncol(datasetTest)]), …


2
พลังของการถดถอยโลจิสติกและการทดสอบทีเปรียบเทียบ
พลังของการถดถอยโลจิสติกและการทดสอบทีเทียบเท่าหรือไม่ ถ้าเป็นเช่นนั้นพวกเขาควรจะ "ความหนาแน่นของข้อมูลเทียบเท่า" โดยที่ฉันหมายถึงว่าการสังเกตที่สำคัญจำนวนเดียวกันให้ผลลัพธ์เดียวกันกับที่ได้รับค่าคงที่ของ. 05 พิจารณาสองกรณี: [การทดสอบสถิติพารามิเตอร์]: 30 การดึงออกมาจากการสังเกตแบบทวินามและค่าที่ได้จะเป็นค่าเฉลี่ย สิ่งนี้ทำได้ 30 ครั้งสำหรับกลุ่ม A (ซึ่งมีค่าทวินามเท่ากับ. 70 ที่เกิดขึ้น) และ 30 ครั้งสำหรับกลุ่ม B (ซึ่งมีราคาทวินามเท่ากับ. 75 ที่เกิดขึ้น) ผลตอบแทนนี้ 30 หมายถึงกลุ่มที่เป็นตัวแทนของสรุป 1,800 ดึงจากการกระจายทวินาม การทดสอบ t-58df ใช้เพื่อเปรียบเทียบค่าเฉลี่ย [การถดถอยโลจิสติก]: การถดถอยโลจิสติกจะดำเนินการกับความลาดชันรหัสจำลองที่เป็นตัวแทนของการเป็นสมาชิกกลุ่มและแต่ละ 1,800 วาด คำถามของฉันมีสองส่วน: เมื่อกำหนดค่าอัลฟ่าเป็น. 05 พลังของวิธีการเหล่านี้จะเหมือนหรือต่างกันหรือไม่ ทำไม? ฉันจะพิสูจน์ได้อย่างไร คำตอบสำหรับคำถามที่ 1 นั้นมีความอ่อนไหวต่อขนาดตัวอย่างที่จะเข้าสู่การทดสอบ t-size ขนาดตัวอย่างของแต่ละกลุ่มในการทดสอบ t-t ความน่าจะเป็นแบบทวินามพื้นฐานหรือปัจจัยอื่น ๆ ถ้าเป็นเช่นนั้นฉันจะรู้ได้อย่างไร …

3
วิธีจัดการกับตัวแปรเด็ดขาดลำดับเป็นตัวแปรอิสระ
ฉันใช้โมเดล logit ตัวแปรตามของฉันคือไบนารี 1.very good, 2.good, 3.average, 4.poor and 5.very poorแต่ฉันมีตัวแปรอิสระซึ่งเป็นเด็ดขาดและมีการตอบ: ดังนั้นมันจึงเป็นอันดับ ("เด็ดขาดเชิงปริมาณ") ฉันไม่แน่ใจว่าจะจัดการกับสิ่งนี้อย่างไรในแบบจำลอง gretlฉันใช้ [หมายเหตุจาก @ttnphns: แม้ว่าคำถามจะบอกว่าตัวแบบนั้นเป็น logit (เนื่องจากการพึ่งพานั้นจัดอยู่ในหมวดหมู่) แต่ประเด็นสำคัญ - ตัวแปรอิสระลำดับ- มีความเหมือนกัน ดังนั้นคำถามก็มีความเกี่ยวข้องเท่าเทียมกันกับการพูดการถดถอยเชิงเส้นเช่นกันเช่นเดียวกับการถดถอยแบบโลจิสติกหรือแบบจำลองการบันทึกอื่น ๆ ]

2
คำนวณค่าสัมประสิทธิ์ในการถดถอยโลจิสติกกับ R
ในการถดถอยเชิงเส้นแบบหลายค่าสามารถหาค่าสัมประสิทธิ์ได้ด้วยสูตรต่อไปนี้ b = ( X'X)- 1( X') Yข=(X'X)-1(X')Yb = (X'X)^{-1}(X')Y beta = solve(t(X) %*% X) %*% (t(X) %*% Y) ; beta ตัวอย่างเช่น > y <- c(9.3, 4.8, 8.9, 6.5, 4.2, 6.2, 7.4, 6, 7.6, 6.1) > x0 <- c(1,1,1,1,1,1,1,1,1,1) > x1 <- c(100,50,100,100,50,80,75,65,90,90) > x2 <- c(4,3,4,2,2,2,3,4,3,2) > Y <- …

2
วิธีการตีความค่าสัมประสิทธิ์จากการถดถอยโลจิสติก?
ฉันมีฟังก์ชั่นความน่าจะเป็นดังต่อไปนี้: Prob = 11 + e- zprob=11+อี-Z\text{Prob} = \frac{1}{1 + e^{-z}} ที่ไหน Z= B0+ B1X1+ ⋯ + BnXn.Z=B0+B1X1+⋯+BnXn.z = B_0 + B_1X_1 + \dots + B_nX_n. แบบจำลองของฉันดูเหมือน ราคา ( Y= 1 ) = 11 + ประสบการณ์( - [ - 3.92 +) 0.014 × ( เพศ) ] )ราคา(Y=1)=11+ประสบการณ์⁡(-[-3.92+0.014×(เพศ)])\Pr(Y=1) = \frac{1}{1 + …

2
การจัดประเภทตัวแปรจะเปลี่ยนจากไม่มีนัยสำคัญเป็นสำคัญ
ฉันมีตัวแปรที่เป็นตัวเลขซึ่งไม่มีนัยสำคัญในแบบจำลองการถดถอยโลจิสติกหลายตัวแปร อย่างไรก็ตามเมื่อฉันจัดหมวดหมู่เป็นกลุ่มทันใดนั้นมันก็กลายเป็นสิ่งสำคัญ สิ่งนี้ตอบโต้ฉันได้ง่ายมาก: เมื่อจัดหมวดหมู่ตัวแปรเราจะให้ข้อมูลบางอย่าง สิ่งนี้จะเป็นอย่างไร

1
เหตุใดค่า p จึงสูงขึ้นในโมเดลอันตรายตามสัดส่วนของ Cox มากกว่าในการถดถอยโลจิสติก
ฉันได้เรียนรู้เกี่ยวกับรูปแบบอันตรายตามสัดส่วนของค็อกซ์แล้ว ฉันมีจำนวนมากประสบการณ์ที่เหมาะสมรูปแบบการถดถอยโลจิสติกและเพื่อที่จะสร้างสัญชาตญาณของฉันได้รับการเปรียบเทียบรูปแบบให้พอดีกับการใช้coxphจาก R "อยู่รอด" ที่มีรูปแบบการถดถอยโลจิสติกพอดีใช้กับglmfamily="binomial" ถ้าฉันใช้รหัส: library(survival) s = Surv(time=lung$time, event=lung$status - 1) summary(coxph(s ~ age, data=lung)) summary(glm(status-1 ~ age, data=lung, family="binomial")) ฉันรับค่า p สำหรับอายุ 0.0419 และ 0.0254 ตามลำดับ ในทำนองเดียวกันถ้าฉันใช้เพศเป็นตัวทำนายโดยมีหรือไม่มีอายุ ฉันพบว่ามันทำให้งงเพราะฉันคิดว่าการใช้เวลาเป็นจำนวนมากเมื่อพิจารณาว่าแบบจำลองจะให้พลังงานทางสถิติมากกว่าการรักษาความตายเป็นผลลัพธ์ไบนารีในขณะที่ค่า p จะสอดคล้องกับที่มีกำลังทางสถิติน้อยลง เกิดขึ้นที่นี่คืออะไร?

5
การทำความเข้าใจว่าคุณลักษณะใดสำคัญที่สุดสำหรับการถดถอยโลจิสติก
ฉันได้สร้างลักษณนามการถดถอยโลจิสติกที่มีความแม่นยำมากกับข้อมูลของฉัน ตอนนี้ฉันต้องการเข้าใจที่ดีขึ้นว่าทำไมมันถึงทำงานได้ดี โดยเฉพาะฉันต้องการจัดอันดับว่าคุณลักษณะใดที่ทำให้เกิดผลงานมากที่สุด (ซึ่งฟีเจอร์ใดมีความสำคัญมากที่สุด) และในเชิงปริมาณการกำหนดว่าแต่ละฟีเจอร์มีส่วนสนับสนุนความแม่นยำของโมเดลโดยรวมอย่างไร (หรือบางอย่างในเส้นเลือดนี้) ฉันจะทำสิ่งนี้ได้อย่างไร ความคิดแรกของฉันคือการจัดอันดับพวกเขาตามค่าสัมประสิทธิ์ของพวกเขา แต่ฉันคิดว่ามันไม่ถูกต้อง หากฉันมีคุณสมบัติสองอย่างที่มีประโยชน์เท่าเทียมกัน แต่การแพร่กระจายของรายการแรกมีขนาดใหญ่เป็นสิบเท่าของอันดับที่สองดังนั้นฉันคาดว่ารายการแรกจะได้รับค่าสัมประสิทธิ์ต่ำกว่าครั้งที่สอง มีวิธีที่เหมาะสมกว่าในการประเมินความสำคัญของคุณลักษณะหรือไม่ โปรดทราบว่าฉันไม่ได้พยายามที่จะเข้าใจว่าการเปลี่ยนแปลงเล็ก ๆ น้อย ๆ ในคุณลักษณะส่งผลกระทบต่อความน่าจะเป็นของผลลัพธ์ ค่อนข้างฉันพยายามที่จะเข้าใจว่าแต่ละคุณสมบัติมีคุณค่าในแง่ของการทำให้ลักษณนามถูกต้อง นอกจากนี้เป้าหมายของฉันไม่มากนักที่จะทำการเลือกคุณสมบัติหรือสร้างแบบจำลองที่มีคุณสมบัติน้อยลง แต่พยายามที่จะให้ "ความสามารถอธิบายได้" สำหรับแบบจำลองที่เรียนรู้ดังนั้นตัวแยกประเภทไม่ได้เป็นเพียงกล่องดำทึบ

3
การสร้างแบบจำลองและการเลือกโดยใช้ Hosmer และคณะ 2013. การประยุกต์ใช้การถดถอยโลจิสติกใน R
นี่เป็นโพสต์แรกของฉันใน StackExchange แต่ฉันได้ใช้มันเป็นทรัพยากรมาระยะหนึ่งแล้วฉันจะพยายามอย่างดีที่สุดที่จะใช้รูปแบบที่เหมาะสมและทำการแก้ไขที่เหมาะสม นอกจากนี้ยังเป็นคำถามที่มีหลายส่วน ฉันไม่แน่ใจว่าฉันควรแยกคำถามออกเป็นหลายกระทู้หรือกระทู้เดียว เนื่องจากคำถามมาจากส่วนหนึ่งในข้อความเดียวกันฉันคิดว่ามันจะเกี่ยวข้องกับการโพสต์เป็นคำถามเดียว ฉันกำลังค้นคว้าการใช้ถิ่นที่อยู่ของสัตว์เลี้ยงลูกด้วยนมขนาดใหญ่เพื่อทำวิทยานิพนธ์ปริญญาโท เป้าหมายของโครงการนี้คือเพื่อให้ผู้จัดการป่าไม้ (ซึ่งน่าจะไม่ใช่นักสถิติ) ที่มีกรอบการปฏิบัติเพื่อประเมินคุณภาพของที่อยู่อาศัยในดินแดนที่พวกเขาจัดการเกี่ยวกับสายพันธุ์นี้ สัตว์ตัวนี้ค่อนข้างเข้าใจยากผู้เชี่ยวชาญด้านที่อยู่อาศัยและมักจะอยู่ในพื้นที่ห่างไกล มีการศึกษาค่อนข้างน้อยเกี่ยวกับการกระจายของสายพันธุ์โดยเฉพาะฤดูกาล สัตว์หลายตัวติดตั้งปลอกคอ GPS เป็นระยะเวลาหนึ่งปี หนึ่งร้อยสถานที่ (50 ฤดูร้อนและ 50 ฤดูหนาว) ได้รับการสุ่มเลือกจากข้อมูลปลอกคอ GPS ของสัตว์แต่ละตัว นอกจากนี้ 50 คะแนนถูกสร้างแบบสุ่มภายในบ้านของสัตว์แต่ละตัวเพื่อทำหน้าที่เป็นตำแหน่ง "ว่าง" หรือ "หลอก" สำหรับที่ตั้งแต่ละแห่งตัวแปรที่อยู่อาศัยหลายแห่งถูกสุ่มตัวอย่างในฟิลด์ (ขนาดเส้นผ่าศูนย์กลางต้นไม้, แนวนอน, เศษไม้หยาบ ฯลฯ ) และตัวอย่างจำนวนมากถูกสุ่มตัวอย่างจากระยะไกลผ่าน GIS (ระดับความสูง, ระยะห่างจากถนน, ความทนทาน ฯลฯ ) ตัวแปรส่วนใหญ่จะต่อเนื่องยกเว้นตัวแปรเด็ดขาด 1 อันที่มี 7 ระดับ เป้าหมายของฉันคือใช้การสร้างแบบจำลองการถดถอยเพื่อสร้างฟังก์ชั่นการเลือกทรัพยากร (RSF) เพื่อสร้างแบบจำลองความน่าจะเป็นสัมพัทธ์ของการใช้หน่วยทรัพยากร …

1
Logistic Regression: วิธีการรับแบบจำลองอิ่มตัว
ฉันเพิ่งอ่านเกี่ยวกับมาตรการเบี่ยงเบนสำหรับการถดถอยโลจิสติก อย่างไรก็ตามส่วนที่เรียกว่าแบบจำลองแบบอิ่มตัวนั้นไม่ชัดเจนสำหรับฉัน ฉันทำการค้นหาด้วย Google อย่างกว้างขวาง แต่ไม่มีผลลัพธ์ใดที่ตอบคำถามของฉัน จนถึงตอนนี้ฉันพบว่าแบบจำลองอิ่มตัวมีพารามิเตอร์สำหรับการสังเกตแต่ละครั้งซึ่งเป็นผลให้ผลลัพธ์ในแบบที่สมบูรณ์แบบ ชัดเจนสำหรับฉัน แต่: ยิ่งไปกว่านั้นค่าติดตั้ง (ของโมเดลอิ่มตัว) จะเท่ากับค่าที่สังเกตได้ ตั้งแต่จากความรู้ของฉันถดถอยโลจิสติถูกนำมาใช้สำหรับการจำแนกประเภทข้อมูลที่สังเกตให้เป็นตัวแปรที่มีป้ายชื่อเพิ่มเติม\} อย่างไรก็ตามมาตรการเบี่ยงเบนใช้ความน่าจะเป็น แต่ไม่ใช่ฉลากจริง หนึ่งนำไปใช้คำนวณความน่าจะเป็นที่คาดการณ์ของการถดถอยโลจิสติกเมื่อเทียบกับความน่าจะเป็นที่สังเกต อย่างไรก็ตามเนื่องจากมีเพียงป้ายกำกับแทนที่จะเป็นความน่าจะเป็นฉันจึงสับสนว่าจะสร้างแบบจำลองที่อิ่มตัวจากป้ายกำกับเหล่านี้ได้อย่างไรY∈ { 0 , 1 }Y∈{0,1}y \in \{0,1\}

1
ละเว้นอคติของตัวแปรในการถดถอยโลจิสติกกับอคติของตัวแปรที่ละเว้นในการถดถอยกำลังสองน้อยสุดสามัญ
ฉันมีคำถามเกี่ยวกับการละเว้นความเอนเอียงของตัวแปรในการถดถอยโลจิสติกส์และเชิงเส้น สมมติว่าฉันตัดตัวแปรบางตัวออกจากตัวแบบการถดถอยเชิงเส้น แกล้งทำเป็นว่าตัวแปรที่ละเว้นนั้นไม่สัมพันธ์กับตัวแปรที่รวมอยู่ในแบบจำลองของฉัน ตัวแปรที่ละเว้นเหล่านั้นไม่ได้ให้ค่าสัมประสิทธิ์ในแบบจำลองของฉัน แต่ในการถดถอยโลจิสติกฉันเพิ่งรู้ว่านี่ไม่เป็นความจริง ตัวแปรที่ถูกละเว้นจะมีอคติกับค่าสัมประสิทธิ์ของตัวแปรที่รวมแม้ว่าตัวแปรที่ละเว้นจะไม่สัมพันธ์กับตัวแปรที่รวมอยู่ ฉันพบบทความในหัวข้อนี้ แต่ฉันไม่สามารถทำหัวหรือก้อยได้ นี่คือกระดาษและสไลด์ PowerPointบางอัน อคตินั้นดูเหมือนจะเป็นศูนย์เสมอ มีใครอธิบายได้บ้างว่ามันทำงานอย่างไร?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.