คำถามติดแท็ก logistic

โดยทั่วไปหมายถึงกระบวนการทางสถิติที่ใช้ฟังก์ชันลอจิสติกซึ่งเป็นรูปแบบต่าง ๆ ส่วนใหญ่ของการถดถอยโลจิสติก

2
ค่าสัมประสิทธิ์การถดถอยแบบโลจิสติกแบบเอ็กซ์โปเนนเชียลแตกต่างจากอัตราต่อรอง
ดังที่ฉันเข้าใจแล้วค่าเบต้าที่ยกกำลังจากการถดถอยโลจิสติกคืออัตราส่วนอัตราต่อรองของตัวแปรนั้นสำหรับตัวแปรตามความสนใจ อย่างไรก็ตามค่าไม่ตรงกับอัตราส่วนอัตราต่อรองที่คำนวณด้วยตนเอง แบบจำลองของฉันกำลังทำนายการสตัน (ตัวชี้วัดการขาดสารอาหาร) โดยใช้ตัวชี้วัดอื่น ๆ ในการประกัน // Odds ratio from LR, being done in stata logit stunting insurance age ... etc. or_insurance = exp(beta_value_insurance) // Odds ratio, manually calculated odds_stunted_insured = num_stunted_ins/num_not_stunted_ins odds_stunted_unins = num_stunted_unins/num_not_stunted_unins odds_ratio = odds_stunted_ins/odds_stunted_unins เหตุผลทางความคิดสำหรับค่าเหล่านี้แตกต่างกันอย่างไร การควบคุมปัจจัยอื่น ๆ ในการถดถอยหรือไม่? เพียงแค่ต้องการที่จะสามารถอธิบายความแตกต่าง

2
วิธีที่ดีที่สุดในการรวมการตอบสนองแบบไบนารีและแบบต่อเนื่อง
ฉันกำลังพยายามหาวิธีที่ดีที่สุดในการทำนายจำนวนเงินที่ชำระสำหรับ บริษัท ตัวแทนเรียกเก็บเงิน ตัวแปรตามไม่ได้เป็นศูนย์เฉพาะเมื่อมีการชำระเงินแล้ว เป็นที่เข้าใจกันดีว่ามีจำนวนศูนย์เป็นจำนวนมากเพราะคนส่วนใหญ่ไม่สามารถเข้าถึงหรือไม่สามารถชำระหนี้คืนได้ นอกจากนี้ยังมีความสัมพันธ์เชิงลบที่แข็งแกร่งมากระหว่างจำนวนหนี้และความน่าจะเป็นในการชำระเงิน โดยปกติแล้วฉันจะสร้างแบบจำลองโลจิสติกส์เพื่อทำนายความน่าจะเป็นของการจ่าย / ไม่จ่ายเงิน แต่สิ่งนี้มีผลลัพธ์ที่โชคร้ายในการค้นหาคนที่มียอดคงเหลือต่ำสุด มีวิธีรวมรูปแบบการจ่าย / การจ่ายที่ไม่ใช่โลจิสติกเข้ากับแบบจำลองแยกที่ทำนายจำนวนเงินที่ชำระหรือไม่

2
การถดถอยโลจิสติกสำหรับมัลติคลาส
ฉันได้แบบจำลองสำหรับการถดถอยโลจิสติกสำหรับมัลติคลาสที่กำหนดโดย P(Y=j|X(i))=exp(θTjX(i))1 +∑km =1exp(θTม.X( i ))P(Y=J|X(ผม))=ประสบการณ์⁡(θJTX(ผม))1+Σม.=1kประสบการณ์⁡(θม.TX(ผม)) P(Y=j|X^{(i)}) = \frac{\exp(\theta_j^TX^{(i)})}{1+ \sum_{m=1}^{k}\exp(\theta_m^T X^{(i)})} โดยที่ k คือจำนวนคลาส theta คือพารามิเตอร์ที่จะประมาณ j คือคลาส jth Xi คือข้อมูลการฝึกอบรม ดีสิ่งหนึ่งที่ฉันไม่ได้เป็นวิธีการที่ได้มาเป็นส่วนหนึ่งหาร ปกติรูปแบบ ฉันหมายความว่ามันทำให้ความน่าจะเป็นอยู่ระหว่าง 0 ถึง 11 + ∑m = 1kประสบการณ์( θTม.X( i ))1+Σม.=1kประสบการณ์⁡(θม.TX(ผม)) 1+ \sum_{m=1}^{k}\exp(\theta_m^T X^{(i)}) ฉันหมายถึงฉันเคยชินกับการถดถอยโลจิสติก P( Y= 1 | X( i )) = 1 / ( 1 …


6
วิธีการประเมินพลังการทำนายของชุดตัวพยากรณ์เชิงหมวดหมู่ของผลลัพธ์ไบนารี คำนวณความน่าจะเป็นหรือการถดถอยโลจิสติก?
ฉันพยายามที่จะตรวจสอบว่าความน่าจะเป็นแบบง่าย ๆ จะสามารถแก้ปัญหาของฉันได้หรือไม่ถ้าจะใช้ (และเรียนรู้) วิธีการที่ซับซ้อนกว่านี้เช่นการถดถอยแบบโลจิสติกส์ ตัวแปรการตอบสนองในปัญหานี้คือการตอบสนองแบบไบนารี (0, 1) ฉันมีตัวแปรตัวทำนายจำนวนหนึ่งที่จัดหมวดหมู่และไม่มีการเรียงลำดับ ฉันพยายามที่จะพิจารณาว่าชุดค่าผสมของตัวแปรตัวทำนายใดให้สัดส่วนที่สูงที่สุดของ 1 ฉันต้องการการถดถอยแบบโลจิสติกส์หรือไม่? การคำนวณสัดส่วนในตัวอย่างที่ฉันตั้งไว้สำหรับการรวมกันของตัวทำนายหมวดหมู่แต่ละชุดจะเป็นประโยชน์อย่างไร

3
ส่วนที่เหลือสำหรับการถดถอยโลจิสติกและระยะทางของคุก
มีข้อสมมติฐานเฉพาะใด ๆ เกี่ยวกับข้อผิดพลาดของการถดถอยโลจิสติกหรือไม่เช่นความแปรปรวนคงที่ของข้อผิดพลาดและค่าปกติของส่วนที่เหลือ? นอกจากนี้โดยทั่วไปเมื่อคุณมีคะแนนที่มีระยะทางของ Cook มากกว่า 4 / n คุณจะลบออกไหม หากคุณลบออกคุณจะทราบได้อย่างไรว่ารุ่นที่มีจุดลบนั้นดีกว่า

1
ข้ามเอฟเฟกต์แบบสุ่มและข้อมูลที่ไม่สมดุล
ฉันกำลังสร้างแบบจำลองข้อมูลบางอย่างที่ฉันคิดว่าฉันมีผลกระทบแบบสุ่มข้ามสอง แต่ชุดข้อมูลไม่สมดุลและฉันไม่แน่ใจว่าต้องทำอะไรเพื่อบัญชี ข้อมูลของฉันคือชุดของเหตุการณ์ เหตุการณ์เกิดขึ้นเมื่อลูกค้าพบกับผู้ให้บริการเพื่อดำเนินงานซึ่งประสบความสำเร็จหรือไม่ มีลูกค้าและผู้ให้บริการหลายพันรายและลูกค้าและผู้ให้บริการแต่ละรายมีส่วนร่วมในกิจกรรมที่แตกต่างกันจำนวน (ประมาณ 5 ถึง 500) ลูกค้าและผู้ให้บริการแต่ละรายมีระดับทักษะและโอกาสที่งานจะประสบความสำเร็จคือหน้าที่ของทักษะของผู้เข้าร่วมทั้งสอง ไม่มีการทับซ้อนระหว่างไคลเอนต์และผู้ให้บริการ ฉันสนใจความแปรปรวนของประชากรของลูกค้าและผู้ให้บริการที่เกี่ยวข้องดังนั้นเราจึงสามารถทราบได้ว่าแหล่งข้อมูลใดมีผลต่ออัตราความสำเร็จมากขึ้น ฉันต้องการทราบค่าเฉพาะของทักษะระหว่างลูกค้าและผู้ให้บริการที่เรามีข้อมูลเพื่อระบุลูกค้าหรือผู้ให้บริการที่ดีที่สุด / แย่ที่สุด ตอนแรกฉันต้องการสมมติว่าความน่าจะเป็นของความสำเร็จนั้นเกิดจากระดับทักษะรวมของลูกค้าและผู้ให้บริการโดยไม่มีผลกระทบคงที่อื่น ๆ ดังนั้นสมมติว่า x เป็นปัจจัยสำหรับลูกค้าและ y เป็นปัจจัยสำหรับผู้ให้บริการจากนั้นใน R (โดยใช้แพ็คเกจ lme4) ฉันมีรูปแบบที่ระบุเป็น: glmer( success ~ (1 | x) + (1 | y), family=binomial(), data=events) ปัญหาหนึ่งคือลูกค้าไม่ได้กระจายอย่างเท่าเทียมกันทั่วทั้งผู้ให้บริการ ลูกค้าที่มีทักษะสูงจะมีโอกาสที่จะจับคู่กับผู้ให้บริการที่มีทักษะสูงกว่า ความเข้าใจของฉันคือผลกระทบแบบสุ่มจะต้องไม่เกี่ยวข้องกับตัวทำนายอื่น ๆ ในโมเดล แต่ฉันไม่แน่ใจว่าจะอธิบายได้อย่างไร นอกจากนี้ลูกค้าและผู้ให้บริการบางรายมีกิจกรรมน้อยมาก (น้อยกว่า 10) ในขณะที่ลูกค้าอื่นมีจำนวนมาก (มากถึง 500) …

5
การถดถอยโลจิสติกจะเอนเอียงเมื่อตัวแปรผลลัพธ์ถูกแบ่ง 5% - 95% หรือไม่
ฉันกำลังสร้างแบบจำลองความโน้มเอียงโดยใช้การถดถอยโลจิสติกสำหรับไคลเอนต์ยูทิลิตี้ ความกังวลของฉันคือจากตัวอย่างทั้งหมดบัญชี 'ไม่ดี' ของฉันมีเพียง 5% และส่วนที่เหลือดีทั้งหมด ฉันทำนายว่า 'ไม่ดี' ผลที่ได้จะเป็นแบบ Biassed หรือไม่? อะไรคือสิ่งที่ดีที่สุด 'ไม่ดีกับสัดส่วนที่ดี' เพื่อสร้างแบบจำลองที่ดี?

2
วิธีการใดของเคอร์เนลที่ให้ความน่าจะเป็นผลลัพธ์ที่ดีที่สุด
เมื่อเร็ว ๆ นี้ฉันได้ใช้การปรับขนาดเอาต์พุต SVM ของแพลตเพื่อประเมินความน่าจะเป็นของเหตุการณ์เริ่มต้น ทางเลือกที่ตรงกว่าดูเหมือนจะเป็น "Kernel logistic Regression" (KLR) และ "Import Vector Machine" ที่เกี่ยวข้อง ใครสามารถบอกได้ว่าวิธีการของเคอร์เนลที่ให้ความน่าจะเป็น - เอาท์พุทเป็นปัจจุบันของศิลปะ? มีการนำ R-KLR ไปใช้งานจริงหรือไม่? ขอบคุณมากสำหรับความช่วยเหลือของคุณ!

3
วิธีจัดการกับตัวแปรเด็ดขาดที่ไม่ใช่แบบไบนารีในการถดถอยโลจิสติก (SPSS)
ฉันต้องทำการถดถอยโลจิสติกแบบไบนารีด้วยตัวแปรอิสระจำนวนมาก ส่วนใหญ่เป็นไบนารี แต่ตัวแปรเด็ดขาดบางส่วนมีมากกว่าสองระดับ วิธีที่ดีที่สุดในการจัดการกับตัวแปรดังกล่าวคืออะไร? ตัวอย่างเช่นสำหรับตัวแปรที่มีค่าที่เป็นไปได้สามค่าฉันคิดว่าต้องสร้างตัวแปรจำลองสองตัว จากนั้นในขั้นตอนการถดถอยแบบชาญฉลาดควรทดสอบตัวแปรจำลองทั้งสองพร้อมกันหรือทดสอบแยกกัน ฉันจะใช้ SPSS แต่ฉันจำไม่ได้ดีดังนั้น: SPSS จะจัดการกับสถานการณ์นี้ได้อย่างไร ยิ่งไปกว่านั้นสำหรับตัวแปรหมวดหมู่ตามลำดับมันเป็นสิ่งที่ดีหรือไม่ที่จะใช้ตัวแปรจำลองที่สร้างสเกลตามลำดับขึ้นมาใหม่? (ตัวอย่างเช่นการใช้สามตัวแปรดัมมี่สำหรับ 4 รัฐตัวแปรลำดับใส่0-0-0ระดับ , ระดับ2 , ระดับ3และระดับ4แทน, , และสำหรับ 4 ระดับ.)1111-0-02221-1-03331-1-14440-0-01-0-00-1-00-0-1

1
การตีความผลกระทบคงที่จากการถดถอยโลจิสติกส์ผลผสม
ฉันสับสนกับข้อความที่หน้าเว็บของ UCLAเกี่ยวกับการถดถอยโลจิสติกเอฟเฟกต์ พวกเขาแสดงตารางของสัมประสิทธิ์ผลกระทบคงที่จากการปรับแบบจำลองดังกล่าวและย่อหน้าแรกข้างล่างดูเหมือนจะตีความค่าสัมประสิทธิ์เหมือนการถดถอยโลจิสติกปกติ แต่เมื่อพวกเขาพูดถึงอัตราต่อรองพวกเขาบอกว่าคุณต้องตีความเงื่อนไขแบบสุ่มตามเงื่อนไข อะไรจะทำให้การตีความของอัตราต่อรองที่แตกต่างจากค่า exponentiated ของพวกเขา? จะไม่ต้อง "ถือทุกอย่างอื่นคงที่"? วิธีที่เหมาะสมในการตีความสัมประสิทธิ์ผลคงที่จากรุ่นนี้คืออะไร? ฉันอยู่ภายใต้ความประทับใจเสมอไม่มีอะไรเปลี่ยนแปลงจากการถดถอยโลจิสติก "ปกติ" เพราะเอฟเฟกต์แบบสุ่มมีความคาดหวังเป็นศูนย์ ดังนั้นคุณจึงตีความอัตราต่อรองของอัตราต่อรองและอัตราต่อรองเหมือนกันโดยมีหรือไม่มีเอฟเฟกต์แบบสุ่ม - เปลี่ยนเฉพาะ SE เท่านั้น การประมาณการสามารถตีความได้อย่างเป็นหลักเช่นเคย ตัวอย่างเช่นสำหรับ IL6 การเพิ่มขึ้นหนึ่งหน่วยใน IL6 จะสัมพันธ์กับการลดลงของ. 053 หน่วยในอัตราต่อรองที่คาดหวังของการให้อภัย ในทำนองเดียวกันคนที่แต่งงานแล้วหรืออาศัยอยู่ในฐานะแต่งงานได้รับการคาดหวังว่าจะมีอัตราการอยู่รอดสูงถึง. 26 มากกว่าคนที่โสด หลายคนชอบตีความอัตราต่อรอง อย่างไรก็ตามสิ่งเหล่านี้มีความหมายที่เหมาะสมยิ่งขึ้นเมื่อมีเอฟเฟกต์แบบผสม ในการถดถอยโลจิสติกปกติอัตราเดิมพันอัตราส่วนอัตราต่อรองที่คาดว่าจะถือทำนายอื่น ๆ ทั้งหมดได้รับการแก้ไข สิ่งนี้สมเหตุสมผลเมื่อเรามักจะสนใจในการปรับทางสถิติสำหรับเอฟเฟกต์อื่น ๆ เช่นอายุเพื่อให้ได้ผลที่ "บริสุทธิ์" ของการแต่งงานหรืออะไรก็ตามที่ผู้ทำนายหลักสนใจ เช่นเดียวกันกับโมเดลเอฟเฟ็กต์โลจิสติกส์เอฟเฟกต์ผสมที่มีการเพิ่มทุกอย่างที่คงที่ไว้ นั่นคืออัตราส่วนอัตราต่อรองที่นี่คืออัตราต่อรองแบบมีเงื่อนไขสำหรับคนที่อายุและค่าคงที่ IL6 เช่นเดียวกับคนที่มีแพทย์เดียวกันหรือแพทย์ที่มีเอฟเฟกต์แบบสุ่มเหมือนกัน

1
decision_function, predict_proba, และฟังก์ชันทำนายความแตกต่างของปัญหาการถดถอยโลจิสติกคืออะไร
ฉันได้อ่านเอกสารเกี่ยวกับ sklearn แล้ว แต่ฉันไม่สามารถเข้าใจวัตถุประสงค์ของฟังก์ชันเหล่านี้ในบริบทของการถดถอยโลจิสติกส์ เพราะdecision_functionมันบอกว่าระยะห่างระหว่างไฮเปอร์เพลนกับอินสแตนซ์การทดสอบ ข้อมูลเฉพาะนี้มีประโยชน์อย่างไร? และสิ่งนี้เกี่ยวข้องกับpredictและpredict-probaวิธีการอย่างไร

2
การถดถอยโลจิสติกและตัวแปรอิสระอันดับ
ฉันได้พบโพสต์นี้: ใช่. สัมประสิทธิ์สะท้อนการเปลี่ยนแปลงของอัตราต่อรองสำหรับการเพิ่มขึ้นของการเปลี่ยนแปลงในตัวทำนายลำดับ ข้อมูลจำเพาะรุ่น (ทั่วไปมาก) นี้จะถือว่าผู้ทำนายมีผลกระทบเชิงเส้นในส่วนที่เพิ่มขึ้น ในการทดสอบสมมติฐานคุณสามารถเปรียบเทียบแบบจำลองที่คุณใช้ตัวแปรลำดับเป็นตัวทำนายเดียวกับแบบที่คุณไม่เห็นการตอบสนองและปฏิบัติต่อพวกมันเป็นตัวทำนายหลาย ๆ ตัว หากโมเดลหลังไม่ส่งผลให้มีขนาดพอดีดีขึ้นอย่างมีนัยสำคัญจากนั้นดำเนินการเพิ่มขึ้นแต่ละครั้งเนื่องจากการมีเอฟเฟกต์แบบเชิงเส้นนั้นสมเหตุสมผล - @ dmk38 12 ธ.ค. 53 ที่ 5:21 คุณช่วยบอกฉันได้ไหมว่าจะหาสิ่งที่เผยแพร่ที่สนับสนุนการอ้างสิทธิ์นี้ได้ที่ไหน ฉันทำงานกับข้อมูลและฉันต้องการใช้ตัวแปรอิสระตามลำดับในการถดถอยโลจิสติก

2
มีความแตกต่างในการทำงานระหว่างอัตราต่อรองและอัตราส่วนอันตรายหรือไม่?
ในการถดถอยโลจิสติกอัตราต่อรองที่ 2 หมายถึงเหตุการณ์นั้นมีความเป็นไปได้ที่จะมีโอกาสมากขึ้น 2 เท่าเมื่อเพิ่มการทำนายหนึ่งหน่วย ในการถดถอยแบบค็อกซ์อัตราส่วนความอันตรายที่ 2 หมายถึงเหตุการณ์จะเกิดขึ้นสองครั้งบ่อยครั้งในแต่ละช่วงเวลาที่มีการเพิ่มขึ้นหนึ่งหน่วยในตัวทำนาย สิ่งเหล่านี้ไม่เหมือนกันจริงหรือ อะไรคือข้อได้เปรียบในการทำ Cox Regression และการได้รับอัตราส่วนอันตรายหากเราสามารถได้รับข้อมูลที่เหมือนกันจากอัตราต่อรองของ Logistic Regression

1
อคติของตัวประมาณความน่าจะเป็นสูงสุดสำหรับการถดถอยโลจิสติก
ฉันต้องการที่จะเข้าใจข้อเท็จจริงบางประการเกี่ยวกับตัวประมาณความน่าจะเป็นสูงสุด (MLEs) สำหรับการถดถอยโลจิสติก โดยทั่วไป MLE สำหรับการถดถอยโลจิสติกนั้นมีอคติหรือไม่? ฉันจะพูดว่า "ใช่" ตัวอย่างเช่นฉันรู้ว่ามิติของตัวอย่างนั้นเกี่ยวข้องกับอคติของ MLEs คุณรู้ตัวอย่างเบื้องต้นของปรากฏการณ์นี้หรือไม่? ถ้า MLE นั้นเอนเอียงเป็นจริงหรือไม่ที่เมทริกซ์ความแปรปรวนร่วมของ MLEs เป็นค่าผกผันของ Hessian ของฟังก์ชันความน่าจะเป็นสูงสุด? แก้ไข : ฉันได้พบสูตรนี้ค่อนข้างบ่อยและไม่มีหลักฐานใด ๆ ; ดูเหมือนจะเป็นทางเลือกที่ค่อนข้างอิสระสำหรับฉัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.