คำถามติดแท็ก logistic

โดยทั่วไปหมายถึงกระบวนการทางสถิติที่ใช้ฟังก์ชันลอจิสติกซึ่งเป็นรูปแบบต่าง ๆ ส่วนใหญ่ของการถดถอยโลจิสติก

10
ความแตกต่างระหว่างรุ่น logit และ probit
LogitและProbit modelแตกต่างกันอย่างไร? ฉันสนใจที่นี่มากขึ้นในการรู้ว่าจะใช้การถดถอยแบบลอจิสติกเมื่อใดและเมื่อใดควรใช้ Probit หากมีวรรณกรรมใด ๆ ที่กำหนดโดยใช้Rก็จะเป็นประโยชน์เช่นกัน

8
วิธีการจัดการกับการแยกที่สมบูรณ์แบบในการถดถอยโลจิสติก?
หากคุณมีตัวแปรที่แยกศูนย์และตัวแปรในเป้าหมายได้อย่างสมบูรณ์ R จะให้ข้อความเตือน "การแยกแบบสมบูรณ์แบบหรือกึ่งสมบูรณ์แบบ" ดังต่อไปนี้: Warning message: glm.fit: fitted probabilities numerically 0 or 1 occurred เรายังได้โมเดล แต่การประมาณค่าสัมประสิทธิ์สูงเกินจริง คุณจัดการกับสิ่งนี้ได้อย่างไรในทางปฏิบัติ?


3
การขาดอันดับคืออะไรและจะจัดการกับมันอย่างไร
การปรับการถดถอยโลจิสติกให้เหมาะสมโดยใช้lme4ลงท้ายด้วย Error in mer_finalize(ans) : Downdated X'X is not positive definite. สาเหตุที่เป็นไปได้ของข้อผิดพลาดนี้คือการขาดอันดับ การจัดอันดับบกพร่องคืออะไรและฉันควรจะแก้ไขอย่างไร
87 r  logistic  lme4-nlme 

3
ตัวอย่างที่ไม่สมดุลย์มีความสำคัญหรือไม่เมื่อทำการถดถอยโลจิสติก
โอเคดังนั้นฉันคิดว่าฉันมีตัวอย่างที่ดีพอโดยคำนึงถึงกฎ 20: 1 นิ้วหัวแม่มือ: ตัวอย่างที่ค่อนข้างใหญ่ (N = 374) สำหรับตัวแปรตัวทำนายผู้สมัครทั้งหมด 7 คน ปัญหาของฉันคือสิ่งต่อไปนี้: ไม่ว่าชุดตัวแปรพยากรณ์ใดที่ฉันใช้การจำแนกไม่เคยดีไปกว่าความจำเพาะ 100% และความไว 0% อย่างไรก็ตามไม่น่าพอใจจริง ๆ แล้วนี่อาจเป็นผลลัพธ์ที่ดีที่สุดที่เป็นไปได้เนื่องจากชุดของตัวแปรตัวทำนายผู้สมัคร (ซึ่งฉันไม่สามารถเบี่ยงเบน) แต่ฉันไม่สามารถช่วยได้ แต่คิดว่าฉันทำได้ดีกว่านี้ฉันจึงสังเกตเห็นว่าหมวดหมู่ของตัวแปรตามนั้นค่อนข้างสมดุลไม่สมดุลเกือบ 4: 1 ตัวอย่างย่อยที่สมดุลสามารถปรับปรุงการจำแนกประเภทได้หรือไม่

5
วิธีคำนวณพื้นที่ใต้เส้นโค้ง (AUC) หรือสถิติ c ด้วยมือ
ฉันสนใจในการคำนวณพื้นที่ภายใต้เส้นโค้ง (AUC) หรือ c-statistic ด้วยมือสำหรับแบบจำลองการถดถอยแบบโลจิสติกไบนารี ตัวอย่างเช่นในชุดข้อมูลการตรวจสอบความถูกต้องฉันมีค่าจริงสำหรับตัวแปรตาม, การเก็บรักษา (1 = เก็บไว้; 0 = ไม่เก็บไว้), เช่นเดียวกับสถานะการเก็บรักษาที่คาดการณ์ไว้สำหรับการสังเกตแต่ละครั้งที่สร้างขึ้นโดยการวิเคราะห์การถดถอย สร้างโดยใช้ชุดการฝึกอบรม (ซึ่งจะอยู่ในช่วงตั้งแต่ 0 ถึง 1) ความคิดเริ่มต้นของฉันคือการระบุจำนวนของการจำแนกประเภทของโมเดลที่ถูกต้องและหารจำนวนการสังเกตที่ถูกต้องด้วยจำนวนการสังเกตทั้งหมดเพื่อคำนวณ c-statistic โดย "ถูกต้อง" หากสถานะการเก็บรักษาที่แท้จริงของการสังเกต = 1 และสถานะการเก็บข้อมูลที่คาดการณ์คือ> 0.5 แสดงว่าเป็นการจำแนกประเภท "ถูกต้อง" นอกจากนี้หากสถานะการเก็บรักษาที่แท้จริงของการสังเกต = 0 และสถานะการเก็บข้อมูลที่คาดการณ์ไว้คือ <0.5 แสดงว่าเป็นหมวดหมู่ "ถูกต้อง" ด้วย ฉันถือว่า "เน็คไท" จะเกิดขึ้นเมื่อค่าที่คาดการณ์ = 0.5 แต่ปรากฏการณ์นั้นไม่เกิดขึ้นในชุดข้อมูลการตรวจสอบความถูกต้องของฉัน ในทางตรงกันข้ามการจำแนกประเภท "ไม่ถูกต้อง" จะเป็นถ้าสถานะการเก็บรักษาที่แท้จริงของการสังเกต = 1 และสถานะการเก็บข้อมูลที่คาดการณ์ไว้คือ …

3
เหตุใดการถดถอยแบบลอจิสติกจึงไม่เรียกว่าการจำแนกแบบลอจิสติก
ตั้งแต่ถดถอยโลจิสติเป็นสถิติรูปแบบการจัดหมวดหมู่การจัดการกับตัวแปรตามเด็ดขาดทำไมไม่ได้เรียกว่าโลจิสติกการจัดประเภท ? ไม่ควรจองชื่อ "การถดถอย" กับตัวแบบที่เกี่ยวข้องกับตัวแปรตามแบบต่อเนื่อง

3
การวินิจฉัยสำหรับการถดถอยโลจิสติก?
สำหรับการถดถอยเชิงเส้นเราสามารถตรวจสอบพล็อตการวินิจฉัย (พล็อตส่วนที่เหลือพล็อต QQ ปกติ ฯลฯ ) เพื่อตรวจสอบว่าข้อสันนิษฐานของการถดถอยเชิงเส้นถูกละเมิดหรือไม่ สำหรับการถดถอยโลจิสติกฉันมีปัญหาในการค้นหาทรัพยากรที่อธิบายถึงวิธีการวินิจฉัยแบบจำลองการถดถอยโลจิสติกพอดี ขุดบันทึกบางหลักสูตรสำหรับ GLM เพียงแค่ระบุว่าการตรวจสอบส่วนที่เหลือจะไม่เป็นประโยชน์สำหรับการดำเนินการวินิจฉัยสำหรับการถดถอยแบบโลจิสติก เมื่อมองไปรอบ ๆ อินเทอร์เน็ตก็ดูเหมือนจะมีขั้นตอน "การวินิจฉัย" ที่หลากหลายเช่นการตรวจสอบความเบี่ยงเบนของแบบจำลองและการทดสอบไคสแควร์ แต่แหล่งข้อมูลอื่นระบุว่าสิ่งนี้ไม่เหมาะสมและคุณควรทำการ Hosmer-Lemeshow ทดสอบ. จากนั้นฉันพบแหล่งข้อมูลอื่นที่ระบุว่าการทดสอบนี้อาจขึ้นอยู่กับการจัดกลุ่มที่แท้จริงและค่าการตัด (อาจไม่น่าเชื่อถือ) แล้วเราควรวินิจฉัยว่าการถดถอยแบบโลจิสติกส์นั้นเหมาะสมอย่างไร

2
การแก้หาพารามิเตอร์การถดถอยในรูปแบบปิดเทียบกับการไล่ระดับสี
ในหลักสูตรการเรียนรู้ของเครื่องแอนดรูว์เขาแนะนำการถดถอยเชิงเส้นและการถดถอยโลจิสติกส์และแสดงวิธีการปรับพารามิเตอร์โมเดลโดยใช้การไล่ระดับสีแบบลาดและวิธีของนิวตัน ฉันรู้ว่าการไล่ระดับสีจะมีประโยชน์ในบางแอปพลิเคชันของการเรียนรู้ของเครื่อง (เช่น backpropogation) แต่ในกรณีทั่วไปมากขึ้นมีเหตุผลใด ๆ ที่คุณจะไม่แก้สำหรับพารามิเตอร์ในรูปแบบปิด - เช่นโดยการหาอนุพันธ์ของ ฟังก์ชั่นค่าใช้จ่ายและการแก้ไขผ่านทางแคลคูลัส? อะไรคือข้อดีของการใช้อัลกอริทึมแบบวนซ้ำเช่นการไล่ระดับสีแบบลาดชันเหนือโซลูชันแบบปิดโดยทั่วไปเมื่อมีให้ใช้งาน?

4
อะไรคือความแตกต่างระหว่าง "ฟังก์ชั่นลิงค์" และ "ฟังก์ชั่นลิงก์แบบบัญญัติ" สำหรับ GLM
ความแตกต่างระหว่างคำว่า 'ฟังก์ชั่นการเชื่อมโยง' และ 'ฟังก์ชั่นการเชื่อมโยงแบบบัญญัติ' คืออะไร? นอกจากนี้ยังมีข้อดี (ทางทฤษฎี) ของการใช้อย่างใดอย่างหนึ่งมากกว่าที่อื่น ๆ ? ตัวอย่างเช่นตัวแปรการตอบสนองแบบไบนารีสามารถสร้างแบบจำลองโดยใช้ฟังก์ชั่นลิงค์จำนวนมากเช่นlogit , probitเป็นต้น แต่logitที่นี่ถือเป็นฟังก์ชันลิงก์ "canonical"

1
แบบจำลองการถดถอยโลจิสติกอย่างง่ายบรรลุความแม่นยำในการจำแนกประเภท 92% สำหรับ MNIST อย่างไร
แม้ว่าภาพทั้งหมดในชุดข้อมูล MNIST จะอยู่กึ่งกลาง แต่มีขนาดใกล้เคียงกันและไม่มีการหมุน แต่ก็มีการเปลี่ยนแปลงของลายมือที่สำคัญที่ไขปริศนาว่าแบบจำลองเชิงเส้นบรรลุความแม่นยำในการจำแนกสูงอย่างไร เท่าที่ฉันสามารถมองเห็นได้เนื่องจากความแปรปรวนของลายมือที่สำคัญตัวเลขควรแยกกันไม่ออกเป็นเส้นตรงในพื้นที่มิติ 784 กล่าวคือควรมีความซับซ้อนเล็กน้อย (แม้ว่าจะไม่ซับซ้อนมาก) ไม่ใช่ขอบเขตเชิงเส้นที่แยกตัวเลขที่แตกต่างกัน คล้ายกับตัวอย่างอ้างถึงเป็นอย่างดีซึ่งคลาสบวกและลบไม่สามารถคั่นด้วยตัวแยกประเภทเชิงเส้นใด ๆ ดูเหมือนจะทำให้ฉันงงงวยว่าการถดถอยโลจิสติกหลายระดับนั้นให้ความแม่นยำสูงด้วยคุณลักษณะเชิงเส้นอย่างสิ้นเชิงได้อย่างไร (ไม่มีคุณสมบัติพหุนาม)XO RXORXOR ยกตัวอย่างเช่นเมื่อกำหนดพิกเซลในภาพความแตกต่างของตัวเลขและเขียนด้วยลายมือจะทำให้พิกเซลนั้นสว่างหรือไม่ ดังนั้นกับชุดของน้ำหนักเรียนรู้แต่ละพิกเซลสามารถทำให้ดูเป็นหลักเป็นเช่นเดียวกับ3เท่านั้นที่มีการรวมกันของค่าพิกเซลมันควรจะเป็นไปได้ที่จะบอกว่าไม่ว่าจะเป็นหลักเป็นหรือ3สิ่งนี้เป็นจริงสำหรับคู่หลักส่วนใหญ่ ดังนั้นการถดถอยแบบลอจิสติกเป็นอย่างไรซึ่งสุ่มเลือกการตัดสินใจของแต่ละพิกเซลอย่างอิสระ (โดยไม่พิจารณาการพึ่งพาระหว่างพิกเซลใด ๆ เลย) สามารถบรรลุความแม่นยำสูงได้222333222333222333 ฉันรู้ว่าฉันผิดที่ใดที่หนึ่งหรือแค่ประเมินความแปรปรวนของภาพมากเกินไป อย่างไรก็ตามมันจะดีมากถ้ามีคนช่วยฉันด้วยสัญชาตญาณว่าตัวเลขจะแยกออกเป็นเส้นตรงได้อย่างไร

3
สิ่งที่เหลืออยู่ในการถดถอยโลจิสติกหมายถึงอะไร
ในการตอบคำถามนี้ John Christie แนะนำว่าแบบจำลองการถดถอยแบบโลจิสติกส์ควรได้รับการประเมินโดยการประเมินส่วนที่เหลือ ฉันคุ้นเคยกับวิธีการตีความส่วนที่เหลือใน OLS พวกเขาอยู่ในระดับเดียวกับ DV และความแตกต่างอย่างชัดเจนระหว่าง y และ y ที่ทำนายโดยโมเดล อย่างไรก็ตามสำหรับการถดถอยโลจิสติกส์ในอดีตที่ผ่านมาฉันมักจะตรวจสอบการประมาณการของแบบจำลองเช่น AIC เพราะฉันไม่แน่ใจว่าสิ่งที่เหลือจะหมายถึงการถดถอยโลจิสติก หลังจากดูไฟล์ช่วยเหลือของ Rแล้วฉันเห็นว่าใน R มี glm เหลืออยู่ห้าประเภท, c("deviance", "pearson", "working","response", "partial"). ไฟล์ช่วยเหลืออ้างถึง: Davison, AC และ Snell, EJ (1991) ส่วนที่เหลือและการวินิจฉัย ใน: ทฤษฎีสถิติและแบบจำลอง ในเกียรติของเซอร์เดวิดคอคส์ FRSชั้นเลิศ Hinkley, DV, Reid, N. และ Snell, EJ, Chapman & Hall ฉันไม่มีสำเนาของสิ่งนั้น มีวิธีสั้น …

4
ฟังก์ชั่น Softmax vs Sigmoid ในลอจิสติกลอจิก
อะไรคือตัวเลือกของฟังก์ชั่น (Softmax vs Sigmoid) ในลอจิสติกลักษณนาม? สมมติว่ามี 4 ชั้นเรียนเอาท์พุท แต่ละฟังก์ชั่นด้านบนให้ความน่าจะเป็นของแต่ละคลาสเป็นเอาต์พุตที่ถูกต้อง ดังนั้นอันไหนที่จะใช้สำหรับลักษณนาม

1
การถดถอยโลจิสติกใน R ทำให้เกิดการแยกที่สมบูรณ์แบบ (ปรากฏการณ์ Hauck-Donner) ตอนนี้คืออะไร
ฉันพยายามที่จะทำนายผลเลขฐานสองโดยใช้ตัวแปรอธิบายอย่างต่อเนื่อง 50 ตัว (ช่วงของตัวแปรส่วนใหญ่คือถึง ) ชุดข้อมูลของฉันมีเกือบ 24,000 แถว เมื่อฉันทำงานใน R ฉันจะได้รับ:−∞−∞-\infty∞∞\inftyglm Warning messages: 1: glm.fit: algorithm did not converge 2: glm.fit: fitted probabilities numerically 0 or 1 occurred ฉันได้อ่านคำตอบอื่น ๆ ที่แนะนำว่าอาจมีการแยกอย่างสมบูรณ์แบบ แต่ฉันมั่นใจว่าไม่ใช่กรณีในข้อมูลของฉัน (แม้ว่าการแยกแบบกึ่งสมบูรณ์อาจเกิดขึ้นได้ฉันจะทดสอบเพื่อดูว่าเป็นอย่างนั้นได้อย่างไร) . หากฉันลบตัวแปรบางตัวข้อผิดพลาด "ไม่ได้บรรจบกัน" อาจหายไป แต่นั่นไม่ใช่สิ่งที่เกิดขึ้นเสมอไป ฉันพยายามใช้ตัวแปรเดียวกันในbayesglmฟังก์ชั่นและได้รับข้อผิดพลาดเดียวกัน ขั้นตอนใดที่คุณจะต้องทราบว่าเกิดอะไรขึ้นที่นี่ คุณคิดว่าตัวแปรใดเป็นสาเหตุของปัญหาได้อย่างไร

1
การทดสอบ Wald สำหรับการถดถอยโลจิสติก
เท่าที่ฉันเข้าใจการทดสอบ Wald ในบริบทของการถดถอยโลจิสติกใช้ในการพิจารณาว่าตัวแปรตัวทำนายบางตัวมีความสำคัญหรือไม่ มันปฏิเสธสมมติฐานว่างของสัมประสิทธิ์ที่สอดคล้องกันว่าเป็นศูนย์XXX การทดสอบประกอบด้วยหารค่าของค่าสัมประสิทธิ์โดยข้อผิดพลาดมาตรฐานσσσ\sigma สิ่งที่ฉันสับสนคือเป็นที่รู้จักกันในชื่อ Z-score และระบุว่ามีโอกาสมากน้อยเพียงใดที่การสังเกตที่ได้รับจะเกิดจากการแจกแจงแบบปกติ (โดยมีค่าเฉลี่ยเป็นศูนย์)X/σX/σX/\sigma

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.