ความแตกต่างระหว่างการถดถอยโลจิสติกแบบสุ่มและการถดถอยโลจิสติกธรรมดาวานิลลา


12

ฉันต้องการทราบความแตกต่างระหว่างRandomized Logistic Regression (RLR) และPlain Logistic Regression (LR) ดังนั้นฉันกำลังอ่านบทความ"Stability Selection"โดยMeinshausen, et al ; อย่างไรก็ตามฉันไม่เข้าใจว่า RLR คืออะไรและความแตกต่างระหว่าง RLR และ LR คืออะไร

ใครช่วยชี้ให้เห็นสิ่งที่ฉันควรอ่านเพื่อทำความเข้าใจ RLR? หรือมีตัวอย่างง่ายๆในการเริ่มต้นด้วย?


1
RLR ไม่ใช่คำศัพท์มาตรฐาน กรุณากำหนดวิธีการ
Frank Harrell

ขอขอบคุณคุณ @FrankHarrell ... วิธีการมาจากscikit เรียนรู้ห้องสมุด
Hendra Bunyamin

ตอนนี้มีไซต์แลกเปลี่ยนสแต็คใหม่สำหรับการเรียนรู้ของเครื่อง / ข้อมูลขนาดใหญ่บางทีคำถามนี้อาจจะอยู่ที่นั่น
Placidia

4
@Placidia นั่นเป็นคำแนะนำที่ดี อย่างไรก็ตามคำตอบของคุณเองแสดงให้เห็นว่าทำไมคำถามนี้อยู่ที่นี่: เราสามารถให้มุมมองที่สมดุลที่มีลักษณะที่ถูกต้องและเปรียบเทียบได้อย่างแม่นยำทั้งด้านสถิติและ ML ของคำถาม แม้ว่าเป็นไปได้ว่าใครบางคนในไซต์ "วิทยาศาสตร์ข้อมูล" อาจให้คำตอบเช่นนี้ได้ แต่ประสบการณ์ของฉันก็คือมันไม่น่าเป็นไปได้
whuber

3
ฉันตะลึงว่าไซต์ใหม่นี้เรียกว่า data data science ซึ่งมากกว่าครึ่งหนึ่งเกี่ยวกับสถิติซึ่งเป็นสิ่งที่ไซต์นี้มีเกี่ยวกับ
Frank Harrell

คำตอบ:


17

คุณอาจต้องการตรวจสอบข้อมูลอ้างอิงนี้ ชุดการเรียนรู้วิทยาศาสตร์ - ชุดใช้การถดถอยโลจิสติกแบบสุ่มและวิธีการอธิบายไว้ที่นั่น

แต่เพื่อตอบคำถามของคุณทั้งสองวิธีต่างกันมากในเป้าหมายของพวกเขา การถดถอยแบบลอจิสติกเป็นเรื่องเกี่ยวกับการสร้างแบบจำลองที่เหมาะสมและ RLR นั้นเกี่ยวกับการค้นหาตัวแปรที่เข้าสู่โมเดล

การถดถอยโลจิสติกวานิลลาเป็นโมเดลเชิงเส้นทั่วไป สำหรับการตอบกลับแบบไบนารีเราวางตัวว่าอัตราต่อรองของความน่าจะเป็นในการตอบสนองเป็นฟังก์ชันเชิงเส้นของตัวทำนายจำนวนหนึ่ง ค่าสัมประสิทธิ์ของตัวทำนายถูกประเมินโดยใช้ความน่าจะเป็นสูงสุดและการอนุมานเกี่ยวกับพารามิเตอร์จากนั้นขึ้นอยู่กับคุณสมบัติตัวอย่างขนาดใหญ่ของแบบจำลอง เพื่อผลลัพธ์ที่ดีที่สุดเรามักจะสมมติว่าตัวแบบค่อนข้างเรียบง่ายและเข้าใจดี เรารู้ว่าตัวแปรอิสระส่งผลกระทบต่อการตอบสนองอย่างไร เราต้องการประเมินพารามิเตอร์ของโมเดล

แน่นอนในทางปฏิบัติเราไม่รู้เสมอว่าควรรวมตัวแปรใดในโมเดล นี่เป็นเรื่องจริงโดยเฉพาะอย่างยิ่งในสถานการณ์การเรียนรู้ของเครื่องที่จำนวนตัวแปรอธิบายที่อาจเกิดขึ้นมีขนาดใหญ่และค่าของมันก็กระจัดกระจาย

ในช่วงหลายปีที่ผ่านมาหลายคนพยายามใช้เทคนิคการปรับตัวแบบสถิติเพื่อวัตถุประสงค์ในการเลือกตัวแปร (อ่าน "คุณสมบัติ") ในการเพิ่มระดับความน่าเชื่อถือ:

  1. จัดวางโมเดลขนาดใหญ่และวางตัวแปรด้วยสถิติ Wald ที่ไม่สำคัญ ไม่ได้สร้างแบบจำลองที่ดีที่สุดเสมอไป
  2. ดูรุ่นที่เป็นไปได้ทั้งหมดและเลือก "ดีที่สุด" การคำนวณอย่างเข้มข้นและไม่แข็งแกร่ง
  3. พอดีกับรุ่นใหญ่ที่มีระยะการลงโทษ L1 (สไตล์บ่วงบาศ) ตัวแปรที่ไร้ประโยชน์ได้ลดลงพอดี ดีกว่า แต่ไม่เสถียรกับเมทริกซ์กระจัดกระจาย
  4. วิธีการแบบสุ่ม 3 ใช้ชุดย่อยแบบสุ่มพอดีกับรูปแบบการลงโทษให้กับแต่ละคนและตรวจสอบผลลัพธ์ ตัวแปรที่เกิดขึ้นบ่อยครั้งจะถูกเลือก เมื่อการตอบสนองเป็นแบบไบนารีนี่คือการถดถอยโลจิสติกแบบสุ่ม สามารถดึงเทคนิคที่คล้ายกันกับข้อมูลต่อเนื่องและโมเดลเชิงเส้นทั่วไป

2
+1 มีความยินดีเป็นอย่างยิ่งที่ได้เห็นการสำรวจวิธีการทั่วไปที่ชัดเจนและอ่านได้ดี
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.