สัญชาตญาณเบื้องหลังการถดถอยโลจิสติก


25

เร็ว ๆ นี้ผมเริ่มศึกษาเรียนรู้ของเครื่อง แต่ฉันล้มเหลวที่จะเข้าใจสัญชาตญาณที่อยู่เบื้องหลังการถดถอยโลจิสติก

ต่อไปนี้เป็นข้อเท็จจริงเกี่ยวกับการถดถอยโลจิสติกที่ฉันเข้าใจ

  1. ในฐานะที่เป็นพื้นฐานสำหรับสมมติฐานที่เราใช้ฟังก์ชั่น sigmoid ฉันเข้าใจว่าทำไมมันถึงเป็นตัวเลือกที่ถูกต้อง แต่ทำไมมันเป็นตัวเลือกเดียวที่ฉันไม่เข้าใจ สมมุติฐานแสดงถึงความน่าจะเป็นที่ผลลัพธ์ที่เหมาะสมคือดังนั้นโดเมนของฟังก์ชันของเราควรเป็นนี่คือคุณสมบัติเดียวของฟังก์ชัน sigmoid ที่ฉันพบว่ามีประโยชน์และเหมาะสมที่นี่ นอกจากนี้ฟังก์ชัน sigmoid มีอนุพันธ์ในรูปแบบนี้แต่ฉันไม่เห็นประโยชน์ของรูปแบบพิเศษนี้ในการถดถอยโลจิสติก1[0,1]f(x)(1f(x))

    คำถาม : ดังนั้นสิ่งที่พิเศษเกี่ยวกับฟังก์ชั่น sigmoid และทำไมเราไม่สามารถใช้ฟังก์ชั่นอื่น ๆ ที่มีโดเมน ?[0,1]

  2. ฟังก์ชันต้นทุนประกอบด้วยสองพารามิเตอร์ถ้าถ้า 0 ในทำนองเดียวกันเป็นข้างต้นฉันเข้าใจว่าทำไมมันถูกต้อง แต่ทำไมมันเป็นรูปแบบเดียว? ตัวอย่างเช่นทำไมไม่สามารถเป็นทางเลือกที่ดีสำหรับฟังก์ชันต้นทุนหรือไม่Cost(hθ(x),y)=log(hθ(x))y=1,Cost(hθ(x),y)=log(1hθ(x))y=0|hθ(x)y|

    คำถาม : อะไรเป็นพิเศษเกี่ยวกับรูปแบบของฟังก์ชั่นค่าใช้จ่าย; ทำไมเราไม่สามารถใช้รูปแบบอื่นได้?

ฉันจะขอบคุณถ้าคุณสามารถแบ่งปันความเข้าใจของการถดถอยโลจิสติก


5
ฟังก์ชั่น logit / logistic ไม่ได้เป็นเพียงฟังก์ชั่นเดียวที่สามารถใช้เป็นฟังก์ชั่นลิงค์สำหรับแบบจำลองการถดถอยเมื่อการตอบสนองถูกกระจายเป็นทวินาม เกี่ยวกับจุดนี้มันอาจจะช่วยให้คุณสามารถอ่านคำตอบของฉันที่นี่: ความแตกต่างระหว่าง logit และ probit โมเดล
gung - Reinstate Monica

4
คำตอบของฉันที่นี่: เป็นฟังก์ชั่น logit ที่ดีที่สุดสำหรับการสร้างแบบจำลองการถดถอยของข้อมูลไบนารีอาจเป็นประโยชน์ในการคิดเกี่ยวกับความเป็นไปได้ที่แตกต่างกัน
gung - Reinstate Monica

1
@AdamO ให้ภาพรวมที่ดีด้านล่าง หากท่านต้องการข้อมูลรายละเอียดเพิ่มเติมเกี่ยวกับสิ่งที่มันหมายความว่า logit เป็นฟังก์ชั่นการเชื่อมโยงที่ยอมรับ 'คุณอาจต้องการที่จะอ่านคำตอบของ Momo ที่นี่: ความแตกต่างระหว่างการเชื่อมโยงการทำงานและยอมรับการเชื่อมโยงฟังก์ชั่นสำหรับ GLM
gung - Reinstate Monica

1
ทำงานตัวอย่างเช่นภาพประกอบ (1) ที่ "sigmoid" จะไม่ได้ใช้จะปรากฏขึ้นที่stats.stackexchange.com/a/70922 คำตอบนั้นรวมถึงคำอธิบายของ (2) อีกตัวอย่างหนึ่งก็ปรากฏขึ้นที่stats.stackexchange.com/questions/63978/... การสนทนาทางโลก (แต่ทางเทคนิคน้อยกว่า) จะเกิดขึ้นที่stats.stackexchange.com/a/69873โดยเน้นที่ปัญหา (2)
whuber

คำตอบ:


7

แบบจำลองการถดถอยโลจิสติกมีความเป็นไปได้สูงสุดโดยใช้พารามิเตอร์ธรรมชาติ (อัตราส่วนอัตราต่อรอง) เพื่อเปรียบเทียบการเปลี่ยนแปลงสัมพัทธ์กับความเสี่ยงของผลลัพธ์ต่อความแตกต่างของหน่วยในตัวทำนาย แน่นอนว่านี่คือรูปแบบความน่าจะเป็นทวินามสำหรับผลลัพธ์ นั่นหมายความว่าคุณสมบัติความมั่นคงและความทนทานของการถดถอยแบบโลจิสติกส์ขยายจากความเป็นไปได้สูงสุด: แข็งแกร่งไปจนถึงการขาดข้อมูลแบบสุ่มความสอดคล้องของรูท - เอ็นและการมีอยู่และเอกลักษณ์ของโซลูชั่น นี่คือการสันนิษฐานว่าการแก้ปัญหาไม่ได้อยู่ในขอบเขตของพื้นที่พารามิเตอร์ (โดยที่อัตราส่วนอัตราต่อรองของล็อกเป็น ) เนื่องจากการถดถอยโลจิสติกเป็นโอกาสสูงสุดฟังก์ชั่นการสูญเสียที่เกี่ยวข้องกับโอกาสเนื่องจากพวกเขากำลังมีปัญหาการเพิ่มประสิทธิภาพเทียบเท่า±

ด้วย quasilikelihood หรือการประมาณสมการ (การอนุมาน semiparametric), การดำรงอยู่, คุณสมบัติที่เป็นเอกลักษณ์ยังคงมีอยู่ แต่สมมติฐานที่ว่าค่าเฉลี่ยของแบบจำลองไม่เกี่ยวข้องและการอนุมานและข้อผิดพลาดมาตรฐานมีความสอดคล้องกันโดยไม่คำนึงถึงแบบจำลอง ดังนั้นในกรณีนี้มันไม่สำคัญว่า sigmoid เป็นฟังก์ชันที่ถูกต้องหรือไม่ แต่เป็นสิ่งที่ทำให้เรามีแนวโน้มที่เราสามารถเชื่อในและได้รับการแปรพารามิเตอร์โดยพารามิเตอร์ที่มีการตีความแบบขยายได้

อย่างไรก็ตาม sigmoid ไม่ได้เป็นเพียงฟังก์ชันการสร้างแบบจำลองไบนารีดังกล่าวเท่านั้น ฟังก์ชัน probit ที่ตัดกันทั่วไปมีคุณสมบัติคล้ายกัน มันไม่ได้ประมาณการอัตราส่วนการเข้าสู่ระบบการต่อรอง แต่หน้าที่ที่พวกเขามองที่คล้ายกันมากและมีแนวโน้มที่จะให้ใกล้เคียงที่คล้ายกันมากกับสิ่งเดียวที่แน่นอน เราไม่จำเป็นต้องใช้คุณสมบัติขอบเขตในฟังก์ชันตัวแบบเฉลี่ยเช่นกัน เพียงใช้กราฟเส้นโค้งพร้อมฟังก์ชันความแปรปรวนแบบทวินามให้การถดถอยความเสี่ยงแบบสัมพันธ์การเชื่อมโยงตัวตนที่มีความแปรปรวนแบบทวินามให้แบบจำลองความเสี่ยงเพิ่มเติม ทั้งหมดนี้ถูกกำหนดโดยผู้ใช้ ความนิยมของการถดถอยโลจิสติกคือเศร้าทำไมมันจึงใช้กันทั่วไป อย่างไรก็ตามฉันมีเหตุผลของฉัน (เหตุผลที่ฉันระบุไว้) ว่าทำไมฉันถึงคิดว่ามันเป็นเหตุผลที่ดีสำหรับมันใช้ในสถานการณ์จำลองสถานการณ์ไบนารีส่วนใหญ่

ในโลกที่อนุมานสำหรับผลลัพธ์ที่หายากอัตราต่อรองสามารถตีความคร่าว ๆ ว่า "ความเสี่ยงสัมพัทธ์" คือ "การเปลี่ยนแปลงสัมพัทธ์ร้อยละในความเสี่ยงของผลการเปรียบเทียบ X + 1 ถึง X" นี่ไม่ใช่กรณีและโดยทั่วไปแล้วอัตราต่อรองไม่สามารถและไม่ควรตีความเช่นนี้ อย่างไรก็ตามพารามิเตอร์นั้นมีการตีความและสามารถสื่อสารกับนักวิจัยคนอื่น ๆ ได้อย่างง่ายดายเป็นประเด็นสำคัญสิ่งที่หายไปอย่างน่าเศร้าจากสื่อการสอนของผู้เรียนรู้เครื่องจักร

แบบจำลองการถดถอยโลจิสติกยังให้รากฐานทางแนวคิดสำหรับวิธีการที่ซับซ้อนมากขึ้นเช่นการสร้างแบบจำลองแบบลำดับชั้นเช่นเดียวกับการสร้างแบบจำลองแบบผสมและวิธีการความน่าจะเป็นเงื่อนไขซึ่งมีความสอดคล้องและมีประสิทธิภาพ GLMM และการถดถอยโลจิสติกตามเงื่อนไขเป็นแนวคิดที่สำคัญมากในสถิติมิติสูง


1
ขอบคุณมากสำหรับคำตอบของคุณ! ดูเหมือนว่าฉันจะขาดพื้นหลังอย่างมาก
user16168

ฉันคิดว่าโมเดลเชิงเส้นตรงเชิงเส้นของ McCullough และ Nelder จะเป็นแหล่งข้อมูลพื้นฐานที่ยอดเยี่ยมสำหรับมุมมองทางสถิติที่มากขึ้น
AdamO

โดยทั่วไปแล้วตำราเรียนแบบใดที่คุณแนะนำในการเรียนรู้ของเครื่องด้วยเนื้อหาที่มีรายละเอียดมาก
user16168

องค์ประกอบของการเรียนรู้ทางสถิติโดย Hastie, Tibshirani, Friedman
AdamO

2
@ user48956 การวิเคราะห์ทางสถิติด้วย Missing Dada, Little & Rubin 2nd ed. ข้อมูลที่หายไปไม่ได้ "แสดง" ต่อ se แต่ "จัดการ" โดยละเว้น นี่ไม่ได้เป็นการเฉพาะสำหรับการถดถอยโลจิสติก: มันเป็นวิธีการไร้เดียงสาที่ใช้โดยแบบจำลองทางสถิติทั้งหมด เมื่อข้อมูลถูกจัดรูปแบบในอาร์เรย์สี่เหลี่ยมแถวที่มีค่าหายไปจะถูกตัดออก สิ่งนี้เรียกว่าการวิเคราะห์กรณีสมบูรณ์ GLM และ GLMMS มีความแข็งแกร่งต่อข้อมูลที่ขาดหายไปในแง่ที่ว่าการวิเคราะห์กรณีที่สมบูรณ์มักจะไม่เอนเอียงและไม่มีประสิทธิภาพมากนัก
AdamO

6

วิธีหนึ่งที่จะคิดเกี่ยวกับการถดถอยโลจิสติกคือรูปแบบการตอบสนองของเกณฑ์ ในรูปแบบเหล่านี้คุณจะมีตัวแปรไบนารีซึ่งเป็นผลมาจากค่านิยมของเวกเตอร์ของตัวแปรอิสระที่Xขึ้นอยู่กับตัวแปรเท่านั้นที่สามารถใช้เวลาในการค่า 0 และ 1 ดังนั้นคุณจึงไม่สามารถจำลองการพึ่งพาอาศัยกันของบนกับสมการถดถอยเชิงเส้นทั่วไปเช่นY_iแต่เราชอบสมการเชิงเส้นจริงๆ หรืออย่างน้อยฉันก็ทำYXYYXYi=Xiβ+ϵi

ในการสร้างแบบจำลองสถานการณ์นี้เราแนะนำตัวแปรที่ไม่สามารถสังเกตเห็นได้แฝงและเราบอกว่าจาก 0 เท่ากับ 0 เป็น 1 เมื่อข้ามธรณีประตู: ตามที่ฉันได้เขียนไว้ขีด จำกัด อยู่ที่ 0 นี่คือภาพลวงตา โดยทั่วไปโมเดลจะมีจุดตัด (เช่นหนึ่งในคอลัมน์ของคือคอลัมน์ 1 วินาที) สิ่งนี้อนุญาตให้ขีด จำกัด เป็นอะไรก็ได้ YYY

Yi=Xiβ+ϵiYi=0ifYi<0Yi=1ifYi>0
X

เพื่อกระตุ้นโมเดลนี้ให้คิดว่าการฆ่าแมลงด้วยยาฆ่าแมลงประสาทและสารพิษ คือจำนวนเซลล์ประสาทที่ถูกฆ่าและรวมถึงปริมาณของสารกำจัดศัตรูพืชที่ส่งไปยังแมลง คือ 1 ถ้าแมลงตายและ 0 ถ้ามันตาย นั่นคือถ้ามีการฆ่าเซลล์ประสาทมากพอ (และข้ามเขตแดน) จากนั้นข้อผิดพลาดก็จะตาย นี่ไม่ใช่ความจริงที่ว่าสารกำจัดศัตรูพืชที่เป็นพิษต่อระบบประสาททำงานได้ดี แต่มันสนุกที่จะเสแสร้งYXYY

ดังนั้นคุณจะได้สมการถดถอยเชิงเส้นที่คุณมองไม่เห็นและผลลัพธ์ไบนารีที่คุณเห็น พารามิเตอร์มักจะถูกประเมินผ่านโอกาสสูงสุด หากมีการกระจายที่มีฟังก์ชั่นการกระจายสมมาตรแล้วเบต้า) อย่างที่คุณพูดคุณสามารถใช้ฟังก์ชั่นการกระจายแบบสมมาตรที่คุณต้องการ ϵ F P { Y ฉัน = 1 } = F ( X i β )βϵFP{Yi=1}=F(Xiβ)

ที่จริงแล้วคุณสามารถใช้ฟังก์ชั่นการกระจายสมมาตรหากคุณต้องการมันก็ทำให้พีชคณิตเล็กน้อยยากเช่นเบต้า)P{Yi=1}=1F(Xiβ)

ตอนนี้ฟังก์ชั่นการกระจายที่คุณเลือกสำหรับส่งผลต่อผลลัพธ์การประมาณของคุณ ตัวเลือกที่พบบ่อยที่สุดสองตัวเลือกสำหรับคือปกติ (ให้ผลแบบจำลอง probit) และโลจิสติก (ให้ผลแบบจำลอง logit) การแจกแจงสองแบบนี้มีความคล้ายคลึงกันจนแทบไม่มีความแตกต่างที่สำคัญในผลลัพธ์ระหว่างสิ่งเหล่านี้ เนื่องจาก logit มีรูปแบบปิดที่สะดวกมากสำหรับทั้ง cdf และฟังก์ชั่นความหนาแน่นจึงมักจะใช้งานได้ง่ายกว่า probitFϵF

เช่นเดียวกับที่คุณพูดคุณสามารถเลือกฟังก์ชั่นการแจกแจงแบบและแบบที่คุณเลือกจะส่งผลต่อผลลัพธ์ของคุณF


สิ่งที่คุณอธิบายคือแรงจูงใจสำหรับตัวแบบ probit ไม่ใช่การถดถอยโลจิสติก
AdamO

6
@AdamO หากมีการกระจายโลจิสติกส์นี่จะอธิบายการถดถอยโลจิสติก ϵi
มาโคร

ดูเหมือนว่าจะเป็นข้อสันนิษฐานที่ละเอียดอ่อนมากและเป็นข้อสอบที่ยากต่อการทดสอบ ฉันคิดว่าการถดถอยโลจิสติกสามารถกระตุ้นได้เมื่อการแจกแจงข้อผิดพลาดดังกล่าวไม่เกิดขึ้น
AdamO

2
@AdamO แต่คุณกระตุ้นการถดถอยโลจิสติกมันก็ยังคงเทียบเท่ากับคณิตศาสตร์แบบจำลองเชิงเส้นถดถอยเชิงเส้นเกณฑ์ที่ข้อผิดพลาดมีการกระจายโลจิสติก ฉันยอมรับว่าข้อสันนิษฐานนี้อาจทดสอบได้ยาก แต่ไม่ว่าคุณจะกระตุ้นปัญหาอย่างไร ฉันจำคำตอบก่อนหน้าเกี่ยวกับ CV (ฉันไม่สามารถวางได้ในขณะนี้) ที่แสดงด้วยการศึกษาแบบจำลองที่พยายามบอกว่าโมเดลโลจิสติกหรือโปรบิต "พอดีดีกว่า" นั้นเป็นแบบพลิกเหรียญโดยไม่คำนึงถึงรูปแบบการสร้างข้อมูลจริง . ฉันสงสัยว่าโลจิสติกส์เป็นที่นิยมมากขึ้นเนื่องจากการตีความที่สะดวก
มาโคร

2
@AdamO นี่คือการรวมตัวกันของนักเศรษฐศาสตร์ / สถิติแบ่ง แต่ . . ฉันไม่คิดว่าการถดถอยโลจิสติกเป็นแบบกึ่งพารามิเตอร์ แบบจำลองทางสถิติคือเบต้า)} นั่นคือตัวแปร หนึ่งสามารถ (และฉัน) ตีความว่ามาจากแบบจำลองเกณฑ์ที่มีข้อผิดพลาดโลจิสติก ถ้าฉันกังวลเกี่ยวกับการตั้งสมมติฐานมากเกินไปในเทอมที่ผิดพลาดฉันจะปล่อยการถดถอยโลจิสติกไม่ใช่ตัวแบบขีด จำกัด แบบจำลองเกณฑ์สามารถประมาณได้โดยมีข้อสมมติฐานอ่อนกว่ามากเกี่ยวกับข้อผิดพลาดโดยใช้คะแนนสูงสุดและตัวประมาณที่เกี่ยวข้องตัวอย่างเช่น P(Yi=1)=exp(Xiβ)1+exp(Xiβ)
Bill
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.