การถดถอยโลจิสติกเป็นการทดสอบแบบไม่อิงพารามิเตอร์หรือไม่?


15

ฉันเพิ่งได้รับคำถามต่อไปนี้ทางอีเมล ฉันจะโพสต์คำตอบด้านล่าง แต่ฉันสนใจที่จะฟังสิ่งที่คนอื่นคิด

คุณจะเรียกการถดถอยโลจิสติกว่าเป็นการทดสอบแบบไม่อิงพารามิเตอร์หรือไม่? ความเข้าใจของฉันคือการติดฉลากการทดสอบที่ไม่ใช่พารามิเตอร์เนื่องจากข้อมูลของมันไม่ได้กระจายตามปกติไม่เพียงพอ มันจะทำอย่างไรกับการขาดสมมติฐาน การถดถอยโลจิสติกมีสมมติฐาน


7
(+1) สำหรับการบันทึก - และเป็นความแตกต่างของการยืนยันในคำถาม - ฉันรู้ว่าไม่มีการอ้างอิงที่น่าเชื่อถือที่กำหนด (หรือแม้กระทั่งลักษณะ) วิธีการที่ไม่ใช่พารามิเตอร์เป็น "ขาดสมมติฐาน" กระบวนการทางสถิติทั้งหมดตั้งสมมติฐาน ขั้นตอนที่ไม่เกี่ยวกับตัวแปรส่วนใหญ่จะทำข้อ จำกัด เชิงปริมาณที่เข้มงวดเกี่ยวกับการแจกแจงความน่าจะเป็นพื้นฐาน แต่สมมติฐานเหล่านั้นไม่ได้ จำกัด สถานะของกิจการที่เป็นไปได้ให้แคบลงไปสู่เซตที่มีโครงสร้างของนานามิติจริง จำกัด
whuber

หากเรากำลังพูดถึงการถดถอยเชิงเส้นตรง (ซึ่งดูเหมือนว่าจะเป็นนัยตามคำตอบที่คุณเขียน) แน่นอนว่านี่เป็นแบบจำลองพารามิเตอร์ แต่มันก็คุ้มค่าที่จะสังเกตว่าถ้าคุณใส่เอฟเฟกต์ covariate โดยใช้ฟังก์ชันที่ไม่แปรพารามิเตอร์ เช่นแล้วไม่มีข้อ จำกัด ตัวแปรในความน่าจะเป็นที่คาดกันว่าเป็นหน้าที่ของx สิ่งนี้ไม่เพียงเป็นความจริงเกี่ยวกับลิงค์โลจิสติกเท่านั้น ตรรกะเดียวกันนี้ใช้กับฟังก์ชั่นลิงค์กลับด้านใด ๆ
เข้าสู่ระบบ(P(Yผม=1|Xผม=x)P(Yผม=0|Xผม=x))=(x)
x
มาโคร

ฉันถามคำถามที่เกี่ยวข้องที่นี่ ฉันเริ่มรู้สึกถึงความรู้สึกบางอย่างกรณีของ GLM (เช่นตัวแบบโลจิสติก) ให้การทดสอบที่ไม่ใช่พารามิเตอร์ ฉันจะดูในหนังสือของ Wasserman แม้ว่า (ยกเว้นว่าฉันกำลังเข้าใจผิด) มีบางคนไม่เห็นด้วยกับหลักการและข้อค้นพบบางประการเกี่ยวกับงานของเขา
AdamO

คำตอบ:


19

Larry Wasserman กำหนดโมเดลพารามิเตอร์เป็นชุดของการแจกแจง "ที่สามารถกำหนดพารามิเตอร์ด้วยพารามิเตอร์จำนวน จำกัด " (p.87) ในทางตรงกันข้ามโมเดลที่ไม่ใช่พารามิเตอร์คือชุดของการแจกแจงที่ไม่สามารถทำให้พารามิเตอร์ถูก จำกัด ด้วยพารามิเตอร์จำนวน จำกัด

ดังนั้นโดยนิยามการถดถอยโลจิสติกมาตรฐานเป็นแบบจำลองพารามิเตอร์ แบบจำลองการถดถอยโลจิสติกเป็นตัวแปรเนื่องจากมีชุดของพารามิเตอร์ที่ จำกัด พารามิเตอร์นั้นเป็นสัมประสิทธิ์การถดถอย สิ่งเหล่านี้มักจะตรงกับหนึ่งสำหรับตัวทำนายแต่ละตัวบวกค่าคงที่ การถดถอยโลจิสติกเป็นรูปแบบเฉพาะของโมเดลเชิงเส้นทั่วไป โดยเฉพาะมันเกี่ยวข้องกับการใช้ฟังก์ชั่นการเชื่อมโยง logit เพื่อจำลองข้อมูลที่กระจายแบบทวินาม

น่าสนใจเป็นไปได้ที่จะทำการถดถอยโลจิสติกแบบไม่มีพารามิเตอร์ (เช่น Hastie, 1983) สิ่งนี้อาจเกี่ยวข้องกับการใช้เส้นโค้งหรือรูปแบบของการทำให้ตัวแปรไม่เรียบเพื่อสร้างแบบจำลองผลกระทบของตัวทำนาย

อ้างอิง

  • Wasserman, L. (2004) สถิติทั้งหมด: หลักสูตรที่กระชับในการอนุมานเชิงสถิติ Springer Verlag
  • Hastie, T. (1983) การถดถอยโลจิสติกที่ไม่ใช่พารามิเตอร์ SLAC PUB-3160, มิถุนายน ไฟล์ PDF

แบบจำลองคือชุดของการแจกแจง? มีบางสิ่งที่ขาดหายไป
rolando2

เป็นเรื่องปกติไหมที่จะถามคำถามและตอบคำถามด้วยตัวเอง?

1
@fcop ได้รับการสนับสนุน blog.stackoverflow.com/2011/07/…
Jeromy Anglim

ตกลงฉันไม่รู้

ไม่ต้องห่วง. สำหรับฉันประเด็นหลักของเว็บไซต์คือการสร้างทรัพยากรที่คนอื่นค้นพบเมื่อมองหาคำตอบในอนาคต การมีส่วนร่วมในคำตอบของคุณเองช่วยได้ทั้งหมด
Jeromy Anglim

16

ฉันว่าการถดถอยโลจิสติกไม่ใช่การทดสอบเลย อย่างไรก็ตามการถดถอยโลจิสติกอาจนำไปสู่การไม่มีการทดสอบหรือการทดสอบหลายอย่าง

คุณค่อนข้างถูกต้องว่าการติดฉลากสิ่งที่ไม่ใช่พารามิเตอร์เนื่องจากมันไม่ปกติไม่เพียงพอ ฉันจะเรียกว่าตัวแปรเชิงครอบครัวอย่างชัดเจนดังนั้นฉันมักจะพิจารณาการถดถอยโลจิสติก (และปัวซองถดถอยและแกมม่าถดถอยและ ... ) เป็นตัวแปรแม้ว่าจะมีสถานการณ์ที่ฉันอาจยอมรับอาร์กิวเมนต์ที่ถดถอยโลจิสติกโดยเฉพาะสามารถ ถือเป็น nonparametric (หรืออย่างน้อยในความรู้สึกมือหยักเพียงกึ่ง - "พาราเมตริก")

ระวังความสับสนเกี่ยวกับประสาทสัมผัสทั้งสองซึ่งอาจจะเรียกว่าการถดถอยแบบไม่มีพารามิเตอร์

xYxแปรปรวนโดยค่าความชันและค่าสัมประสิทธิ์การสกัดกั้น

Yxที่ไม่ใช่พารามิเตอร์ อนันต์มิติ) ไม่ใช่การแจกแจงข้อผิดพลาด

ใช้ประสาทสัมผัสทั้งสอง แต่เมื่อพูดถึงการถดถอยแล้วชนิดที่สองมักถูกใช้บ่อยกว่า

มันยังเป็นไปได้ที่จะไม่ใช่พารามิเตอร์ในประสาทสัมผัสทั้งสอง แต่ยากขึ้น (ด้วยข้อมูลที่เพียงพอฉันสามารถทำได้เช่นพอดีกับการถดถอยเชิงเส้นแบบถ่วงน้ำหนักภายในประเทศของ Theil)

ในกรณีของ GLM รูปแบบที่สองของการถดถอยแบบหลายพารามิเตอร์รวมถึงเกม รูปแบบที่สองนั้นเป็นความรู้สึกที่ Hastie ปฏิบัติงานโดยทั่วไป


3

ความแตกต่างที่เป็นประโยชน์อย่างหนึ่งที่อาจเพิ่มเล็กน้อยให้กับคำตอบข้างต้น: Andrew Ng ให้การวิเคราะห์แบบฮิวริสติกสำหรับความหมายของการเป็นแบบจำลองที่ไม่มีพารามิเตอร์ในการบรรยายที่ 1จากเนื้อหาหลักสูตรสำหรับหลักสูตร CS-229 ของ Stanford

มี Ng พูดว่า (pp. 14-15):

θผมθผมชั่วโมง

ฉันคิดว่านี่เป็นวิธีเปรียบเทียบที่มีประโยชน์ในการคิดเกี่ยวกับมันเพราะมันแทรกความคิดของความซับซ้อนโดยตรง แบบจำลองที่ไม่ใช่พารามิเตอร์นั้นไม่ได้มีความซับซ้อนน้อยกว่าอย่างแท้จริงเนื่องจากอาจจำเป็นต้องเก็บข้อมูลการฝึกอบรมมากขึ้น หมายความว่าคุณไม่ได้ลดการใช้ข้อมูลการฝึกอบรมโดยการบีบอัดข้อมูลลงในการคำนวณที่มีพารามิเตอร์อย่างละเอียด เพื่อประสิทธิภาพหรือความเป็นกลางหรือโฮสต์ของคุณสมบัติอื่นคุณอาจต้องการกำหนดพารามิเตอร์ แต่อาจมีประสิทธิภาพเพิ่มขึ้นหากคุณสามารถละทิ้งการกำหนดพารามิเตอร์และเก็บข้อมูลจำนวนมากได้


0

ฉันคิดว่าการถดถอยโลจิสติกเป็นเทคนิคแบบพารามิเตอร์

สิ่งนี้อาจเป็นประโยชน์จาก Wolfowitz (1942) [ฟังก์ชันการแบ่งส่วนเพิ่มเติมและระดับของสถิติเชิงสถิติพงศาวดารของสถิติคณิตศาสตร์, 1942, 13, 247-279]:

“ ฟังก์ชันการแจกแจง[หมายเหตุ: พหูพจน์ !!!]ของตัวแปรสุ่มต่าง ๆ ที่เข้าสู่ปัญหาของพวกเขาถูกสันนิษฐานว่าเป็นรูปแบบการทำงานที่เป็นที่รู้จักและทฤษฎีการประมาณและการทดสอบสมมติฐานเป็นทฤษฎีของการประมาณค่าและการทดสอบสมมติฐานเกี่ยวกับ หนึ่งหรือหลายพารามิเตอร์ จำกัด จำนวนความรู้ที่จะกำหนดฟังก์ชันการแจกแจงต่างๆที่เกี่ยวข้องอย่างสมบูรณ์ เราจะอ้างถึงสถานการณ์นี้เพื่อความกะทัดรัดเป็นกรณีพารามิเตอร์และแสดงให้เห็นถึงสถานการณ์ตรงข้ามซึ่งรูปแบบการทำงานของการแจกแจงไม่เป็นที่รู้จัก 'เป็นกรณีที่ไม่ใช่พารามิเตอร์

นอกจากนี้เมื่อได้ยินเรื่องนี้พูดถึงค่อนข้างมากฉันก็พบว่ามันน่าขบขันโดย Noether (1984) [Nonparametrics: The Early Years-Impressions and Recollections The American Statistics, 1984, 38, 173-178]:

“ คำว่า nonparametric อาจมีความสำคัญทางประวัติศาสตร์และความหมายสำหรับนักสถิติเชิงทฤษฎี แต่มันมีไว้เพื่อสร้างความสับสนให้กับนักสถิติประยุกต์เท่านั้น”


0

Hastie และ Tibshirani กำหนดว่าการถดถอยเชิงเส้นเป็นวิธีการเชิงพารามิเตอร์เนื่องจากมันถือว่าเป็นรูปแบบการทำงานเชิงเส้นของ f (X) วิธีที่ไม่ใช่พารามิเตอร์ไม่ถือว่าฟอร์มสำหรับ f (X) อย่างชัดเจน ซึ่งหมายความว่าวิธีการที่ไม่ใช้พารามิเตอร์จะเหมาะสมกับตัวแบบโดยยึดตามค่าประมาณของ f ซึ่งคำนวณจากแบบจำลอง การถดถอยโลจิสติกกำหนดว่า p (x) = Pr (Y = 1 | X = x) โดยที่ความน่าจะเป็นคำนวณโดยฟังก์ชันโลจิสติก แต่ขอบเขตโลจิสติกที่แยกชั้นเรียนนั้นไม่ได้ถูกสันนิษฐานซึ่งยืนยันว่า LR ยังไม่ใช่พารามิเตอร์

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.