ความหมายของค่า p ในการถดถอย


27

เมื่อฉันดำเนินการถดถอยเชิงเส้นในบางแพคเกจซอฟต์แวร์ (เช่น Mathematica) ฉันจะได้รับค่า p ที่เกี่ยวข้องกับพารามิเตอร์แต่ละตัวในรูปแบบ ตัวอย่างเช่นผลลัพธ์ของการถดถอยเชิงเส้นที่สร้างผลลัพธ์จะมีค่า p ที่เกี่ยวข้องกับaและหนึ่งที่มีbax+bab

  1. ค่า p เหล่านี้มีความหมายเกี่ยวกับพารามิเตอร์เหล่านั้นที

  2. มีวิธีทั่วไปในการคำนวณพารามิเตอร์สำหรับตัวแบบการถดถอยหรือไม่?

  3. p-value ที่เชื่อมโยงกับแต่ละพารามิเตอร์สามารถรวมกันเป็น p-value สำหรับรุ่นทั้งหมดได้หรือไม่?

เพื่อให้คำถามทางคณิตศาสตร์เป็นไปตามธรรมชาติฉันกำลังมองหาเฉพาะการตีความค่า p ในแง่ของความน่าจะเป็น


คำตอบของ Gavin ในคำถาม @ cardinal ที่เชื่อมโยงกับสิ่งนั้นดี
JM ไม่ใช่นักสถิติ

6
@zyx ไม่มีอะไรขั้นสูงเกี่ยวกับคำถามของ OP เหล่านี้มีมากคำถามที่พบบ่อยสำหรับซึ่งในความคิดของฉัน stats.SE จะเหมาะสมกว่า --- และเพื่อที่ผู้เข้าร่วมมีมากขึ้นในการปรับตัวเช่นกัน Math.SE และ MO เป็นแหล่งข้อมูลที่ยอดเยี่ยมสำหรับคำถามความน่าจะเป็น คำถามของ OP โน้มไปทางด้านหลังมากขึ้น
พระคาร์ดินัล

@cardinal: ฉันได้ติดตาม stats.SE ตั้งแต่เริ่มเบต้าสาธารณะ ออกจาก 4800+ คำถามถึงวันที่ผมไม่สามารถที่จะหาหนึ่งที่ถามหรือตอบข้อ 3 จาก OP ซึ่งเป็นเลขคี่ถ้าเป็นแบบสอบถาม "ที่พบบ่อยมาก" ฉันไม่เห็นคำตอบที่แม่นยำของแนวคิดข้อ 1 ในไม่กี่ครั้งที่มันเกิดขึ้น ฉันคิดว่าสิ่งเหล่านี้ควรโพสต์ลงใน math.SE และ MO เป็นระยะเพื่อดึงดูดความสนใจของผู้ชมจำนวนมากไม่ใช่การโยกย้ายภายในไม่กี่นาทีสู่สถิติ มันไม่เจ็บยังถามใน stat.SE แต่หันหลังเข้าไปในสถานที่ แต่เพียงผู้เดียวที่สถิติสามารถพูดคุยไม่เป็นประโยชน์
zyx

ขณะนี้มีเธรดเกี่ยวกับ math.SE เป็น stats.SE migrations ใน meta.math.SE
zyx

(ความคิดเห็นบางส่วนที่อ้างถึงข้างต้นหายไปในการย้ายข้อมูลพวกเขาสามารถมองเห็นได้ที่การโพสต์ทางคณิตศาสตร์ดั้งเดิมเชื่อมโยงด้านล่างถัดจากคำว่า "ย้ายจาก ... ")
zyx

คำตอบ:


13
  1. p-value สำหรับคือ p-value ในการทดสอบสมมติฐาน " α = 0 " (มักจะเป็นแบบทดสอบ2 ด้านt -test) p-value สำหรับbคือ p-value ในการทดสอบสมมติฐาน " β = 0 " (โดยปกติแล้วจะเป็นการทดสอบแบบสองด้านt -test) และในทำนองเดียวกันสำหรับสัมประสิทธิ์อื่น ๆ ในการถดถอย แบบจำลองความน่าจะเป็นสำหรับการทดสอบเหล่านี้พิจารณาจากแบบจำลองที่ใช้ในแบบจำลองการถดถอยเชิงเส้น สำหรับการถดถอยเชิงเส้นอย่างน้อยกำลังสองคู่ ( a , b ) จะเป็นไปตามการแจกแจงปกติแบบ bivariate ที่มีศูนย์กลางอยู่ที่ค่าพารามิเตอร์จริง ( α , βaα=0tbβ=0ta,bα,β ) และการทดสอบสมมติฐานสำหรับแต่ละสัมประสิทธิ์จะเท่ากับ -testing ว่า α = 0 (resp. β = 0 ) ตามตัวอย่างจากการแจกแจงแบบปกติที่เหมาะสม [ของหนึ่งตัวแปรคือการกระจายของหรือคนเดียว] รายละเอียดของการที่การแจกแจงปรกติปรากฏมีความซับซ้อนค่อนข้างและเกี่ยวข้องกับ "องศาความเป็นอิสระ" และ "การฝึกอบรมหมวก" (ตามสัญกรณ์สำหรับบางส่วนของการฝึกอบรมที่ต่อเนื่องปรากฏในทฤษฎีของ OLS ถดถอย)tα=0β=0abA^

  2. ใช่. โดยปกติแล้วมันจะทำ (และกำหนด) โดยการประมาณค่าความน่าจะเป็นสูงสุด สำหรับการถดถอยเชิงเส้น OLSและโมเดลอื่น ๆ จำนวนน้อยมีสูตรที่แน่นอนสำหรับการประมาณค่าพารามิเตอร์จากข้อมูล สำหรับการถดถอยทั่วไปเพิ่มเติมการแก้ปัญหามีการวนซ้ำและเป็นตัวเลขตามธรรมชาติ

  3. ไม่ได้โดยตรง p-value ถูกคำนวณแยกต่างหากสำหรับการทดสอบของแบบจำลองทั้งหมดนั่นคือการทดสอบสมมติฐานที่สัมประสิทธิ์ทั้งหมด (ของตัวแปรที่สันนิษฐานว่าจะแตกต่างกันจริงดังนั้นจึงไม่รวมค่าสัมประสิทธิ์ของ "ค่าคงที่" ถ้ามี หนึ่ง). แต่โดยทั่วไปค่า p นี้ไม่สามารถคำนวณได้จากความรู้เกี่ยวกับค่า p ของสัมประสิทธิ์


2
ในจุดของคุณ (1) ดูเหมือนว่าจะมีบิตของความสับสนระหว่างพารามิเตอร์และประมาณการ -value มีความเกี่ยวข้องกับประมาณการมากกว่าพารามิเตอร์และประมาณค่าที่มี bivariate ปกติไม่พารามิเตอร์ (ซึ่งอย่างน้อยในสถิติคลาสสิกจะถือว่าคงที่) นอกจากนี้ความคิดเห็นของคุณในจุดที่ (3. ) สามารถนำไปสู่ความสับสนเนื่องจากเป็นไปได้ทั้งหมด (และค่อนข้างบ่อย) สำหรับค่าpแต่ละค่าของการประมาณค่าการถดถอยมีทั้งขนาดใหญ่และเล็กกว่าค่าpร่วมจากค่าที่สอดคล้องกันทดสอบF pppF
พระคาร์ดินัล

@NRH: ขออภัยคุณช่วยชี้แจงความคิดเห็นก่อนหน้าของคุณ ฉันยังไม่ทำตาม (ค่อนข้าง) :)
สำคัญ

@cardinal: ดูเหมือนแม่นยำมากกว่าที่จะบอกว่าค่า p เกี่ยวข้องกับการทดสอบสมมติฐาน พารามิเตอร์ที่ปรากฏในสมมติฐานว่างของการทดสอบและคู่ (ค่าสังเกตของสมมติฐานประมาณการทางเลือก) แล้วกำหนดค่า p- สมมติฐานว่างควรอธิบายโดยใช้พารามิเตอร์เช่นα = 0 มากกว่าตัวประมาณ a = 0 ดังที่ได้ทำ [ลวก ๆ ] ในคำตอบดั้งเดิมตอนนี้แก้ไข (ขอบคุณสำหรับการชี้ให้เห็นข้อผิดพลาด) อย่างไรก็ตามความสับสนหรือความแตกต่างที่คาดคะเน "ตัวประมาณค่าเป็นตัวแปรปกติไม่ใช่พารามิเตอร์" ได้ระบุไว้อย่างชัดเจนในคำตอบ
zyx

1
ขอโทษฉันไม่สามารถต้านทานได้ @zyx แสดงความคิดเห็นต่อโพสต์ต้นฉบับบน math.SE ว่าคำตอบใน stat.SE มักไม่ชัดเจน ฉันพบว่าคำตอบจำนวนมากค่อนข้างแม่นยำแต่บางครั้งก็ไม่แม่นยำทางคณิตศาสตร์ นั่นคือในลักษณะของสิ่งต่าง ๆ คำถามและคำตอบทางสถิติไม่สามารถลดลงไปเป็นงบทางคณิตศาสตร์ที่แม่นยำได้เสมอไป โดยเฉพาะอย่างยิ่งไม่ใช่เรื่องยาก แต่คำตอบที่ให้ไว้ในที่นี้ไม่ถูกต้องหรือแม่นยำเป็นพิเศษในความคิดของฉัน
NRH

3
ฉันคิดว่ามันจะดีถ้าใครก็ตามที่ downvoted ให้ความคิดเห็นที่อธิบาย
พระคาร์ดินัล

1

wrt คำถามแรกของคุณ: ขึ้นอยู่กับซอฟต์แวร์ที่คุณเลือก มีค่า p สองประเภทที่ใช้บ่อยในสถานการณ์เหล่านี้โดยทั่วไปจะขึ้นอยู่กับการทดสอบอัตราส่วนความน่าจะเป็น (มีประเภทอื่น แต่ค่าเหล่านี้มักเทียบเท่าหรืออย่างน้อยก็แตกต่างกันเล็กน้อยในผลลัพธ์ของพวกเขา)

สิ่งสำคัญคือต้องตระหนักว่าค่า p เหล่านี้ทั้งหมดมีเงื่อนไข (ส่วนหนึ่ง) ของพารามิเตอร์ที่เหลือ นั่นหมายความว่า: สมมติว่า (บางส่วน) ประมาณการพารามิเตอร์อื่นถูกต้องคุณจะทดสอบว่าสัมประสิทธิ์ของพารามิเตอร์เป็นศูนย์หรือไม่ โดยทั่วไปสมมติฐานว่างสำหรับการทดสอบเหล่านี้คือสัมประสิทธิ์เป็นศูนย์ดังนั้นหากคุณมีค่า p เล็ก ๆ มันหมายถึง (ตามเงื่อนไขกับค่าของสัมประสิทธิ์อื่น ๆ ) ที่สัมประสิทธิ์ตัวเองไม่น่าจะเป็นศูนย์

Type I ทดสอบการทดสอบค่าศูนย์ของสัมประสิทธิ์แต่ละค่าแบบมีเงื่อนไขตามค่าของสัมประสิทธิ์ที่มาก่อนหน้าในรุ่น (จากซ้ายไปขวา) การทดสอบประเภทที่สาม (การทดสอบส่วนเพิ่ม) การทดสอบค่าศูนย์ของสัมประสิทธิ์แต่ละเงื่อนไขตามค่าของสัมประสิทธิ์อื่นทั้งหมด

เครื่องมือต่าง ๆ นำเสนอค่า p ที่แตกต่างกันเป็นค่าเริ่มต้นถึงแม้ว่าโดยทั่วไปคุณจะมีวิธีรับทั้งคู่ หากคุณไม่มีเหตุผลนอกเหนือจากสถิติที่จะรวมพารามิเตอร์ในบางคำสั่งโดยทั่วไปคุณจะสนใจในผลการทดสอบประเภทที่สาม

ในที่สุด (เกี่ยวข้องกับคำถามสุดท้ายของคุณ) ด้วยการทดสอบอัตราส่วนความน่าจะเป็นคุณสามารถสร้างแบบทดสอบสำหรับค่าสัมประสิทธิ์ชุดใดก็ได้ตามเงื่อนไขที่เหลืออยู่ นี่คือวิธีที่จะไปหากคุณต้องการทดสอบว่าสัมประสิทธิ์หลายตัวเป็นศูนย์ในเวลาเดียวกัน (ไม่เช่นนั้นคุณจะพบปัญหาการทดสอบหลายอย่างที่น่ารังเกียจ)


คุณช่วยอธิบายรายละเอียดเกี่ยวกับเงื่อนไขที่คุณพูดถึงได้ไหม? ในการถดถอย univariate กับพยากรณ์และสกัดกั้นการทดสอบสมมติฐานเกี่ยวกับการรวมกันเชิงเส้นของพารามิเตอร์ψ = ' βใช้ทดสอบสถิติT =pψ=cβ ...t=ψ^ψ0σ^c(XX)1c
caracal

ψ^=cβ^β^cXσ^||e||2/(n(p+1))ejcjψ0=0t

สาระสำคัญของเรื่องถูกจับเช่นที่นี่ โปรดจำไว้ว่าโนวาเป็นเพียงกรณีพิเศษของการถดถอย โดยพื้นฐานแล้วจะมาลงที่: หากคุณทำการทดสอบค่าศูนย์ของตัวแปรสัมประสิทธิ์ (A) ในรุ่นที่มีหรือไม่มีตัวแปร B คุณอาจได้ผลลัพธ์ที่แตกต่างกัน ดังนั้นผลลัพธ์จะมีเงื่อนไขในแบบจำลองของคุณข้อมูล (แม้สำหรับค่าของตัวแปร B) และดังนั้นในสัมประสิทธิ์ที่ไม่ได้อยู่ในการทดสอบของคุณ แต่ในแบบจำลองของคุณ การค้นหาความคิดนั้นในวิชาคณิตศาสตร์นั้นอาจจะยากกว่า :-)
Nick Sabbe

p1pcββjF=(SSerSSeu)/(dferdfeu)SSeu/dfeuSSerdfer||er||2u

กรณีต่อเนื่องควรจะสมบูรณ์เท่ากับตัวแปรที่มีการเข้ารหัสแบบแบ่งขั้ว 0-1
Nick Sabbe
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.