ฉันขอแนะนำให้คุณมองไปที่หนังสือที่เกี่ยวกับการวิเคราะห์ข้อมูลเด็ดขาด (cf อลันอาเกรสติวิเคราะห์หมวดหมู่ข้อมูล, 2002) สำหรับคำอธิบายที่ดีขึ้นและความเข้าใจในการสั่งซื้อการถดถอยโลจิสติก คำถามทั้งหมดที่คุณถามโดยทั่วไปจะตอบโดยบทไม่กี่บทในหนังสือดังกล่าว หากคุณสนใจเฉพาะR
ตัวอย่างที่เกี่ยวข้องการขยายตัวแบบเชิงเส้นใน RโดยJulian Faraway (CRC Press, 2008) เป็นข้อมูลอ้างอิงที่ดี
JiYipij=P(Yi=j)j=1,...,Jγij=P(Yi≤j)γiJ=1J–1
ตอนนี้เราต้องการที่จะเชื่อมโยงเพื่อตัวแปรxในกรณีของคุณมี 3 ระดับสั่งซื้อ: , , มันสมเหตุสมผลมากกว่าที่จะปฏิบัติต่อพวกเขาตามคำสั่งแทนที่จะสั่งไม่ได้ ตัวแปรที่เหลือคือตัวแปรของคุณ โมเดลเฉพาะที่คุณกำลังพิจารณาคือโมเดลอัตราต่อรองแบบสัดส่วนและเทียบเท่ากับคณิตศาสตร์:γijxSat
low
medium
high
logit γj(xi)=θj−βTxi,j=1…J−1
where γj(xi)=P(Yi≤j|xi)
มันถูกเรียกเช่นนั้นเพราะราคาสัมพัทธ์สำหรับเปรียบเทียบและคือ:Y≤jx1x2
(γj(x1)1−γj(x1))/(γj(x2)1−γj(x2))=exp(−βT(x1−x2))
แจ้งให้ทราบล่วงหน้า, การแสดงออกดังกล่าวข้างต้นไม่ขึ้นอยู่กับเจแน่นอนว่าต้องมีการตรวจสอบสมมติฐานของอัตราต่อรองแบบสัดส่วนสำหรับชุดข้อมูลที่กำหนดj
ตอนนี้ฉันจะตอบคำถาม (1, 2, 4) บางข้อ
เราจะเข้าใจได้อย่างไรว่าตัวแบบให้พอดี? สรุป (house.plr) แสดง Residual Deviance 3479.149 และ AIC (Akaike Information Criterion?) จาก 3495.149 เป็นสิ่งที่ดีหรือไม่? ในกรณีที่สิ่งเหล่านั้นมีประโยชน์เป็นเพียงมาตรการแบบสัมพัทธ์ (เช่นการเปรียบเทียบกับแบบจำลองอื่น ๆ ) การวัดแบบสัมบูรณ์ที่ดีคืออะไร? ความเบี่ยงเบนที่เหลืออยู่ประมาณไคสแควร์กระจายกันหรือไม่? หนึ่งสามารถใช้ "% ทำนายอย่างถูกต้อง" กับข้อมูลต้นฉบับหรือการตรวจสอบข้ามบางอย่าง? วิธีที่ง่ายที่สุดในการทำเช่นนั้นคืออะไร?
รูปแบบที่เหมาะสมpolr
เป็นพิเศษglm
ดังนั้นสมมติฐานทั้งหมดที่ถือสำหรับการglm
ถือแบบดั้งเดิมที่นี่ หากคุณดูแลพารามิเตอร์อย่างเหมาะสมคุณสามารถเข้าใจการแจกแจง โดยเฉพาะเพื่อทดสอบว่าแบบจำลองนั้นดีหรือไม่คุณอาจต้องทำการทดสอบแบบพอดีซึ่งจะทดสอบค่าว่างต่อไปนี้ (สังเกตว่านี่เป็นสิ่งที่บอบบางส่วนใหญ่คุณต้องการปฏิเสธค่าเป็นโมฆะ แต่ที่นี่คุณไม่ต้องการ ปฏิเสธมันเพื่อรับแบบที่ดี):
Ho: current model is good enough
คุณจะใช้การทดสอบไคสแควร์สำหรับเรื่องนี้ ได้รับค่า p เป็น:
1-pchisq(deviance(house.plr),df.residual(house.plr))
เวลาส่วนใหญ่ที่คุณหวังว่าจะได้รับค่า p มากกว่า 0.05 เพื่อที่คุณจะไม่ปฏิเสธโมฆะเพื่อสรุปว่าแบบจำลองนั้นเหมาะสม (การเพิกเฉยต่อความถูกต้องตามหลักปรัชญา)
AIC ควรสูงเพื่อให้พอดีในเวลาเดียวกันคุณไม่ต้องการมีพารามิเตอร์จำนวนมาก stepAIC
เป็นวิธีที่ดีในการตรวจสอบนี้
ใช่คุณสามารถใช้การตรวจสอบความถูกต้องไขว้กันอย่างแน่นอนเพื่อดูว่าการคาดการณ์มีไว้หรือไม่ ดูpredict
ฟังก์ชั่น (ตัวเลือก: type = "probs"
) ?polr
ใน สิ่งที่คุณต้องดูแลคือผู้ร่วมทุน
ราคามีข้อมูลอะไรบ้าง? หน้าความช่วยเหลือในโปรไฟล์เป็นข้อมูลทั่วไปและไม่มีแนวทางสำหรับ polr
ในฐานะที่เป็นแหลมโดย @chl และคนอื่น ๆpr
มีข้อมูลทั้งหมดที่จำเป็นสำหรับการได้รับ CIs และข้อมูลที่เกี่ยวข้องอื่น ๆ polr fit
น่าจะเป็นของ glm
s ทั้งหมดมีความเหมาะสมโดยใช้วิธีการประมาณน้ำหนักน้อยที่สุดสำหรับการบันทึก ในการปรับให้เหมาะสมนี้คุณจะได้รับข้อมูลจำนวนมาก (โปรดดูข้อมูลอ้างอิง) ซึ่งจะต้องใช้สำหรับการคำนวณค่าความแปรปรวนร่วม Covariance Matrix, CI, ค่า t ฯลฯ ซึ่งรวมถึงทั้งหมด
เราตีความค่า t สำหรับสัมประสิทธิ์แต่ละค่าอย่างไร ต่างจากรุ่นอื่น ๆ ที่เหมาะกับไม่มีค่า P ที่นี่
ซึ่งแตกต่างจากโมเดลเชิงเส้นปกติ (พิเศษglm
) อื่น ๆglm
s ไม่มีการกระจาย t ที่ดีสำหรับสัมประสิทธิ์การถดถอย ดังนั้นสิ่งที่คุณจะได้คือการประมาณค่าพารามิเตอร์และเมทริกซ์ความแปรปรวนแปรปรวนเชิงซีโมติกของพวกเขาโดยใช้ทฤษฎีความน่าจะเป็นสูงสุด ดังนั้น:
Variance(β^)=(XTWX)−1ϕ^
ค่าประมาณหารด้วยข้อผิดพลาดมาตรฐานคือสิ่งที่ BDR และ WV เรียกค่า t (ฉันถือว่าMASS
การประชุมที่นี่) มันเทียบเท่ากับค่า t จากการถดถอยเชิงเส้นปกติ แต่ไม่เป็นไปตามการแจกแจงแบบ t เมื่อใช้ CLT จะเป็นการกระจายแบบปกติที่ไม่มีอาการ แต่พวกเขาไม่ต้องการใช้ประมาณนี้ (ฉันเดา) ดังนั้นจึงไม่มีค่า p (ฉันหวังว่าฉันจะไม่ผิดและถ้าฉันฉันหวังว่า BDR ไม่ได้อยู่ในฟอรัมนี้ฉันหวังว่าจะมีใครบางคนจะแก้ไขฉันถ้าฉันผิด)
methods("profile")
จะให้ (S3 ในกรณีนี้) วิธีการที่เกี่ยวข้องกับprofile
วัตถุR แล้วคุณจะเห็นกว่ามีวิธีเฉพาะสำหรับpolr
ผลลัพธ์ที่คุณสามารถเรียกดู ออนไลน์โดยพิมพ์getAnywhere("profile.polr")
ที่พรอมต์ R