ค่าประมาณของประชากร R-Square คืออะไร


14

ฉันสนใจที่จะประเมินค่าไม่เอนเอียงในการถดถอยเชิงเส้นแบบหลายค่าR2

ในการไตร่ตรองฉันสามารถนึกถึงสองค่าที่ต่างกันซึ่งการประมาณค่าที่เป็นกลางของอาจพยายามเทียบR2

  1. จากตัวอย่าง :R2 r-square ที่จะได้รับหากสมการถดถอยที่ได้จากตัวอย่าง (เช่น ) ถูกนำไปใช้กับข้อมูลจำนวนอนันต์ภายนอกกับตัวอย่าง แต่จากข้อมูลเดียวกัน กระบวนการสร้างβ^
  2. ประชากร :R2 r-square ที่จะได้รับถ้าตัวอย่างที่ไม่มีที่สิ้นสุดได้รับและรูปแบบที่พอดีกับตัวอย่างที่ไม่มีที่สิ้นสุด (เช่น ) หรืออีกทางหนึ่งเพียงแค่ R-Square โดยนัยโดยกระบวนการสร้างข้อมูลที่รู้จักβ

ผมเข้าใจว่าการปรับR2ถูกออกแบบมาเพื่อชดเชยการ overfitting สังเกตในตัวอย่าง 2 อย่างไรก็ตามมันไม่ชัดเจนว่าการปรับค่านั้นเป็นค่าประมาณที่เป็นกลางโดยประมาณของหรือไม่และหากเป็นการประมาณการที่ไม่เอนเอียงซึ่งคำจำกัดความสองประการข้างต้นของนั้นมีเป้าหมายเพื่อประเมินR2R2R2R2

ดังนั้นคำถามของฉัน:

  • ค่าประมาณที่เป็นกลางของสิ่งที่ฉันเรียกข้างบนจากตัวอย่างR2คืออะไร
  • ค่าประมาณที่เป็นกลางของสิ่งที่ฉันเรียกข้างบนประชากรคืออะไร?R2
  • มีการอ้างอิงใด ๆ ที่ให้การจำลองหรือหลักฐานอื่น ๆ เกี่ยวกับความเป็นกลางหรือไม่?

คำถามที่ว่าสูตรใดสำหรับ adj R ^ 2 คือลำเอียงน้อยได้รับการยกตัวอย่างเช่นที่นี่
ttnphns

ขอบคุณ ตอนนี้ฉันกำลังอ่านข้อมูลอ้างอิงที่คุณพูดถึง: Yin, P. , & Fan, X. (2001) การประมาณค่าการหดตัวในการถดถอยหลายครั้ง: การเปรียบเทียบวิธีการวิเคราะห์ที่แตกต่างกัน วารสารการศึกษาทดลอง, 69 (2), 203-224 R2
Jeromy Anglim

คำตอบ:


14

การประเมินผลของการปรับการวิเคราะห์เพื่อ R-Square

@ttnphns เรียกฉันไปบทความหยินและพัดลม (2001) ที่เปรียบเทียบวิธีการวิเคราะห์ที่แตกต่างกันของการประเมิน 2 ตามคำถามของฉันพวกเขาแยกแยะระหว่างตัวประมาณสองประเภท พวกเขาใช้คำศัพท์ต่อไปนี้:R2

  • ρ2 : ตัวประมาณค่าสัมประสิทธิ์สหสัมพันธ์ของประชากรกำลังสอง
  • ρc2 : ตัวประมาณค่าสัมประสิทธิ์ความตรงข้ามของกำลังสองของประชากร

สรุปผลลัพธ์ของพวกเขาในบทคัดย่อ:

ผู้เขียนทำการทดลอง Monte Carlo เพื่อตรวจสอบประสิทธิภาพของสูตรการวิเคราะห์เพื่อประเมินการหดตัวของโดยมีปัจจัยทั้ง 4 อย่าง (ประชากรกำลังสองสัมประสิทธิ์สหสัมพันธ์จำนวนสัมประสิทธิ์สหสัมพันธ์จำนวนตัวทำนายขนาดตัวอย่างและระดับของความหลากหลายทางชีวภาพ) แต่ละเซลล์ ผลการวิจัยพบว่าสูตรแล้วไปใช้กันอย่างแพร่หลาย (ทั้งใน SAS และ SPSS) อาจจะไม่ได้เป็นสูตรการวิเคราะห์ที่มีประสิทธิภาพมากที่สุดสำหรับการประเมิน 2 แต่สูตร Pratt และ Browne นั้นดีกว่าสูตรการวิเคราะห์อื่น ๆ ในการประมาณและตามลำดับR2ρ2ρ2ρc2

ดังนั้นบทความจึงบอกเป็นนัยว่าสูตรของแพรตต์ (p.209) เป็นตัวเลือกที่ดีสำหรับการประมาณ :ρ2

R^2=1(N3)(1R2)(Np1)[1+2(1R2)Np2.3]

โดยที่ N คือขนาดตัวอย่างและ p คือจำนวนของตัวทำนาย

การประเมินเชิงประจักษ์ของการปรับค่า R-Square

Kromrey and Hines (1995) ทบทวนการประเมินเชิงประจักษ์ของ (เช่นวิธีการตรวจสอบข้าม) พวกเขาแสดงให้เห็นว่าขั้นตอนวิธีการดังกล่าวไม่เหมาะสมสำหรับการประเมิน 2 นี้จะทำให้ความรู้สึกที่ได้รับว่าอัลกอริทึมดังกล่าวดูเหมือนจะได้รับการออกแบบเพื่อการประมาณการ 2 อย่างไรก็ตามหลังจากที่อ่านข้อความนี้ผมก็ยังไม่แน่ใจว่าจะเป็นรูปแบบของการประมาณการเชิงประจักษ์ได้รับการแก้ไขอย่างเหมาะสมบางอย่างอาจยังคงทำงานได้ดีขึ้นกว่าคาดการณ์ของการวิเคราะห์ในการประมาณ 2R2ρ2ρc2ρ2

อ้างอิง

  • Kromrey, JD, & Hines, CV (1995) ใช้การประเมินเชิงประจักษ์ของการหดตัวในการถดถอยหลายครั้ง: ข้อควรระวัง การศึกษาและการวัดทางจิตวิทยา, 55 (6), 901-925
  • Yin, P. , & Fan, X. (2001) การประมาณค่าการหดตัวในการถดถอยหลายครั้ง: การเปรียบเทียบวิธีการวิเคราะห์ที่แตกต่างกัน วารสารการศึกษาทดลอง, 69 (2), 203-224 ไฟล์ PDFR2
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.