ค่าประมาณของประชากร R-Square คืออะไร

ฉันสนใจที่จะประเมินค่าไม่เอนเอียงในการถดถอยเชิงเส้นแบบหลายค่า $R^2$

ในการไตร่ตรองฉันสามารถนึกถึงสองค่าที่ต่างกันซึ่งการประมาณค่าที่เป็นกลางของอาจพยายามเทียบ $R^2$

จากตัวอย่าง : $R^2$ r-square ที่จะได้รับหากสมการถดถอยที่ได้จากตัวอย่าง (เช่น ) ถูกนำไปใช้กับข้อมูลจำนวนอนันต์ภายนอกกับตัวอย่าง แต่จากข้อมูลเดียวกัน กระบวนการสร้าง $\hat{\beta}$
ประชากร : $R^2$ r-square ที่จะได้รับถ้าตัวอย่างที่ไม่มีที่สิ้นสุดได้รับและรูปแบบที่พอดีกับตัวอย่างที่ไม่มีที่สิ้นสุด (เช่น ) หรืออีกทางหนึ่งเพียงแค่ R-Square โดยนัยโดยกระบวนการสร้างข้อมูลที่รู้จัก $\beta$

ผมเข้าใจว่าการปรับ $R^2$ ถูกออกแบบมาเพื่อชดเชยการ overfitting สังเกตในตัวอย่าง 2 อย่างไรก็ตามมันไม่ชัดเจนว่าการปรับค่านั้นเป็นค่าประมาณที่เป็นกลางโดยประมาณของหรือไม่และหากเป็นการประมาณการที่ไม่เอนเอียงซึ่งคำจำกัดความสองประการข้างต้นของนั้นมีเป้าหมายเพื่อประเมิน $R^2$ $R^2$ $R^2$ $R^2$

ดังนั้นคำถามของฉัน:

ค่าประมาณที่เป็นกลางของสิ่งที่ฉันเรียกข้างบนจากตัวอย่าง $R^2$ คืออะไร
ค่าประมาณที่เป็นกลางของสิ่งที่ฉันเรียกข้างบนประชากรคืออะไร? $R^2$
มีการอ้างอิงใด ๆ ที่ให้การจำลองหรือหลักฐานอื่น ๆ เกี่ยวกับความเป็นกลางหรือไม่?

— Jeromy Anglim
แหล่งที่มา

คำถามที่ว่าสูตรใดสำหรับ adj R ^ 2 คือลำเอียงน้อยได้รับการยกตัวอย่างเช่นที่นี่

— ttnphns

ขอบคุณ ตอนนี้ฉันกำลังอ่านข้อมูลอ้างอิงที่คุณพูดถึง: Yin, P. , & Fan, X. (2001) การประมาณค่าการหดตัวในการถดถอยหลายครั้ง: การเปรียบเทียบวิธีการวิเคราะห์ที่แตกต่างกัน วารสารการศึกษาทดลอง, 69 (2), 203-224

R^{2}

$R^2$

— Jeromy Anglim

การประเมินผลของการปรับการวิเคราะห์เพื่อ R-Square

@ttnphns เรียกฉันไปบทความหยินและพัดลม (2001) ที่เปรียบเทียบวิธีการวิเคราะห์ที่แตกต่างกันของการประเมิน 2 ตามคำถามของฉันพวกเขาแยกแยะระหว่างตัวประมาณสองประเภท พวกเขาใช้คำศัพท์ต่อไปนี้: $R^2$

$\rho^2$ : ตัวประมาณค่าสัมประสิทธิ์สหสัมพันธ์ของประชากรกำลังสอง
$\rho_c^2$ : ตัวประมาณค่าสัมประสิทธิ์ความตรงข้ามของกำลังสองของประชากร

สรุปผลลัพธ์ของพวกเขาในบทคัดย่อ:

ผู้เขียนทำการทดลอง Monte Carlo เพื่อตรวจสอบประสิทธิภาพของสูตรการวิเคราะห์เพื่อประเมินการหดตัวของโดยมีปัจจัยทั้ง 4 อย่าง (ประชากรกำลังสองสัมประสิทธิ์สหสัมพันธ์จำนวนสัมประสิทธิ์สหสัมพันธ์จำนวนตัวทำนายขนาดตัวอย่างและระดับของความหลากหลายทางชีวภาพ) แต่ละเซลล์ ผลการวิจัยพบว่าสูตรแล้วไปใช้กันอย่างแพร่หลาย (ทั้งใน SAS และ SPSS) อาจจะไม่ได้เป็นสูตรการวิเคราะห์ที่มีประสิทธิภาพมากที่สุดสำหรับการประเมิน 2 แต่สูตร Pratt และ Browne นั้นดีกว่าสูตรการวิเคราะห์อื่น ๆ ในการประมาณและตามลำดับ $R^2$ $\rho^2$ $\rho^2$ $\rho_c^2$

ดังนั้นบทความจึงบอกเป็นนัยว่าสูตรของแพรตต์ (p.209) เป็นตัวเลือกที่ดีสำหรับการประมาณ : $\rho^2$

{\hat{R}}^{2} = 1 - \frac{(N - 3) (1 - R^{2})}{(N - p - 1)} [1 + \frac{2 (1 - R^{2})}{N - p - 2.3}]

$\hat{R}^2=1 - \frac{(N-3)(1 - R^2)}{(N-p-1)} \left[ 1 + \frac{2(1-R^2)}{N-p-2.3} \right]$

โดยที่ N คือขนาดตัวอย่างและ p คือจำนวนของตัวทำนาย

การประเมินเชิงประจักษ์ของการปรับค่า R-Square

Kromrey and Hines (1995) ทบทวนการประเมินเชิงประจักษ์ของ (เช่นวิธีการตรวจสอบข้าม) พวกเขาแสดงให้เห็นว่าขั้นตอนวิธีการดังกล่าวไม่เหมาะสมสำหรับการประเมิน 2 นี้จะทำให้ความรู้สึกที่ได้รับว่าอัลกอริทึมดังกล่าวดูเหมือนจะได้รับการออกแบบเพื่อการประมาณการ 2 อย่างไรก็ตามหลังจากที่อ่านข้อความนี้ผมก็ยังไม่แน่ใจว่าจะเป็นรูปแบบของการประมาณการเชิงประจักษ์ได้รับการแก้ไขอย่างเหมาะสมบางอย่างอาจยังคงทำงานได้ดีขึ้นกว่าคาดการณ์ของการวิเคราะห์ในการประมาณ 2 $R^2$ $\rho^2$ $\rho_c^2$ $\rho^2$

อ้างอิง

Kromrey, JD, & Hines, CV (1995) ใช้การประเมินเชิงประจักษ์ของการหดตัวในการถดถอยหลายครั้ง: ข้อควรระวัง การศึกษาและการวัดทางจิตวิทยา, 55 (6), 901-925
Yin, P. , & Fan, X. (2001) การประมาณค่าการหดตัวในการถดถอยหลายครั้ง: การเปรียบเทียบวิธีการวิเคราะห์ที่แตกต่างกัน วารสารการศึกษาทดลอง, 69 (2), 203-224 ไฟล์ PDF $R^2$

— Jeromy Anglim
แหล่งที่มา