R-square ที่ปรับปรุงแล้วพยายามหาค่าคะแนนคงที่หรือสุ่มคะแนนประชากร r-squared หรือไม่?


9

ประชากร r-squareสามารถกำหนดสมมติว่าเป็นคะแนนคงที่หรือคะแนนสุ่ม:ρ2

  • คะแนนคงที่: ขนาดตัวอย่างและค่าเฉพาะของตัวทำนายจะได้รับการแก้ไข ดังนั้นคือสัดส่วนของความแปรปรวนที่อธิบายในผลลัพธ์โดยสมการการถดถอยของประชากรเมื่อค่าของตัวทำนายคงที่ρ2

  • คะแนนสุ่ม: ค่าเฉพาะของผู้ทำนายนั้นมาจากการแจกแจง ดังนั้นหมายถึงสัดส่วนของความแปรปรวนที่อธิบายในผลลัพธ์ในประชากรที่ค่าของตัวทำนายนั้นสอดคล้องกับการกระจายตัวของประชากรของตัวทำนายρR2

ผมเคยถามไว้ก่อนหน้านี้เกี่ยวกับการไม่ว่าจะเป็นความแตกต่างนี้ทำให้แตกต่างกันมากการประมาณการของρ2 2 ฉันยังเคยถามทั่วไปเกี่ยวกับวิธีการคำนวณประมาณการเป็นกลางของ ρ2 2

ฉันเห็นได้ว่าเมื่อขนาดตัวอย่างเพิ่มความแตกต่างระหว่างคะแนนคงที่และคะแนนสุ่มก็สำคัญน้อยลง แต่ฉันพยายามที่จะยืนยันว่าการปรับถูกออกแบบมาเพื่อประเมินคะแนนคงที่หรือคะแนนสุ่ม 2R2ρ2

คำถาม

  • มีการปรับ เพื่อประเมินคะแนนคงที่หรือคะแนนสุ่มหรือไม่R2ρ2
  • มีคำอธิบายหลักการว่าสูตรสำหรับการปรับ r-square นั้นเกี่ยวข้องกับรูปแบบใดรูปแบบหนึ่งหรือไม่?ρ2

เบื้องหลังความสับสนของฉัน

เมื่อฉันอ่าน Yin และ Fan (2001, p.206) พวกเขาเขียน:

หนึ่งในข้อสมมติฐานพื้นฐานของตัวแบบการถดถอยพหุคูณก็คือค่าของตัวแปรอิสระเป็นค่าคงที่ที่รู้จักกันและได้รับการแก้ไขโดยนักวิจัยก่อนการทดลอง เฉพาะตัวแปรที่ขึ้นต่อกันเท่านั้นที่มีอิสระในการเปลี่ยนแปลงจากกลุ่มตัวอย่างเป็นกลุ่มตัวอย่าง ตัวแบบการถดถอยที่เรียกว่ารูปแบบการถดถอยเชิงเส้นคงที่

อย่างไรก็ตามในสังคมศาสตร์และพฤติกรรมศาสตร์ค่าของตัวแปรอิสระไม่ค่อยได้รับการแก้ไขโดยนักวิจัยและยังมีข้อผิดพลาดแบบสุ่ม ดังนั้นรูปแบบการถดถอยครั้งที่สองสำหรับแอปพลิเคชันได้รับการแนะนำซึ่งทั้งสองตัวแปรขึ้นอยู่กับและเป็นอิสระได้รับอนุญาตให้แตกต่างกัน (Binder, 1959; Park & ​​Dudycha, 1974) โมเดลนั้นเรียกว่าโมเดลแบบสุ่ม (หรือโมเดลการแก้ไข) แม้ว่าการประมาณค่าความน่าจะเป็นสูงสุดของสัมประสิทธิ์การถดถอยที่ได้จากแบบจำลองแบบสุ่มและแบบคงที่จะเหมือนกันภายใต้สมมติฐานเชิงบรรทัดฐานการแจกแจงของพวกมันนั้นแตกต่างกันมาก แบบจำลองแบบสุ่มนั้นซับซ้อนมากซึ่งจำเป็นต้องทำการวิจัยเพิ่มเติมก่อนจึงจะสามารถใช้แทนแบบจำลองการถดถอยเชิงเส้นคงที่ที่ใช้กันทั่วไป ดังนั้นรูปแบบคงที่จึงมักจะใช้ แม้ในกรณีที่สมมติฐานไม่สมบูรณ์ (Claudy, 1978) แอ็พพลิเคชันของโมเดลการถดถอยแบบคงที่ที่มีการละเมิดสมมติฐานจะทำให้ "overfitting" เนื่องจากข้อผิดพลาดแบบสุ่มที่นำมาจากข้อมูลตัวอย่างน้อยกว่าที่สมบูรณ์แบบมีแนวโน้มที่จะเป็นตัวพิมพ์ใหญ่ในกระบวนการ เป็นผลให้ค่าสัมประสิทธิ์สหสัมพันธ์ตัวอย่างที่ได้นั้นมีแนวโน้มที่จะประเมินค่าสูงกว่าค่าสหสัมพันธ์ที่แท้จริงของประชากร (Claudy, 1978; Cohen & Cohen, 1983; Cummings, 1982)

ดังนั้นฉันจึงไม่ชัดเจนว่าข้อความข้างต้นบอกว่าการปรับชดเชยข้อผิดพลาดที่แนะนำโดยตัวแบบสุ่มหรือไม่หรือว่านี่เป็นเพียงข้อแม้ในกระดาษที่ตั้งค่าสถานะการมีอยู่ของตัวแบบสุ่ม แต่บทความนั้นจะไป มุ่งเน้นไปที่รูปแบบคงที่R2

อ้างอิง

  • Yin, P. , & Fan, X. (2001) การประมาณค่าการหดตัวในการถดถอยหลายครั้ง: การเปรียบเทียบวิธีการวิเคราะห์ที่แตกต่างกัน วารสารการศึกษาทดลอง, 69 (2), 203-224 ไฟล์ PDFR2

คำตอบ:


6

Raju et al (1997) ทราบว่า

Pedhazur (1982) และ Mitchell & Klimoski (1986) แย้งว่าผลลัพธ์
ไม่ได้รับผลกระทบใด ๆ จากแบบจำลอง [fixed-x หรือ random-x] ที่เลือกเมื่อ Ns มีขนาดอย่างน้อยปานกลาง (ประมาณ 50)

อย่างไรก็ตาม Raju et al (1997) จัดหมวดหมู่ของสูตรได้รับการปรับบางส่วนสำหรับการประมาณเป็น "สูตรคงที่ X" และ "สูตรสุ่ม X"R2ρ2

สูตร X คงที่: มีการกล่าวถึงหลายสูตรรวมถึงสูตรที่เสนอโดย Ezekiel (1930) ซึ่งเป็นมาตรฐานในซอฟต์แวร์ทางสถิติส่วนใหญ่:

ρ^(E)2=1-ยังไม่มีข้อความ-1ยังไม่มีข้อความ-พี-1(1-R2)

ดังนั้นคำตอบสั้น ๆ คำถามคือมาตรฐานปรับสูตรมักจะรายงานและสร้างขึ้นในซอฟต์แวร์ทางสถิติมาตรฐานการประมาณการของ fixed-x 2R2ρ2

สูตรสุ่ม X:

Olkin and Pratt (1958) เสนอสูตร

ρ^(OP)2=1-[ยังไม่มีข้อความ-3ยังไม่มีข้อความ-พี-1](1-R2)F[1,1;ยังไม่มีข้อความ-พี+12;(1-R2)]
ที่ F เป็นฟังก์ชัน hypergeometric

Raju et al (1997) อธิบายว่าสูตรอื่น ๆ อีกมากมายเช่น Pratt's และ Herzberg's "นั้นเป็นฟังก์ชันที่ใกล้เคียงกับฟังก์ชัน hypergeometric ที่คาดหวัง" เช่นสูตรของแพรตต์คือ

ρ^(P)2=1-(ยังไม่มีข้อความ-3)(1-R2)ยังไม่มีข้อความ-พี-1[1+2(1-R2)ยังไม่มีข้อความ-พี-2.3]

การประมาณการแตกต่างกันอย่างไร รายงาน Leach and Hansen (2003) นำเสนอตารางที่ดีซึ่งแสดงผลของสูตรที่แตกต่างกันในตัวอย่างของชุดข้อมูลที่เผยแพร่ที่แตกต่างกันในด้านจิตวิทยา (ดูตารางที่ 3) ค่าเฉลี่ยของ Ezekielคือ. 2864 เทียบกับ Olkin และ Prattของ. 2917 และ Prattของ. 2910 ตามคำพูดเริ่มต้นของ Raju et al เกี่ยวกับความแตกต่างระหว่างสูตรแบบคงที่และแบบสุ่ม -x มีความเกี่ยวข้องมากที่สุดกับขนาดตัวอย่างขนาดเล็กตารางของ Leach และ Hansen แสดงให้เห็นว่าความแตกต่างระหว่างสูตร fixed-x ของ Ezekiel กับ Olkin และ Pratt นั้นเป็นอย่างไร ในกลุ่มตัวอย่างขนาดเล็กโดยเฉพาะที่น้อยกว่า 50RadJ2RadJ2RadJ2

อ้างอิง

  • กรอง, LF, และ Henson, RK (2003) การใช้และผลกระทบของเอฟเฟ็กต์ R2 ที่ปรับแล้วในการวิจัยการถดถอยที่เผยแพร่ ในการประชุมประจำปีของงานวิจัยการศึกษาภาคตะวันตกเฉียงใต้ซานอันโตนิโอ ไฟล์ PDF
  • มิทเชล, TW, & Klimoski, RJ (1986) การประมาณความถูกต้องของการประมาณความตรงข้าม วารสารจิตวิทยาประยุกต์, 71 , 311-317
  • Pedhazur, EJ (1982) การถดถอยหลายครั้งในการวิจัยเชิงพฤติกรรม (2nd ed.) นิวยอร์ก: Holt, Rinehart และ Winston
  • Raju, NS, Bilgic, R. , Edwards, JE, & Fleer, PF (1997) การทบทวนวิธีการ: การประมาณความตรงของประชากรและความตรงข้ามและการใช้น้ำหนักที่เท่ากันในการทำนาย การวัดทางจิตวิทยาประยุกต์, 21 (4), 291-305
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.