เมื่อทำการถดถอยหลายครั้งคุณควรจัดตำแหน่งตัวแปรตัวทำนายของคุณไว้ที่ใดและเมื่อใดที่คุณควรทำให้เป็นมาตรฐาน


281

ในวรรณกรรมบางเล่มฉันได้อ่านว่าการถดถอยที่มีตัวแปรอธิบายหลายอย่างหากในหน่วยต่าง ๆ จำเป็นต้องได้มาตรฐาน (การกำหนดมาตรฐานประกอบด้วยการลบค่าเฉลี่ยและการหารด้วยส่วนเบี่ยงเบนมาตรฐาน) ในกรณีอื่นใดที่ฉันต้องทำให้เป็นมาตรฐานข้อมูลของฉัน มีกรณีใดบ้างที่ฉันควรจัดกึ่งกลางข้อมูลของฉัน (เช่นโดยไม่ต้องหารด้วยค่าเบี่ยงเบนมาตรฐาน)


11
โพสต์ที่เกี่ยวข้องในบล็อกของแอนดรู Gelman ของ

31
นอกจากคำตอบที่ยอดเยี่ยมที่ได้รับแล้วให้ฉันพูดถึงว่าเมื่อใช้วิธีการลงโทษเช่นริดจ์ถดถอยหรือ Lasso ผลลัพธ์ที่ได้จะไม่คงที่อีกต่อไปมาตรฐาน อย่างไรก็ตามมันมักจะแนะนำให้สร้างมาตรฐาน ในกรณีนี้ไม่ใช่เหตุผลที่เกี่ยวข้องโดยตรงกับการตีความ แต่เนื่องจากการลงโทษจะปฏิบัติต่อตัวแปรอธิบายที่แตกต่างกันในฐานรากที่เท่าเทียมกันมากขึ้น
NRH

6
ยินดีต้อนรับสู่เว็บไซต์ @mathieu_r! คุณโพสต์คำถามยอดนิยมสองคำถาม โปรดพิจารณา upvoting / ยอมรับคำตอบที่ยอดเยี่ยมบางข้อที่คุณได้รับทั้งสองคำถาม;)
มาโคร


1
เมื่อฉันอ่านคำถามและคำตอบมันทำให้ฉันนึกถึงเว็บไซต์ usenet ที่ฉันสะดุดเมื่อหลายปีที่ผ่านมาfaqs.org/faqs/ai-faq/neural-nets/part2/section-16.htmlสิ่งนี้ให้ในแง่ง่าย ๆ บางประเด็นและการพิจารณา เมื่อมีใครต้องการทำให้ปกติ / มาตรฐาน / rescale ข้อมูล ฉันไม่เห็นมันพูดถึงคำตอบที่นี่ทุกที่ มันจัดการเรื่องจากมุมมองการเรียนรู้ของเครื่องมากกว่า แต่มันอาจช่วยคนที่มาที่นี่
พอล

คำตอบ:


213

ในการถดถอยก็มักจะแนะนำให้ศูนย์ตัวแปรเพื่อให้ทำนายได้หมายความ0นี้ทำให้ระยะตัดถูกตีความว่าเป็นมูลค่าที่คาดว่าจะเมื่อค่าทำนายถูกตั้งค่าให้วิธีการของพวกเขา มิฉะนั้นการสกัดกั้นถูกตีความว่าเป็นค่าที่คาดหวังของเมื่อตัวทำนายถูกตั้งค่าเป็น 0 ซึ่งอาจไม่ใช่สถานการณ์จริงหรือตีความได้ (เช่นถ้าตัวทำนายนั้นมีความสูงและน้ำหนัก) อีกเหตุผลที่เป็นประโยชน์สำหรับการปรับขนาดในการถดถอยคือเมื่อตัวแปรหนึ่งมีขนาดใหญ่มากเช่นถ้าคุณใช้ขนาดประชากรของประเทศเป็นตัวทำนาย ในกรณีนี้สัมประสิทธิ์การถดถอยอาจมีค่ามาก0Y ฉัน Y ฉัน10 - 6YiYiลำดับขนาดเล็ก (เช่น ) ซึ่งอาจน่ารำคาญเล็กน้อยเมื่อคุณอ่านเอาต์พุตคอมพิวเตอร์ดังนั้นคุณอาจแปลงตัวแปรเป็นขนาดประชากรเป็นล้าน ข้อตกลงที่คุณสร้างมาตรฐานการคาดการณ์นั้นมีอยู่เป็นหลักเพื่อให้หน่วยของสัมประสิทธิ์การถดถอยเหมือนกัน106

เนื่องจาก @gung alludes to และ @ MånsTแสดงอย่างชัดเจน (+1 ถึงทั้ง btw) การจัดกึ่งกลาง / การปรับไม่ส่งผลกระทบต่อการอนุมานเชิงสถิติของคุณในแบบจำลองการถดถอย - การประมาณการจะถูกปรับอย่างเหมาะสมและค่าจะเหมือนกันp

สถานการณ์อื่น ๆ ที่การจัดกึ่งกลางและ / หรือการปรับอาจเป็นประโยชน์:

  • เมื่อคุณพยายามที่จะหาผลรวมหรือตัวแปรเฉลี่ยที่อยู่ในสเกลที่ต่างกันอาจจะสร้างคะแนนคอมโพสิตบางอย่าง หากไม่มีการปรับสเกลอาจเป็นไปได้ว่าตัวแปรหนึ่งตัวมีผลกระทบมากขึ้นกับจำนวนเงินที่แท้จริงเนื่องจากขนาดของมันซึ่งอาจไม่เป็นที่ต้องการ

  • เพื่อลดความซับซ้อนของการคำนวณและสัญกรณ์ ยกตัวอย่างเช่นตัวอย่างเมทริกซ์ความแปรปรวนของเมทริกซ์ของค่าศูนย์กลางโดยวิธีตัวอย่างของพวกเขาเป็นเพียงX'Xในทำนองเดียวกันถ้าตัวแปรสุ่ม univariateเป็นจุดศูนย์กลางแล้วและความแปรปรวนสามารถประมาณได้จากตัวอย่างโดยดูที่ค่าเฉลี่ยตัวอย่างของกำลังสองของการสังเกต ค่าXXXvar(X)=E(X2)

  • ที่เกี่ยวข้องกับการกล่าวข้างต้นPCAสามารถตีความได้ว่าเป็นการสลายตัวเอกพจน์ของเมทริกซ์ข้อมูลเมื่อคอลัมน์ได้รับการจัดกึ่งกลางโดยวิธีการแรกของพวกเขา

โปรดทราบว่าการปรับขนาดไม่จำเป็นในสองสัญลักษณ์แสดงหัวข้อย่อยที่ฉันพูดถึงและการจัดกึ่งกลางอาจไม่จำเป็นในสัญลักษณ์แสดงหัวข้อย่อยแรกที่ฉันพูดถึงดังนั้นทั้งสองจึงไม่จำเป็นต้องไปจับมือกันตลอดเวลา


2
+1 นี่เป็นจุดที่ดีที่ฉันไม่ได้คิด เพื่อความชัดเจนขอให้ฉันยกตัวอย่างที่เป็นรูปธรรมที่นักวิจัยอาจต้องการรวมตัวแปรอธิบายก่อนที่จะทำการถดถอยดังนั้นจึงจำเป็นต้องสร้างมาตรฐาน กรณีหนึ่งอาจเป็นการวิจัยเกี่ยวกับความผิดปกติทางพฤติกรรมของเด็ก นักวิจัยอาจได้รับการจัดอันดับจากทั้งผู้ปกครองและครูและจากนั้นต้องการรวมเข้าด้วยกันเป็นมาตรการเดียวที่ปรับไม่ได้ อีกกรณีหนึ่งอาจเป็นการศึกษาระดับกิจกรรมที่บ้านพักคนชราที่มีการให้คะแนนตนเองโดยผู้อยู่อาศัย & จำนวนลายเซ็นบนแผ่นลงทะเบียนสำหรับกิจกรรม
gung

2
แต่ในทางทฤษฎีเราไม่ควรใช้ค่าเฉลี่ยของประชากรและค่าเบี่ยงเบนมาตรฐานสำหรับการทำให้อยู่กึ่งกลาง / การปรับขนาด ในทางปฏิบัติมันง่ายเหมือนการใช้ค่าเฉลี่ยตัวอย่าง / SD หรือมีมากกว่านั้นหรือไม่?
AlefSin

3
เพื่อความสมบูรณ์ขอผมเพิ่มคำตอบที่ดีนี้ว่าของอยู่ตรงกลางและเป็นมาตรฐานคือเมทริกซ์สหสัมพันธ์ XXXX
cbeleites

1
@AlefSin: คุณอาจต้องการใช้อย่างอื่นนอกเหนือจากค่าเฉลี่ยประชากร / sd ดูคำตอบของฉัน แต่ประเด็นของคุณที่เราควรคิดว่าจะใช้สำหรับการจัดกึ่งกลาง / การปรับขนาดนั้นดีมาก
cbeleites

@AlefSin ความคิดเห็นทั้งหมดของฉันถูกสร้างขึ้นโดยสมมติว่าคุณใช้ค่าเฉลี่ยตัวอย่าง / SD หากคุณเซ็นเตอร์ตามตัวอย่างหมายถึงการตีความของตัดยังคงเป็นเหมือนกันยกเว้นก็คาดว่ามูลค่าของเมื่อทำนายมีการตั้งค่าของพวกเขาหมายถึงตัวอย่าง ข้อมูลในสัญลักษณ์แสดงหัวข้อย่อยของฉันยังคงมีผลอยู่เมื่อคุณจัดกึ่งกลาง / สเกลตามปริมาณตัวอย่าง นอกจากนี้ยังเป็นที่น่าสังเกตว่าถ้าคุณตั้งศูนย์โดยค่าเฉลี่ยตัวอย่างผลที่ได้คือตัวแปรที่มีค่าเฉลี่ย 0 แต่การปรับขนาดโดยส่วนเบี่ยงเบนมาตรฐานตัวอย่างไม่ได้โดยทั่วไปจะให้ผลลัพธ์ที่มีค่าเบี่ยงเบนมาตรฐาน 1 (เช่นสถิติ t) Yi
มาโคร

143

คุณได้พบกับความเชื่อร่วมกัน อย่างไรก็ตามโดยทั่วไปคุณไม่จำเป็นต้องจัดให้อยู่กึ่งกลางหรือทำให้ข้อมูลของคุณเป็นมาตรฐานสำหรับการถดถอยหลายครั้ง ตัวแปรอธิบายที่แตกต่างกันมักจะอยู่ในระดับที่แตกต่างกัน (เช่นวัดในหน่วยต่าง ๆ ) นี่ไม่ใช่ปัญหา; betas นั้นประมาณว่าพวกมันแปลงหน่วยของตัวแปรอธิบายแต่ละตัวเป็นหน่วยของตัวแปรตอบสนองอย่างเหมาะสม สิ่งหนึ่งที่บางคนพูดก็คือถ้าคุณสร้างมาตรฐานให้กับตัวแปรของคุณก่อนคุณก็สามารถตีความ Betas เป็นมาตรการที่สำคัญ ตัวอย่างเช่นถ้าและβ 2 = .3β1=.6β2=.3จากนั้นตัวแปรอธิบายตัวแรกจะมีความสำคัญเป็นสองเท่าของตัวที่สอง ในขณะที่ความคิดนี้น่าสนใจ แต่น่าเสียดายที่มันไม่ถูกต้อง มีปัญหาหลายประการ แต่สิ่งที่ง่ายที่สุดในการติดตามคือคุณไม่มีวิธีควบคุมข้อ จำกัด ช่วงที่เป็นไปได้ในตัวแปร การอนุมาน 'ความสำคัญ' ของตัวแปรอธิบายที่แตกต่างกันซึ่งสัมพันธ์กันเป็นประเด็นทางปรัชญาที่ยุ่งยากมาก ไม่มีใครที่จะแนะนำมาตรฐานที่เป็นที่ไม่ดีหรือผิดเพียงแค่ว่ามันมักจะไม่ได้เป็นสิ่งที่จำเป็น

มีเพียงกรณีเดียวที่ฉันสามารถนึกถึงส่วนบนสุดของหัวของฉันได้ซึ่งการช่วยให้อยู่ตรงกลางเป็นประโยชน์คือก่อนที่จะสร้างเงื่อนไขด้านพลังงาน ช่วยบอกว่าคุณมีตัวแปร , ที่อยู่ในช่วง 1-2 แต่คุณสงสัยว่ามีความสัมพันธ์กับโค้งตัวแปรตอบสนองและดังนั้นคุณจึงต้องการที่จะสร้างX 2ระยะ หากคุณไม่ได้อยู่ตรงกลางXก่อนคำที่ยกกำลังสองของคุณจะมีความสัมพันธ์สูงกับXซึ่งอาจทำให้การประมาณค่าเบต้า การแก้ไขปัญหานี้ให้อยู่ ตรงกลางก่อนXX2XX


(อัปเดตเพิ่มมากขึ้นในภายหลัง :)กรณีอะนาล็อกที่ฉันลืมพูดถึงคือการสร้างเงื่อนไขการโต้ตอบ หากคำศัพท์โต้ตอบ / ผลิตภัณฑ์ถูกสร้างขึ้นจากตัวแปรสองตัวที่ไม่ได้อยู่ที่กึ่งกลางของ 0 จะมีการเหนี่ยวนำความ collinearity บางส่วน (ด้วยจำนวนที่แน่นอนขึ้นอยู่กับปัจจัยต่าง ๆ ) ตรงกลางเป็นครั้งแรกที่อยู่ปัญหานี้อาจเกิด สำหรับคำอธิบายที่สมบูรณ์กว่านี้โปรดดูคำตอบที่ยอดเยี่ยมนี้จาก @Affine: การวินิจฉัยความเอียงเชิงเส้นซึ่งเป็นปัญหาเฉพาะเมื่อรวมคำศัพท์ไว้ด้วยกัน


12
หากใครมีความสนใจฉันยังพูดคุยเกี่ยวกับความคิดที่ผิดในการใช้ betas ที่ได้มาตรฐานเพื่ออนุมาน 'ความสำคัญ' ของสัมพัทธ์ที่นี่: การทดสอบการถดถอยเชิงเส้นหลายเชิงเส้นสำหรับการทดสอบสมมติฐาน
gung

ขอบคุณสำหรับการตอบกลับของคุณ. ฉันคิดว่าฉันคิดออกในขณะเดียวกัน: ใคร ๆ ก็นึกถึงเทอมกำลังสองเมื่อ X โต้ตอบกับตัวเองดังนั้นเพื่อพูดและจุดของคุณเกี่ยวกับตัวแปรที่มีปฏิสัมพันธ์จะกว้างกว่า
Abhimanyu Arora

6
Belsley, Kuh และ Welsch มีการวิเคราะห์อย่างรอบคอบเกี่ยวกับสถานการณ์นี้ในการวินิจฉัยการถดถอยของหนังสือในปี 1980 (ดูรายละเอียดในภาคผนวก 3B) พวกเขาสรุปว่าคุณไม่ถูกต้องที่การลดขนาดไม่ได้ช่วยอะไร การวิเคราะห์ของพวกเขาคือในแง่ของความมั่นคงตัวเลขของขั้นตอนการแก้ปัญหาซึ่งเป็นวัดในแง่ของจำนวนสภาพของข้อมูลเมทริกซ์Xหมายเลขเงื่อนไขนั้นอาจสูงมากเมื่อตัวแปรถูกวัดบนสเกลที่มีช่วงที่แตกต่างกัน การลดขนาดจะดูดซับ "ความไม่ดี" ส่วนใหญ่ในXภายในระดับสเกล ปัญหาที่เกิดขึ้นจะถูกปรับสภาพดีขึ้นมาก XX
whuber

เกี่ยวกับ beta1 = 0.6 และ beta2 = 0.3 ฉันไม่แน่ใจว่าการบอกว่า beta1 มีความสำคัญเป็นสองเท่าตามความเหมาะสมของ beta2 แต่ฉันคิดว่าเนื่องจากพวกเขามีมาตรฐานพวกมันอยู่ในระดับเดียวกันเช่นหน่วยเป็นส่วนเบี่ยงเบนมาตรฐาน จากค่าเฉลี่ย ต้องบอกว่าการตอบสนองของ Y จะสูงขึ้นสองเท่าในกรณีของ beta1 (โฮลดิ้ง x2 คงที่) มากกว่าสำหรับ beta2 (โฮลดิ้ง x1 คงที่) ขวา? หรือฉันเข้าใจผิดบางอย่างระหว่างทาง?
chao

@ เชาคุณยังไม่ได้กำจัดยูนิตที่แท้จริงของตัวแปร 2 ตัว คุณเพิ่งซ่อนพวกเขา ตอนนี้หน่วยของ X1 อยู่ที่ 13.9 ซม. และหน่วยของ X2 อยู่ที่ 2.3 องศาเซลเซียส
gung

80

นอกจากคำพูดในคำตอบอื่น ๆ แล้วฉันต้องการชี้ให้เห็นว่าขนาดและตำแหน่งของตัวแปรอธิบายไม่มีผลต่อความถูกต้องของแบบจำลองการถดถอย แต่อย่างใด

พิจารณารูปแบบ εy=β0+β1x1+β2x2++ϵ

น้อยสี่เหลี่ยมประมาณของยังไม่ได้รับผลกระทบจากการขยับ เหตุผลก็คือสิ่งเหล่านี้เป็นทางลาดของพื้นผิวที่เหมาะสม - พื้นผิวจะเปลี่ยนไปเท่าใดหากคุณเปลี่ยนx 1 , x 2 , หนึ่งยูนิต สิ่งนี้ไม่ได้ขึ้นอยู่กับสถานที่ตั้ง (ตัวประมาณของβ 0ทำ)β1,β2,x1,x2,β0

โดยดูที่สมการสำหรับการประมาณค่าที่คุณสามารถดูการปรับขนาดที่ มีปัจจัยเครื่องชั่งน้ำหนักเบต้า 1โดยปัจจัยที่1 / หากต้องการดูสิ่งนี้โปรดทราบว่าx1aβ^11/a

β^1(x1)=i=1n(x1,ix¯1)(yiy¯)i=1n(x1,ix¯1)2.

ดังนั้น

β^1(ax1)=i=1n(ax1,iax¯1)(yiy¯)i=1n(ax1,iax¯1)2=ai=1n(x1,ix¯1)(yiy¯)a2i=1n(x1,ix¯1)2=β^1(x1)a.

β^2

ดังนั้นการปรับสเกลจะสัมพันธ์กับการปรับความชันที่สอดคล้องกัน

ai=1/sisix1xi


1
มันเป็นความคิดที่ดีหรือไม่ที่จะทำให้ตัวแปรที่มีความเบ้เอียงหรือดีกว่าที่จะสร้างมาตรฐานให้กับตัวแปรที่กระจายแบบสมมาตร? เราควร stardadize เฉพาะตัวแปรอินพุตหรือผลลัพธ์เท่านั้น
skan

31

ในกรณีที่คุณใช้การไล่ระดับสีเพื่อให้พอดีกับแบบจำลองของคุณมาตรฐาน covariates อาจเร่งความเร็วการบรรจบกัน (เพราะเมื่อคุณมีโควาเรียที่ไม่ได้ลดขนาดพารามิเตอร์ที่สอดคล้องกันอาจครองความลาดชันไม่เหมาะสม) เพื่อแสดงสิ่งนี้รหัส R บางตัว:

> objective <- function(par){ par[1]^2+par[2]^2}  #quadratic function in two variables with a minimum at (0,0)
> optim(c(10,10), objective, method="BFGS")$counts  #returns the number of times the function and its gradient had to be evaluated until convergence
    function gradient 
          12        3 
> objective2 <- function(par){ par[1]^2+0.1*par[2]^2}  #a transformation of the above function, corresponding to unscaled covariates
> optim(c(10,10), objective2, method="BFGS")$counts
function gradient 
      19       10 
> optim(c(10,1), objective2, method="BFGS")$counts  #scaling of initial parameters doesn't get you back to original performance
function gradient 
      12        8

นอกจากนี้สำหรับการใช้งานของ SVMs บางปรับอาจช่วยปรับปรุงประสิทธิภาพการทำนาย: คุณสมบัติการปรับในการสนับสนุนคำอธิบายข้อมูลเวกเตอร์


25

ฉันชอบ "เหตุผลที่มั่นคง" สำหรับการตั้งศูนย์และมาตรฐาน (มีอยู่บ่อยมาก) โดยทั่วไปแล้วพวกเขามีส่วนเกี่ยวข้องกับชุดข้อมูลและปัญหามากกว่าวิธีการวิเคราะห์ข้อมูล

บ่อยครั้งที่ฉันชอบที่จะจัดกึ่งกลาง (เช่นย้ายต้นกำเนิดของข้อมูล) ไปยังจุดอื่น ๆ ที่มีความหมายทางร่างกาย / เคมี / ชีวภาพ / ... มีความหมายมากกว่าค่าเฉลี่ย (ดูคำตอบของแมโคร) เช่น

  • ค่าเฉลี่ยของกลุ่มควบคุม

  • สัญญาณว่างเปล่า

เสถียรภาพเชิงตัวเลขเป็นเหตุผลที่เกี่ยวข้องกับอัลกอริธึมกับศูนย์และ / หรือข้อมูลสเกล

นอกจากนี้ยังมีลักษณะที่คล้ายกันคำถามเกี่ยวกับมาตรฐาน ซึ่งครอบคลุม "ศูนย์เท่านั้น"


24

เพื่อแสดงให้เห็นถึงปัญหาความมั่นคงกล่าวถึงโดยตัวเลข @cbeleites นี่คือตัวอย่างจากไซม่อนไม้เกี่ยวกับวิธีการ lm()"หยุด" ก่อนอื่นเราจะสร้างข้อมูลอย่างง่ายและสร้างเส้นโค้งกำลังสองอย่างง่าย

set.seed(1); n <- 100
xx <- sort(runif(n))
y <- .2*(xx-.5)+(xx-.5)^2 + rnorm(n)*.1
x <- xx+100
b <- lm(y ~ x+I(x^2))

plot(x,y)
lines(x, predict(b), col='red')

ป้อนคำอธิบายรูปภาพที่นี่

แต่ถ้าเราเพิ่ม 900 เป็น X ผลลัพธ์ก็น่าจะเหมือนกันยกเว้นเลื่อนไปทางขวาใช่ไหม? แต่น่าเสียดายที่ไม่ได้...

X <- x + 900
B <- lm(y ~ X+I(X^2))
plot(X,y)
lines(X, predict(B), col='blue')

ป้อนคำอธิบายรูปภาพที่นี่

แก้ไขเพื่อเพิ่มความคิดเห็นโดย @Scortchi - ถ้าเราดูวัตถุที่ส่งคืนโดย lm () เราจะเห็นว่าคำกำลังสองไม่ได้ถูกประมาณและแสดงเป็น NA

> B
Call:
lm(formula = y ~ X + I(X^2))

Coefficients:
(Intercept)            X       I(X^2)  
  -139.3927       0.1394           NA  

และตามที่แนะนำโดย @Scortchi ถ้าเราดูเมทริกซ์โมเดลและลองแก้ปัญหาโดยตรงมันจะ "แตก"

> X <- model.matrix(b) ## get same model matrix used above
> beta.hat <- solve(t(X)%*%X,t(X)%*%y) ## direct solution of ‘normal equations’
Error in solve.default(t(X) %*% X, t(X) %*% y) : 
  system is computationally singular: reciprocal condition number = 3.9864e-19

อย่างไรก็ตามlm()อย่าให้คำเตือนหรือข้อความแสดงข้อผิดพลาดใด ๆ นอกเหนือจากNAs ในI(X^2)บรรทัดของsummary(B)R-3.1.1 แน่นอนว่าอัลกอริธึมอื่น ๆ สามารถ "แตกหัก" ในรูปแบบที่แตกต่างกันด้วยตัวอย่างที่แตกต่างกัน


10
(+1) หมายเหตุlmล้มเหลวในการประมาณค่าสัมประสิทธิ์สำหรับคำกำลังสองและให้คำเตือนเกี่ยวกับเมทริกซ์การออกแบบเอกพจน์ซึ่งอาจเป็นตัวอย่างโดยตรงของปัญหามากกว่าแผนการเหล่านี้
Scortchi

3

ฉันสงสัยอย่างจริงจังว่าการจัดกึ่งกลางหรือทำให้เป็นมาตรฐานของข้อมูลดั้งเดิมจะช่วยลดปัญหา multicollinearity จริง ๆ ได้หรือไม่เมื่อคำศัพท์ยกกำลังสองหรือคำศัพท์โต้ตอบอื่น ๆ รวมอยู่ในการถดถอยเนื่องจากคุณบางคนได้แนะนำโดยเฉพาะ

เพื่ออธิบายประเด็นของฉันลองพิจารณาตัวอย่างง่ายๆ

สมมติว่าข้อมูลจำเพาะจริงใช้รูปแบบดังต่อไปนี้

yi=b0+b1xi+b2xi2+ui

ดังนั้นสมการ OLS ที่สอดคล้องกันนั้นถูกกำหนดโดย

yi=yi^+ui^=b0^+b1^xi+b2^xi2+ui^

yi^yiuib0^b2^b0b2zi=xi2

xx2yiyi

yi

y¯=b0^+b1^x¯+b2^z¯
y¯x¯z¯yixizi

y¯yi

yiy¯=b1^(xix¯)+b2^(ziz¯)+ui^

Yผม-Y¯xผม-x¯Zผม-Z¯1^2^

xx2xx2corr(x,Z)=corr(x-x¯,Z-Z¯)

โดยสรุปหากความเข้าใจของฉันเกี่ยวกับการจัดกึ่งกลางถูกต้องฉันไม่คิดว่าข้อมูลที่อยู่ตรงกลางจะช่วยแก้ไขปัญหา MC ที่เกิดจากการรวมคำศัพท์ยกกำลังสองหรือคำสั่งที่สูงกว่าอื่น ๆ เข้าสู่การถดถอย

ฉันยินดีที่จะรับฟังความคิดเห็นของคุณ!


2
ขอบคุณสำหรับการสนับสนุนของคุณ @ rudi0086021 คุณอาจพูดถูก แต่ฉันเห็นปัญหาสองสามข้อที่นี่ 1 ตรงกลางเป็นเรื่องเกี่ยวกับการหักค่าเฉลี่ยของx , ไม่ได้เกี่ยวกับการหักค่าเฉลี่ยของปี ; อันดับที่ 2 คุณต้องตั้งศูนย์ก่อนโดยมีจุดกึ่งกลางหลังจากไม่มีผลตามที่คุณทราบ พิจารณา: x = c(1,2,3); x2 = x^2; cor(x, x2); # [1] 0.9897433; xc = c(-1,0,1); xc2 = xc^2; cor(xc, xc2) # [1] 0.
gung

ขอบคุณสำหรับการตอบกลับของคุณ @gung นี่คือความคิดของฉัน ประการแรกฉันเห็นว่าไม่มีเหตุผลที่น่าเชื่อถือในการปฏิบัติต่อตัวแปรตามและตัวแปรอิสระนั่นก็คือตัวแปรอิสระในขณะที่ไม่ควรทำเพื่อตัวแปรตาม
rudi0086021

2
อย่างที่สองที่คุณพูดบางทีเราควรจัดศูนย์กลางข้อมูลก่อนที่จะสร้างคำศัพท์ยกกำลังสอง การฝึกฝนเช่นนี้จะช่วยลดปัญหา MC อย่างไรก็ตามอาจนำไปสู่การประมาณการแบบเอนเอียงหรือมากกว่านั้นคือตัวแปรอคติ (OVB) หากต้องการแสดงให้เห็นตัวอย่างต่อไปนี้: สมมติว่าข้อมูลจำเพาะที่แท้จริงคือ: y = b0 + b1 * x + b2 * x ^ 2 + u การจัดศูนย์ข้อมูลไว้ล่วงหน้าจะให้: y = b0 + b1 * (x-xhar) + b2 * (x-xbar) ^ 2 + v โดยที่ข้อผิดพลาดใหม่คือ v = u + b1 * xbar-b2 * xbar ^ 2 + 2B2 * * * * * * * * Xbar x เป็นที่ชัดเจนว่า cov (x-xbar, v)! = 0 ดังนั้นน่าเสียดายที่การจัดศูนย์กลางข้อมูลไว้ล่วงหน้าจะนำไปสู่การประมาณการแบบเอนเอียง
rudi0086021

@ rudi0086021 ดูเหมือนว่าในความคิดเห็นล่าสุดของคุณคุณคิดว่าคุณจะได้รับค่าสัมประสิทธิ์เดียวกันเมื่อทำการปรับข้อมูลที่มีศูนย์กลางให้ตรงตามที่คุณต้องการเมื่อทำการปรับข้อมูลที่ไม่ได้ใส่เข้าไปให้เหมาะสม แต่การอยู่ตรงกลางก่อนที่จะถ่ายจตุรัสไม่ใช่การเปลี่ยนแปลงอย่างง่ายโดยค่าคงที่ดังนั้นคุณไม่ควรคาดหวังว่าจะได้ค่าสัมประสิทธิ์เท่ากัน แบบที่ดีที่สุดหลังจากการตั้งศูนย์กลางไว้ที่ B0 + B1 * (x-xbar) + B2 * (x-xbar) ^ 2 โดยที่ B0 = b0 + b1 * xbar + b2 * xbar ^ 2, B1 = b1 + 2 * b2 * xbar และ B2 = b2 ดังนั้น v = u ขออภัยที่จะตอบความคิดเห็นนี้อย่างล่าช้า แต่อาจมีคนอื่นเช่นฉันที่เห็นมันเป็นครั้งแรกในวันนี้
ทิมกู๊ดแมน
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.