คำถามติดแท็ก centering

การจัดกึ่งกลางเกี่ยวข้องกับการลบคะแนนเฉลี่ยตัวอย่างโดยรวมออกจากคะแนนเดิม การกำหนดมาตรฐานจะทำเช่นเดียวกันตามด้วยการหารด้วยค่าเบี่ยงเบนมาตรฐานของตัวอย่างโดยรวม

7
เมื่อทำการถดถอยหลายครั้งคุณควรจัดตำแหน่งตัวแปรตัวทำนายของคุณไว้ที่ใดและเมื่อใดที่คุณควรทำให้เป็นมาตรฐาน
ในวรรณกรรมบางเล่มฉันได้อ่านว่าการถดถอยที่มีตัวแปรอธิบายหลายอย่างหากในหน่วยต่าง ๆ จำเป็นต้องได้มาตรฐาน (การกำหนดมาตรฐานประกอบด้วยการลบค่าเฉลี่ยและการหารด้วยส่วนเบี่ยงเบนมาตรฐาน) ในกรณีอื่นใดที่ฉันต้องทำให้เป็นมาตรฐานข้อมูลของฉัน มีกรณีใดบ้างที่ฉันควรจัดกึ่งกลางข้อมูลของฉัน (เช่นโดยไม่ต้องหารด้วยค่าเบี่ยงเบนมาตรฐาน)

1
การจัดศูนย์กลางข้อมูลกำจัดการสกัดกั้นในการถดถอยและ PCA อย่างไร
ฉันได้อ่านเกี่ยวกับอินสแตนซ์ที่เราจัดเก็บข้อมูลไว้ (เช่นด้วยการทำให้เป็นมาตรฐานหรือ PCA) เพื่อที่จะลบการสกัดกั้น (ดังที่ได้กล่าวไว้ในคำถามนี้ ) ฉันรู้ว่ามันง่าย แต่ฉันมีเวลายากที่จะเข้าใจในเรื่องนี้ ใครสามารถให้สัญชาตญาณหรือการอ้างอิงที่ฉันสามารถอ่านได้?

1
การจัดกึ่งกลางสร้างความแตกต่างใน PCA ได้อย่างไร (สำหรับการแยกย่อย SVD และ eigen)
การจัดกึ่งกลาง (หรือลบความหมาย) ข้อมูลของคุณมีความแตกต่างจาก PCA อย่างไร ฉันได้ยินมาว่ามันทำให้คณิตศาสตร์ง่ายขึ้นหรือป้องกันพีซีเครื่องแรกไม่ให้ถูกครอบงำด้วยค่าเฉลี่ยของตัวแปร แต่ฉันรู้สึกว่าฉันยังไม่สามารถเข้าใจแนวคิดได้อย่างมั่นคง ตัวอย่างเช่นคำตอบยอดนิยมที่นี่ข้อมูลที่อยู่ตรงกลางกำจัดการสกัดกั้นในการถดถอยและ PCA ได้อย่างไร อธิบายวิธีที่การไม่อยู่ตรงกลางจะดึง PCA แรกผ่านจุดเริ่มต้นแทนที่จะเป็นแกนหลักของคลาวด์พอยต์ จากความเข้าใจของฉันเกี่ยวกับวิธีที่พีซีได้รับจาก eigenvectors เมทริกซ์ความแปรปรวนร่วมฉันไม่สามารถเข้าใจได้ว่าทำไมสิ่งนี้จึงเกิดขึ้น ยิ่งกว่านั้นการคำนวณของฉันเองที่มีและไม่มีการกำหนดกึ่งกลางดูเหมือนจะไม่สมเหตุสมผล พิจารณาดอกไม้ setosa ในirisชุดข้อมูลใน R. ฉันคำนวณค่าลักษณะเฉพาะและค่าลักษณะเฉพาะของเมทริกซ์ความแปรปรวนร่วมตัวอย่างดังนี้ data(iris) df <- iris[iris$Species=='setosa',1:4] e <- eigen(cov(df)) > e $values [1] 0.236455690 0.036918732 0.026796399 0.009033261 $vectors [,1] [,2] [,3] [,4] [1,] -0.66907840 0.5978840 0.4399628 -0.03607712 [2,] -0.73414783 -0.6206734 …
30 r  pca  svd  eigenvalues  centering 

3
เหตุใดการกำหนดค่าตัวแปรอิสระให้อยู่ตรงกลางสามารถเปลี่ยนเอฟเฟกต์หลักด้วยการควบคุมได้
ฉันมีคำถามเกี่ยวกับการถดถอยหลายครั้งและการมีปฏิสัมพันธ์ซึ่งได้รับแรงบันดาลใจจากหัวข้อ CV นี้: คำที่ใช้โต้ตอบโดยใช้ตัวแปรกึ่งกลางการวิเคราะห์การถดถอยแบบลำดับชั้น? ตัวแปรใดที่เราควรตั้งศูนย์ เมื่อตรวจสอบเอฟเฟกต์การกลั่นกรองฉันจะวางตัวแปรอิสระไว้ที่กึ่งกลางและคูณตัวแปรกึ่งกลางเพื่อคำนวณระยะการโต้ตอบของฉัน จากนั้นฉันเรียกใช้การวิเคราะห์การถดถอยและตรวจสอบผลหลักและการโต้ตอบซึ่งอาจแสดงการกลั่นกรอง ถ้าฉันทำการวิเคราะห์ซ้ำโดยไม่อยู่ตรงกลางเห็นได้ชัดว่าสัมประสิทธิ์การตัดสินใจ ( ) ไม่เปลี่ยนแปลง แต่สัมประสิทธิ์การถดถอย ( s) ทำ ที่ดูเหมือนชัดเจนและมีเหตุผลR2R2R^2ββ\beta สิ่งที่ฉันไม่เข้าใจ: ค่า p ของเอฟเฟ็กต์หลักเปลี่ยนไปอย่างมากเมื่ออยู่กึ่งกลางแม้ว่าการโต้ตอบไม่ได้ (ซึ่งถูกต้อง) ดังนั้นการตีความของฉันเกี่ยวกับเอฟเฟ็กต์หลักอาจเปลี่ยนไปอย่างมาก - เพียงแค่กำหนดโดยการอยู่กึ่งกลาง (มันยังคงเป็นข้อมูลเดียวกันในการวิเคราะห์ทั้งสอง!) บางคนสามารถอธิบายได้หรือไม่ - เพราะนั่นหมายความว่าตัวเลือกในการกำหนดตัวแปรของฉันให้อยู่ตรงกลางและทุกคนควรทำเพื่อให้ได้ผลลัพธ์เดียวกันกับข้อมูลเดียวกัน ขอบคุณมากสำหรับการแจกจ่ายให้กับปัญหานั้นและคำอธิบายที่ครอบคลุมของคุณ มั่นใจได้ว่าความช่วยเหลือของคุณได้รับการชื่นชมอย่างมาก! สำหรับฉันประโยชน์ที่ใหญ่ที่สุดของการอยู่ตรงกลางคือการหลีกเลี่ยงความไม่ลงรอยกัน มันค่อนข้างสับสนที่จะสร้างกฎไม่ว่าจะอยู่กึ่งกลางหรือไม่ก็ตาม ความประทับใจของฉันคือทรัพยากรส่วนใหญ่แนะนำให้ศูนย์แม้ว่าจะมี "ความเสี่ยง" บางอย่างเมื่อทำมัน อีกครั้งฉันต้องการที่จะนำความจริงออกมาว่านักวิจัย 2 คนที่จัดการกับวัสดุและข้อมูลเดียวกันอาจสรุปผลลัพธ์ที่แตกต่างกันได้ ฉันเพิ่งอ่านบางส่วนของหนังสือโดย Bortz (เขาเป็นศาสตราจารย์และเป็นดาวสถิติในเยอรมนีและยุโรป) และเขาไม่ได้พูดถึงเทคนิคนั้น เพียงชี้ให้เห็นอย่างระมัดระวังในการตีความผลกระทบหลักของตัวแปรเมื่อพวกเขามีส่วนร่วมในการโต้ตอบ ท้ายที่สุดเมื่อคุณทำการถดถอยด้วยหนึ่ง IV หนึ่งโมเดอเรเตอร์ (หรือ IV ที่สอง) และ …

2
ฟอเรสต์แบบสุ่มจำเป็นต้องปรับขนาดตัวแปรอินพุตหรือให้อยู่กึ่งกลางหรือไม่
ตัวแปรอินพุตของฉันมีมิติที่แตกต่างกัน ตัวแปรบางตัวเป็นทศนิยมในขณะที่บางส่วนมีหลายร้อย จำเป็นหรือไม่ที่จะจัดกึ่งกลาง (ลบค่าเฉลี่ย) หรือมาตราส่วน (หารด้วยส่วนเบี่ยงเบนมาตรฐาน) ตัวแปรอินพุตเหล่านี้เพื่อทำให้ข้อมูลไม่มีมิติเมื่อใช้ฟอเรสต์แบบสุ่ม

1
การแปลง betas ที่ได้มาตรฐานกลับไปเป็นตัวแปรดั้งเดิม
ฉันรู้ว่านี่อาจเป็นคำถามง่าย ๆ แต่หลังจากค้นหาฉันไม่พบคำตอบที่ฉันค้นหา ฉันมีปัญหาที่ฉันจำเป็นต้องสร้างมาตรฐานให้กับตัวแปรที่เรียกใช้ (การถดถอยริดจ์) เพื่อคำนวณค่าประมาณสันเขาของเบต้า ฉันต้องแปลงกลับไปเป็นขนาดดั้งเดิม แต่ฉันจะทำสิ่งนี้ได้อย่างไร ฉันพบสูตรสำหรับกรณีที่มีการแปรสภาพนั้น β∗=β^SxSy.β∗=β^SxSy. \beta^* = \hat\beta \frac{S_x}{S_y} \>. สิ่งนี้ได้รับใน D. Gujarati เศรษฐมิติพื้นฐานหน้า 175 สูตร (6.3.8) โดยที่เป็นตัวประมาณจากการถดถอยที่ทำงานบนตัวแปรมาตรฐานและเป็นตัวประมาณเดียวกันที่แปลงกลับไปเป็นมาตราส่วนดั้งเดิมคือค่าเบี่ยงเบนมาตรฐานตัวอย่างของรีจีสเตอร์และคือค่าเบี่ยงเบนมาตรฐานตัวอย่างβ∗β∗\beta^*β^β^\hat\betaSySyS_ySxSxS_x น่าเสียดายที่หนังสือเล่มนี้ไม่ครอบคลุมผลลัพธ์ที่คล้ายคลึงกันสำหรับการถดถอยหลายครั้ง นอกจากนี้ฉันไม่แน่ใจว่าฉันเข้าใจคดี bivariate หรือไม่ การปรับพีชคณิตอย่างง่ายให้สูตรในระดับเดิม:β^β^\hat\beta β^=β∗SySxβ^=β∗SySx \hat\beta=\beta^* \frac{S_y}{S_x} ดูเหมือนว่าแปลกสำหรับฉันที่ที่คำนวณกับตัวแปรที่ได้รับการยุบแล้วจะต้องมีการยุบโดยอีกครั้งเพื่อที่จะถูกแปลงกลับ? (และทำไมค่าเฉลี่ยไม่ถูกเพิ่มเข้ามา)β^β^\hat\betaSxSxS_xSxSxS_x ดังนั้นใครบางคนสามารถอธิบายวิธีการทำเช่นนี้สำหรับกรณีหลายตัวแปรโดยมีแหล่งที่มาเพื่อให้ฉันเข้าใจผลลัพธ์

3
การจัดกึ่งกลางและการปรับขนาดตัวแปรจำลอง
ฉันมีชุดข้อมูลที่มีทั้งตัวแปรเด็ดขาดและตัวแปรต่อเนื่อง ฉันแนะนำให้เปลี่ยนตัวแปรเด็ดขาดเป็นตัวแปรไบนารีสำหรับแต่ละระดับ (เช่น A_level1: {0,1}, A_level2: {0,1}) - ฉันคิดว่าบางคนเรียกว่า "ตัวแปรจำลอง" นี้ ด้วยที่กล่าวว่ามันจะทำให้เข้าใจผิดแล้วศูนย์และปรับขนาดข้อมูลทั้งหมดที่มีตัวแปรใหม่หรือไม่ ดูเหมือนว่าฉันจะสูญเสียความหมาย "เปิด / ปิด" ของตัวแปร หากเป็นการทำให้เข้าใจผิดหมายความว่าฉันควรจัดกึ่งกลางและปรับขนาดตัวแปรต่อเนื่องแยกจากนั้นเพิ่มอีกครั้งลงในชุดข้อมูลของฉันหรือไม่ TIA

1
การจัดกึ่งกลางจำเป็นเมื่อทำการสแตรปป์ตัวอย่างหมายถึงอะไร?
เมื่ออ่านเกี่ยวกับวิธีประมาณการกระจายตัวของค่าเฉลี่ยตัวอย่างฉันเจอวิธีการบูตแบบไม่มีพารามิเตอร์ เห็นได้ชัดว่าเราสามารถประมาณการกระจายตัวของโดยการกระจายของˉ X ∗ n - ˉ X nโดยที่ˉ X ∗ nหมายถึงค่าเฉลี่ยตัวอย่างของตัวอย่างบูตตัวอย่างX¯n- μX¯n−μ\bar{X}_n-\muX¯* * * *n- X¯nX¯n∗−X¯n\bar{X}_n^*-\bar{X}_nX¯* * * *nX¯n∗\bar{X}_n^* คำถามของฉันคือ: ฉันต้องการจุดศูนย์กลางหรือไม่ เพื่ออะไร? ฉันไม่สามารถประมาณโดยP ( ˉ X ∗ n ≤ x ) ได้ใช่ไหมP ( X)¯n≤ x )P(X¯n≤x)\mathbb{P}\left(\bar{X}_n \leq x\right)P ( X)¯* * * *n≤ x )P(X¯n∗≤x)\mathbb{P}\left(\bar{X}_n^* \leq x\right)

3
วิธีรวมและเข้ากับการถดถอยและจะรวมศูนย์ไว้ที่ใด
ฉันต้องการรวมคำว่าxxxและ square x2x2x^2 (ตัวแปรทำนาย) ลงในการถดถอยเพราะฉันคิดว่าค่าต่ำของxxxมีผลในเชิงบวกต่อตัวแปรตามและค่าสูงมีผลกระทบเชิงลบ x2x2x^2ควรจับผลกระทบของค่าที่สูงขึ้น ฉันจึงคาดหวังว่าสัมประสิทธิ์ของxxxจะเป็นค่าบวกและค่าสัมประสิทธิ์ของx2x2x^2จะเป็นค่าลบ นอกจากxxxผมยังรวมถึงตัวแปรอื่น ๆ ฉันอ่านในบางกระทู้ที่นี่เป็นความคิดที่ดีที่จะจัดวางตัวแปรในกรณีนี้เพื่อหลีกเลี่ยง เมื่อทำการถดถอยหลายครั้งคุณควรจัดตำแหน่งตัวแปรตัวทำนายของคุณไว้ที่ใดและเมื่อใดที่คุณควรทำให้เป็นมาตรฐาน ฉันควรจะอยู่ตรงกลางทั้งสองตัวแปรแยก (ที่ค่าเฉลี่ย) หรือควรจะฉันเพียงศูนย์และจากนั้นใช้ตารางหรือฉันควรเพียงศูนย์และรวมถึงต้นฉบับ ?xxxx2x2x^2xxx มันเป็นปัญหาหรือไม่ถ้าเป็นจำนวนตัวแปร?xxx เพื่อหลีกเลี่ยงเป็นตัวแปรนับฉันคิดถึงการหารมันด้วยพื้นที่ที่กำหนดตามหลักวิชาเช่น 5 ตารางกิโลเมตร นี่ควรจะคล้ายกับการคำนวณความหนาแน่นของจุดxxx อย่างไรก็ตามฉันกลัวว่าในสถานการณ์นี้การสันนิษฐานเบื้องต้นของฉันเกี่ยวกับเครื่องหมายของสัมประสิทธิ์จะไม่ถืออีกต่อไปเช่นเมื่อและx² = 4x = 2x=2x=2x ² = 4x²=4x²=4 x = 2 / 5 กม.2x=2/5 km2x= 2 / 5 \text{ km}^2 = 0.4 กม.20.4 km20.4 \text{ km}^2 แต่x2x2x^2จากนั้นก็จะมีขนาดเล็กเพราะ x2= ( 2 …

1
ศัพท์ปฏิสัมพันธ์โดยใช้ตัวแปรกึ่งกลางการวิเคราะห์การถดถอยเชิงลำดับชั้น? ตัวแปรใดที่เราควรตั้งศูนย์
ฉันใช้การวิเคราะห์การถดถอยแบบลำดับชั้นและฉันมีข้อสงสัยเล็กน้อย: เราคำนวณคำที่ใช้โต้ตอบโดยใช้ตัวแปรกึ่งกลางหรือไม่? เราต้องจัดวางตัวแปรต่อเนื่องทั้งหมดที่เรามีในชุดข้อมูลยกเว้นตัวแปรตามหรือไม่ เมื่อเราต้องบันทึกตัวแปรบางตัว (เพราะ sd ของพวกเขานั้นสูงกว่าค่าเฉลี่ย) เราจะจัดวางตัวแปรที่เพิ่งถูกบันทึกหรือเป็นตัวแปรเริ่มต้นหรือไม่? ตัวอย่างเช่น: ตัวแปร "มูลค่าการซื้อขาย" ---> มูลค่าการซื้อขายที่ถูกบันทึกไว้ (เพราะ SD สูงเกินไปเมื่อเทียบกับค่าเฉลี่ย) ---> Centered_Turnover? หรือจะเป็นการหมุนเวียนโดยตรง -> Centered_Turnover (และเราทำงานกับอันนี้) ขอบคุณ !!

6
จะจัดกลุ่มตัวแปรให้เป็นมาตรฐาน / มาตรฐานใน R ได้อย่างไร?
ล็อคแล้ว คำถามและคำตอบของคำถามนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ฟังก์ชั่นที่ฉันคุ้นเคยกับขนาดสเกลจากฐาน R, rescaleจาก ARM บางทีวิธีที่ดีที่สุดคือการใช้ตัวแปรบางส่วนของการใช้งานโดยระบุตัวแปรอย่างน้อยหนึ่งตัวเพื่อใช้เป็นตัวแปรการจัดกลุ่ม
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.