เพื่อให้เข้าใจถึงสิ่งที่สามารถดำเนินต่อไปได้มันเป็นคำแนะนำในการสร้าง (และวิเคราะห์) ข้อมูลที่มีพฤติกรรมตามที่อธิบายไว้
เพื่อความง่ายเราจะลืมตัวแปรอิสระตัวที่หก ดังนั้นคำถามอธิบายการถดถอยของตัวแปรตามหนึ่งตัวกับตัวแปรอิสระห้าตัวx 1 , x 2 , x 3 , x 4 , x 5ซึ่งYx1,x2,x3,x4,x5
แต่ละถดถอยสามัญมีความสำคัญในระดับจาก0.01น้อยกว่า0.001y∼xi0.010.001
การถดถอยหลายครั้งให้ค่าสัมประสิทธิ์ที่สำคัญสำหรับx 1และx 2เท่านั้นy∼x1+⋯+x5x1x2
ปัจจัยเงินเฟ้อความแปรปรวน (VIFs) ทั้งหมดอยู่ในระดับต่ำซึ่งแสดงถึงการปรับสภาพที่ดีในเมทริกซ์การออกแบบ (นั่นคือการขาด collinearity ในหมู่ )xi
มาทำให้สิ่งนี้เกิดขึ้นได้ดังนี้:
สร้างค่าการกระจายตามปกติสำหรับx 1และx 2 (เราจะเลือกnภายหลัง)nx1x2n
Let ที่εข้อผิดพลาดปกติเป็นอิสระจากค่าเฉลี่ย0 จำเป็นต้องมีการทดลองและข้อผิดพลาดบางอย่างเพื่อหาค่าเบี่ยงเบนมาตรฐานที่เหมาะสมสำหรับε ; 1 / 100ทำงานได้ดี (และค่อนข้างน่าทึ่ง: Yเป็นอย่างมากที่มีลักษณะร่วมกันได้ดีกับx 1และx 2แม้ว่ามันจะเป็นเพียงความสัมพันธ์ในระดับปานกลางกับx 1และx 2รายบุคคล)y=x1+x2+εε0ε1/100yx1x2x1x2
ให้ = x 1 / 5 + δ , J = 3 , 4 , 5 , ที่δเป็นอิสระข้อผิดพลาดแบบปกติมาตรฐาน นี้จะทำให้x 3 , x 4 , x 5เพียงเล็กน้อยขึ้นอยู่กับx 1 แต่ผ่านความสัมพันธ์แน่นระหว่างx 1และYเจือจางนี้เล็ก ๆความสัมพันธ์ระหว่างYและสิ่งเหล่านี้xเจxjx1/5+δj=3,4,5δx3,x4,x5x1x1yyxj
นี่คือถู: ถ้าเราทำให้พอขนาดใหญ่เหล่านี้เล็กน้อยสัมพันธ์จะส่งผลให้ค่าสัมประสิทธิ์ที่สำคัญแม้ว่าปีเกือบทั้งหมด "อธิบาย" โดยเฉพาะสองตัวแปรแรกny
ฉันพบว่าทำงานได้ดีสำหรับการทำซ้ำค่า p ที่รายงาน นี่คือเมทริกซ์กระจายของตัวแปรทั้งหก:n=500
โดยการตรวจสอบคอลัมน์ที่ถูกต้อง (หรือแถวล่าง) คุณจะเห็นว่ามีความสัมพันธ์ที่ดี (บวก) กับx 1และx 2แต่มีความสัมพันธ์ที่ชัดเจนเล็กน้อยกับตัวแปรอื่น ๆ โดยการตรวจสอบเมทริกซ์ที่เหลือคุณจะเห็นว่าตัวแปรอิสระx 1 , … , x 5ดูเหมือนจะไม่เกี่ยวข้องกัน (สุ่มδyx1x2x1, … , x5δปกปิดการพึ่งพาเล็ก ๆ น้อย ๆ ที่เรารู้ว่ามี) ไม่มีข้อมูลพิเศษ - ไม่มีสิ่งใดที่อยู่ไกลออกไปหรือมีเลเวอเรจสูง ฮิสโทแกรมแสดงให้เห็นว่าตัวแปรทั้งหกนั้นมีการกระจายตัวตามปกติโดยประมาณ: ข้อมูลเหล่านี้เป็นข้อมูลธรรมดาและ "วนิลาธรรมดา" อย่างที่ใคร ๆ ก็ต้องการ
ในการถดถอยของต่อx 1และx 2 , p-value นั้นเป็น 0 ในการถดถอยของyต่อx 3 , จากนั้นyกับx 4 , และyต่อx 5 , p-value คือ 0.0024, 0.0083 และ 0.00064 ตามลำดับ: นั่นคือพวกเขาเป็น "สำคัญมาก" แต่ในการถดถอยหลายครั้งแบบเต็มค่า p ที่สอดคล้องกันจะเพิ่มขึ้นเป็น. 46, .36 และ. 52 ตามลำดับ: ไม่มีนัยสำคัญเลย สาเหตุของเรื่องนี้ก็คือเมื่อyถูกทำให้ถดถอยต่อx 1และxyx1x2yx3Yx4Yx5Yx1 , สิ่งเดียวที่เหลือ "อธิบาย" เป็นจำนวนเล็ก ๆ ของความผิดพลาดในสิ่งตกค้างซึ่งจะใกล้เคียงกับ εและข้อผิดพลาดนี้เกือบสมบูรณ์ไม่เกี่ยวข้องกับส่วนที่เหลืออีก xฉัน ("เกือบ" ถูกต้อง: มีความสัมพันธ์เล็ก ๆ ที่เกิดขึ้นจากข้อเท็จจริงที่ว่าส่วนที่เหลือถูกคำนวณในส่วนหนึ่งจากค่าของ x 1และ x 2และ x i , i = 3 , 4 , 5 , มีบางอย่างที่อ่อนแอ ความสัมพันธ์กับ x 1และ x 2ความสัมพันธ์ที่เหลือนี้ไม่สามารถตรวจจับได้จริงแม้ว่าเราจะเห็น)x2εxผมx1x2xผมi = 3 , 4 , 5x1x2
จำนวนการปรับสภาพของเมทริกซ์การออกแบบมีเพียง 2.17: ต่ำมากโดยไม่แสดงว่ามีความหลากหลายทางสีสูง แต่อย่างใด (การขาดความสมบูรณ์ของความสมบูรณ์แบบจะสะท้อนให้เห็นในการปรับจำนวน 1 แต่ในทางปฏิบัติสิ่งนี้จะเห็นได้เฉพาะกับข้อมูลประดิษฐ์และการทดลองที่ออกแบบมาเท่านั้นจำนวนการปรับสภาพในช่วง 1-6 (หรือสูงกว่าที่มีตัวแปรอื่น ๆ ) การทำแบบจำลองนี้เสร็จสมบูรณ์: สามารถจำลองแบบได้ทุกปัญหา
ข้อมูลเชิงลึกที่สำคัญข้อเสนอการวิเคราะห์นี้รวมถึง
ค่า p ไม่ได้บอกอะไรเราโดยตรงเกี่ยวกับความเป็นคู่กัน ขึ้นอยู่กับปริมาณข้อมูลเป็นอย่างมาก
ความสัมพันธ์ระหว่างค่า p ในการถดถอยหลายครั้งและค่า p ในการถดถอยที่เกี่ยวข้อง (เกี่ยวข้องกับชุดย่อยของตัวแปรอิสระ) มีความซับซ้อนและมักไม่สามารถคาดการณ์ได้
ดังนั้นในขณะที่คนอื่นแย้งค่า p ไม่ควรเป็นแนวทางเดียวของคุณ (หรือแม้แต่คำแนะนำหลักของคุณ) เพื่อเลือกรูปแบบ
แก้ไข
มันไม่ได้เป็นสิ่งที่จำเป็นสำหรับจะมีขนาดใหญ่เป็น500สำหรับปรากฏการณ์เหล่านี้จะปรากฏ n500 แรงบันดาลใจจากข้อมูลเพิ่มเติมในคำถามต่อไปนี้เป็นชุดข้อมูลที่สร้างขึ้นในลักษณะที่คล้ายกับ (ในกรณีนี้x j = 0.4 x 1 + 0.4 x 2 + δสำหรับj = 3 , 4 , 5 ) สิ่งนี้สร้างความสัมพันธ์ระหว่าง 0.38 ถึง 0.73 ระหว่างx 1 - 2และx 3 - 5n = 24xJ= 0.4 x1+ 0.4 x2+ δj = 3 , 4 , 5x1 - 2x3−5. หมายเลขเงื่อนไขของเมทริกซ์การออกแบบคือ 9.05: สูงเล็กน้อย แต่ก็ไม่แย่มาก ( กฎบางข้อของหัวแม่มือบอกว่าตัวเลขเงื่อนไขสูงถึง 10 ก็โอเค) ค่า p ของการถดถอยแต่ละตัวเทียบกับคือ 0.002, 0.015 และ 0.008: สำคัญถึงมีนัยสำคัญมาก ดังนั้นความหลากหลายทางพินัยกรรมมีส่วนเกี่ยวข้อง แต่ก็ไม่ใหญ่จนเกินไปที่จะเปลี่ยนมันได้ ความเข้าใจขั้นพื้นฐานยังคงเหมือนเดิมx3,x4,x5: นัยสำคัญและความสัมพันธ์หลายระดับเป็นสิ่งที่แตกต่างกัน มีข้อ จำกัด ทางคณิตศาสตร์เพียงเล็กน้อยเท่านั้น และเป็นไปได้สำหรับการรวมหรือแยกแม้แต่ตัวแปรเดียวที่จะมีผลกระทบอย่างลึกซึ้งต่อค่า p ทั้งหมดแม้ว่าจะไม่มีปัญหาความสัมพันธ์หลายอย่างรุนแรงก็ตาม
x1 x2 x3 x4 x5 y
-1.78256 -0.334959 -1.22672 -1.11643 0.233048 -2.12772
0.796957 -0.282075 1.11182 0.773499 0.954179 0.511363
0.956733 0.925203 1.65832 0.25006 -0.273526 1.89336
0.346049 0.0111112 1.57815 0.767076 1.48114 0.365872
-0.73198 -1.56574 -1.06783 -0.914841 -1.68338 -2.30272
0.221718 -0.175337 -0.0922871 1.25869 -1.05304 0.0268453
1.71033 0.0487565 -0.435238 -0.239226 1.08944 1.76248
0.936259 1.00507 1.56755 0.715845 1.50658 1.93177
-0.664651 0.531793 -0.150516 -0.577719 2.57178 -0.121927
-0.0847412 -1.14022 0.577469 0.694189 -1.02427 -1.2199
-1.30773 1.40016 -1.5949 0.506035 0.539175 0.0955259
-0.55336 1.93245 1.34462 1.15979 2.25317 1.38259
1.6934 0.192212 0.965777 0.283766 3.63855 1.86975
-0.715726 0.259011 -0.674307 0.864498 0.504759 -0.478025
-0.800315 -0.655506 0.0899015 -2.19869 -0.941662 -1.46332
-0.169604 -1.08992 -1.80457 -0.350718 0.818985 -1.2727
0.365721 1.10428 0.33128 -0.0163167 0.295945 1.48115
0.215779 2.233 0.33428 1.07424 0.815481 2.4511
1.07042 0.0490205 -0.195314 0.101451 -0.721812 1.11711
-0.478905 -0.438893 -1.54429 0.798461 -0.774219 -0.90456
1.2487 1.03267 0.958559 1.26925 1.31709 2.26846
-0.124634 -0.616711 0.334179 0.404281 0.531215 -0.747697
-1.82317 1.11467 0.407822 -0.937689 -1.90806 -0.723693
-1.34046 1.16957 0.271146 1.71505 0.910682 -0.176185