สรุป
ทุกคำในคำถามสามารถเข้าใจได้ว่าเป็นทรัพย์สินของจุดไข่ปลา เพียงสถานที่ให้บริการโดยเฉพาะอย่างยิ่งการกระจายปกติ bivariate ที่จำเป็นต้องมีความจริงที่ว่าในมาตรฐาน bivariate กระจายปกติของ --for ซึ่งและมี uncorrelated - ความแปรปรวนเงื่อนไขของไม่ขึ้นอยู่กับX(นี่จะเป็นผลสืบเนื่องมาจากความจริงที่ว่าการขาดความสัมพันธ์หมายถึงความเป็นอิสระสำหรับตัวแปรปกติร่วมกัน)X Y Y XX,YXYYX
การวิเคราะห์ต่อไปนี้แสดงให้เห็นอย่างแม่นยำว่าทรัพย์สินของจุดไข่ปลามีส่วนเกี่ยวข้องและมาจากสมการทั้งหมดของคำถามโดยใช้แนวคิดพื้นฐานและคณิตศาสตร์ที่ง่ายที่สุดเท่าที่จะเป็นไปได้
การแจกแจงสมมาตรแบบวงกลม
การกระจายของคำถามเป็นสมาชิกของตระกูล bivariate การแจกแจงแบบปกติ พวกเขาทั้งหมดมาจากสมาชิกพื้นฐานคือbivariate Normal ซึ่งจะอธิบายการแจกแจงมาตรฐานสองค่าที่ไม่ได้มีความสัมพันธ์กัน
ด้านซ้ายเป็นพล็อตการผ่อนปรนของค่าความหนาแน่นปกติ bivariate ด้านขวาแสดงแบบเดียวกันในหลอก 3 มิติส่วนหน้าถูกตัดออกไป
นี่คือตัวอย่างของการกระจายแบบสมมาตรแบบวงกลม :ความหนาแน่นแตกต่างกันไปตามระยะทางจากจุดศูนย์กลาง แต่ไม่ได้มีทิศทางห่างจากจุดนั้น ดังนั้นรูปทรงของกราฟ (ทางด้านขวา) จึงเป็นวงกลม
การแจกแจงแบบปกติอื่น ๆ ส่วนใหญ่จะไม่สมมาตรแบบวงกลมอย่างไรก็ตาม: ภาพตัดขวางของพวกมันเป็นรูปไข่ วงรีเหล่านี้สร้างรูปร่างลักษณะของเมฆจุด bivariate จำนวนมาก
นี่คือรูปของ bivariate การแจกแจงปกติด้วยเมทริกซ์ความแปรปรวนร่วม มันเป็นรูปแบบสำหรับข้อมูลที่มีค่าสัมประสิทธิ์สหสัมพันธ์-2/3 -2/3Σ=(1−23−231).−2/3
วิธีการสร้างรูปไข่
วงรี - ตามคำจำกัดความที่เก่าแก่ที่สุดคือส่วนที่เป็นรูปกรวยซึ่งเป็นวงกลมที่บิดเบี้ยวโดยการฉายภาพลงบนระนาบอื่น โดยพิจารณาจากลักษณะของการฉายเช่นเดียวกับที่ศิลปินทัศนศิลป์ทำเราอาจสลายมันเป็นลำดับการบิดเบือนที่ง่ายต่อการเข้าใจและคำนวณด้วย
ขั้นแรกให้ยืด (หรือถ้าจำเป็นให้บีบ) วงกลมตามแนวที่จะกลายเป็นแกนยาวของวงรีไปจนถึงความยาวที่ถูกต้อง:
ถัดไปบีบ (หรือยืด) วงรีนี้ไปตามแกนย่อย:
ประการที่สามหมุนรอบจุดศูนย์กลางเป็นแนวสุดท้าย:
ในที่สุดเลื่อนไปยังตำแหน่งที่ต้องการ:
นี่คือการแปลงเลียนแบบทั้งหมด (อันที่จริงสามคนแรกคือการแปลงเชิงเส้น ; การเปลี่ยนแปลงครั้งสุดท้ายทำให้มันเลียนแบบ) เพราะองค์ประกอบของการแปลงเลียนแบบคือ (ตามคำนิยาม) ยังคงเลียนแบบการบิดเบือนสุทธิจากวงกลมไปยังวงรีสุดท้ายคือการแปลงเลียนแบบ แต่มันค่อนข้างซับซ้อน:
สังเกตุว่าเกิดอะไรขึ้นกับแกน (ธรรมชาติ) ของวงรี:หลังจากที่พวกมันถูกสร้างโดยการกะและการบีบพวกมัน (แน่นอน) จะหมุนและเลื่อนไปตามแกนของมันเอง เราเห็นแกนเหล่านี้ได้อย่างง่ายดายแม้ว่าพวกเขาจะไม่ถูกดึงออกมาเพราะพวกมันเป็นแกนสมมาตรของวงรีนั้น
เราต้องการนำความเข้าใจของเราไปใช้กับการทำความเข้าใจกับการแจกแจงแบบสมมาตรแบบวงกลมที่บิดเบี้ยวเช่นครอบครัวปกติ bivariate น่าเสียดายที่มีปัญหากับการบิดเบือนเหล่านี้ : พวกเขาไม่เคารพความแตกต่างระหว่างแกนและการหมุนในขั้นตอนที่ 3 ซากปรักหักพังนั้น ดูกริดพิกัดจาง ๆ ในพื้นหลัง: สิ่งเหล่านี้แสดงว่าเกิดอะไรขึ้นกับกริด (ของตาข่ายy ที่1 / 2 xxy1/2ทั้งสองทิศทาง) เมื่อบิดเบี้ยว ในภาพแรกระยะห่างระหว่างเส้นแนวตั้งดั้งเดิม (แสดงเป็นเส้นทึบ) จะเพิ่มเป็นสองเท่า ในภาพที่สองระยะห่างระหว่างเส้นแนวนอนดั้งเดิม (แสดงเป็นเส้นประ) จะหดลงหนึ่งในสาม ในภาพที่สามช่องว่างของกริดจะไม่เปลี่ยนแปลง แต่เส้นทั้งหมดจะถูกหมุน พวกมันเลื่อนขึ้นและไปทางขวาในภาพที่สี่ ภาพสุดท้ายที่แสดงผลลัพธ์สุทธิแสดงเส้นตารางที่ยืดขยายหมุนและเลื่อน เส้นทึบดั้งเดิมของพิกัดคงที่ไม่เป็นแนวตั้งอีกต่อไปx
ความคิดที่สำคัญ --one อาจกล้าที่จะบอกว่ามันเป็นปมของการถดถอย - คือว่ามีวิธีที่วงกลมสามารถบิดเบือนเป็นวงรีโดยไม่ต้องหมุนเส้นแนวตั้ง เนื่องจากการหมุนเป็นผู้ร้ายเรามาตัดการไล่ล่าและแสดงวิธีสร้างวงรีที่หมุนแล้วโดยไม่ปรากฏว่าหมุนอะไรเลย !
นี่คือการเปลี่ยนแปลงที่เบ้ จริงๆแล้วมันทำสองสิ่งพร้อมกัน:
มันบีบไปในทิศทาง (ตามจำนวนพูด) นี่ทำให้ -axis เพียงอย่างเดียวλ xyλx
มันยกจุดส่งผลใด ๆตามจำนวนเงินที่ได้โดยตรงสัดส่วนกับxเขียนอย่างต่อเนื่องของสัดส่วนที่เป็นนี้ส่งจะx)x ρ ( x , y ) ( x , y + ρ x )(x,y)xρ(x,y)(x,y+ρx)
ขั้นตอนที่สองยก -axis ลงในบรรทัดดังแสดงในรูปก่อนหน้า ดังที่แสดงไว้ในรูปภาพนั้นฉันต้องการทำงานกับการแปลงแบบเบ้พิเศษอันหนึ่งซึ่งหมุนวงรีได้อย่างมีประสิทธิภาพ 45 องศาและจารึกมันลงในหน่วยสี่เหลี่ยม แกนหลักของวงรีนี้เป็นสาย x เห็นได้ชัดว่า1 (ค่าลบของเอียงวงรีลงไปทางขวามากกว่าขึ้นไปทางขวา) นี่คือคำอธิบายทางเรขาคณิตของ "การถดถอยของค่าเฉลี่ย"y = ρ x y = x | ρ | ≤ 1 ρxy=ρxy=x|ρ|≤1ρ
การเลือกมุม 45 องศาทำให้วงรีสมมาตรรอบ ๆ เส้นทแยงมุมของสี่เหลี่ยมจัตุรัส (ส่วนหนึ่งของเส้น ) ในการหาพารามิเตอร์ของการแปลงแบบเอียงนี้ให้สังเกต:y=x
ยกโดยย้ายจุดเพื่อโร)ρx(1,0)(1,ρ)
ความสมมาตรรอบ ๆ เส้นทแยงมุมหลักนั้นจะบอกถึงจุดอยู่บนวงรี(ρ,1)
จุดนี้เริ่มต้นที่ไหน
เดิม (ด้านบน) จุดบนยูนิทวงกลม (มีสมนัย ) กับประสานงานเป็น2})x2+y2=1xρ(ρ,1−ρ2−−−−−√)
จุดใด ๆ ของรูปแบบครั้งแรกที่ได้ไปบีบและจากนั้นยกโร)(ρ,y)(ρ,λy)(ρ,λy+ρ×ρ)
วิธีการแก้ปัญหาที่ไม่ซ้ำกับสมการเป็น2} นั่นคือปริมาณโดยที่ระยะทางทั้งหมดในทิศทางแนวตั้งจะต้องบีบเพื่อสร้างวงรีที่มุม 45 องศาเมื่อมันเอียงแนวตั้ง\(ρ,λ1−ρ2−−−−−√+ρ2)=(ρ,1)λ=1−ρ2−−−−−√ρ
เพื่อกระชับความคิดเหล่านี้นี่คือฉากที่แสดงให้เห็นว่าการแจกแจงแบบสมมาตรแบบวงกลมนั้นบิดเบี้ยวไปสู่การกระจายด้วยรูปทรงวงรีโดยใช้วิธีการแปลงแบบเอียงเหล่านี้ พาเนลแสดงค่าของเท่ากับและจากซ้ายไปขวาρ0, 3/10, 6/10,9/10,
รูปด้านซ้ายสุดแสดงชุดของจุดเริ่มต้นรอบหนึ่งในวงกลมรูปทรงและส่วนหนึ่งของแกนนอน ตัวเลขที่ตามมาใช้ลูกศรเพื่อแสดงวิธีการย้ายจุดเหล่านั้น รูปภาพของแกนนอนปรากฏเป็นส่วนของเส้นเอียง (มีความชัน ) (สีเป็นตัวแทนของความหนาแน่นที่แตกต่างกันในรูปแบบที่แตกต่างกัน)ρ
ใบสมัคร
เราพร้อมที่จะทำการถดถอย วิธีมาตรฐานที่หรูหรา (แต่ใช้งานง่าย) เพื่อทำการถดถอยเป็นสิ่งแรกที่แสดงถึงตัวแปรดั้งเดิมในหน่วยการวัดใหม่: เราจัดวางไว้ที่ค่าเฉลี่ยของพวกเขาและใช้การเบี่ยงเบนมาตรฐานเป็นหน่วย นี่จะย้ายจุดศูนย์กลางของการกระจายไปยังจุดกำเนิดและทำให้รูปทรงวงรีเอียง 45 องศา (ขึ้นหรือลง)
เมื่อข้อมูลที่ได้มาตรฐานเหล่านี้ก่อตัวเป็นคลาวด์พอยน์การถดถอยนั้นง่าย: หมายความว่าเงื่อนไขบนคือทั้งหมดซึ่งก่อให้เกิดเส้นที่ผ่านจุดกำเนิด (สมมาตรแบบวงกลมหมายถึงสมมาตรด้วยความเคารพต่อแกนแสดงให้เห็นว่าการแจกแจงแบบมีเงื่อนไขทั้งหมดเป็นแบบสมมาตรดังนั้นพวกเขาจึงมีวิธี) ดังที่เราได้เห็นแล้วเราอาจดูการกระจายแบบมาตรฐานที่เกิดขึ้นจากสถานการณ์ง่าย ๆ พื้นฐานนี้ , ค่าทั้งหมด (มาตรฐาน) จะถูกคูณด้วยสำหรับค่าของ ; ถัดไปค่าทั้งหมดที่มี -coordinates จะเอียงตามแนวตั้งโดยx0x0y1−ρ2−−−−−√ρxρx. การบิดเบือนเหล่านี้ทำอะไรกับเส้นการถดถอย (ซึ่งพล็อตความหมายตามเงื่อนไขกับ )x
การหดตัวของพิกัดคูณความเบี่ยงเบนแนวดิ่งทั้งหมดด้วยค่าคงที่ นี้เป็นเพียงการเปลี่ยนแปลงขนาดในแนวตั้งและด้านซ้ายหมายถึงเงื่อนไขทั้งหมดไม่เปลี่ยนแปลงที่0y0
การแปลงเอียงแนวตั้งเพิ่มให้กับค่าเงื่อนไขทั้งหมดที่ดังนั้นการเพิ่มให้กับค่าเฉลี่ยที่มีเงื่อนไขของพวกเขา: เส้นโค้งคือเส้นโค้งการถดถอยซึ่งกลายเป็นเส้นตรงρxxρxy=ρx
ในทำนองเดียวกันเราอาจตรวจสอบว่าเนื่องจาก -axis เป็นสี่เหลี่ยมจัตุรัสที่เล็กที่สุดที่เหมาะสมกับการแจกแจงแบบสมมาตรแบบวงกลมสี่เหลี่ยมที่น้อยที่สุดที่เหมาะกับการแจกแจงแบบเปลี่ยนรูปก็คือเส้น : เส้นสี่เหลี่ยมกำลังสองน้อยที่สุด .xy=ρx
ผลลัพธ์ที่สวยงามเหล่านี้เป็นผลมาจากความจริงที่ว่าการแปลงความเอียงในแนวตั้งไม่เปลี่ยนพิกัดใด ๆx
เราสามารถพูดเพิ่มเติมได้อย่างง่ายดาย:
สัญลักษณ์แสดงหัวข้อย่อยแรก (เกี่ยวกับการย่อขนาด) แสดงให้เห็นว่าเมื่อมีการแจกแจงแบบสมมาตรแบบวงกลมความแปรปรวนแบบมีเงื่อนไขของถูกคูณด้วย 2(X,Y)Y|X(1−ρ2−−−−−√)2=1−ρ2
โดยทั่วไป: การเปลี่ยนแปลงเอียงแนวตั้ง rescales แต่ละเงื่อนไขการจำหน่ายโดยแล้ว recenters ได้โดยx1−ρ2−−−−−√ρx
สำหรับ bivariate กระจายปกติมาตรฐานความแปรปรวนเงื่อนไขเป็นค่าคงที่ (เท่ากับ ) อิสระของxทันทีที่เราสรุปได้ว่าหลังจากที่ใช้นี้การเปลี่ยนแปลงลาดแปรปรวนเงื่อนไขของการเบี่ยงเบนในแนวตั้งก็ยังคงเป็นอย่างต่อเนื่องและเท่ากับ 2 เนื่องจากการแจกแจงแบบมีเงื่อนไขของตัวแปร bivariate เป็นปกติแล้วตอนนี้เรารู้วิธีการและความแปรปรวนของพวกเขาแล้วเราจึงมีข้อมูลทั้งหมดเกี่ยวกับพวกมัน1x1−ρ2
สุดท้ายเราต้องเกี่ยวข้องเมทริกซ์ความแปรปรวนเดิม\ρΣ สำหรับเรื่องนี้จำได้ว่า (ที่อร่อยที่สุด) ความหมายของค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างสองมาตรฐานตัวแปรและคือความคาดหวังของผลิตภัณฑ์ของตนXY(ความสัมพันธ์ของและถูกประกาศอย่างง่าย ๆ ว่าเป็นสหสัมพันธ์ของรุ่นมาตรฐาน) ดังนั้นเมื่อติดตามการกระจายสมมาตรแบบวงกลมใด ๆและเราใช้การแปลงแบบเบ้กับตัวแปรเราอาจเขียนXYXYXY(X,Y)
ε=Y−ρX
สำหรับการเบี่ยงเบนในแนวดิ่งจากสายการถดถอยและแจ้งให้ทราบว่าต้องมีการกระจายสมมาตรรอบ0ทำไม? เพราะก่อนการเปลี่ยนแปลงลาดถูกนำมาใช้,มีการกระจายสมมาตรรอบและจากนั้นเรา (ก) บีบมันและ (ข) ยกได้โดยX อดีตไม่ได้เปลี่ยนความสมมาตรในขณะที่คนใหม่กลับมาที่ , QED รูปถัดไปแสดงสิ่งนี้ε0Y0ρXρX
เส้นสีดำออกติดตามความสูงสัดส่วนกับความหนาแน่นเงื่อนไขที่ค่าสม่ำเสมอเว้นระยะต่างๆของxเส้นสีขาวหนาคือเส้นถดถอยซึ่งผ่านจุดกึ่งกลางของสมมาตรของแต่ละเส้นโค้งตามเงื่อนไข พล็อตนี้แสดงเคสในพิกัดมาตรฐานxρ=−1/2
ดังนั้น
E(XY)=E(X(ρX+ε))=ρE(X2)+E(Xε)=ρ(1)+0=ρ.
ความเท่าเทียมกันสุดท้ายเกิดจากข้อเท็จจริงสองประการ: (1) เนื่องจากได้รับมาตรฐานความคาดหวังของสี่เหลี่ยมจัตุรัสคือความแปรปรวนมาตรฐานของมันเท่ากับโดยการก่อสร้าง และ (2) ความคาดหวังของเท่ากับความคาดหวังของโดยอาศัยอำนาจตามความสมมาตรของ\เนื่องจากหลังเป็นลบของอดีตทั้งคู่จะต้องเท่ากับ : เทอมนี้ลดลงX1XεX(−ε)ε0
เราได้ระบุพารามิเตอร์ของการแปลงเอียง, , ในฐานะที่เป็นค่าสัมประสิทธิ์สหสัมพันธ์ของและYρXY
สรุปผลการวิจัย
โดยการสังเกตว่าวงรีใด ๆ อาจเกิดขึ้นได้โดยการบิดเบือนวงกลมที่มีการแปรเอียงแบบแนวตั้งที่รักษาพิกัดเราได้มาถึงความเข้าใจในรูปทรงของการกระจายของตัวแปรสุ่มที่ได้จากสมมาตรแบบวงกลม อย่างใดอย่างหนึ่งโดยการเหยียดบีบผลัดและกะ (นั่นคือการแปลงเลียนแบบใด ๆ ) ด้วยการแสดงผลลัพธ์ในแง่ของหน่วยดั้งเดิมของและซึ่งจะเพิ่มจำนวนวิธีและหลังจากคูณด้วยค่าเบี่ยงเบนมาตรฐานและ - เราพบว่า:x(X,Y)xyμxμyσxσy
เส้นอย่างน้อยกำลังสองและเส้นโค้งการถดถอยทั้งคู่ผ่านจุดกำเนิดของตัวแปรมาตรฐานซึ่งสอดคล้องกับ "จุดเฉลี่ย"ในพิกัดดั้งเดิม(μx,μy)
เส้นโค้งการถดถอยซึ่งถูกกำหนดให้เป็นโลคัสของเงื่อนไขแบบมีเงื่อนไข เกิดขึ้นพร้อมกับบรรทัดกำลังสองน้อยที่สุด{(x,ρx)},
ความชันของเส้นถดถอยในพิกัดมาตรฐานคือสัมประสิทธิ์สหสัมพันธ์ ; ในหน่วยเดิมจึงเท่ากับ\ρσyρ/σx
ดังนั้นสมการของเส้นการถดถอยคือ
y=σyρσx(x−μx)+μy.
- ความแปรปรวนตามเงื่อนไขของคือความแปรปรวนตามเงื่อนไขของโดยที่มีการแจกแจงแบบมาตรฐาน (สมมาตรแบบวงกลมที่มีหน่วยแปรผันทั้งคู่ พิกัด)และY'Y|Xσ2y(1−ρ2)Y′|X′(X′,Y′)X′=(X−μX)/σxY′=(Y−μY)/σY
ไม่มีผลลัพธ์เหล่านี้เป็นคุณสมบัติเฉพาะของการแจกแจงปกติแบบไบวาเรีย! สำหรับครอบครัวปกติแบบ bivariate ความแปรปรวนแบบมีเงื่อนไขของนั้นคงที่ (และเท่ากับ ): ความจริงข้อนี้ทำให้ครอบครัวนั้นง่ายต่อการทำงานเป็นพิเศษ โดยเฉพาะอย่างยิ่ง:Y′|X′1
- เพราะในเมทริกซ์ความแปรปรวนร่วมสัมประสิทธิ์คือและความแปรปรวนแบบมีเงื่อนไขของสำหรับการแจกแจงปกติแบบ bivariate คือΣσ11=σ2x, σ12=σ21=ρσxσy,σ22=σ2y,Y|X
σ2y(1−ρ2)=σ22(1−(σ12σ11σ22−−−−−√)2)=σ22−σ212σ11.
หมายเหตุทางเทคนิค
แนวคิดหลักสามารถระบุได้ในรูปของเมทริกซ์ที่อธิบายการแปลงเชิงเส้น มันลงมาเพื่อค้นหา "สแควร์รูท" ที่เหมาะสมของเมทริกซ์สหสัมพันธ์ซึ่งเป็นไอเจนิค ดังนั้น:y
(1ρρ1)=AA′
ที่ไหน
A=(1ρ01−ρ2−−−−−√).
รากที่สองที่รู้จักกันดีคือรากที่อธิบายไว้ในตอนแรก (เกี่ยวข้องกับการหมุนแทนที่จะเป็นการแปลงแบบเอียง); มันเป็นสิ่งที่ผลิตโดยการสลายตัวของค่าเอกพจน์และมีบทบาทสำคัญในการวิเคราะห์องค์ประกอบหลัก (PCA):
(1ρρ1)=BB′;
B=Q(ρ+1−−−−√001−ρ−−−−√)Q′
โดยที่เป็นเมทริกซ์การหมุนสำหรับการหมุนองศาQ=⎛⎝12√12√−12√12√⎞⎠45
ดังนั้นความแตกต่างระหว่าง PCA และการถดถอยจึงแตกต่างกันระหว่างรากที่สองพิเศษของเมทริกซ์สหสัมพันธ์