สัญชาตญาณของการแจกแจงแบบเกาส์ที่มีเงื่อนไขคืออะไร


46

สมมติว่าSigma}) จากนั้นการแจกแจงตามเงื่อนไขของเนื่องจากนั้นมีการกระจายหลายตัวแปรตามปกติด้วยค่าเฉลี่ยXN2(μ,Σ)X1X2=x2

E[P(X1|X2=x2)]=μ1+σ12σ22(x2μ2)

และความแปรปรวน:

Var[P(X1|X2=x2)]=σ11σ122σ22

มันสมเหตุสมผลที่ความแปรปรวนจะลดลงเนื่องจากเรามีข้อมูลเพิ่มเติม แต่สัญชาตญาณที่อยู่เบื้องหลังสูตรหมายถึงอะไร ความแปรปรวนร่วมระหว่างและเป็นปัจจัยที่มีเงื่อนไขอย่างไรX 2X1X2


2
คำถามของคุณเป็นเพียง 'ทำไมการกระจายแบบมีเงื่อนไขไม่ได้ = ' μ1
gung - Reinstate Monica

@gung: นี้เป็นจริงถ้า\ แต่ทำไมและเกี่ยวข้อง x2=μ2σ11σ22
eroeijr

3
ในธรรมชาติ ( "มาตรฐาน") หน่วยที่เราเขียนที่{ii}} ในเงื่อนไขเหล่านี้การแจกแจงแบบมีเงื่อนไขเป็นปกติด้วยและความจริงที่ว่าเรียกว่า "การพลิกกลับหมายถึง" หรือ"การถดถอยของค่าเฉลี่ย" : มีวรรณกรรมทางเทคนิคและเป็นที่นิยมอย่างกว้างขวางเกี่ยวกับเรื่องนี้จะย้อนกลับไป 130 ปี Xi=μ1+σiZiσi=σiiE(Z1|Z2)=ρZ2ρ=σ12/(σ1σ2).|ρ|1
whuber

2
พูดเอะโรเอจว่าโพสต์นี้เป็นของคุณหรือไม่ (นอกเหนือจาก 'แขก' ในตอนเริ่มมีความคล้ายคลึงกันอย่างชัดเจนในชื่อ) หากเป็นของคุณคุณควรขอให้รวมสองบัญชีและรับโบนัสก้อนใหญ่ในคะแนนที่คุณมี
Glen_b

2
ตามที่ @Glen_b แนะนำหากคุณมีหลายบัญชี (ไม่ได้ลงทะเบียน) โปรดกรอกแบบฟอร์มที่stats.stackexchange.com/contactและขอให้มีการรวมเข้าด้วยกัน
chl

คำตอบ:


57

สรุป

ทุกคำในคำถามสามารถเข้าใจได้ว่าเป็นทรัพย์สินของจุดไข่ปลา เพียงสถานที่ให้บริการโดยเฉพาะอย่างยิ่งการกระจายปกติ bivariate ที่จำเป็นต้องมีความจริงที่ว่าในมาตรฐาน bivariate กระจายปกติของ --for ซึ่งและมี uncorrelated - ความแปรปรวนเงื่อนไขของไม่ขึ้นอยู่กับX(นี่จะเป็นผลสืบเนื่องมาจากความจริงที่ว่าการขาดความสัมพันธ์หมายถึงความเป็นอิสระสำหรับตัวแปรปกติร่วมกัน)X Y Y XX,YXYYX

การวิเคราะห์ต่อไปนี้แสดงให้เห็นอย่างแม่นยำว่าทรัพย์สินของจุดไข่ปลามีส่วนเกี่ยวข้องและมาจากสมการทั้งหมดของคำถามโดยใช้แนวคิดพื้นฐานและคณิตศาสตร์ที่ง่ายที่สุดเท่าที่จะเป็นไปได้


การแจกแจงสมมาตรแบบวงกลม

การกระจายของคำถามเป็นสมาชิกของตระกูล bivariate การแจกแจงแบบปกติ พวกเขาทั้งหมดมาจากสมาชิกพื้นฐานคือbivariate Normal ซึ่งจะอธิบายการแจกแจงมาตรฐานสองค่าที่ไม่ได้มีความสัมพันธ์กัน

รูปที่ 1: การแจกแจงแบบปกติไบวาเรียตมาตรฐาน

ด้านซ้ายเป็นพล็อตการผ่อนปรนของค่าความหนาแน่นปกติ bivariate ด้านขวาแสดงแบบเดียวกันในหลอก 3 มิติส่วนหน้าถูกตัดออกไป

นี่คือตัวอย่างของการกระจายแบบสมมาตรแบบวงกลม :ความหนาแน่นแตกต่างกันไปตามระยะทางจากจุดศูนย์กลาง แต่ไม่ได้มีทิศทางห่างจากจุดนั้น ดังนั้นรูปทรงของกราฟ (ทางด้านขวา) จึงเป็นวงกลม

การแจกแจงแบบปกติอื่น ๆ ส่วนใหญ่จะไม่สมมาตรแบบวงกลมอย่างไรก็ตาม: ภาพตัดขวางของพวกมันเป็นรูปไข่ วงรีเหล่านี้สร้างรูปร่างลักษณะของเมฆจุด bivariate จำนวนมาก

รูปที่ 2: การแจกแจงปกติแบบแบ่งสองส่วนแบบอื่น

นี่คือรูปของ bivariate การแจกแจงปกติด้วยเมทริกซ์ความแปรปรวนร่วม มันเป็นรูปแบบสำหรับข้อมูลที่มีค่าสัมประสิทธิ์สหสัมพันธ์-2/3 -2/3Σ=(123231).2/3


วิธีการสร้างรูปไข่

วงรี - ตามคำจำกัดความที่เก่าแก่ที่สุดคือส่วนที่เป็นรูปกรวยซึ่งเป็นวงกลมที่บิดเบี้ยวโดยการฉายภาพลงบนระนาบอื่น โดยพิจารณาจากลักษณะของการฉายเช่นเดียวกับที่ศิลปินทัศนศิลป์ทำเราอาจสลายมันเป็นลำดับการบิดเบือนที่ง่ายต่อการเข้าใจและคำนวณด้วย

ขั้นแรกให้ยืด (หรือถ้าจำเป็นให้บีบ) วงกลมตามแนวที่จะกลายเป็นแกนยาวของวงรีไปจนถึงความยาวที่ถูกต้อง:

ขั้นตอนที่ 1: ยืด

ถัดไปบีบ (หรือยืด) วงรีนี้ไปตามแกนย่อย:

ขั้นตอนที่ 2: บีบ

ประการที่สามหมุนรอบจุดศูนย์กลางเป็นแนวสุดท้าย:

ขั้นตอนที่ 3: หมุน

ในที่สุดเลื่อนไปยังตำแหน่งที่ต้องการ:

ขั้นตอนที่ 4: กะ

นี่คือการแปลงเลียนแบบทั้งหมด (อันที่จริงสามคนแรกคือการแปลงเชิงเส้น ; การเปลี่ยนแปลงครั้งสุดท้ายทำให้มันเลียนแบบ) เพราะองค์ประกอบของการแปลงเลียนแบบคือ (ตามคำนิยาม) ยังคงเลียนแบบการบิดเบือนสุทธิจากวงกลมไปยังวงรีสุดท้ายคือการแปลงเลียนแบบ แต่มันค่อนข้างซับซ้อน:

การแปลงคอมโพสิต

สังเกตุว่าเกิดอะไรขึ้นกับแกน (ธรรมชาติ) ของวงรี:หลังจากที่พวกมันถูกสร้างโดยการกะและการบีบพวกมัน (แน่นอน) จะหมุนและเลื่อนไปตามแกนของมันเอง เราเห็นแกนเหล่านี้ได้อย่างง่ายดายแม้ว่าพวกเขาจะไม่ถูกดึงออกมาเพราะพวกมันเป็นแกนสมมาตรของวงรีนั้น

เราต้องการนำความเข้าใจของเราไปใช้กับการทำความเข้าใจกับการแจกแจงแบบสมมาตรแบบวงกลมที่บิดเบี้ยวเช่นครอบครัวปกติ bivariate น่าเสียดายที่มีปัญหากับการบิดเบือนเหล่านี้ : พวกเขาไม่เคารพความแตกต่างระหว่างแกนและการหมุนในขั้นตอนที่ 3 ซากปรักหักพังนั้น ดูกริดพิกัดจาง ๆ ในพื้นหลัง: สิ่งเหล่านี้แสดงว่าเกิดอะไรขึ้นกับกริด (ของตาข่ายy ที่1 / 2 xxy1/2ทั้งสองทิศทาง) เมื่อบิดเบี้ยว ในภาพแรกระยะห่างระหว่างเส้นแนวตั้งดั้งเดิม (แสดงเป็นเส้นทึบ) จะเพิ่มเป็นสองเท่า ในภาพที่สองระยะห่างระหว่างเส้นแนวนอนดั้งเดิม (แสดงเป็นเส้นประ) จะหดลงหนึ่งในสาม ในภาพที่สามช่องว่างของกริดจะไม่เปลี่ยนแปลง แต่เส้นทั้งหมดจะถูกหมุน พวกมันเลื่อนขึ้นและไปทางขวาในภาพที่สี่ ภาพสุดท้ายที่แสดงผลลัพธ์สุทธิแสดงเส้นตารางที่ยืดขยายหมุนและเลื่อน เส้นทึบดั้งเดิมของพิกัดคงที่ไม่เป็นแนวตั้งอีกต่อไปx

ความคิดที่สำคัญ --one อาจกล้าที่จะบอกว่ามันเป็นปมของการถดถอย - คือว่ามีวิธีที่วงกลมสามารถบิดเบือนเป็นวงรีโดยไม่ต้องหมุนเส้นแนวตั้ง เนื่องจากการหมุนเป็นผู้ร้ายเรามาตัดการไล่ล่าและแสดงวิธีสร้างวงรีที่หมุนแล้วโดยไม่ปรากฏว่าหมุนอะไรเลย !

วงรีเบ้

นี่คือการเปลี่ยนแปลงที่เบ้ จริงๆแล้วมันทำสองสิ่งพร้อมกัน:

  • มันบีบไปในทิศทาง (ตามจำนวนพูด) นี่ทำให้ -axis เพียงอย่างเดียวλ xyλx

  • มันยกจุดส่งผลใด ๆตามจำนวนเงินที่ได้โดยตรงสัดส่วนกับxเขียนอย่างต่อเนื่องของสัดส่วนที่เป็นนี้ส่งจะx)x ρ ( x , y ) ( x , y + ρ x )(x,y)xρ(x,y)(x,y+ρx)

ขั้นตอนที่สองยก -axis ลงในบรรทัดดังแสดงในรูปก่อนหน้า ดังที่แสดงไว้ในรูปภาพนั้นฉันต้องการทำงานกับการแปลงแบบเบ้พิเศษอันหนึ่งซึ่งหมุนวงรีได้อย่างมีประสิทธิภาพ 45 องศาและจารึกมันลงในหน่วยสี่เหลี่ยม แกนหลักของวงรีนี้เป็นสาย x เห็นได้ชัดว่า1 (ค่าลบของเอียงวงรีลงไปทางขวามากกว่าขึ้นไปทางขวา) นี่คือคำอธิบายทางเรขาคณิตของ "การถดถอยของค่าเฉลี่ย"y = ρ x y = x | ρ | 1 ρxy=ρxy=x|ρ|1ρ

การเลือกมุม 45 องศาทำให้วงรีสมมาตรรอบ ๆ เส้นทแยงมุมของสี่เหลี่ยมจัตุรัส (ส่วนหนึ่งของเส้น ) ในการหาพารามิเตอร์ของการแปลงแบบเอียงนี้ให้สังเกต:y=x

  • ยกโดยย้ายจุดเพื่อโร)ρx(1,0)(1,ρ)

  • ความสมมาตรรอบ ๆ เส้นทแยงมุมหลักนั้นจะบอกถึงจุดอยู่บนวงรี(ρ,1)

จุดนี้เริ่มต้นที่ไหน

  • เดิม (ด้านบน) จุดบนยูนิทวงกลม (มีสมนัย ) กับประสานงานเป็น2})x2+y2=1xρ(ρ,1ρ2)

  • จุดใด ๆ ของรูปแบบครั้งแรกที่ได้ไปบีบและจากนั้นยกโร)(ρ,y)(ρ,λy)(ρ,λy+ρ×ρ)

วิธีการแก้ปัญหาที่ไม่ซ้ำกับสมการเป็น2} นั่นคือปริมาณโดยที่ระยะทางทั้งหมดในทิศทางแนวตั้งจะต้องบีบเพื่อสร้างวงรีที่มุม 45 องศาเมื่อมันเอียงแนวตั้ง\(ρ,λ1ρ2+ρ2)=(ρ,1)λ=1ρ2ρ

เพื่อกระชับความคิดเหล่านี้นี่คือฉากที่แสดงให้เห็นว่าการแจกแจงแบบสมมาตรแบบวงกลมนั้นบิดเบี้ยวไปสู่การกระจายด้วยรูปทรงวงรีโดยใช้วิธีการแปลงแบบเอียงเหล่านี้ พาเนลแสดงค่าของเท่ากับและจากซ้ายไปขวาρ0, 3/10, 6/10,9/10,

ฉาก

รูปด้านซ้ายสุดแสดงชุดของจุดเริ่มต้นรอบหนึ่งในวงกลมรูปทรงและส่วนหนึ่งของแกนนอน ตัวเลขที่ตามมาใช้ลูกศรเพื่อแสดงวิธีการย้ายจุดเหล่านั้น รูปภาพของแกนนอนปรากฏเป็นส่วนของเส้นเอียง (มีความชัน ) (สีเป็นตัวแทนของความหนาแน่นที่แตกต่างกันในรูปแบบที่แตกต่างกัน)ρ


ใบสมัคร

เราพร้อมที่จะทำการถดถอย วิธีมาตรฐานที่หรูหรา (แต่ใช้งานง่าย) เพื่อทำการถดถอยเป็นสิ่งแรกที่แสดงถึงตัวแปรดั้งเดิมในหน่วยการวัดใหม่: เราจัดวางไว้ที่ค่าเฉลี่ยของพวกเขาและใช้การเบี่ยงเบนมาตรฐานเป็นหน่วย นี่จะย้ายจุดศูนย์กลางของการกระจายไปยังจุดกำเนิดและทำให้รูปทรงวงรีเอียง 45 องศา (ขึ้นหรือลง)

เมื่อข้อมูลที่ได้มาตรฐานเหล่านี้ก่อตัวเป็นคลาวด์พอยน์การถดถอยนั้นง่าย: หมายความว่าเงื่อนไขบนคือทั้งหมดซึ่งก่อให้เกิดเส้นที่ผ่านจุดกำเนิด (สมมาตรแบบวงกลมหมายถึงสมมาตรด้วยความเคารพต่อแกนแสดงให้เห็นว่าการแจกแจงแบบมีเงื่อนไขทั้งหมดเป็นแบบสมมาตรดังนั้นพวกเขาจึงมีวิธี) ดังที่เราได้เห็นแล้วเราอาจดูการกระจายแบบมาตรฐานที่เกิดขึ้นจากสถานการณ์ง่าย ๆ พื้นฐานนี้ , ค่าทั้งหมด (มาตรฐาน) จะถูกคูณด้วยสำหรับค่าของ ; ถัดไปค่าทั้งหมดที่มี -coordinates จะเอียงตามแนวตั้งโดยx0x0y1ρ2ρxρx. การบิดเบือนเหล่านี้ทำอะไรกับเส้นการถดถอย (ซึ่งพล็อตความหมายตามเงื่อนไขกับ )x

  • การหดตัวของพิกัดคูณความเบี่ยงเบนแนวดิ่งทั้งหมดด้วยค่าคงที่ นี้เป็นเพียงการเปลี่ยนแปลงขนาดในแนวตั้งและด้านซ้ายหมายถึงเงื่อนไขทั้งหมดไม่เปลี่ยนแปลงที่0y0

  • การแปลงเอียงแนวตั้งเพิ่มให้กับค่าเงื่อนไขทั้งหมดที่ดังนั้นการเพิ่มให้กับค่าเฉลี่ยที่มีเงื่อนไขของพวกเขา: เส้นโค้งคือเส้นโค้งการถดถอยซึ่งกลายเป็นเส้นตรงρxxρxy=ρx

ในทำนองเดียวกันเราอาจตรวจสอบว่าเนื่องจาก -axis เป็นสี่เหลี่ยมจัตุรัสที่เล็กที่สุดที่เหมาะสมกับการแจกแจงแบบสมมาตรแบบวงกลมสี่เหลี่ยมที่น้อยที่สุดที่เหมาะกับการแจกแจงแบบเปลี่ยนรูปก็คือเส้น : เส้นสี่เหลี่ยมกำลังสองน้อยที่สุด .xy=ρx

ผลลัพธ์ที่สวยงามเหล่านี้เป็นผลมาจากความจริงที่ว่าการแปลงความเอียงในแนวตั้งไม่เปลี่ยนพิกัดใด ๆx

เราสามารถพูดเพิ่มเติมได้อย่างง่ายดาย:

  • สัญลักษณ์แสดงหัวข้อย่อยแรก (เกี่ยวกับการย่อขนาด) แสดงให้เห็นว่าเมื่อมีการแจกแจงแบบสมมาตรแบบวงกลมความแปรปรวนแบบมีเงื่อนไขของถูกคูณด้วย 2(X,Y)Y|X(1ρ2)2=1ρ2

  • โดยทั่วไป: การเปลี่ยนแปลงเอียงแนวตั้ง rescales แต่ละเงื่อนไขการจำหน่ายโดยแล้ว recenters ได้โดยx1ρ2ρx

สำหรับ bivariate กระจายปกติมาตรฐานความแปรปรวนเงื่อนไขเป็นค่าคงที่ (เท่ากับ ) อิสระของxทันทีที่เราสรุปได้ว่าหลังจากที่ใช้นี้การเปลี่ยนแปลงลาดแปรปรวนเงื่อนไขของการเบี่ยงเบนในแนวตั้งก็ยังคงเป็นอย่างต่อเนื่องและเท่ากับ 2 เนื่องจากการแจกแจงแบบมีเงื่อนไขของตัวแปร bivariate เป็นปกติแล้วตอนนี้เรารู้วิธีการและความแปรปรวนของพวกเขาแล้วเราจึงมีข้อมูลทั้งหมดเกี่ยวกับพวกมัน1x1ρ2

สุดท้ายเราต้องเกี่ยวข้องเมทริกซ์ความแปรปรวนเดิม\ρΣ สำหรับเรื่องนี้จำได้ว่า (ที่อร่อยที่สุด) ความหมายของค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างสองมาตรฐานตัวแปรและคือความคาดหวังของผลิตภัณฑ์ของตนXY(ความสัมพันธ์ของและถูกประกาศอย่างง่าย ๆ ว่าเป็นสหสัมพันธ์ของรุ่นมาตรฐาน) ดังนั้นเมื่อติดตามการกระจายสมมาตรแบบวงกลมใด ๆและเราใช้การแปลงแบบเบ้กับตัวแปรเราอาจเขียนXYXYXY(X,Y)

ε=YρX

สำหรับการเบี่ยงเบนในแนวดิ่งจากสายการถดถอยและแจ้งให้ทราบว่าต้องมีการกระจายสมมาตรรอบ0ทำไม? เพราะก่อนการเปลี่ยนแปลงลาดถูกนำมาใช้,มีการกระจายสมมาตรรอบและจากนั้นเรา (ก) บีบมันและ (ข) ยกได้โดยX อดีตไม่ได้เปลี่ยนความสมมาตรในขณะที่คนใหม่กลับมาที่ , QED รูปถัดไปแสดงสิ่งนี้ε0Y0ρXρX

พล็อต 3 มิติแสดงการแจกแจงแบบมีเงื่อนไขและบรรทัดกำลังสองน้อยที่สุด

เส้นสีดำออกติดตามความสูงสัดส่วนกับความหนาแน่นเงื่อนไขที่ค่าสม่ำเสมอเว้นระยะต่างๆของxเส้นสีขาวหนาคือเส้นถดถอยซึ่งผ่านจุดกึ่งกลางของสมมาตรของแต่ละเส้นโค้งตามเงื่อนไข พล็อตนี้แสดงเคสในพิกัดมาตรฐานxρ=1/2

ดังนั้น

E(XY)=E(X(ρX+ε))=ρE(X2)+E(Xε)=ρ(1)+0=ρ.

ความเท่าเทียมกันสุดท้ายเกิดจากข้อเท็จจริงสองประการ: (1) เนื่องจากได้รับมาตรฐานความคาดหวังของสี่เหลี่ยมจัตุรัสคือความแปรปรวนมาตรฐานของมันเท่ากับโดยการก่อสร้าง และ (2) ความคาดหวังของเท่ากับความคาดหวังของโดยอาศัยอำนาจตามความสมมาตรของ\เนื่องจากหลังเป็นลบของอดีตทั้งคู่จะต้องเท่ากับ : เทอมนี้ลดลงX1XεX(ε)ε0

เราได้ระบุพารามิเตอร์ของการแปลงเอียง, , ในฐานะที่เป็นค่าสัมประสิทธิ์สหสัมพันธ์ของและYρXY


สรุปผลการวิจัย

โดยการสังเกตว่าวงรีใด ๆ อาจเกิดขึ้นได้โดยการบิดเบือนวงกลมที่มีการแปรเอียงแบบแนวตั้งที่รักษาพิกัดเราได้มาถึงความเข้าใจในรูปทรงของการกระจายของตัวแปรสุ่มที่ได้จากสมมาตรแบบวงกลม อย่างใดอย่างหนึ่งโดยการเหยียดบีบผลัดและกะ (นั่นคือการแปลงเลียนแบบใด ๆ ) ด้วยการแสดงผลลัพธ์ในแง่ของหน่วยดั้งเดิมของและซึ่งจะเพิ่มจำนวนวิธีและหลังจากคูณด้วยค่าเบี่ยงเบนมาตรฐานและ - เราพบว่า:x(X,Y)xyμxμyσxσy

  • เส้นอย่างน้อยกำลังสองและเส้นโค้งการถดถอยทั้งคู่ผ่านจุดกำเนิดของตัวแปรมาตรฐานซึ่งสอดคล้องกับ "จุดเฉลี่ย"ในพิกัดดั้งเดิม(μx,μy)

  • เส้นโค้งการถดถอยซึ่งถูกกำหนดให้เป็นโลคัสของเงื่อนไขแบบมีเงื่อนไข เกิดขึ้นพร้อมกับบรรทัดกำลังสองน้อยที่สุด{(x,ρx)},

  • ความชันของเส้นถดถอยในพิกัดมาตรฐานคือสัมประสิทธิ์สหสัมพันธ์ ; ในหน่วยเดิมจึงเท่ากับ\ρσyρ/σx

ดังนั้นสมการของเส้นการถดถอยคือ

y=σyρσx(xμx)+μy.
  • ความแปรปรวนตามเงื่อนไขของคือความแปรปรวนตามเงื่อนไขของโดยที่มีการแจกแจงแบบมาตรฐาน (สมมาตรแบบวงกลมที่มีหน่วยแปรผันทั้งคู่ พิกัด)และY'Y|Xσy2(1ρ2)Y|X(X,Y)X=(XμX)/σxY=(YμY)/σY

ไม่มีผลลัพธ์เหล่านี้เป็นคุณสมบัติเฉพาะของการแจกแจงปกติแบบไบวาเรีย! สำหรับครอบครัวปกติแบบ bivariate ความแปรปรวนแบบมีเงื่อนไขของนั้นคงที่ (และเท่ากับ ): ความจริงข้อนี้ทำให้ครอบครัวนั้นง่ายต่อการทำงานเป็นพิเศษ โดยเฉพาะอย่างยิ่ง:Y|X1

  • เพราะในเมทริกซ์ความแปรปรวนร่วมสัมประสิทธิ์คือและความแปรปรวนแบบมีเงื่อนไขของสำหรับการแจกแจงปกติแบบ bivariate คือΣσ11=σx2, σ12=σ21=ρσxσy,σ22=σy2,Y|X

σy2(1ρ2)=σ22(1(σ12σ11σ22)2)=σ22σ122σ11.

หมายเหตุทางเทคนิค

แนวคิดหลักสามารถระบุได้ในรูปของเมทริกซ์ที่อธิบายการแปลงเชิงเส้น มันลงมาเพื่อค้นหา "สแควร์รูท" ที่เหมาะสมของเมทริกซ์สหสัมพันธ์ซึ่งเป็นไอเจนิค ดังนั้น:y

(1ρρ1)=AA

ที่ไหน

A=(10ρ1ρ2).

รากที่สองที่รู้จักกันดีคือรากที่อธิบายไว้ในตอนแรก (เกี่ยวข้องกับการหมุนแทนที่จะเป็นการแปลงแบบเอียง); มันเป็นสิ่งที่ผลิตโดยการสลายตัวของค่าเอกพจน์และมีบทบาทสำคัญในการวิเคราะห์องค์ประกอบหลัก (PCA):

(1ρρ1)=BB;

B=Q(ρ+1001ρ)Q

โดยที่เป็นเมทริกซ์การหมุนสำหรับการหมุนองศาQ=(12121212)45

ดังนั้นความแตกต่างระหว่าง PCA และการถดถอยจึงแตกต่างกันระหว่างรากที่สองพิเศษของเมทริกซ์สหสัมพันธ์


1
ภาพที่สวยงามและคำอธิบายที่ดี มีประโยคอยู่สองสามประโยคในการอัปเดตที่ไม่สมบูรณ์ (เช่นคุณรู้ได้อย่างชัดเจนว่าคุณกำลังจะพูดอะไร แต่ไม่ได้ตัดสินตามถ้อยคำสุดท้าย)
พระคาร์ดินัล

1
@ คาร์ดินัลขอบคุณ ฉันจะอ่านมันอีกครั้งและมองหาสิ่งต่าง ๆ เช่นเดียวกับความผิดพลาดที่หลีกเลี่ยงไม่ได้ คุณใจดีเกินกว่าที่จะชี้ให้เห็นสิ่งอื่น ๆ ที่คุณสังเกตเห็นได้อย่างแน่นอนเช่นช่องว่างบางอย่างในงานนิทรรศการ ที่ใหญ่ที่สุดคือฉันไม่ได้แสดงให้เห็นจริง ๆ ว่าจุดไข่ปลาเหล่านี้อยู่ที่มุม 45 องศา (เทียบเท่าที่ถูกจารึกไว้ในตารางหน่วย) ฉันคิดเอาเองว่า ฉันยังคงมองหาการสาธิตอย่างง่าย อีกอย่างหนึ่งคือเราอาจกังวลว่าการเปลี่ยนแปลงแบบเบ้อาจทำให้เกิดการกระจายตัวที่แตกต่างไปจากเดิมการยืด - หมุน - หมุน - กะ - แต่มันง่ายที่จะแสดงว่ามันไม่ได้
whuber

3
นั่นเป็นเรื่องที่น่าสนใจจริงๆ ขอบคุณที่สละเวลาเขียนมันขึ้นมา
Bill

ในแอปพลิเคชันย่อหน้าที่ 1 นั้นเขียนว่า: "เรารวมแอปไว้ที่ค่าเฉลี่ยและใช้การเบี่ยงเบนมาตรฐานเป็นหน่วยซึ่งจะย้ายจุดศูนย์กลางของการกระจายไปยังจุดกำเนิดและทำให้รูปวงรีเอียง 45 องศา" แต่ฉันไม่ ไม่เข้าใจว่าการจัดกึ่งกลางของตัวแปรตามค่าเฉลี่ยของพวกมันจะย้ายจุดศูนย์กลางของพวกมันไปที่จุดกำเนิดและจัดแนวพวกมันให้อยู่ในระดับ 45 องศาได้อย่างไร?
Kaushal28

@whuber เมื่อคุณเริ่มต้นด้วยหน่วยวงกลม (ชุดตัวอย่างมาตรฐาน) คุณบอกว่าความสัมพันธ์คือ 0 ดังนั้นฉันจินตนาการว่าเราได้วงกลมหนึ่งอย่างเช่น2)}} แต่ความสัมพันธ์ 0 หมายถึงความเป็นอิสระได้อย่างไร (เพราะได้มาจากตามที่เราเห็นมันมักจะไม่ถูกต้องจริงหรือแม้แต่ตัวแปรตามสามารถสร้าง 0 สหสัมพันธ์ได้f(X,Y)=e12(x2+y2)f(X,Y)f(X)f(Y)
Parthiban Rajendran

21

นี่คือการถดถอยเชิงเส้น (OLS) ในกรณีที่คุณกำลังมองหาการกระจายตามเงื่อนไขของให้ที่X(พูดอย่างเคร่งครัดการถดถอย OLS ไม่ได้ตั้งสมมติฐานเกี่ยวกับการแจกแจงของในขณะที่ตัวอย่างของคุณเป็นแบบหลายตัวแปรปกติ แต่เราจะเพิกเฉยต่อสิ่งเหล่านี้) ตอนนี้ถ้าความแปรปรวนร่วมระหว่างและไม่ใช่แล้วค่าเฉลี่ยของการกระจายแบบมีเงื่อนไขของจะต้องเปลี่ยนเมื่อคุณเปลี่ยนค่าของซึ่งคุณจะ 'แบ่งส่วน' การกระจายหลายตัวแปร พิจารณารูปด้านล่าง: YX=xiXX1X20X2x1

ป้อนคำอธิบายรูปภาพที่นี่

ที่นี่เราจะเห็นว่าการกระจายร่อแร่มีทั้งที่ปกติมีความสัมพันธ์เชิงบวกระหว่างและX_2หากคุณดูการกระจายแบบมีเงื่อนไขของณ จุดใดก็ได้บนการแจกแจงนั้นเป็นค่าปกติที่ไม่แปรเปลี่ยน อย่างไรก็ตามเนื่องจากความสัมพันธ์เชิงบวก (เช่นความแปรปรวนที่ไม่ใช่ศูนย์) ค่าเฉลี่ยของการแจกแจงแบบมีเงื่อนไขจะเลื่อนขึ้นเมื่อคุณเลื่อนจากซ้ายไปขวา ยกตัวอย่างเช่นการแสดงตัวเลขที่45} X1X2X2X1μX2|X1=25μX2|X1=45

( สำหรับผู้อ่านในอนาคตที่อาจสับสนกับสัญลักษณ์ฉันต้องการระบุว่าเป็นองค์ประกอบของเมทริกซ์ความแปรปรวนร่วมดังนั้นมันจึงเป็นความแปรปรวนของแม้ว่าคนทั่วไปจะ คิดว่าความแปรปรวนเป็นและเป็นส่วนเบี่ยงเบนมาตรฐานσ22ΣX2σ2σ )

สมการของคุณสำหรับค่าเฉลี่ยนั้นเชื่อมโยงโดยตรงกับสมการสำหรับการประเมินความชันใน OLS regression (และจำไว้ว่าใน regressionเป็นค่าเฉลี่ยตามเงื่อนไข): ในสมการของคุณคือความแปรปรวนร่วมกับความแปรปรวน นั่นคือมันเป็นความชันเช่นเดียวกับข้างบน ดังนั้นสมการสำหรับค่าเฉลี่ยของคุณก็แค่เลื่อนค่าเฉลี่ยตามเงื่อนไขของคุณขึ้นหรือลงจากค่าเฉลี่ยที่ไม่มีเงื่อนไขขึ้นอยู่กับว่าอยู่ห่างจากและความลาดเอียงของความสัมพันธ์ระหว่างและX_2 y^i

β^1=Cov(x,y)Var(x)
σ12/σ22μX2|X1=xiμX2μX2 x2iX1X2

จะเกิดอะไรขึ้นถ้าคุณมีเงื่อนไขกับตัวแปรเพิ่มเติม คุณจะเพิ่มและลบคำศัพท์พิเศษจากค่าเฉลี่ยและความแปรปรวนหรือไม่

2
@kerkejnrke ถ้าคุณจำลองการกระจายของมีเงื่อนไขในระดับที่เฉพาะเจาะจงของชุดของตัวแปรคุณกำลังทำการถดถอยหลายครั้ง มันซับซ้อนกว่านี้เล็กน้อย แต่ในที่สุดก็เหมือนกัน ค่าเฉลี่ยจะเป็น:ที่X YXy^i=Xiβ^β^=(XTX)1XTY
gung - Reinstate Monica

คุณใช้อะไรในการสร้างกราฟ Mathematica?
mpiktas

@mpiktas กราฟหรือ whuber ของฉันหรือไม่ ฉันเชื่อว่าเขาเป็น Mathematica แต่ฉันได้สร้างสิ่งที่เหนือกว่าด้วยรหัส (น่าเกลียดแม้ว่า ... )
gung - Reinstate Monica

1
@mpiktas ฉันไม่สามารถจินตนาการรหัสของฉันควรจะเคยได้รับการอธิบายว่า "น่ากลัว" ... เส้นโค้งปกติจะมีการวาด w dnorm(y)/ ฉันเพียงแค่เพิ่มออกไป25และและใช้เป็น45 x
gung - Reinstate Monica

3

คำตอบของ Gung นั้นดี (+1) แม้ว่าจะมีวิธีอื่นในการมองมัน ลองจินตนาการว่าค่าความแปรปรวนร่วมระหว่างและนั้นเป็นค่าบวก หมายความว่าอย่างไร ดีก็หมายความว่าเมื่ออยู่เหนือ 's เฉลี่ยมีแนวโน้มที่จะอยู่เหนือ ' s เฉลี่ยและในทางกลับกันX1X2σ1,2>0X2X2X1X1

ตอนนี้คิดว่าฉันบอกคุณว่าX_2นั่นคือสมมติว่าฉันบอกคุณว่าสูงกว่าค่าเฉลี่ย คุณจะไม่สรุปว่ามีแนวโน้มสูงกว่าค่าเฉลี่ย (เนื่องจากคุณรู้และคุณรู้ว่าความแปรปรวนร่วมหมายถึงอะไร) ดังนั้นตอนนี้ถ้าคุณใช้ค่าเฉลี่ยของโดยรู้ว่าสูงกว่าค่าเฉลี่ยของคุณจะได้จำนวนเหนือค่าเฉลี่ยของนั่นคือสูตรที่บอกว่า: ถ้าความแปรปรวนร่วมเป็นบวกและX2=x2>μ2X2X1σ1,2>0X1X2X2X1

E{X1|X2=x2}=μ1+σ1,2σ2,2(x2μ2)
X2สูงกว่าค่าเฉลี่ยแล้ว\ E{X1|X2=x2}>μ1

การคาดการณ์ตามเงื่อนไขใช้แบบฟอร์มด้านบนสำหรับการแจกแจงแบบปกติไม่ใช่สำหรับการแจกแจงทั้งหมด ดูเหมือนจะแปลกเล็กน้อยเนื่องจากเหตุผลในย่อหน้าข้างต้นนั้นดูน่าสนใจทีเดียว อย่างไรก็ตาม (เกือบ) ไม่ว่าการแจกแจงของและสูตรนี้ถูกต้อง: โดยที่หมายถึงตัวทำนายเชิงเส้นที่ดีที่สุด การแจกแจงแบบปกตินั้นพิเศษในการคาดการณ์แบบมีเงื่อนไขและตัวทำนายเชิงเส้นตรงที่ดีที่สุดคือสิ่งเดียวกันX1X2

BLP{X1|X2=x2}=μ1+σ1,2σ2,2(x2μ2)
BLP

มีไม่ดูเหมือนจะเป็นองค์ประกอบใด ๆ ของเรื่องนี้ที่จริงแสดงให้เห็นว่าค่าสัมประสิทธิ์ของควรจะเท่ากับอัตราส่วนของ covariances ที่{22} ทำไมไม่ลูกบาศก์ของอัตราส่วนนั้น? หรือว่ามันเป็นไซน์ หรือมาตรการอื่น ๆ ในการเชื่อมโยงเช่น KL divergence (ซึ่งมีส่วนเกี่ยวข้องกับความแปรปรวนร่วมน้อยมาก)? สูตรดังกล่าวจะทำให้เกิดพฤติกรรมที่คุณอธิบายในเชิงคุณภาพ ด้วยความคลุมเครือดังกล่าวในการให้เหตุผลจึงไม่น่าแปลกใจเลยที่สูตรของคุณจะใช้กับการแจกแจงไบวารีรูปแบบเฉพาะและไม่ใช่การแจกแจงใด ๆ σ 12 / σ 22x2μ2σ12/σ22
whuber

1
@whuber ใช่และมันยิ่งแย่ไปกว่านั้น มันไม่ใช่เรื่องยากโดยเฉพาะที่จะปรุงตัวอย่างด้วยการแจกแจงแบบไม่ปกติโดยที่ค่าของ ,แม้ว่า 0 ส่วน "แนวโน้มที่จะ" และ "น่าจะเป็น" ของการสนทนาของฉันนั้นเฉอะแฉะ บางทีหนึ่งอาจนำไปสู่ด้วยสูตร BLP (อาจได้มาหรือไม่) แต่คำถามถามสัญชาตญาณมากกว่าการพิสูจน์ E( X 1 | X 2 = x 2 )< μ 1 σ 1 , 2 >0x2>μ2E(X1|X2=x2)<μ1σ1,2>0
Bill

1
"ใช้งานง่าย" ไม่ได้แปลว่า "ไม่ใช่เชิงปริมาณ": ทั้งสองสามารถทำงานร่วมกันได้ มันมักจะยากที่จะหาข้อโต้แย้งที่ใช้งานง่ายที่ให้ผลลัพธ์เชิงปริมาณ แต่บ่อยครั้งที่มันสามารถทำได้และกระบวนการในการหาข้อโต้แย้งดังกล่าวมักจะส่องสว่างอยู่เสมอ
whuber

เรื่องย่อหน้าสุดท้าย: ฉันได้พบว่าการแจกแจงแบบปกตินั้นไม่พิเศษ: ครอบครัวที่สร้างโดยการแปลงเลียนแบบของการแจกแจงแบบสมมาตรแบบวงกลมนั้นเป็นแบบพิเศษ (ซึ่งมีจำนวนมาก)
whuber

@whuber นั่นน่าสนใจทีเดียว คุณมีลิงค์หรืออ้างอิง?
Bill
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.