เพียร์สันสหสัมพันธ์ของชุดข้อมูลที่มีค่าเบี่ยงเบนมาตรฐานอาจเป็นศูนย์หรือไม่


12

ฉันมีปัญหาในการคำนวณสัมประสิทธิ์สหสัมพันธ์ของชุดข้อมูลที่มีค่าเบี่ยงเบนมาตรฐานอาจเป็นศูนย์ (เช่นข้อมูลทั้งหมดมีค่าเท่ากัน)

สมมติว่าฉันมีชุดข้อมูลสองชุดต่อไปนี้:

float x[] = {2, 2, 2, 3, 2};
float y[] = {2, 2, 2, 2, 2};

สัมประสิทธิ์สหสัมพันธ์ "r" จะถูกคำนวณโดยใช้สมการต่อไปนี้:

float r = covariance(x, y) / (std_dev(x) * std_dev(y));

อย่างไรก็ตามเนื่องจากข้อมูลทั้งหมดในชุดข้อมูล "y" มีค่าเท่ากันค่าเบี่ยงเบนมาตรฐาน std_dev (y) จะเป็นศูนย์และ "r" จะไม่ถูกกำหนด

มีวิธีแก้ไขปัญหานี้หรือไม่? หรือฉันควรใช้วิธีอื่นในการวัดความสัมพันธ์ของข้อมูลในกรณีนี้?


ไม่มี "ความสัมพันธ์ของข้อมูล" ในตัวอย่างนี้เนื่องจาก y ไม่ได้เปลี่ยนแปลง การกำหนดค่าตัวเลขใด ๆให้แก่rจะเป็นความผิดพลาด
whuber

1
@whuber - มันเป็นความจริงที่จะไม่ได้กำหนด แต่ไม่จำเป็นว่า "จริง" ไม่ทราบความสัมพันธ์ไม่สามารถประมาณ เพียงแค่ต้องใช้สิ่งที่แตกต่างเพื่อประเมิน ρrρ
ความน่าจะเป็นทาง

@ ความน่าจะเป็นคุณคาดการณ์ว่านี่เป็นปัญหาของการประมาณค่าและไม่ใช่เพียงลักษณะอย่างใดอย่างหนึ่ง แต่ยอมรับว่าคุณจะเสนอตัวประมาณอะไรในตัวอย่าง ไม่มีคำตอบที่ถูกต้องในระดับสากลเนื่องจากขึ้นอยู่กับการใช้ตัวประมาณ (ฟังก์ชั่นการสูญเสียที่มีผล) ในหลายแอปพลิเคชันเช่น PCA ดูเหมือนว่าการใช้โพรซีเดอร์ใด ๆที่กำหนดค่าให้กับอาจแย่กว่าขั้นตอนอื่นที่รับรู้ไม่ได้ ρρρ
whuber

1
@whuber - การประเมินเป็นตัวเลือกคำที่ไม่ดีสำหรับฉัน (คุณอาจสังเกตเห็นว่าฉันไม่ใช่ wordmith ที่ดีที่สุด) สิ่งที่ฉันหมายถึงคือแม้ว่าอาจไม่ได้รับการระบุอย่างไม่ซ้ำใครนี่ไม่ได้หมายความว่าข้อมูลนั้นไร้ประโยชน์ บอกเราเกี่ยวกับ\คำตอบของฉันให้การสาธิต (น่าเกลียด) จากมุมมองเกี่ยวกับพีชคณิต ρρρ
ความน่าจะเป็นทาง

@ ความเป็นไปได้ดูเหมือนว่าการวิเคราะห์ของคุณจะขัดแย้งกัน: ถ้าแน่นอน y ถูกจำลองด้วยการแจกแจงแบบปกติแล้วตัวอย่างของการแสดงห้าของแบบจำลอง 2 นี้ไม่เหมาะสม ท้ายที่สุดคุณจะไม่ได้อะไรเลย: ผลลัพธ์ของคุณขึ้นอยู่กับสมมติฐานที่ทำไว้กับนักบวช ปัญหาดั้งเดิมในการระบุยังคงอยู่ที่นั่น แต่ถูกซ่อนไว้โดยสมมติฐานเพิ่มเติมทั้งหมดเหล่านี้ นั่นดูเหมือนว่า IMHO จะปิดบังปัญหามากกว่าที่จะอธิบายให้ชัดเจน ρ
whuber

คำตอบ:


9

คน "ทฤษฎีการสุ่มตัวอย่าง" จะบอกคุณว่าไม่มีการประมาณการดังกล่าว แต่คุณสามารถรับได้คุณเพียงแค่ต้องมีเหตุผลเกี่ยวกับข้อมูลก่อนหน้าของคุณและทำงานทางคณิตศาสตร์ให้หนักขึ้น

หากคุณระบุวิธีการประมาณแบบเบย์และส่วนหลังเหมือนกับก่อนหน้านี้คุณสามารถพูดได้ว่าข้อมูลไม่พูดอะไรเกี่ยวกับพารามิเตอร์ เนื่องจากสิ่งต่าง ๆ อาจได้รับ "เอกพจน์" กับเราดังนั้นเราจึงไม่สามารถใช้พื้นที่พารามิเตอร์ที่ไม่มีที่สิ้นสุด ฉันสมมติว่าเพราะคุณใช้ความสัมพันธ์แบบเพียร์สันคุณมีความเป็นไปได้ที่จะเกิดภาวะปกติ:

Qi=(xi-μx)2

p(D|μx,μy,σx,σy,ρ)=(σxσy2π(1ρ2))Nexp(iQi2(1ρ2))
โดยที่
Qi=(xiμx)2σx2+(yiμy)2σy22ρ(xiμx)(yiμy)σxσy

ตอนนี้เพื่อระบุว่าชุดข้อมูลหนึ่งอาจเป็นค่าเดียวกันเขียนจากนั้นเราจะได้รับ:yi=y

iQi=N[(yμy)2σy2+sx2+(x¯μx)2σx22ρ(x¯μx)(yμy)σxσy]
โดยที่
sx2=1Ni(xix¯)2

และเพื่อให้โอกาสคุณขึ้นอยู่กับตัวเลขสี่ N ดังนั้นคุณจึงต้องการการประมาณการของดังนั้นคุณจำเป็นต้องคูณด้วยก่อนและบูรณาการออกพารามิเตอร์รำคาญ\ตอนนี้เพื่อเตรียมพร้อมสำหรับการรวมเรา "ทำตาราง" sx2,y,x¯,Nρμx,μy,σx,σy

iQi1ρ2=N[(μy[y(x¯μx)ρσyσx])2σy2(1ρ2)+sx2σx2(1ρ2)+(x¯μx)2σx2]

ตอนนี้เราควรทำผิดในด้านของความระมัดระวังและให้แน่ใจว่าความน่าจะเป็นปกติอย่างถูกต้อง ด้วยวิธีนี้เราไม่สามารถมีปัญหา ตัวเลือกหนึ่งดังกล่าวคือการใช้ข้อมูลที่ไม่รัดกุมก่อนซึ่งเพียงวางข้อ จำกัด ในช่วงของแต่ละ ดังนั้นเราจึงมีสำหรับความหมายของ flat ก่อนหน้าและสำหรับส่วนเบี่ยงเบนมาตรฐานที่มี jeffreys ก่อน. ข้อ จำกัด เหล่านี้ง่ายต่อการตั้งค่าด้วย "สามัญสำนึก" เล็กน้อยที่คิดเกี่ยวกับปัญหา ฉันจะไม่ได้รับการระบุล่วงหน้าสำหรับและดังนั้นเราจึงได้รับ (ชุดควรจะใช้ได้ถ้าไม่ตัดส่วนที่เป็นเอกเทศที่ ):Lμ<μx,μy<UμLσ<σx,σy<Uσρ±1

p(ρ,μx,μy,σx,σy)=p(ρ)Aσxσy

ไหน{2} สิ่งนี้ให้หลังของ:A=2(UμLμ)2[log(Uσ)log(Lσ)]2

p(ρ|D)=p(ρ,μx,μy,σx,σy)p(D|μx,μy,σx,σy,ρ)dμydμxdσxdσy

=p(ρ)A[2π(1ρ2)]N2LσUσLσUσ(σxσy)N1exp(Nsx22σx2(1ρ2))×
LμUμexp(N(x¯μx)22σx2)LμUμexp(N(μy[y(x¯μx)ρσyσx])22σy2(1ρ2))dμydμxdσxdσy

ตอนนี้การรวมกันครั้งแรกของสามารถทำได้โดยการเปลี่ยนตัวแปรและอินทิกรัลแรกเหนือกลายเป็น:μyz=Nμy[y(x¯μx)ρσyσx]σy1ρ2dz=Nσy1ρ2dμyμy

σy2π(1ρ2)N[Φ(Uμ[y(x¯μx)ρσyσx]σyN1ρ2)Φ(Lμ[y(x¯μx)ρσyσx]σyN1ρ2)]

และคุณสามารถเห็นได้จากที่นี่ไม่มีวิธีการวิเคราะห์ที่เป็นไปได้ อย่างไรก็ตามมันก็คุ้มค่าที่จะต้องทราบว่าค่าไม่ได้หลุดออกจากสมการ ซึ่งหมายความว่าข้อมูลและข้อมูลก่อนหน้านี้ยังมีสิ่งที่จะพูดเกี่ยวกับความสัมพันธ์ที่แท้จริง ถ้าข้อมูลไม่ได้พูดถึงความสัมพันธ์เราก็จะเหลือแค่เป็นฟังก์ชันเดียวของในสมการเหล่านี้ρp(ρ)ρ

นอกจากนี้ยังแสดงให้เห็นว่าการส่งผ่านถึงขีด จำกัด ของขอบเขตไม่มีที่สิ้นสุดสำหรับที่ "ทิ้ง" ข้อมูลบางอย่างเกี่ยวกับซึ่งมีอยู่ในความซับซ้อนมองฟังก์ชั่น CDF ปกติ(.) ตอนนี้ถ้าคุณมีข้อมูลจำนวนมากจากนั้นส่งผ่านไปยังขีด จำกัด ได้ดีคุณจะไม่หลวมมากนัก แต่ถ้าคุณมีข้อมูลที่หายากมากเช่นในกรณีของคุณ - มันเป็นเรื่องสำคัญที่จะต้องรักษาทุกเรื่องที่สนใจเอาไว้ มันหมายถึงคณิตศาสตร์ที่น่าเกลียด แต่ตัวอย่างนี้ไม่ยากเกินกว่าจะทำตัวเลข ดังนั้นเราสามารถประเมินความน่าจะเป็นแบบรวมสำหรับที่ค่าของการพูดได้อย่างง่ายดาย เพียงแค่แทนที่อินทิกรัลโดยการสรุปในช่วงเวลาเล็ก ๆ น้อย ๆ - ดังนั้นคุณจึงมีการรวมสามครั้ง ρ ไว( . ) ρ - 0.99 , - 0.98 , ... , 0.98 ,μyρΦ(.)ρ0.99,0.98,,0.98,0.99


@probabilityislogic: ว้าว เพียงแค่ว้าว หลังจากเห็นคำตอบของคุณฉันสงสัยจริงๆ: สิ่งที่ควรทำเช่นฉันควรทำอย่างไรเพื่อให้ถึงสภาพจิตใจที่ยืดหยุ่นเช่นนี้?
steffen

1
@steffen - lol ไม่ใช่เรื่องยากคุณเพียงแค่ต้องฝึกฝน และมักจะเสมอจำไว้เสมอว่าผลิตภัณฑ์และผลรวมกฎของความน่าจะเป็นกฎเดียวที่คุณเคยจะต้อง พวกเขาจะดึงข้อมูลอะไรก็ตามที่มี - ไม่ว่าคุณจะเห็นมันหรือไม่ ดังนั้นคุณใช้กฎผลิตภัณฑ์และผลรวมแล้วทำคณิตศาสตร์ นั่นคือทั้งหมดที่ฉันได้ทำที่นี่
ความน่าจะเป็นทางการที่

@steffen - และกฎอื่น ๆ - มากกว่าคณิตศาสตร์อย่างใดอย่างหนึ่งมากกว่าสถิติอย่างใดอย่างหนึ่ง - ไม่ผ่านขีด จำกัด อนันต์เร็วเกินไปในการคำนวณของคุณผลลัพธ์ของคุณอาจไม่แน่นอนหรือรายละเอียดเล็ก ๆ น้อย ๆ อาจถูกโยนออกไป แบบจำลองข้อผิดพลาดในการวัดเป็นตัวอย่างที่สมบูรณ์แบบของเรื่องนี้ (ตามคำถามนี้)
ความน่าจะเป็นทาง

@probabilityislogic: ขอบคุณฉันจะจำไว้ ... ทันทีที่ฉันทำงานผ่าน "Bayesian Analysis" -copy;)
steffen

@probabilityislogic: ถ้าคุณมีอารมณ์ขันนักสถิติเชิงสถิติ / นักวิจัย ... มันจะเป็นไปได้ที่จะสรุปหรือแปลคำตอบของคุณไปยังกลุ่มของทันตแพทย์หรือครูใหญ่โรงเรียนมัธยมหรือนักเรียนสถิติเบื้องต้น?
rolando2

6

ฉันเห็นด้วยกับ sesqu ว่าความสัมพันธ์ไม่ได้กำหนดไว้ในกรณีนี้ คุณสามารถคำนวณความคล้ายคลึงกันของโกเวอร์ระหว่างเวกเตอร์ทั้งสองได้เช่น: ที่หมายถึงKronecker เดลต้า , นำไปใช้เป็นฟังก์ชั่นในv1, δv1,v2gower(v1,v2)=i=1nδ(v1i,v2i)nδv1,v2

ตัวอย่างเช่นถ้าค่าทั้งหมดเท่ากัน gower (.,.) = 1 หากในอีกด้านหนึ่งมีความแตกต่างกันในมิติเดียวโกเวอร์ (.,.) = 0.9 หากพวกมันต่างกันในทุกมิติโกเวอร์ (.,.) = 0 และต่อไปเรื่อย ๆ

แน่นอนว่านี่ไม่ใช่การวัดความสัมพันธ์ แต่ช่วยให้คุณคำนวณว่าเวกเตอร์ที่มี s> 0 อยู่ใกล้กับ s = 0 ได้อย่างไร แน่นอนว่าคุณสามารถใช้เมตริกอื่น ๆ ได้เช่นกันหากสิ่งเหล่านี้ตอบสนองวัตถุประสงค์ของคุณได้ดีขึ้น


+1 นั่นเป็นแนวคิดที่สร้างสรรค์ มันเสียงเช่น "โกเวอร์คล้ายคลึงกัน" คือการลดขนาดของระยะ Hamming
whuber

@whuber: แน่นอนมันเป็น!
steffen

0

ความสัมพันธ์ไม่ได้กำหนดไว้ในกรณีนั้น หากคุณต้องนิยามมันฉันจะนิยามมันเป็น 0 แต่ลองพิจารณาความแตกต่างแบบธรรมดาอย่างง่ายแทน


0

คำถามนี้มาจากโปรแกรมเมอร์ดังนั้นฉันขอแนะนำให้เสียบเป็นศูนย์ ไม่มีหลักฐานว่ามีความสัมพันธ์กันและสมมติฐานว่างจะเป็นศูนย์ (ไม่มีความสัมพันธ์) อาจมีความรู้บริบทอื่น ๆ ที่จะให้ความสัมพันธ์ "ทั่วไป" ในบริบทหนึ่ง แต่รหัสอาจถูกนำมาใช้ใหม่ในบริบทอื่น


2
ไม่มีหลักฐานว่าไม่มีความสัมพันธ์กันดังนั้นทำไมไม่ลองต่อ 1 หรือ -1 หรืออะไรในระหว่าง? พวกเขาทั้งหมดนำไปสู่การใช้งานรหัสอีกครั้ง!
whuber

@whuber - คุณเสียบศูนย์เนื่องจากข้อมูลเป็น "ข้อ จำกัด น้อย" เมื่อมันเป็นอิสระ - นี่คือเหตุผลที่การแจกแจง maxent เป็นอิสระเว้นแต่คุณจะระบุความสัมพันธ์อย่างชัดเจนในข้อ จำกัด อิสรภาพสามารถมองได้ว่าเป็นสมมติฐานที่อนุรักษ์นิยมเมื่อคุณรู้ว่าไม่มีความสัมพันธ์ดังกล่าวอย่างมีประสิทธิภาพ - คุณมีค่าเฉลี่ยมากกว่าความสัมพันธ์เป็นไปได้ทั้งหมด
ความน่าจะเป็นทาง

1
@prob ฉันถามว่าทำไมจึงสมเหตุสมผลในฐานะที่เป็นวิธีการทั่วไปในการหาค่าเฉลี่ยของสหสัมพันธ์ทั้งหมด ผลที่ได้จากโพรซีเดอร์นี้จะแทนที่คำตอบที่แน่นอนและอาจเป็นไปได้ว่า "ศูนย์!" สำหรับคำตอบที่ถูกต้อง "ข้อมูลไม่ได้บอกเรา" ความแตกต่างนั้นมีความสำคัญต่อการตัดสินใจ
whuber

เพียงเพราะคำถามอาจมาจากโปรแกรมเมอร์ไม่ได้หมายความว่าคุณควรแปลงค่าที่ไม่ได้กำหนดเป็นศูนย์ Zero หมายถึงบางสิ่งที่เฉพาะเจาะจงในการคำนวณสหสัมพันธ์ โยนข้อยกเว้น ให้ผู้โทรตัดสินใจว่าจะเกิดอะไรขึ้น ฟังก์ชั่นของคุณควรคำนวณความสัมพันธ์อย่าตัดสินใจว่าจะทำอย่างไรหากไม่สามารถคำนวณได้
Jared Becksfort
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.