การใช้ข้อมูลร่วมกันเพื่อประเมินความสัมพันธ์ระหว่างตัวแปรต่อเนื่องและตัวแปรเด็ดขาด


13

สำหรับชื่อเรื่องความคิดคือการใช้ข้อมูลร่วมกันที่นี่และหลัง MI เพื่อประมาณค่า "สหสัมพันธ์" (นิยามว่า "เท่าที่ฉันรู้เกี่ยวกับ A เมื่อฉันรู้จัก B") ระหว่างตัวแปรต่อเนื่องและตัวแปรเด็ดขาด ฉันจะบอกคุณความคิดของฉันเกี่ยวกับเรื่องนี้ในช่วงเวลาหนึ่ง แต่ก่อนที่ฉันจะแนะนำให้คุณอ่านคำถาม / คำตอบอื่น ๆ เกี่ยวกับ CrossValidatedเนื่องจากมีข้อมูลที่มีประโยชน์

ตอนนี้เนื่องจากเราไม่สามารถรวมกับตัวแปรเด็ดขาดเราต้องแยกแยะตัวแปรต่อเนื่อง สิ่งนี้สามารถทำได้ค่อนข้างง่ายใน R ซึ่งเป็นภาษาที่ฉันได้ทำการวิเคราะห์ด้วย ฉันชอบที่จะใช้cutฟังก์ชั่นนี้เพราะมันก็ใช้แทนค่า แต่ก็มีตัวเลือกอื่นเช่นกัน ประเด็นก็คือเราต้องตัดสินใจก่อนถึงจำนวนของ "ถังขยะ" (สถานะที่ไม่ต่อเนื่อง) ก่อนที่จะสามารถแยกแยะได้

อย่างไรก็ตามปัญหาหลักเป็นอีกปัญหาหนึ่ง: MI อยู่ในช่วงตั้งแต่ 0 ถึง∞เนื่องจากเป็นการวัดที่ไม่ได้มาตรฐานซึ่งหน่วยเป็นบิต ทำให้ยากมากที่จะใช้มันเป็นค่าสัมประสิทธิ์สหสัมพันธ์ ส่วนนี้สามารถแก้ไขได้โดยใช้สัมประสิทธิ์สหสัมพันธ์ทั่วโลกที่นี่และหลัง GCC ซึ่งเป็นเวอร์ชันมาตรฐานของ MI; GCC ถูกกำหนดดังนี้:

ป้อนคำอธิบายรูปภาพที่นี่

การอ้างอิง: สูตรมาจากข้อมูลร่วมกันเป็นเครื่องมือไม่เชิงเส้นสำหรับการวิเคราะห์ตลาดหุ้นโลกาภิวัตน์โดย Andreia Dionísio, Rui Menezes & Diana Mendes, 2010

GCC มีช่วงตั้งแต่ 0 ถึง 1 และสามารถใช้เพื่อประเมินความสัมพันธ์ระหว่างสองตัวแปรได้อย่างง่ายดาย แก้ไขปัญหาใช่มั้ย ชนิดของ เนื่องจากกระบวนการทั้งหมดนี้ขึ้นอยู่กับจำนวนของ 'ถังขยะ' ที่เราตัดสินใจใช้ในระหว่างการแยกส่วน นี่คือผลการทดลองของฉัน:

ป้อนคำอธิบายรูปภาพที่นี่

บนแกน y คุณมี GCC และบนแกน x คุณมีจำนวน 'ถังขยะ' ฉันตัดสินใจที่จะใช้สำหรับการแยกย่อย สองบรรทัดหมายถึงการวิเคราะห์ที่แตกต่างกันสองแบบที่ฉันทำกับชุดข้อมูลสองชุดที่แตกต่างกัน (แม้ว่าจะคล้ายกันมาก)

สำหรับฉันแล้วดูเหมือนว่าการใช้ MI โดยทั่วไปและ GCC โดยเฉพาะนั้นยังคงเป็นที่ถกเถียงกันอยู่ แต่ความสับสนนี้อาจเป็นผลมาจากความผิดพลาดจากด้านข้างของฉัน ทั้งสองกรณีฉันชอบที่จะได้ยินความเห็นของคุณเกี่ยวกับเรื่องนี้ (เช่นกันคุณมีวิธีการทางเลือกอื่นในการประมาณค่าสหสัมพันธ์ระหว่างตัวแปรเด็ดขาดและแบบต่อเนื่องหรือไม่)


2
ฉันไม่สามารถให้ความเห็นเกี่ยวกับการคำนวณข้อมูลร่วมกันสำหรับการกระจายข้อต่อของตัวแปรแบบต่อเนื่องและแบบแยก แต่ฉันสามารถแนะนำได้ว่าควรกำจัดผลกระทบของการ binning หากคุณคำนวณตัวแปรร่วมของข้อมูลร่วม โดยทั่วไปจะเป็นหนึ่งในมาตรฐานโดยผลรวมของเอนโทรปีหรือจากเอนโทรปีร่วม ผลรวมของ entropies เป็นบิตดีกว่าเพราะ(X_j) H(Xi,Xj)H(Xi)+H(Xj)
เจสสิก้าคอลลินส์

BTW นี่คือรหัสในกรณีที่ทุกคนต้องการลองวิธีการ binning
zkurtz

4
คุณไม่ได้ประมาณ "สหสัมพันธ์" คุณกำลังประเมินข้อมูลร่วมกัน คนหนึ่งไม่ได้ประเมินคนอื่น; พวกเขาจะมีมาตรการที่แตกต่างของแนวคิดทั่วไปมากขึ้นของสมาคม
zkurtz

บางทีชื่อเรื่องที่ดีกว่าสำหรับโพสต์นี้คือ "จะทำให้ตัวแปรต่อเนื่องดีที่สุดเพื่อประเมินข้อมูลร่วมกับตัวแปรเด็ดขาดอย่างไร"
zkurtz

นี่คือวิธีการที่ไม่ใช่การ binning ที่น่าสนใจ น่าเสียดายที่ฉันไม่พบการติดตั้ง R
zkurtz

คำตอบ:


5

มีวิธีที่ง่ายและดีกว่าในการจัดการกับปัญหานี้ ตัวแปรเด็ดขาดเป็นเพียงชุดของตัวแปรตัวบ่งชี้ มันเป็นแนวคิดพื้นฐานของทฤษฎีการวัดว่าตัวแปรดังกล่าวไม่แปรเปลี่ยนไปจากการจัดหมวดหมู่ใหม่ดังนั้นจึงไม่เหมาะสมที่จะใช้การติดฉลากตัวเลขของหมวดหมู่ในการวัดความสัมพันธ์ระหว่างตัวแปรอื่น (เช่น 'ความสัมพันธ์') . ด้วยเหตุผลนี้และการวัดความสัมพันธ์ระหว่างตัวแปรต่อเนื่องและตัวแปรเด็ดขาดควรขึ้นอยู่กับตัวแปรตัวบ่งชี้ที่ได้มาจากหลัง

เนื่องจากคุณต้องการวัดความสัมพันธ์ระหว่างตัวแปรสองตัวมันทำให้รู้สึกถึงความสัมพันธ์ระหว่างตัวแปรสุ่มต่อเนื่องและตัวแปรสุ่มตัวบ่งชี้ที่ได้รับมาจากตัวแปรเด็ดขาด ta ให้เรามี:XIϕP(I=1)

Cov(I,X)=E(IX)E(I)E(X)=ϕ[E(X|I=1)E(X)],

ซึ่งจะช่วยให้:

Corr(I,X)=ϕ1ϕE(X|I=1)E(X)S(X).

ดังนั้นความสัมพันธ์ระหว่างตัวแปรสุ่มต่อเนื่องและตัวบ่งชี้ตัวแปรสุ่มเป็นฟังก์ชั่นที่ค่อนข้างง่ายของความน่าจะเป็นตัวบ่งชี้และกำไรที่ได้มาตรฐานในมูลค่าที่คาดหวังของจากเครื่องบน 1 โปรดทราบว่าความสัมพันธ์นี้ไม่จำเป็นต้องมีการแยกตัวแปรสุ่มต่อเนื่องXIϕXI=1


สำหรับตัวแปรเด็ดขาดทั่วไปมีช่วงคุณจะขยายความคิดนี้เพื่อให้มีเวกเตอร์ของค่าความสัมพันธ์สำหรับผลลัพธ์ของตัวแปรเด็ดขาดแต่ละอัน สำหรับผลลัพธ์ใด ๆเราสามารถกำหนดตัวบ่งชี้ที่สอดคล้องกันและเรามี:C1,...,mC=kIkI(C=k)

Corr(Ik,X)=ϕk1ϕkE(X|C=k)E(X)S(X).

จากนั้นเราสามารถกำหนดเป็นเวกเตอร์ของค่าสหสัมพันธ์สำหรับ แต่ละหมวดหมู่ของตัวแปรสุ่มเด็ดขาด นี่เป็นความรู้สึกเดียวที่จะพูดถึง 'สหสัมพันธ์' สำหรับตัวแปรสุ่มที่เป็นหมวดหมู่Corr(C,X)(Corr(I1,X),...,Corr(Im,X))

( หมายเหตุ:มันเป็นเรื่องเล็กน้อยที่จะแสดงให้เห็นว่าและดังนั้นเวกเตอร์สหสัมพันธ์สำหรับตัวแปรสุ่มเด็ดขาดอยู่ภายใต้ข้อ จำกัด นี้ซึ่งหมายความว่าให้ความรู้เกี่ยวกับความน่าจะเป็นเวกเตอร์สำหรับ ตัวแปรสุ่มเด็ดขาดและค่าเบี่ยงเบนมาตรฐานของคุณสามารถหาเวกเตอร์ได้จากองค์ประกอบใด ๆ)kCov(Ik,X)=0Xm1


การแสดงออกข้างต้นมีไว้สำหรับค่าสหสัมพันธ์ที่แท้จริง แต่แน่นอนว่าสิ่งเหล่านี้จะต้องถูกประเมินในการวิเคราะห์ที่กำหนด การประมาณความสัมพันธ์ของตัวบ่งชี้จากข้อมูลตัวอย่างนั้นง่ายและสามารถทำได้โดยการทดแทนการประมาณที่เหมาะสมสำหรับแต่ละส่วน (คุณสามารถใช้วิธีการประเมินที่นักเล่นนิยมได้หากต้องการ) ข้อมูลตัวอย่างที่ได้รับเราสามารถประมาณส่วนของสมการสหสัมพันธ์ได้ดังนี้(x1,c1),...,(xn,cn)

ϕ^k1ni=1nI(ci=k).

E^(X)x¯1ni=1nxi.

E^(X|C=k)x¯k1ni=1nxiI(ci=k)/ϕ^k.

S^(X)sX1n1i=1n(xix¯)2.

การแทนที่การประมาณเหล่านี้จะทำให้การประมาณค่าพื้นฐานของเวกเตอร์สหสัมพันธ์ หากคุณมีข้อมูลพารามิเตอร์เกี่ยวกับคุณสามารถประมาณเวกเตอร์สหสัมพันธ์ได้โดยตรงตามโอกาสสูงสุดหรือเทคนิคอื่น ๆX

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.