สำหรับชื่อเรื่องความคิดคือการใช้ข้อมูลร่วมกันที่นี่และหลัง MI เพื่อประมาณค่า "สหสัมพันธ์" (นิยามว่า "เท่าที่ฉันรู้เกี่ยวกับ A เมื่อฉันรู้จัก B") ระหว่างตัวแปรต่อเนื่องและตัวแปรเด็ดขาด ฉันจะบอกคุณความคิดของฉันเกี่ยวกับเรื่องนี้ในช่วงเวลาหนึ่ง แต่ก่อนที่ฉันจะแนะนำให้คุณอ่านคำถาม / คำตอบอื่น ๆ เกี่ยวกับ CrossValidatedเนื่องจากมีข้อมูลที่มีประโยชน์
ตอนนี้เนื่องจากเราไม่สามารถรวมกับตัวแปรเด็ดขาดเราต้องแยกแยะตัวแปรต่อเนื่อง สิ่งนี้สามารถทำได้ค่อนข้างง่ายใน R ซึ่งเป็นภาษาที่ฉันได้ทำการวิเคราะห์ด้วย ฉันชอบที่จะใช้cut
ฟังก์ชั่นนี้เพราะมันก็ใช้แทนค่า แต่ก็มีตัวเลือกอื่นเช่นกัน ประเด็นก็คือเราต้องตัดสินใจก่อนถึงจำนวนของ "ถังขยะ" (สถานะที่ไม่ต่อเนื่อง) ก่อนที่จะสามารถแยกแยะได้
อย่างไรก็ตามปัญหาหลักเป็นอีกปัญหาหนึ่ง: MI อยู่ในช่วงตั้งแต่ 0 ถึง∞เนื่องจากเป็นการวัดที่ไม่ได้มาตรฐานซึ่งหน่วยเป็นบิต ทำให้ยากมากที่จะใช้มันเป็นค่าสัมประสิทธิ์สหสัมพันธ์ ส่วนนี้สามารถแก้ไขได้โดยใช้สัมประสิทธิ์สหสัมพันธ์ทั่วโลกที่นี่และหลัง GCC ซึ่งเป็นเวอร์ชันมาตรฐานของ MI; GCC ถูกกำหนดดังนี้:
การอ้างอิง: สูตรมาจากข้อมูลร่วมกันเป็นเครื่องมือไม่เชิงเส้นสำหรับการวิเคราะห์ตลาดหุ้นโลกาภิวัตน์โดย Andreia Dionísio, Rui Menezes & Diana Mendes, 2010
GCC มีช่วงตั้งแต่ 0 ถึง 1 และสามารถใช้เพื่อประเมินความสัมพันธ์ระหว่างสองตัวแปรได้อย่างง่ายดาย แก้ไขปัญหาใช่มั้ย ชนิดของ เนื่องจากกระบวนการทั้งหมดนี้ขึ้นอยู่กับจำนวนของ 'ถังขยะ' ที่เราตัดสินใจใช้ในระหว่างการแยกส่วน นี่คือผลการทดลองของฉัน:
บนแกน y คุณมี GCC และบนแกน x คุณมีจำนวน 'ถังขยะ' ฉันตัดสินใจที่จะใช้สำหรับการแยกย่อย สองบรรทัดหมายถึงการวิเคราะห์ที่แตกต่างกันสองแบบที่ฉันทำกับชุดข้อมูลสองชุดที่แตกต่างกัน (แม้ว่าจะคล้ายกันมาก)
สำหรับฉันแล้วดูเหมือนว่าการใช้ MI โดยทั่วไปและ GCC โดยเฉพาะนั้นยังคงเป็นที่ถกเถียงกันอยู่ แต่ความสับสนนี้อาจเป็นผลมาจากความผิดพลาดจากด้านข้างของฉัน ทั้งสองกรณีฉันชอบที่จะได้ยินความเห็นของคุณเกี่ยวกับเรื่องนี้ (เช่นกันคุณมีวิธีการทางเลือกอื่นในการประมาณค่าสหสัมพันธ์ระหว่างตัวแปรเด็ดขาดและแบบต่อเนื่องหรือไม่)