ความสัมพันธ์ระหว่างตัวแปรสองขั้วและตัวแปรต่อเนื่อง

ฉันพยายามที่จะหาความสัมพันธ์ระหว่างคู่และตัวแปรต่อเนื่อง

จากการทำงานภาคพื้นดินของฉันในเรื่องนี้ฉันพบว่าฉันต้องใช้การทดสอบแบบอิสระและเงื่อนไขที่จำเป็นสำหรับมันคือการกระจายตัวของตัวแปรจะต้องเป็นปกติ

ฉันทำการทดสอบ Kolmogorov-Smirnov เพื่อทดสอบความปกติและพบว่าตัวแปรต่อเนื่องไม่ปกติและเอียง (ประมาณ 4,000 จุดข้อมูล)

ฉันทำการทดสอบ Kolmogorov-Smirnov สำหรับตัวแปรทั้งหมด ฉันควรแบ่งพวกเขาออกเป็นกลุ่มและทำแบบทดสอบหรือไม่? กล่าวคือถ้าฉันมีrisk level( 0= ไม่เสี่ยง1= เสี่ยง) และระดับคอเลสเตอรอลฉันควร:

แบ่งพวกมันออกเป็นสองกลุ่มอย่างเช่น
```
Risk level =0 (Cholestrol level) -> Apply KS
Risk level =1 (Cholestrol level) -> Apply KS
```
พาพวกเขาไปด้วยกันและทำการทดสอบ? (ฉันใช้กับชุดข้อมูลทั้งหมดเท่านั้น)

หลังจากนั้นฉันควรทำอย่างไรหากมันยังไม่ปกติ

แก้ไข: สถานการณ์ข้างต้นเป็นเพียงคำอธิบายที่ฉันพยายามให้สำหรับปัญหาของฉัน ฉันมีชุดข้อมูลซึ่งมีตัวแปรมากกว่า 1,000 รายการและตัวอย่างประมาณ 4000 รายการ พวกมันมีทั้งต่อเนื่องหรือเด็ดขาดในธรรมชาติ งานของฉันคือการทำนายตัวแปรแบบแบ่งขั้วตามตัวแปรเหล่านี้ (อาจเกิดขึ้นกับแบบจำลองการถดถอยโลจิสติก) ดังนั้นฉันคิดว่าการตรวจสอบเบื้องต้นจะเกี่ยวข้องกับการค้นหาความสัมพันธ์ระหว่างโดมิโนและตัวแปรต่อเนื่อง

ฉันพยายามที่จะดูว่าการกระจายตัวของตัวแปรเป็นอย่างไรและด้วยเหตุนี้จึงพยายามไปทดสอบ t ที่นี่ฉันพบว่าปกติเป็นปัญหา การทดสอบ Kolmogorov-Smirnov ให้ค่านัยสำคัญ 0.00 ในตัวแปรเหล่านี้ส่วนใหญ่

ฉันควรถือว่าเป็นเรื่องปกติ ความเบ้และความแรงของตัวแปรเหล่านี้ยังแสดงให้เห็นว่าข้อมูลนั้นเบ้ (> 0) ในเกือบทุกกรณี

ตามบันทึกที่ให้ไว้ด้านล่างฉันจะตรวจสอบความสัมพันธ์จุดที่เป็นจุดศูนย์กลางต่อไป แต่เกี่ยวกับการกระจายของตัวแปรฉันยังไม่แน่ใจ

— Sree Aurovindh
แหล่งที่มา

ความสัมพันธ์ (ระหว่างการเรียงลำดับใด ๆ ) ระหว่าง continuos และตัวแปรไบนารี (กลุ่ม) ไม่มาก (และอาจจะน้อยกว่า ... ) มากกว่าเพียงแค่การเปรียบเทียบค่าเฉลี่ย (ความหมายบางอย่าง ... ระหว่างกลุ่มดังนั้นโดยปกติ มันควรจะดีกว่าที่จะทำเช่นนั้น!

— kjetil b halvorsen

คำตอบ:

ฉันสับสนเล็กน้อย ชื่อของคุณพูดว่า "สหสัมพันธ์" แต่โพสต์ของคุณอ้างถึงการทดสอบ t t-test เป็นการทดสอบที่ตั้งส่วนกลาง - โดยเฉพาะเจาะจงมากขึ้นค่าเฉลี่ยของชุดข้อมูลหนึ่งแตกต่างจากค่าเฉลี่ยของชุดข้อมูลอื่นหรือไม่ ในทางตรงกันข้ามความสัมพันธ์แสดงให้เห็นถึงความสัมพันธ์ระหว่างสองตัวแปร มีมาตรการความสัมพันธ์ที่หลากหลายดูเหมือนว่าความสัมพันธ์ระหว่างจุดที่มีความเหมาะสมในกรณีของคุณ

คุณถูกต้องว่าการทดสอบ t จะถือว่าปกติ อย่างไรก็ตามการทดสอบภาวะปกติมีแนวโน้มที่จะให้ผลลัพธ์ที่มีนัยสำคัญแม้สำหรับความไม่ปกติเล็กน้อยที่มี N ของ 4000 การทดสอบ T นั้นค่อนข้างแข็งแกร่งต่อการเบี่ยงเบนเล็กน้อยจากภาวะปกติหากความแปรปรวนของข้อมูลทั้งสองชุดมีค่าเท่ากันและตัวอย่าง ขนาดเท่ากัน แต่การทดสอบแบบไม่มีพารามิเตอร์นั้นแข็งแกร่งกว่าค่าผิดปกติและส่วนใหญ่มีอำนาจเกือบสูงเท่ากับการทดสอบแบบทีแม้ว่าการแจกแจงเป็นเรื่องปกติ

อย่างไรก็ตามในตัวอย่างของคุณคุณใช้ "คอเลสเตอรอล" ว่ามีความเสี่ยงหรือไม่เสี่ยง นี่เป็นความคิดที่ไม่ดีอย่างแน่นอน การแบ่งขั้วตัวแปรต่อเนื่องจะทำให้เกิดการคิดที่มีมนต์ขลัง มันบอกว่าในบางจุดคอเลสเตอรอลเปลี่ยนจาก "ไม่เสี่ยง" เป็น "เสี่ยง" สมมติว่าคุณใช้ 200 เป็นทางลัด - จากนั้นคุณกำลังบอกว่าคนที่มีโคเลสเตอรอลเท่ากับ 201 นั้นก็เหมือนกับคนที่มี 400 และคนที่มี 199 ก็เหมือนกับคนที่มี 100 สิ่งนี้ไม่สมเหตุสมผล

— Peter Flom
แหล่งที่มา

ฉันเห็นด้วยและฉันคิดว่าพวกเราส่วนใหญ่เห็นด้วยว่าการแบ่งขั้วข้อมูลเป็นการสูญเปล่าและเป็นวิธีหยาบหรือหยาบหรือเงอะงะ ฉันแค่คิดว่า "การคิดเวทมนต์" โต้เถียงไปเล็กน้อย การเลือกที่จะปัดความแตกต่างนั้นไม่เหมือนกับที่เชื่อว่าไม่มีความแตกต่าง ฉันคาดหวังว่าจะมีบางครั้งที่ฉันจะพบว่าสะดวกและคุ้มค่ากับการแลกเปลี่ยนเพื่อทำให้หมวดหมู่ของตัวแปรต่อเนื่องบางอย่างไม่ว่าจะเพื่อการวิเคราะห์หรือการรายงาน แค่ 2 เซ็นต์ของฉัน

— rolando2

การสร้างหมวดหมู่จากตัวแปรต่อเนื่องนั้นแย่กว่าเวทมนตร์ โหดร้ายอาจเป็นคำที่ดีกว่า หากคุณต้องการเพิ่มความซับซ้อนของแบบจำลองให้มากที่สุดเพิ่มความลำเอียงและเพิ่มความแปรปรวนทั้งหมดในเวลาเดียวกัน [มันเพิ่มความซับซ้อนให้มากที่สุดเนื่องจากข้อมูลที่หายไปเนื่องจากการจัดหมวดหมู่ต้องการตัวแปรที่เพิ่มเข้ามาในแบบจำลองเพื่อให้ได้เหมือนกัน]

R^{2}

$R^2$

— Frank Harrell

มาลดความซับซ้อนของสิ่งต่าง ๆ กันเถอะ ด้วย N = 4,000 สำหรับระดับคอเลสเตอรอลคุณไม่ควรมีปัญหากับผลลัพธ์ของคุณที่ถูกลำเอียงโดยผู้ผิดกฎหมาย ดังนั้นคุณสามารถใช้ความสัมพันธ์ตัวเองตามนัยโดยประโยคเริ่มต้นของคุณ มันจะสร้างความแตกต่างเพียงเล็กน้อยไม่ว่าคุณจะประเมินความสัมพันธ์ผ่านวิธีของ Pearson, Spearman หรือ Point-Biserial

แต่หากคุณต้องการจริงๆกับผลวลีในแง่ของความแตกต่างระหว่างคอเลสเตอรอลโดยทั่วไปมีความเสี่ยงสูงและความเสี่ยงต่ำกลุ่มการทดสอบ Mann-Whitney U จะปรับให้ใช้งาน แต่คุณเช่นกันอาจจะใช้มากขึ้นข้อมูลT -test ด้วย N นี้ (และอีกครั้งเมื่อมีค่าผิดปกติทางดาราศาสตร์บางสิ่งที่คุณไม่ต้องสงสัยเลย) คุณไม่จำเป็นต้องกังวลว่าการขาดกฎเกณฑ์จะส่งผลต่อผลลัพธ์ของคุณ

— rolando2
แหล่งที่มา

ขอบคุณสำหรับการตอบกลับของคุณ. แต่ถ้าฉันต้องรู้เกี่ยวกับค่าผิดปกติทำให้เกิดการบิดเบือนขนาดใหญ่มันถูกต้องหรือไม่ที่จะใช้ความรู้และความเบ้ในการตรวจจับ? ในกรณีที่เป็นจริงมากกว่าค่า kurtosis และความเบ้ฉันควรสมมติว่าการแจกแจงไม่ปกติ ขอบคุณสำหรับคำตอบของคุณ

— Sree Aurovindh

ฉันสมมติว่ามีความรู้ด้านเนื้อหาที่ จำกัด เกี่ยวกับคอเลสเตอรอลคุณจะไม่มีค่าใด ๆ ที่มีลำดับความสำคัญสูงกว่าคนอื่น นั่นเป็นเหตุผลที่ฉันคิดว่าคุณสามารถใช้วิธีพารามิเตอร์เช่นสหสัมพันธ์หรือการทดสอบ t ไม่ใช่ว่าฉันคิดว่าการกระจายตัวเป็นเรื่องปกติ คุณไม่ต้องการให้มันเป็นเรื่องปกติ ตามคำตอบของปีเตอร์: ฉันเชื่อ (และหวังว่า) คุณมีแหล่งที่มาของสถานะความเสี่ยงสูง / ต่ำที่เป็นอิสระจากคะแนนคอเลสเตอรอล ฉันยอมรับว่าอาจไม่เป็นประโยชน์ในการแบ่งขั้ว

— rolando2

ฉันขอแนะนำให้คุณเพิ่มหัวข้อในคำถามเดิมของคุณทำเครื่องหมายว่า "แก้ไข: .... " ซึ่งจะระบุคำถามที่คุณยังไม่ได้รับคำตอบและความคิดเห็นที่คุณได้รับ

— rolando2

ขอบคุณสำหรับคำแนะนำของคุณฉันได้อัปเดตแบบเดียวกัน. ขอคำถามที่ไม่ชัดเจนในตอนแรก

— ขอบคุณ