ดูแล้วคุณจะพบ (ความสัมพันธ์)


66

ฉันมีการวัดหลายร้อย ตอนนี้ฉันกำลังพิจารณาใช้ซอฟต์แวร์บางชนิดเพื่อเชื่อมโยงทุกการวัดกับทุกการวัด ซึ่งหมายความว่ามีความสัมพันธ์นับพัน ในกลุ่มคนเหล่านี้ควรมีความสัมพันธ์ทางสถิติสูงแม้ว่าข้อมูลจะสุ่มอย่างสมบูรณ์ (แต่ละการวัดมีเพียง 100 ดาต้าพอยน์)

เมื่อฉันพบความสัมพันธ์ฉันจะรวมข้อมูลเกี่ยวกับความยากลำบากที่ฉันมองหาความสัมพันธ์ลงไปได้อย่างไร

ฉันไม่ได้อยู่ในระดับสูงในสถิติดังนั้นโปรดอดทนกับฉัน


5
นี่เป็นตัวอย่างที่ดีว่าทำไมคนเราจึงต้องการการทดสอบสมมติฐานหลายครั้ง

สันนิษฐานได้ว่าใครสามารถใช้ขั้นตอนการเปลี่ยนแปลงเพื่อสร้างการแจกแจงโมฆะสำหรับเกณฑ์สำคัญสำหรับความสัมพันธ์ที่ใหญ่ที่สุด, เกณฑ์ที่แตกต่างกันสำหรับความสัมพันธ์ที่ใหญ่เป็นอันดับสองและอื่น ๆ หวังว่านี่จะใช้เวลาเพียงไม่กี่ชั่วโมงใน Python หรือ R (ฮา! คำพูดสุดท้ายที่มีชื่อเสียง) แต่แน่นอนว่ามีบางคนต้องทำสิ่งนี้แล้วบันทึกรหัสไว้ที่ไหนสักแห่ง?

4
@tmo Rบนเครื่องนี้ใช้เวลา 18 วินาทีในการรับ 1000 การกระจายตัวของโมฆะสัมประสิทธิ์สัมประสิทธิ์สหสัมพันธ์สำหรับ 300 โดย 100 เมทริกซ์x:correl <- function(x, k=1) { n <- dim(x)[2] * (dim(x)[2]-1) / 2; v <- cor(x); sort(v[lower.tri(v)])[(n-k+1):n] }; sim <- replicate(1000, correl(apply(x,2,sample)))
whuber

คำตอบ:


74

นี่เป็นคำถามที่ยอดเยี่ยมมีค่าของคนที่เป็นนักคิดเชิงสถิติที่ชัดเจนเพราะมันเป็นแง่มุมที่สำคัญ แต่สำคัญของการทดสอบหลายครั้ง

มีวิธีการมาตรฐานในการปรับค่า pของค่าสัมประสิทธิ์สหสัมพันธ์ (หรือเท่ากันเพื่อขยายช่วงความเชื่อมั่นของพวกเขา) เช่น Bonferroni และ Sidak ( qv ) อย่างไรก็ตามสิ่งเหล่านี้เป็นสิ่งที่อนุรักษ์นิยมมากเกินไปกับเมทริกซ์ความสัมพันธ์ขนาดใหญ่เนื่องจากความสัมพันธ์ทางคณิตศาสตร์โดยธรรมชาติที่จะต้องมีค่าสัมประสิทธิ์สหสัมพันธ์โดยทั่วไป (สำหรับตัวอย่างบางส่วนของความสัมพันธ์ดังกล่าวให้ดูคำถามล่าสุดและเธรดที่ตามมา ) หนึ่งในวิธีที่ดีที่สุดสำหรับการจัดการกับสถานการณ์นี้คือการทดสอบการเปลี่ยนรูป (หรือการเปลี่ยนตัวอย่าง). มันง่ายที่จะทำสิ่งนี้ด้วยความสัมพันธ์: ในการทำซ้ำแต่ละครั้งของการทดสอบเพียงแค่สุ่มช่วงชิงลำดับของค่าของแต่ละฟิลด์ (ซึ่งจะทำลายความสัมพันธ์โดยธรรมชาติใด ๆ ) และคำนวณเมทริกซ์ความสัมพันธ์เต็มรูปแบบ ทำสิ่งนี้ซ้ำหลายพันครั้ง (หรือมากกว่านั้น) จากนั้นสรุปการแจกแจงของรายการของเมทริกซ์สหสัมพันธ์โดยให้ 97.5 และ 2.5 เปอร์เซ็นต์ของพวกเขา: สิ่งเหล่านี้จะทำหน้าที่เป็นสมมาตรสองด้าน 95% ภายใต้โมฆะ สมมติฐานที่ไม่มีสหสัมพันธ์ (ครั้งแรกที่คุณทำสิ่งนี้ด้วยตัวแปรจำนวนมากคุณจะต้องประหลาดใจที่ค่าสัมประสิทธิ์สหสัมพันธ์บางค่าสูงถึงแม้ว่าจะไม่มีความสัมพันธ์โดยธรรมชาติ)

เมื่อรายงานผลลัพธ์ไม่ว่าคุณจะคำนวณอย่างไรคุณควรรวมสิ่งต่อไปนี้:

  • ขนาดของเมทริกซ์สหสัมพันธ์ ( เช่นจำนวนตัวแปรที่คุณดู)

  • วิธีที่คุณกำหนดค่า p หรือ "นัยสำคัญ" ของสัมประสิทธิ์สหสัมพันธ์ใด ๆ ( เช่นปล่อยให้เป็นไปตามนั้นคือใช้การแก้ไข Bonferroni ทำการทดสอบการเปลี่ยนรูปหรืออะไรก็ตาม)

  • ไม่ว่าคุณจะมองไปที่มาตรการทางเลือกของความสัมพันธ์เช่นสเปียร์แมนยศสัมพันธ์ หากคุณทำเช่นนั้นให้ระบุสาเหตุที่คุณเลือกวิธีการรายงานและการใช้งานจริง


1
นี่เป็นคำอธิบายอย่างละเอียดเกี่ยวกับวิธีการปรับค่า p-value แต่สิ่งที่ยังไม่ได้ชำระคือเกณฑ์ในการปรับ ตามเนื้อผ้ามันเป็นอัตราความผิดพลาดแบบครอบครัว แต่นั่นเป็นเกณฑ์ที่เข้มงวดและไม่มีประโยชน์เมื่อคุณดูการเปรียบเทียบหลายพันรายการ ในกรณีนี้อัตราการค้นพบที่ผิดพลาดครั้งแรกที่ Benjamini แนะนำให้ใช้กันทั่วไป
Michael Chernick

โอRR(x1,Y1)โอRR(xn,Yn)xผมYผมโอRR(xผม,YJ) ผมJ)? เรายังต้องการการแก้ไขหรือไม่?
Jase

@Jase ใช่คุณทำ จำนวนของการแก้ไขขึ้นอยู่กับความสัมพันธ์ระหว่างตัวแปร วิธีการจำลองสถานการณ์เป็นเพียงวิธีเดียวที่ใช้ในการพิจารณาการแก้ไขเหล่านี้
whuber

ว้าวดีมาก วิธีการที่คุณกล่าวถึงนี้จะแก้ไขข้อผิดพลาดมาตรฐานสำหรับปัญหาความสัมพันธ์แบบอนุกรมและปัญหาแบบเฮเทอโรเซดีซิตีหรือไม่?
Jase

@Jase มันจะเป็นการยากที่จะตีความค่าสัมประสิทธิ์สหสัมพันธ์ในรูปแบบ heteroscedastic ความคิดเห็นของคุณดูเหมือนจะอ้างอิงโมเดลเชิงเส้นในการตั้งค่าอนุกรมเวลาแทนที่จะเป็นการประมาณค่าสัมประสิทธิ์สหสัมพันธ์แบบหลายตัวแปร
whuber

10

จากการตอบสนองการติดตามของคุณสำหรับคำถามของ Peter Flom ดูเหมือนว่าคุณอาจได้รับการบริการที่ดีขึ้นโดยเทคนิคที่ดูโครงสร้างระดับที่สูงขึ้นในเมทริกซ์สหสัมพันธ์ของคุณ

เทคนิคเช่นการวิเคราะห์ปัจจัย, PCA, การปรับหลายมิติและการวิเคราะห์กลุ่มของตัวแปรสามารถใช้เพื่อจัดกลุ่มตัวแปรของคุณเป็นชุดของตัวแปรที่เกี่ยวข้องมากกว่า

นอกจากนี้คุณอาจต้องการคิดในทางทฤษฎีเกี่ยวกับโครงสร้างที่ควรนำเสนอ เมื่อจำนวนตัวแปรของคุณมีขนาดใหญ่และจำนวนการสังเกตมีน้อยคุณมักจะพึ่งพาความคาดหวังก่อนหน้านี้มากขึ้น


1
(+1) คำแนะนำที่ดีในแง่ของความคิดเห็นของ OP ต่อการตอบสนองของ @Peter Flom
whuber

7

นี่คือตัวอย่างของการเปรียบเทียบหลายรายการ มีวรรณกรรมมากมายเกี่ยวกับเรื่องนี้

ถ้าคุณพูด 100 ตัวแปรคุณจะมีความสัมพันธ์ 100 * 99/2 = 4950

หากข้อมูลเป็นเพียงเสียงรบกวนคุณคาดว่า 1 ใน 20 ของข้อมูลเหล่านี้จะมีนัยสำคัญที่ p = .05 นั่นคือ 247.5

ก่อนที่จะออกไปไกลกว่านี้จะเป็นการดีถ้าคุณสามารถพูดได้ว่าทำไมคุณถึงทำเช่นนี้ อะไรคือตัวแปรเหล่านี้ทำไมคุณสัมพันธ์กับมันความคิดที่สำคัญของคุณคืออะไร?

หรือว่าคุณเพิ่งตกปลาเพราะมีความสัมพันธ์สูง?


3
เหตุผลที่ฉันต้องการทำแบบนี้คือการมีใจที่เปิดกว้างต่อการทำความเข้าใจข้อมูลของฉันดังนั้นอาจเป็นไปได้ว่าฉันตกปลาเพื่อความสัมพันธ์ซึ่งฉันไม่เคยคิดมาก่อนเพื่อจุดประสงค์ในการรู้แจ้ง แน่นอนว่าฉันไม่ได้ทำสิ่งนี้เพื่อให้เป็นที่พอใจแก่เจ้านายของฉัน ฉันไม่ต้องการรับข้อมูลที่เฉพาะเจาะจงเพราะฉันต้องการคำตอบทั่วไปสำหรับคำถามนี้ดังนั้นฉันจึงสามารถใช้มันได้ในทุกสถานการณ์ในอนาคต
เดวิด

7

บางทีคุณอาจทำการวิเคราะห์เบื้องต้นในส่วนย่อยแบบสุ่มของข้อมูลเพื่อสร้างสมมติฐานแล้วทดสอบสมมติฐานที่น่าสนใจสองสามข้อเหล่านั้นโดยใช้ข้อมูลที่เหลือ ด้วยวิธีนี้คุณจะไม่ต้องแก้ไขให้ถูกต้องสำหรับการทดสอบหลาย ๆ แบบ (ฉันคิด...)

แน่นอนถ้าคุณใช้ขั้นตอนดังกล่าวคุณจะลดขนาดของชุดข้อมูลที่ใช้สำหรับการวิเคราะห์ขั้นสุดท้ายและลดพลังงานของคุณเพื่อค้นหาเอฟเฟกต์จริง อย่างไรก็ตามการแก้ไขสำหรับการเปรียบเทียบแบบหลาย ๆ ครั้งจะลดพลังงานเช่นกันดังนั้นฉันไม่แน่ใจว่าคุณจะสูญเสียสิ่งใดไป


5
(+1) นี่เป็นความคิดที่ดีโดยทั่วไป อย่างไรก็ตามสำหรับการฝึกอบรมสหสัมพันธ์ที่มีขนาดใหญ่นั้นมีสถิติมากมายและมีจำนวนมากที่มีขนาดใหญ่มากพร้อมกันซึ่งมักจะจ่ายเพื่อปรับ ไม่เช่นนั้นคุณก็จะเลิกล้มความสัมพันธ์ "สำคัญ" ที่ทำให้เข้าใจผิดจำนวนมากซึ่งหายไปจากข้อมูลที่ระงับไว้ (ลองจำลองด้วยพูดสองสามร้อยครั้งจาก 50 ตัวแปรปกติที่ไม่เกี่ยวข้องกันมันเป็นที่เปิดตา)
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.