คำถามติดแท็ก correlation

การวัดระดับความสัมพันธ์เชิงเส้นระหว่างตัวแปรหนึ่งตัว

4
การแก้ไขค่า p สำหรับการทดสอบหลายครั้งที่การทดสอบมีความสัมพันธ์กัน (พันธุศาสตร์)
ฉันมีค่า p จากการทดสอบจำนวนมากและต้องการทราบว่ามีสิ่งที่สำคัญจริง ๆ หลังจากแก้ไขสำหรับการทดสอบหลายครั้ง ภาวะแทรกซ้อน: การทดสอบของฉันไม่ขึ้นกับใคร วิธีที่ฉันคิด (แตกต่างจากวิธีผลิตภัณฑ์ของฟิชเชอร์, Zaykin และคณะ, Genet Epidemiol , 2002) ต้องการความสัมพันธ์ระหว่างค่า p เพื่อที่จะประมาณค่าสหสัมพันธ์นี้ขณะนี้ฉันกำลังคิดถึงกรณี bootstrapping ทำการวิเคราะห์และสหสัมพันธ์ผลเวกเตอร์ของค่า p ใครบ้างมีความคิดที่ดีกว่า หรือแม้แต่ความคิดที่ดีกว่าสำหรับปัญหาดั้งเดิมของฉัน (แก้ไขการทดสอบหลายรายการในการทดสอบที่เกี่ยวข้อง) ความเป็นมา: ฉันกำลังถดถอยอยู่หรือไม่ว่าประชากรของฉันกำลังทุกข์ทรมานจากโรคใดโรคหนึ่งโดยเฉพาะในการมีปฏิสัมพันธ์ระหว่างจีโนไทป์ของพวกเขา (AA, Aa หรือ aa) และ covariate อย่างไรก็ตามจีโนไทป์นั้นมีจำนวนมาก (30-250) ของ Single Nucleotide Polymorphisms (SNPs) ซึ่งแน่นอนว่าไม่เป็นอิสระ แต่อยู่ใน Linkage Disequilibrium

3
สร้างข้อมูลที่มีความสัมพันธ์แบบสุ่มระหว่างไบนารีและตัวแปรต่อเนื่อง
ฉันต้องการสร้างตัวแปรสองตัว หนึ่งคือตัวแปรผลลัพธ์ไบนารี (พูดว่าสำเร็จ / ล้มเหลว) และอีกอันคืออายุในปีที่ผ่านมา ฉันต้องการอายุมีความสัมพันธ์เชิงบวกกับความสำเร็จ ตัวอย่างเช่นควรมีความสำเร็จมากกว่าในกลุ่มอายุที่สูงกว่าต่ำกว่า เป็นการดีที่ฉันควรอยู่ในตำแหน่งที่จะควบคุมระดับความสัมพันธ์ ฉันจะทำอย่างไร ขอบคุณ

3
วิธีการทดสอบความสัมพันธ์ของข้อมูลส่วนบุคคลอัตโนมัติได้อย่างไร
ฉันมีเมทริกซ์ที่มีสองคอลัมน์ที่มีราคามากมาย (750) ในภาพด้านล่างผมพล็อตส่วนที่เหลือของการถดถอยเชิงเส้นดังนี้ lm(prices[,1] ~ prices[,2]) ดูภาพดูเหมือนว่าจะเป็นระบบอัตโนมัติที่สัมพันธ์กันอย่างมากกับส่วนที่เหลือ อย่างไรก็ตามฉันจะทดสอบได้อย่างไรว่าค่าความสัมพันธ์แบบอัตโนมัติของสารตกค้างเหล่านั้นมีความแข็งแรงหรือไม่? ฉันควรใช้วิธีใด ขอขอบคุณ!

2
การจัดกลุ่มตัวแปรตามความสัมพันธ์ระหว่างกัน
คำถาม: ฉันมีเมทริกซ์สหสัมพันธ์ขนาดใหญ่ แทนที่จะจัดกลุ่มความสัมพันธ์แต่ละตัวฉันต้องการจัดกลุ่มตัวแปรตามความสัมพันธ์ซึ่งกันและกันเช่นถ้าตัวแปร A และตัวแปร B มีความสัมพันธ์แบบเดียวกันกับตัวแปร C ถึง Z ดังนั้น A และ B ควรเป็นส่วนหนึ่งของคลัสเตอร์เดียวกัน ตัวอย่างชีวิตจริงที่ดีของเรื่องนี้คือประเภทสินทรัพย์ที่แตกต่างกัน - ความสัมพันธ์ภายในระดับสินทรัพย์จะสูงกว่าความสัมพันธ์ระหว่างระดับสินทรัพย์ ฉันยังพิจารณาถึงการจัดกลุ่มตัวแปรในแง่ความสัมพันธ์ระหว่างพวกเขาเช่นเมื่อความสัมพันธ์ระหว่างตัวแปร A และ B ใกล้เคียงกับ 0 พวกเขาทำหน้าที่อิสระมากหรือน้อย หากจู่ๆมีการเปลี่ยนแปลงเงื่อนไขพื้นฐานและความสัมพันธ์ที่แข็งแกร่งเกิดขึ้น (บวกหรือลบ) เราสามารถคิดว่าตัวแปรทั้งสองนี้เป็นของคลัสเตอร์เดียวกัน ดังนั้นแทนที่จะมองหาความสัมพันธ์เชิงบวกเราจะมองหาความสัมพันธ์กับความสัมพันธ์ ฉันเดาว่าการเปรียบเทียบอาจเป็นกลุ่มของอนุภาคที่มีประจุบวกและลบ หากประจุลดลงเหลือ 0 อนุภาคจะลอยออกจากกระจุก อย่างไรก็ตามประจุทั้งบวกและลบดึงดูดอนุภาคให้อยู่ในกระจุกดาว ฉันขอโทษถ้าบางอย่างไม่ชัดเจน กรุณาแจ้งให้เราทราบฉันจะชี้แจงรายละเอียดเฉพาะ

2
คำจำกัดความของเวลาความสัมพันธ์อัตโนมัติ (สำหรับขนาดตัวอย่างที่มีประสิทธิภาพ)
ฉันได้พบคำจำกัดความสองข้อในวรรณคดีสำหรับช่วงเวลาของความสัมพันธ์อัตโนมัติของอนุกรมเวลาที่ไม่คงที่: τa= 1 + 2 ∑k = 1∞ρkกับτข= 1 + 2 ∑k = 1∞| ρk|τa=1+2∑k=1∞ρkversusτb=1+2∑k=1∞|ρk| \tau_a = 1+2\sum_{k=1}^\infty \rho_k \quad \text{versus} \quad \tau_b = 1+2\sum_{k=1}^\infty \left|\rho_k\right| ที่เป็นอัตที่ล่าช้าk kρk= Cov [ Xเสื้อ, Xt + h]Var [ Xเสื้อ]ρk=Cov[Xt,Xt+h]Var[Xt]\rho_k = \frac{\text{Cov}[X_t,X_{t+h}]}{\text{Var}[X_t]}kkk โปรแกรมประยุกต์หนึ่งของเวลาอัตคือการหา "ขนาดของกลุ่มตัวอย่างที่มีประสิทธิภาพ": ถ้าคุณมีสังเกตของอนุกรมเวลาและคุณรู้ว่าเวลาของอัตแล้วคุณสามารถหลอกว่าคุณมีτnnnττ\tau nเอฟเอฟ= nτneff=nτ n_\text{eff} = \frac{n}{\tau} ตัวอย่างอิสระแทนมีความสัมพันธ์กันเพื่อวัตถุประสงค์ในการหาค่าเฉลี่ย การประมาณจากข้อมูลนั้นไม่ใช่เรื่องไร้สาระ แต่มีวิธีการสองสามวิธี (ดูThompson …

5
เมื่อ A และ B เกี่ยวข้องกับตัวแปรเชิงบวกพวกเขาสามารถมีผลตรงกันข้ามกับตัวแปรผลลัพธ์ C ได้หรือไม่?
A มีความสัมพันธ์เชิงบวกกับ B. C คือผลลัพธ์ของ A และ B แต่ผลของ A ต่อ C นั้นเป็นลบและผลของ B ต่อ C นั้นเป็นบวก เกิดขึ้นได้ไหม?

1
ใช้ความสัมพันธ์เป็นตัวชี้วัดระยะทาง (สำหรับการจัดกลุ่มแบบลำดับชั้น)
ฉันต้องการจัดกลุ่มข้อมูลของฉันแบบลำดับชั้น แต่แทนที่จะใช้ระยะทางแบบยุคลิดฉันต้องการใช้ความสัมพันธ์ นอกจากนี้เนื่องจากค่าสัมประสิทธิ์สหสัมพันธ์มีค่าตั้งแต่ -1 ถึง 1 โดยที่ทั้ง -1 และ 1 แสดงถึง "การควบคุมร่วม" ในการศึกษาของฉันฉันจึงรักษาทั้ง -1 และ 1 เป็น d = 0 ดังนั้นการคำนวณของฉันคือ d= 1 - | r | d=1-|R|\ d = 1-|r| ผมอ่านในคำถามที่แยกต่างหาก (เกี่ยวกับ K-วิธีการจัดกลุ่ม) ที่คุณควรแปลงRเข้าจริง euclidean dใช้ทฤษฎีบทโคไซน์:d= 2 ( 1 - r )-------√d=2(1-R)d = \sqrt{2(1-r)} วิธีที่ถูกต้องที่สุดในการแปลงสหสัมพันธ์เป็นระยะทางสำหรับการจัดกลุ่มแบบลำดับชั้นคืออะไร

2
หด VS เป็นกลาง : ประมาณของ
ในหัวของฉันมีความสับสนเกี่ยวกับตัวประมาณสองประเภทของค่าประชากรของสัมประสิทธิ์สหสัมพันธ์เพียร์สัน A. ฟิชเชอร์ (2458)แสดงให้เห็นว่าสำหรับประชากรปกติ bivariate เชิงประจักษ์คือตัวเอนเอียงของลำเอียงแม้ว่าอคติจะมีจำนวนมากพอสมควรจริงเพียงเล็กน้อยสำหรับกลุ่มตัวอย่างขนาดเล็ก ( ) ตัวอย่างดูถูกในแง่ที่ว่ามันอยู่ใกล้กับกว่า\(ยกเว้นเมื่อสมัยเป็นหรือสำหรับแล้วเป็นกลาง.) หลายเกือบประมาณเป็นกลางของได้รับการเสนอที่ดีที่สุดคนหนึ่งอาจจะเป็นOlkin และแพรตต์ (1958)ρ n &lt; 30 r ρrrrρρ\rhon&lt;30n&lt;30n<30rrrρρ\rhoρ 0 ± 1 r000ρρ\rho000±1±1\pm 1rrrρρ\rhoแก้ไข :rrr runbiased=r[1+1−r22(n−3)]runbiased=r[1+1−r22(n−3)]r_\text{unbiased} = r \left [1+\frac{1-r^2}{2(n-3)} \right ] B.มีการกล่าวกันว่าในการถดถอยพบว่าประเมินค่าประชากร R-square ที่สอดคล้องกัน หรือมีการถดถอยง่ายๆก็คือว่า overestimates 2 จากข้อเท็จจริงนั้นฉันได้เห็นข้อความมากมายที่บอกว่านั้นมีอคติเชิงบวกเมื่อเทียบกับซึ่งหมายถึงค่าสัมบูรณ์:นั้นไกลจากมากกว่า (นั่นเป็นคำสั่งจริงหรือไม่) ข้อความบอกว่ามันเป็นปัญหาเดียวกันกับการประมาณค่าเกินของค่าเบี่ยงเบนมาตรฐานโดยค่าตัวอย่าง มีหลายสูตรที่จะ "ปรับ" สังเกตใกล้กับพารามิเตอร์ประชากรของ Wherry's (1931)r 2 ρ 2 rR2R2R^2r2r2r^2ρ2ρ2\rho^2rrrr 0 ρ …

2
การสร้างข้อมูลด้วยเมทริกซ์ความแปรปรวนร่วมตัวอย่างที่กำหนด
ได้รับเมทริกซ์ความแปรปรวนร่วมΣsΣs\boldsymbol \Sigma_sวิธีสร้างข้อมูลเช่นนั้นจะมีเมทริกซ์ความแปรปรวนร่วมตัวอย่างΣ^=ΣsΣ^=Σs\hat{\boldsymbol \Sigma} = \boldsymbol \Sigma_s ? โดยทั่วไปเรามักจะมีความสนใจในข้อมูลที่สร้างจากความหนาแน่นของf(x|θ)f(x|θ) f(x \vert \boldsymbol\theta) กับข้อมูลxxxให้บางพารามิเตอร์เวกเตอร์\θθ\boldsymbol\thetaผลลัพธ์นี้เป็นตัวอย่างซึ่งเราอาจประมาณค่าθ^θ^\boldsymbol{\hat\theta}อีกครั้ง สิ่งที่ฉันสนใจคือปัญหาย้อนกลับ: เกิดอะไรขึ้นถ้าเราได้รับชุดพารามิเตอร์θsθs\boldsymbol\theta_{s}และเราต้องการสร้างตัวอย่างxxxเช่นนั้นθ^= θsθ^=θs \boldsymbol{\hat\theta} = \boldsymbol\theta_{s}{s} นี่เป็นปัญหาที่ทราบหรือไม่? วิธีการดังกล่าวมีประโยชน์หรือไม่? มีอัลกอริทึมหรือไม่

1
สิ่งใดที่อาจทำให้เกิดความแตกต่างใหญ่ในสัมประสิทธิ์สหสัมพันธ์ระหว่าง Pearson's และ Spearman's correlation สำหรับชุดข้อมูลที่กำหนด
สัมประสิทธิ์เพียร์สันระหว่างตัวแปรสองตัวนั้นค่อนข้างสูง (r = .65) แต่เมื่อฉันจัดอันดับค่าตัวแปรและเรียกใช้ความสัมพันธ์ของ Spearman ค่า cofficient ต่ำกว่ามาก (r = .30) การตีความของสิ่งนี้คืออะไร?

2
แหล่งข้อมูลออนไลน์ที่ดีพร้อมเคล็ดลับในการเชื่อมโยงกราฟระหว่างตัวแปรตัวเลขสองตัวภายใต้เงื่อนไขต่าง ๆ
บริบท: ในขณะที่ฉันได้รับชุดของฮิวริสติกเกี่ยวกับวิธีการกำหนดความสัมพันธ์ระหว่างตัวแปรตัวเลขสองตัวอย่างมีประสิทธิภาพ ฉันคิดว่าคนส่วนใหญ่ที่ทำงานกับข้อมูลจะมีชุดของกฎที่คล้ายกัน ตัวอย่างของกฎดังกล่าวอาจเป็น: หากตัวแปรตัวใดตัวหนึ่งเอียงเชิงบวกให้พิจารณาการวางแผนแกนนั้นในระดับบันทึก หากมีจุดข้อมูลจำนวนมาก (เช่น n&gt; 1,000) ให้ใช้กลยุทธ์ที่แตกต่างเช่นการใช้ความโปร่งใสบางส่วนหรือสุ่มตัวอย่างข้อมูล หากตัวแปรตัวใดตัวหนึ่งมีจำนวนหมวดหมู่ไม่ต่อเนื่องกันให้พิจารณาใช้ส่วนที่กระวนกระวายใจหรือเนื้อเรื่องของดอกทานตะวัน หากมีสามตัวหรือมากกว่าให้ลองใช้เมทริกซ์ scatterplot การปรับเทรนด์ไลน์บางรูปแบบมักมีประโยชน์ ปรับขนาดของอักขระการพล็อตเป็นขนาดตัวอย่าง (สำหรับ n ที่ใหญ่กว่าให้ใช้อักขระการพล็อตที่เล็กกว่า) และอื่น ๆ คำถาม: ฉันต้องการที่จะสามารถอ้างถึงนักเรียนไปยังหน้าเว็บหรือเว็บไซต์ที่อธิบายถึงเทคนิคเหล่านี้และเทคนิคอื่น ๆ สำหรับการวางแผนความสัมพันธ์ระหว่างตัวแปรตัวเลขสองตัวได้อย่างมีประสิทธิภาพหรืออาจเป็นตัวอย่าง มีหน้าเว็บหรือเว็บไซต์บนอินเทอร์เน็ตที่ใช้งานได้ดีหรือไม่?

3
การประมาณค่าเมทริกซ์ความแปรปรวนร่วมแบบไม่เอนเอียงสำหรับข้อมูลการตรวจสอบแบบทวีคูณ
การวิเคราะห์ทางเคมีของตัวอย่างด้านสิ่งแวดล้อมมักจะถูกตรวจสอบด้านล่างที่ข้อ จำกัด การรายงาน หลังสามารถเปลี่ยนแปลงได้ตามสัดส่วนของค่าตัวแปรอื่น ๆ ตัวอย่างเช่นตัวอย่างที่มีความเข้มข้นสูงของสารประกอบหนึ่งอาจต้องทำให้เจือจางเพื่อการวิเคราะห์ส่งผลให้เกิดสัดส่วนเงินเฟ้อของการ จำกัด การเซ็นเซอร์สำหรับสารประกอบอื่น ๆ ทั้งหมดที่วิเคราะห์ในเวลาเดียวกันในตัวอย่างนั้น อีกตัวอย่างหนึ่งบางครั้งการปรากฏตัวของสารประกอบสามารถเปลี่ยนการตอบสนองของการทดสอบกับสารประกอบอื่น ๆ ("การแทรกแซงเมทริกซ์"); เมื่อตรวจพบโดยห้องปฏิบัติการมันจะขยายขีด จำกัด การรายงานตามที่กำหนด ฉันกำลังมองหาวิธีที่ใช้งานได้จริงเพื่อประเมินเมทริกซ์ความแปรปรวนร่วม -Vovance ทั้งหมดสำหรับชุดข้อมูลดังกล่าวโดยเฉพาะอย่างยิ่งเมื่อสารประกอบจำนวนมากประสบการเซ็นเซอร์มากกว่า 50% ซึ่งมักเป็นกรณี แบบจำลองการแจกแจงแบบดั้งเดิมคือลอการิทึมของความเข้มข้น (จริง) มีการกระจายแบบหลายช่วงและสิ่งนี้ดูเหมือนจะเหมาะสมในทางปฏิบัติดังนั้นวิธีแก้ปัญหาสำหรับสถานการณ์นี้จะเป็นประโยชน์ (โดย "ใช้งานจริง" ฉันหมายถึงวิธีการที่สามารถเข้ารหัสได้อย่างน่าเชื่อถือในสภาพแวดล้อมซอฟต์แวร์ที่มีอยู่อย่างน้อยหนึ่งอย่างเช่น R, Python, SAS และอื่น ๆ ในวิธีที่ดำเนินการอย่างรวดเร็วพอที่จะรองรับการคำนวณซ้ำซ้ำเช่นเกิดขึ้นในหลาย ๆ และสิ่งใดที่มีเสถียรภาพพอสมควร [ซึ่งเป็นเหตุผลที่ฉันลังเลที่จะสำรวจการใช้งานข้อผิดพลาดแม้ว่าวิธีการแบบเบย์โดยทั่วไปยินดีต้อนรับ] ขอบคุณล่วงหน้าสำหรับความคิดของคุณในเรื่องนี้

1
การทดสอบทางสถิติทั่วไปเป็นแบบจำลองเชิงเส้น
(อัปเดต: ฉันพุ่งลึกเข้าไปในสิ่งนี้และโพสต์ผลลัพธ์ที่นี่ ) รายการทดสอบทางสถิติที่ตั้งชื่อนั้นมีขนาดใหญ่มาก การทดสอบทั่วไปจำนวนมากอาศัยการอนุมานจากโมเดลเชิงเส้นอย่างง่ายเช่นหนึ่งตัวอย่าง t-test คือy = β + εซึ่งทดสอบกับแบบจำลองโมฆะy = μ + εนั่นคือβ = μโดยที่μเป็นโมฆะบางอย่าง ค่า - โดยทั่วไปแล้วμ = 0 ฉันคิดว่านี่เป็นคำแนะนำเพื่อวัตถุประสงค์ในการสอนมากกว่าการเรียนรู้แบบท่องจำที่มีชื่อเมื่อใช้และสมมติฐานของพวกเขาราวกับว่าพวกเขาไม่มีอะไรเกี่ยวข้องกัน วิธีการส่งเสริมนั้นไม่ส่งเสริมความเข้าใจ อย่างไรก็ตามฉันไม่สามารถหาแหล่งรวบรวมที่ดีได้ ฉันสนใจในการเปรียบเทียบระหว่างโมเดลพื้นฐานมากกว่าวิธีการอนุมานจากพวกเขา แม้ว่าเท่าที่ฉันเห็นการทดสอบอัตราส่วนความน่าจะเป็นในตัวแบบเชิงเส้นทั้งหมดนี้ให้ผลลัพธ์แบบเดียวกับการอนุมานแบบ "คลาสสิค" ต่อไปนี้เป็นสิ่งที่ฉันได้เรียนรู้มาโดยไม่คำนึงถึงข้อผิดพลาดและสมมติว่าสมมติฐานว่างทั้งหมดไม่มีผล:ε∼N(0,σ2)ε∼N(0,σ2)\varepsilon \sim \mathcal N(0, \sigma^2) หนึ่งตัวอย่าง t-test: 0y=β0H0:β0=0y=β0H0:β0=0y = \beta_0 \qquad \mathcal{H}_0: \beta_0 = 0 t-test ตัวอย่างแบบจับคู่: y2−y1=β0H0:β0=0y2−y1=β0H0:β0=0y_2-y_1 = \beta_0 \qquad \mathcal{H}_0: …

1
มีความแตกต่างระหว่าง
ค่าสัมประสิทธิ์สหสัมพันธ์มักเขียนด้วยทุนแต่บางครั้งก็ไม่ ฉันสงสัยว่ามีความแตกต่างระหว่างr 2และR 2หรือไม่? Can Rหมายถึงสิ่งอื่นมากกว่าค่าสัมประสิทธิ์สหสัมพันธ์หรือไม่?RRRr2r2r^2R2R2R^2rrr

4
ความแตกต่างระหว่างสมมติฐานที่มีความสัมพันธ์กับการทดสอบความชันของการถดถอยอย่างมีนัยสำคัญ
คำถามของฉันเกิดจากการพูดคุยกับ @whuber ในความคิดเห็นของคำถามอื่น โดยเฉพาะความคิดเห็นของ @whuber มีดังนี้: เหตุผลหนึ่งที่ทำให้คุณประหลาดใจก็คือสมมติฐานที่ใช้ทดสอบสหสัมพันธ์และการทดสอบความชันของการถดถอยนั้นแตกต่างกันดังนั้นแม้ว่าเราจะเข้าใจว่าสหสัมพันธ์และความชันนั้นวัดในสิ่งเดียวกันจริง ๆ ทำไมค่า p ของพวกเขาจึงเหมือนกัน นั่นแสดงให้เห็นว่าปัญหาเหล่านี้ลึกซึ้งยิ่งกว่าเพียงว่าและควรเท่ากับตัวเลขหรือไม่βRrrββ\beta นี่ทำให้ฉันคิดถึงมันและฉันก็ได้คำตอบที่น่าสนใจมากมาย ตัวอย่างเช่นฉันพบคำถามนี้ " สมมติฐานของค่าสัมประสิทธิ์สหสัมพันธ์ " แต่ไม่สามารถดูว่าสิ่งนี้จะชี้แจงความคิดเห็นข้างต้น ฉันพบคำตอบที่น่าสนใจมากขึ้นเกี่ยวกับความสัมพันธ์ของ Pearson'sและความชันในการถดถอยเชิงเส้นอย่างง่าย (ดูที่นี่และที่นี่เป็นต้น) แต่ดูเหมือนว่าไม่มีใครตอบคำถามที่ @whuber อ้างถึงในความคิดเห็นของเขา ถึงฉัน).βRrrββ\beta คำถามที่ 1:อะไรคือสมมติฐานที่ใช้ทดสอบสหสัมพันธ์และการทดสอบความชันถดถอย สำหรับคำถามที่ 2 พิจารณาผลลัพธ์ต่อไปนี้ในR: model &lt;- lm(Employed ~ Population, data = longley) summary(model) Call: lm(formula = Employed ~ Population, data = longley) Residuals: Min …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.