คำถามติดแท็ก correlation

การวัดระดับความสัมพันธ์เชิงเส้นระหว่างตัวแปรหนึ่งตัว

5
สัญชาตญาณในความหมายของความแปรปรวนร่วม
ฉันพยายามที่จะเข้าใจความแปรปรวนร่วมของตัวแปรสุ่มสองตัวที่ดีขึ้นและเข้าใจว่าคนแรกที่นึกถึงมันมาถึงคำจำกัดความที่ใช้เป็นประจำในสถิติ ฉันไปวิกิพีเดียเพื่อทำความเข้าใจให้ดีขึ้น จากบทความดูเหมือนว่าการวัดหรือปริมาณผู้สมัครที่ดีสำหรับควรมีคุณสมบัติดังต่อไปนี้:คo v ( X), วาย)Cov(X,Y)Cov(X,Y) มัน shoukd มีสัญญาณเชิงบวกเมื่อตัวแปรสุ่มสองตัวมีความคล้ายคลึงกัน (เช่นเมื่อเพิ่มอีกอันหนึ่งทำกับและเมื่อหนึ่งลดลงอีกหนึ่งทำเช่นกัน) นอกจากนี้เรายังต้องการให้มันมีเครื่องหมายลบเมื่อตัวแปรสุ่มสองตัวมีลักษณะตรงข้ามกัน (เช่นเมื่อหนึ่งตัวแปรที่เพิ่มขึ้นแบบสุ่มมีแนวโน้มลดลง) สุดท้ายเราต้องการให้ปริมาณความแปรปรวนร่วมนี้เป็นศูนย์ (หรืออาจน้อยมาก?) เมื่อตัวแปรสองตัวนั้นเป็นอิสระจากกัน (เช่นพวกมันไม่ได้แปรผันตามกัน) จากคุณสมบัติข้างต้นเราต้องการกำหนดY) คำถามแรกของฉันคือมันไม่ชัดเจนเลยสำหรับฉันว่าทำไมตอบสนองคุณสมบัติเหล่านั้น จากคุณสมบัติที่เรามีฉันจะคาดหวังมากกว่าของสมการเหมือนอนุพันธ์ "ที่จะเป็นผู้สมัครในอุดมคติ ตัวอย่างเช่นมีอะไรเพิ่มเติมเช่น "ถ้าการเปลี่ยนแปลงในเชิงบวก X แล้วการเปลี่ยนแปลงใน Y ก็ควรจะเป็นบวก" นอกจากนี้ทำไมการแตกต่างจากสิ่งที่ถูกต้องหมายถึงทำอะไรC o v ( X , Y ) = E [ ( X - E [ X ] ) ( Y - E …

2
ความสำคัญของสัมประสิทธิ์สหสัมพันธ์เฉลี่ย
ข้อจำกัดความรับผิดชอบ: หากคุณพบว่าคำถามนี้คล้ายกับคำถามอื่นมากเกินไปฉันยินดีที่จะรวมเข้าด้วยกัน อย่างไรก็ตามฉันไม่พบคำตอบที่น่าพอใจที่อื่น (และยังไม่มี "ชื่อเสียง" ที่จะแสดงความคิดเห็นหรือ upvote) ดังนั้นฉันคิดว่ามันเป็นการดีที่สุดที่จะถามคำถามใหม่ด้วยตัวเอง คำถามของฉันคือสิ่งนี้ สำหรับวิชามนุษย์ 12 คนฉันได้คำนวณค่าสัมประสิทธิ์สหสัมพันธ์ (Spearman's rho) ระหว่าง 6 ระดับของตัวแปรอิสระ X และการสังเกตที่สอดคล้องกันของตัวแปรตาม Y (หมายเหตุ: ระดับของ X ไม่เท่ากันในทุกวิชา) สมมุติฐานว่างคือในประชากรทั่วไปความสัมพันธ์นี้เท่ากับศูนย์ ฉันได้ทดสอบสมมติฐานนี้สองวิธี: ใช้การทดสอบทีหนึ่งตัวอย่างในสัมประสิทธิ์สหสัมพันธ์ที่ได้รับจาก 12 วิชาของฉัน โดยการจัดศูนย์กลางของระดับ X และการสังเกตของ Y เช่นนั้นสำหรับผู้เข้าร่วมแต่ละคนค่าเฉลี่ย (X) = 0 และค่าเฉลี่ย (Y) = 0 จากนั้นคำนวณความสัมพันธ์กับข้อมูลรวม (72 ระดับของ X และ 72 การสังเกตของ Y) . …

2
เปรียบเทียบค่าสัมประสิทธิ์สหสัมพันธ์
ฉันมีชุดข้อมูลสองชุดที่มีค่า ~ 250.000 สำหรับตัวอย่าง 78 และ 35 ตัวอย่างบางส่วนเป็นสมาชิกของครอบครัวและอาจมีผลกระทบของข้อมูล ฉันคำนวณความสัมพันธ์แบบคู่และมันแตกต่างกันระหว่าง 0.7 และ 0.95 แต่อยากทราบว่ามีความแตกต่างอย่างมีนัยสำคัญในค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างครอบครัวกับครอบครัวหรือไม่? วิธีที่ดีที่สุดในการทำเช่นนี้คืออะไร? ขอบคุณ

1
การประมาณค่าสัมประสิทธิ์การถดถอยไม่เกี่ยวข้องกันหรือไม่?
พิจารณาการถดถอยง่าย (ปกติไม่ได้สันนิษฐาน):ที่คือมีค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐาน\ประมาณการสแควร์น้อยที่สุดของและไม่เกี่ยวข้องกันหรือไม่?Yi=a+bXi+ei,Yi=a+bXi+ei,Y_i = a + b X_i + e_i,eieie_i000σσ\sigmaaaabbb

2
ความสัมพันธ์ระหว่างไพ่สองสำรับ?
ฉันได้เขียนโปรแกรมเพื่อจำลองการสลับไพ่ ฟาด ไพ่แต่ละใบมีหมายเลขโดยมีชุดสูทจากCLUBS, DIAMONDS, HEARTS, SPADESและอันดับจากสองถึงสิบจากนั้นแจ็ค, Queen, King และ Ace ดังนั้น Two of Clubs จึงมีหมายเลข 1, Three of Clubs a 2 .... Ace of Clubs คือ 13 ... Ace of Spades คือ 52 หนึ่งในวิธีการในการกำหนดวิธีสับไพ่คือการเปรียบเทียบกับไพ่ที่ไม่ได้สับไพ่และดูว่าลำดับของไพ่มีความสัมพันธ์กันหรือไม่ นั่นคือฉันอาจมีการ์ดเหล่านี้พร้อมกับการ์ดที่ไม่มีการสับเพื่อเปรียบเทียบ: Unshuffled Shuffled Unshuffled number Shuffled number Two of Clubs Three of Clubs 1 2 Three …

4
คุณจะค้นหาความสัมพันธ์เชิงสาเหตุในข้อมูลได้อย่างไร
ให้บอกว่าฉันมีตารางที่มีคอลัมน์ "A", "B" มีวิธีการทางสถิติเพื่อตรวจสอบว่า "A" ทำให้ "B" เกิดขึ้นหรือไม่? เราไม่สามารถใช้ r ของ Pearson ได้เพราะ: มันเพียงทดสอบความสัมพันธ์ระหว่างค่า สหสัมพันธ์ไม่ใช่สาเหตุ เพียร์สัน r สามารถสัมพันธ์เชิงเส้นสัมพันธ์เท่านั้น ฉันมีตัวเลือกอื่นที่นี่อีกไหม

5
วิธีการเปรียบเทียบอนุกรมเวลาที่ไม่หยุดนิ่ง 2 แบบเพื่อกำหนดสหสัมพันธ์
ฉันมีชุดข้อมูลสองชุดที่พล็อตค่ามัธยฐานของอายุเมื่อเวลาผ่านไป ทั้งสองซีรีส์แสดงอายุที่เพิ่มขึ้นเมื่อตายในช่วงเวลาหนึ่ง แต่ต่ำกว่าอีกมาก ฉันต้องการตรวจสอบว่าการเพิ่มขึ้นของอายุที่เสียชีวิตของกลุ่มตัวอย่างต่ำกว่านั้นแตกต่างจากกลุ่มตัวอย่างบนอย่างมีนัยสำคัญหรือไม่ นี่คือข้อมูลที่เรียงลำดับตามปี (ตั้งแต่ปี 1972 ถึง 2009 รวม) โดยปัดเศษเป็นทศนิยมสามตำแหน่ง: Cohort A 70.257 70.424 70.650 70.938 71.207 71.263 71.467 71.763 71.982 72.270 72.617 72.798 72.964 73.397 73.518 73.606 73.905 74.343 74.330 74.565 74.558 74.813 74.773 75.178 75.406 75.708 75.900 76.152 76.312 76.558 76.796 77.057 77.125 77.328 77.431 77.656 77.884 …

1
สับสนเกี่ยวกับคำอธิบายภาพของ eigenvectors: ชุดข้อมูลที่ต่างกันสามารถมี eigenvector เหมือนกันได้อย่างไร
ตำราสถิติจำนวนมากให้ภาพตัวอย่างที่เข้าใจง่ายว่า eigenvectors ของเมทริกซ์ความแปรปรวนร่วมคืออะไร: เวกเตอร์uและzเป็นค่า eigenvectors (ดี, eigenaxes) มันสมเหตุสมผลแล้ว แต่สิ่งหนึ่งที่ทำให้ฉันสับสนก็คือเราแยก eigenvectors จากเมทริกซ์สหสัมพันธ์ไม่ใช่ข้อมูลดิบ นอกจากนี้ชุดข้อมูลดิบที่แตกต่างกันมากอาจมีเมทริกซ์สหสัมพันธ์เหมือนกัน ตัวอย่างเช่นทั้งคู่มีเมทริกซ์สหสัมพันธ์ของ: [10.970.971][10.970.971]\left[\begin{array}{} 1 & 0.97 \\ 0.97 &1\end{array}\right] ดังนั้นพวกเขาจึงมี eigenvectors ชี้ไปในทิศทางเดียวกัน: [.71.71−.71.71][.71−.71.71.71]\left[\begin{array}{} .71 & -.71 \\ .71 & .71\end{array}\right] แต่ถ้าคุณต้องใช้การตีความภาพแบบเดียวกันกับที่ทิศทางของข้อมูลผู้ใช้ในข้อมูลดิบคุณจะได้เวกเตอร์ชี้ไปในทิศทางที่ต่างกัน ใครช่วยบอกฉันทีว่าฉันทำผิดไปได้ไหม การแก้ไขที่สอง : หากฉันกล้าหาญมากด้วยคำตอบที่ดีเยี่ยมด้านล่างฉันสามารถเข้าใจความสับสนและแสดงให้เห็นได้ คำอธิบายด้วยภาพสอดคล้องกับความจริงที่ว่า eigenvector สกัดจากเมทริกซ์ความแปรปรวนร่วมนั้นแตกต่างกัน Covariances และ Eigenvectors (สีแดง): [1111][.7.72−.72.7][1111][.7−.72.72.7]\left[\begin{array}{} 1 & 1 \\ 1 & …

2
ตัวอย่างของตัวแปรปกติสองตัวที่มีความสัมพันธ์ * ซึ่งผลรวมไม่ปกติ
ฉันรับรู้ถึงตัวอย่างที่ดีของคู่ตัวแปรสุ่มที่มีความสัมพันธ์ซึ่งปกติเล็กน้อย แต่ไม่ได้ร่วมกัน ดูคำตอบนี้โดยDilip Sarwateและหนึ่งในนี้โดยพระคาร์ดินัล ฉันยังรับรู้ถึงตัวอย่างของตัวแปรสุ่มสองตัวที่มีผลรวมไม่ปกติ ดูคำตอบนี้โดยมาโคร แต่ในตัวอย่างนี้ตัวแปรสุ่มสองตัวไม่มีการเชื่อมโยงกัน มีตัวอย่างของตัวแปรสุ่มสองตัวที่มีความแปรปรวนร่วมที่ไม่ใช่ศูนย์และผลรวมที่ไม่ปกติหรือไม่? หรือเป็นไปได้ที่จะพิสูจน์ว่าผลรวมของตัวแปรสุ่มปกติสองตัวใด ๆ ที่มีความสัมพันธ์กันแม้ว่าพวกเขาจะไม่ได้เป็นตัวแปรตามปกติก็ตาม [บริบท: ฉันมีคำถามที่ถามทำการบ้านสำหรับการกระจายของX + ขYที่XและYเป็นปกติมาตรฐานที่มีความสัมพันธ์ρ ฉันคิดว่าคำถามหมายถึงการระบุว่าพวกเขาเป็นตัวแปรปกติ แต่ฉันสงสัยว่าจะสามารถพูดอะไรได้หรือไม่หากไม่มีข้อสมมุติพิเศษสำหรับρไม่ใช่ศูนย์]X+ b YaX+bYaX+bYXXXYYYρρ\rhoρρ\rho ขอบคุณ!

4
การแปรปรวนเวลาแบบไดนามิกสำหรับอนุกรมเวลาที่ผิดปกติ
ฉันได้อ่านเกี่ยวกับ Dynamic Time Warping (DTW) เมื่อไม่นานมานี้ ฉันประหลาดใจมากที่ไม่มีวรรณกรรมเลยในการใช้ DTW กับซีรี่ย์เวลาที่ผิดปกติหรืออย่างน้อยฉันก็หาไม่เจอ ใครช่วยให้ฉันอ้างอิงถึงบางสิ่งที่เกี่ยวข้องกับปัญหานั้นหรือแม้กระทั่งการใช้งานได้หรือไม่

2
สมการความสัมพันธ์ตัวอย่างและสถิติ R สำหรับการถดถอยเชิงเส้นอย่างง่าย
มันมักจะระบุว่าสแควร์ของความสัมพันธ์ตัวอย่างเทียบเท่ากับสัมประสิทธิ์การตัดสินใจสำหรับการถดถอยเชิงเส้นอย่างง่าย ฉันไม่สามารถแสดงให้เห็นถึงสิ่งนี้ได้ด้วยตนเองและขอขอบคุณที่พิสูจน์ความจริงทั้งหมดนี้R 2r2r2r^2R2R2R^2

4
ทำไมจึงไม่เป็นไรที่จะทำการสหสัมพันธ์แบบเพียร์สันกับข้อมูลสัดส่วน
โมดูลออนไลน์ที่ฉันกำลังศึกษาระบุว่าไม่ควรใช้เพียร์สันสหสัมพันธ์กับข้อมูลสัดส่วน ทำไมจะไม่ล่ะ? หรือถ้าบางครั้งมันก็โอเคหรือเสมอโอเคทำไม?

1
ทำไมนักสถิติจึงไม่ใช้ข้อมูลร่วมกันเพื่อเป็นตัวชี้วัดความสัมพันธ์?
ฉันได้เห็นการพูดคุยสองสามครั้งโดยนักสถิติที่ไม่ใช่พวกเขาดูเหมือนจะนำเสนอมาตรการความสัมพันธ์โดยใช้ข้อมูลร่วมกันมากกว่าการถดถอย ฉันคิดว่ามันมีเหตุผลที่ดีที่นักสถิติไม่ใช้วิธีนี้ ความเข้าใจของคนธรรมดาของฉันคือการประมาณการของข้อมูลเอนโทรปี / ข้อมูลร่วมกันมีแนวโน้มที่จะเป็นปัญหาและไม่เสถียร ฉันถือว่าพลังเป็นปัญหาเช่นกัน: พวกเขาพยายามหลีกเลี่ยงสิ่งนี้โดยอ้างว่าพวกเขาไม่ได้ใช้กรอบการทดสอบแบบพารามิเตอร์ โดยทั่วไปแล้วงานประเภทนี้จะไม่รบกวนการคำนวณพลังงานหรือแม้แต่ความมั่นใจ / ความน่าเชื่อถือ แต่ถ้าจะรับตำแหน่งผู้สนับสนุนของปีศาจมันเป็นการบรรจบกันอย่างช้าๆซึ่งเป็นเรื่องใหญ่เมื่อชุดข้อมูลมีขนาดใหญ่มาก? นอกจากนี้บางครั้งวิธีการเหล่านี้ดูเหมือนจะ "ทำงาน" ในแง่ที่ว่าสมาคมได้รับการตรวจสอบความถูกต้องโดยการศึกษาติดตามผล บทวิจารณ์ที่ดีที่สุดในการใช้ข้อมูลร่วมกันเป็นตัวชี้วัดความเชื่อมโยงคืออะไรและทำไมจึงไม่ใช้กันอย่างแพร่หลายในการฝึกสถิติ แก้ไข: นอกจากนี้ยังมีเอกสารที่ดีที่ครอบคลุมปัญหาเหล่านี้หรือไม่

2
สำรวจเมทริกซ์กระจาย - พล็อตสำหรับตัวแปรมากมาย
ฉันกำลังวิเคราะห์ชุดข้อมูลที่มีพารามิเตอร์หลายตัว (เช่น 50-200) และฉันสนใจที่จะดูความสัมพันธ์ระหว่างตัวแปร (เช่นในแง่ของแผนการกระจาย 2 ตัวแปรหรือ 2d ฮิสโทแกรม) อย่างไรก็ตามสำหรับพารามิเตอร์จำนวนนี้ดูเหมือนว่าเป็นไปไม่ได้ที่จะวาดพล็อตอาเรย์ 200x200 (เว้นแต่ฉันจะพิมพ์และแขวนบนผนัง) ในทางตรงกันข้ามการทำเพียงแค่เมทริกซ์สหสัมพันธ์นั้นไม่ได้ให้ข้อมูลทั้งหมดเกี่ยวกับความสัมพันธ์ 2 ตัวแปร มีวิธี (ไลบรารีหรือเวิร์กโฟลว์) ในการสำรวจความสัมพันธ์ 2 ตัวแปรสำหรับตัวแปรหลายตัวหรือไม่ ฉันสนใจที่จะแสดงผลลัพธ์ให้ผู้อื่นโดยเฉพาะอย่างยิ่ง (บางทีหลังจากการประมวลผลข้อมูลล่วงหน้า) เช่นสิ่งที่มีการโต้ตอบใน JavaScript ฉันสามารถเห็นเมทริกซ์กระจาย - พล็อตสำหรับเขตข้อมูลที่เลือกจากเมทริกซ์สหสัมพันธ์ โดยเมทริกซ์การกระจาย - พล็อตฉันหมายถึงสิ่งที่ต้องการ: (นำมาจากบล็อก pandasplotting ; สามารถใช้งานได้ในPython / Pandas , R , D3.jsฯลฯ )

1
ทั่วไปกำลังสองน้อยที่สุด: จากสัมประสิทธิ์การถดถอยถึงสัมประสิทธิ์สหสัมพันธ์?
อย่างน้อยกำลังสองที่มีตัวทำนายหนึ่งตัว: Y= βx + ϵY=βx+εy = \beta x + \epsilon หากและเป็นมาตรฐานก่อนการประกอบ (เช่น ) ดังนั้น:y ∼ N ( 0 , 1 )xxxYYy∼ N( 0 , 1 )~ยังไม่มีข้อความ(0,1)\sim N(0,1) rββ\beta RRRr x = β y + ϵββ\betaเหมือนกันในการถดถอยที่สะท้อน:x = βY+ ϵx=βY+εx = \beta y + \epsilon สำหรับทั่วไปกำลังสองน้อยที่สุด (GLS), เดียวกันนำไปใช้? คือถ้าฉันสร้างมาตรฐานข้อมูลของฉันฉันจะได้ค่าสัมประสิทธิ์สหสัมพันธ์โดยตรงจากค่าสัมประสิทธิ์การถดถอยหรือไม่? จากการทดสอบกับข้อมูล GLS ที่สะท้อนจะนำไปสู่ค่าสัมประสิทธิ์แตกต่างกันและฉันไม่แน่ใจว่าฉันเชื่อว่าค่าสัมประสิทธิ์การถดถอยนั้นสอดคล้องกับค่าที่ฉันคาดหวังสำหรับค่าสหสัมพันธ์ …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.