ความสัมพันธ์ระหว่าง


38

ความสัมพันธ์ระหว่างและในโครงเรื่องต่อไปนี้คืออะไร? ในมุมมองของฉันมีความสัมพันธ์เชิงเส้นเชิงลบ แต่เนื่องจากเรามีค่าผิดจำนวนมากความสัมพันธ์จึงอ่อนมาก ฉันถูกไหม? ฉันต้องการเรียนรู้วิธีที่เราสามารถอธิบายแผนการกระจายXYX

ป้อนคำอธิบายรูปภาพที่นี่


3
คืออะไร คืออะไร คุณทำผิดขั้นตอนใด อะไรทำให้คุณคิดว่าสิ่งเหล่านั้นไม่ใช่การวัดที่แท้จริง? ทฤษฎีคืออะไร YXY
abaumann

4
ขอบคุณสำหรับความคิดเห็นของคุณ ฉันเพิ่งเห็นพล็อตนี้ในหนังสือ Y เป็นตัวแปรตามและ X เป็นตัวแปรอิสระ ไม่มีทฤษฎี มันวางแผนกระจายเพื่อแสดงความสัมพันธ์ของ Y ที่ให้ x และมีคำถามในหนังสือที่ถามว่ามีความสัมพันธ์ใด ๆ หรือไม่ตรงหรือไม่เชิงเส้น? แข็งแรงหรืออ่อนแอ
PSS

7
นี่คือการออกกำลังกายในTasseography นี้เป็นที่นิยมมากในหมู่ผู้ค้าวันและพวกเขาเรียกว่าการวิเคราะห์ทางเทคนิค โดยทั่วไปโดยไม่ทราบว่าบางสิ่งบางอย่างเกี่ยวกับธรรมชาติของข้อมูลที่จะเป็นออกกำลังกายไร้ผล
Aksakal

1
@chl คุณร็อคสำหรับการบริจาคให้กับรางวัลเพื่อ whuber =)
Cam.Davidson.Pilon

3
@Aksakal ภาษาทางสถิติมักจะเข้าใจ "ความสัมพันธ์" ค่อนข้างแท้จริง: เป็นการอธิบายชุดจำนวนของอันดับ ตัวอย่างเช่นสัมประสิทธิ์สหสัมพันธ์อธิบายความสัมพันธ์ ไม่มีความหมายเกี่ยวกับการกำเนิดธรรมชาติหรือความสัมพันธ์เชิงสาเหตุระหว่างตัวแปรพื้นฐาน ฉันเห็นด้วยกับคุณว่า "อธิบาย" มักจะเข้าใจในความหมายที่ลึกซึ้งกว่านี้ แต่เนื่องจากความสัมพันธ์มีการเน้นหนักในคำถามฉันคิดว่ามันยุติธรรมที่จะไม่ผลักดันความหมายตามตัวอักษรของ "อธิบาย" มากเกินไป การแนะนำว่าการอธิบายแผนการกระจายเป็นเพียงการอ่านใบชาไปไกลเกินไป IMHO
whuber

คำตอบ:


50

คำถามเกี่ยวข้องกับแนวคิดหลายประการ: วิธีการประเมินข้อมูลที่ได้รับในรูปแบบของการกระจายเท่านั้นวิธีการสรุป scatterplot และความสัมพันธ์ (และระดับใด) ที่มีลักษณะเป็นเส้นตรงหรือไม่ เราจะพาพวกเขาไปตามลำดับ

การประเมินข้อมูลกราฟิก

ใช้หลักการของการวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) สิ่งเหล่านี้ (อย่างน้อยตอนแรกเมื่อได้รับการพัฒนาสำหรับการใช้ดินสอและกระดาษ) เน้นข้อมูลสรุปที่เรียบง่ายและง่ายต่อการคำนวณและมีประสิทธิภาพ หนึ่งในบทสรุปที่ง่ายที่สุดนั้นขึ้นอยู่กับตำแหน่งที่อยู่ภายในชุดของตัวเลขเช่นค่ากลางซึ่งอธิบายค่า "ปกติ" มิดเดิ้ลง่ายต่อการประมาณค่าที่เชื่อถือได้จากกราฟิก

Scatterplots แสดงคู่ของตัวเลข คู่แรกของแต่ละคู่ (ตามที่พล็อตบนแกนนอน) ให้ชุดของตัวเลขเดี่ยวซึ่งเราสามารถสรุปแยกกันได้

ในแผนการกระจายแบบพิเศษนี้ค่า y จะอยู่ภายในกลุ่มที่แยกกันเกือบสองกลุ่ม : ค่าที่สูงกว่าที่ด้านบนและกลุ่มที่มีค่าเท่ากับหรือน้อยกว่าที่ด้านล่าง (ความประทับใจนี้ได้รับการยืนยันโดยการวาดฮิสโตแกรมของค่า y ซึ่งเป็น bimodal อย่างรวดเร็ว แต่นั่นจะเป็นงานจำนวนมากในขั้นตอนนี้) ฉันขอเชิญคลางแคลงไปที่การกระจาย เมื่อฉัน - ใช้รัศมีขนาดใหญ่, Gaussian เบลอแก้ไข (นั่นคือผลการประมวลผลภาพอย่างรวดเร็วมาตรฐาน) ของจุดใน scatterplot ฉันเห็นนี้:606060

รูปที่ 0

ทั้งสองกลุ่ม - บนและล่าง - มีความชัดเจน (กลุ่มด้านบนมีน้ำหนักเบากว่าด้านล่างมากเนื่องจากมีจุดจำนวนน้อยกว่า)

ดังนั้นเรามาสรุปกลุ่มของค่า y แยกกัน ฉันจะทำอย่างนั้นโดยวาดเส้นแนวนอนที่ค่ามัธยฐานของทั้งสองกลุ่ม เพื่อเน้นความประทับใจของข้อมูลและเพื่อแสดงว่าเราไม่ได้ทำการคำนวณใด ๆ ฉันได้ (a) ลบการตกแต่งทั้งหมดเช่นแกนและเส้นตารางและ (b) ทำให้จุดมัว ข้อมูลเล็ก ๆ น้อย ๆ เกี่ยวกับรูปแบบในข้อมูลจะหายไปด้วยเหตุนี้ "squinting" ที่กราฟิก:

รูป

ในทำนองเดียวกันฉันได้พยายามทำเครื่องหมายค่ามัธยฐานของค่า x ด้วยส่วนของเส้นแนวตั้ง ในกลุ่มบน (เส้นสีแดง) คุณสามารถตรวจสอบ - โดยนับ blobs - ว่าเส้นเหล่านี้แยกกลุ่มออกเป็นสองส่วนเท่า ๆ กันทั้งแนวนอนและแนวตั้ง ในกลุ่มที่ต่ำกว่า (เส้นสีน้ำเงิน) ฉันได้ประเมินตำแหน่งที่เห็นได้โดยไม่ต้องนับจำนวนจริง

การประเมินความสัมพันธ์: การถดถอย

จุดตัดเป็นศูนย์กลางของทั้งสองกลุ่ม ข้อสรุปที่ยอดเยี่ยมอย่างหนึ่งของความสัมพันธ์ระหว่างค่า x และ y คือการรายงานตำแหน่งกลางเหล่านี้ จากนั้นจะต้องการเสริมบทสรุปนี้ด้วยคำอธิบายว่ามีการกระจายข้อมูลในแต่ละกลุ่มไปทางซ้ายและขวาด้านบนและด้านล่างรอบศูนย์ของพวกเขาอย่างไร เพื่อความกะทัดรัดฉันจะไม่ทำที่นี่ แต่โปรดทราบว่า (โดยประมาณ) ความยาวของส่วนของเส้นที่ฉันวาดนั้นสะท้อนการแพร่กระจายโดยรวมของแต่ละกลุ่ม

ในที่สุดฉันก็ลากเส้น (ประ) ที่เชื่อมต่อกับสองศูนย์ นี่คือเส้นการถดถอยที่สมเหตุสมผล มันเป็นคำอธิบายที่ดีของข้อมูลหรือไม่? ไม่แน่นอน: ดูว่าการกระจายข้อมูลอยู่รอบ ๆ บรรทัดนี้อย่างไร มันเป็นหลักฐานของความเป็นเส้นตรงหรือไม่? ไม่เกี่ยวข้องกันมากนักเนื่องจากคำอธิบายเชิงเส้นไม่ดีเท่านี้ อย่างไรก็ตามเพราะนั่นคือคำถามต่อหน้าเรา

การประเมินเชิงเส้นตรง

ความสัมพันธ์เป็นเชิงเส้นในความหมายทางสถิติเมื่อทั้งค่า y ที่แตกต่างกันไปในแบบสุ่มสมดุลรอบบรรทัดหรือค่า x จะเห็นแตกต่างกันไปในแบบสุ่มสมดุลรอบบรรทัด (หรือทั้งสอง)

ก่อนหน้านี้ดูเหมือนจะไม่เป็นเช่นนี้: เนื่องจากค่า y ดูเหมือนจะตกอยู่ในสองกลุ่มการเปลี่ยนแปลงของพวกเขาจะไม่ดูสมดุลในแง่ของการกระจายอย่างสมมาตรเหนือหรือใต้เส้น (นั่นทำให้ความเป็นไปได้ที่จะทิ้งข้อมูลลงในแพ็คเกจการถดถอยเชิงเส้นและดำเนินการอย่างน้อยกำลังสองของ y เทียบกับ x: คำตอบจะไม่เกี่ยวข้องกัน)

ความแปรปรวนใน x เป็นเท่าไหร่? นั่นเป็นไปได้มากขึ้นที่ความสูงแต่ละจุดบนพล็อตการกระจายของแนวนอนของจุดรอบเส้นประนั้นค่อนข้างสมดุล การกระจายในการกระจายนี้ดูเหมือนว่าจะสูงขึ้นเล็กน้อยที่ความสูงต่ำกว่า (ค่า y ต่ำ) แต่อาจเป็นเพราะมีจุดอื่น ๆ อีกมากมาย (ยิ่งคุณสุ่มข้อมูลมากเท่าไหร่ก็ยิ่งมีค่ามากขึ้นเท่านั้น)

ยิ่งไปกว่านั้นเมื่อเราสแกนจากบนลงล่างไม่มีสถานที่ที่กระจายแนวนอนรอบเส้นถดถอยไม่สมดุลอย่างยิ่งนั่นจะเป็นหลักฐานของการไม่เชิงเส้น (อาจประมาณ y = 50 หรือมากกว่านั้นอาจมีค่า x ใหญ่เกินไปผลกระทบที่ลึกซึ้งนี้อาจถูกนำมาใช้เป็นหลักฐานเพิ่มเติมสำหรับการแบ่งข้อมูลออกเป็นสองกลุ่มรอบค่า y = 60)

สรุปผลการวิจัย

เราได้เห็นแล้วว่า

  • มันสมเหตุสมผลแล้วที่จะดูว่า x เป็นฟังก์ชันเชิงเส้นของ y บวกกับการเปลี่ยนแปลงแบบสุ่มที่ "ดี"

  • มันไม่สมเหตุสมผลที่จะดูว่า y เป็นฟังก์ชันเชิงเส้นของ x บวกกับการเปลี่ยนแปลงแบบสุ่ม

  • เส้นการถดถอยสามารถประมาณได้โดยการแยกข้อมูลออกเป็นกลุ่มของค่า y สูงและกลุ่มของค่า y ต่ำค้นหาศูนย์กลางของทั้งสองกลุ่มโดยใช้ค่ามัธยฐานและการเชื่อมต่อศูนย์เหล่านั้น

  • เส้นผลลัพธ์มีความชันลดลงซึ่งแสดงถึงความสัมพันธ์เชิงเส้นเชิงลบ

  • ไม่มีขาออกที่แข็งแกร่งจากเส้นตรง

  • อย่างไรก็ตามเนื่องจากการแพร่กระจายของค่า x รอบ ๆ เส้นยังคงมีขนาดใหญ่ (เมื่อเทียบกับการแพร่กระจายโดยรวมของค่า x เพื่อเริ่มต้น) เราจะต้องอธิบายความสัมพันธ์เชิงเส้นเชิงลบนี้ว่า "อ่อนแอมาก"

  • มันอาจมีประโยชน์มากกว่าที่จะอธิบายข้อมูลว่าก่อตัวเป็นเมฆรูปไข่สองรูป (หนึ่งสำหรับ y ที่สูงกว่า 60 และอีกอันสำหรับค่าที่ต่ำกว่าของ y) ภายในแต่ละคลาวด์มีความสัมพันธ์ที่ตรวจพบได้น้อยระหว่าง x และ y ศูนย์กลางของเมฆอยู่ใกล้ (0.29, 90) และ (0.38, 30) เมฆมีสเปรดที่เปรียบเทียบกันได้ แต่เมฆด้านบนมีข้อมูลน้อยกว่าอันที่ต่ำกว่ามาก (อาจจะมากถึง 20%)

ข้อสรุปสองข้อยืนยันว่าสิ่งที่เกิดขึ้นในคำถามนั้นมีความสัมพันธ์เชิงลบที่อ่อนแอ คนอื่น ๆ เสริมและสนับสนุนข้อสรุปเหล่านั้น

ข้อสรุปหนึ่งที่พบในคำถามที่ดูเหมือนจะไม่ถือเป็นการยืนยันว่ามี "ผู้ผิด" การตรวจสอบอย่างรอบคอบมากขึ้น (ดังที่อธิบายไว้ด้านล่าง) จะล้มเหลวในการทำให้คะแนนแต่ละบุคคลหรือแม้แต่คะแนนกลุ่มเล็ก ๆ ที่ถูกต้องอาจถูกพิจารณาภายนอก หลังจากการวิเคราะห์ที่ยาวนานพอความสนใจของคน ๆ นั้นอาจถูกดึงไปยังจุดสองจุดที่อยู่ใกล้กลางด้านขวาหรือจุดหนึ่งที่มุมซ้ายล่าง แต่สิ่งเหล่านี้จะไม่เปลี่ยนการประเมินของข้อมูลมาก ๆ ห่างไกล


ทิศทางต่อไป

อาจกล่าวได้อีกมากมาย ขั้นตอนต่อไปคือการประเมินการแพร่กระจายของเมฆเหล่านั้น ความสัมพันธ์ระหว่าง x และ y ในแต่ละเมฆทั้งสองสามารถประเมินแยกกันโดยใช้เทคนิคเดียวกันที่แสดงที่นี่ ความไม่สมดุลเล็กน้อยของคลาวด์ล่าง (ข้อมูลดูเหมือนจะปรากฏขึ้นที่ค่า y ที่เล็กที่สุด) สามารถประเมินและปรับได้โดยการแสดงค่า y อีกครั้ง (รากที่สองอาจทำงานได้ดี) ในขั้นตอนนี้มันจะเหมาะสมที่จะมองหาข้อมูลที่อยู่ห่างไกลเพราะ ณ จุดนี้คำอธิบายจะรวมข้อมูลเกี่ยวกับค่าข้อมูลทั่วไปเช่นเดียวกับสเปรดของพวกเขา ค่าผิดปกติ (โดยคำจำกัดความ) จะอยู่ไกลจากกลางมากเกินไปที่จะอธิบายในแง่ของจำนวนการแพร่กระจายที่สังเกตได้

ไม่มีงานนี้ - ซึ่งค่อนข้างเชิงปริมาณ - ต้องการมากกว่าแค่การค้นหากลุ่มของข้อมูลและทำการคำนวณง่ายๆกับพวกมันดังนั้นสามารถทำได้อย่างรวดเร็วและแม่นยำแม้ในขณะที่ข้อมูลนั้นมีเฉพาะในรูปแบบกราฟิก ทุกผลลัพธ์รายงานที่นี่ - รวมถึงค่าเชิงปริมาณ - สามารถพบได้ง่ายภายในไม่กี่วินาทีโดยใช้ระบบการแสดงผล (เช่น hardcopy และดินสอ :-)) ซึ่งอนุญาตให้หนึ่งทำเครื่องหมายแสงที่ด้านบนของกราฟิก


4
ว้าว. ฉันจะไม่เคยเห็นทั้งสองกลุ่มและบรรทัดผลลัพธ์ และฉันถามมัน
rvl

4
@ รัสฉันดีใจที่ได้ยินว่ามีคนตั้งคำถามเกี่ยวกับการสำรวจนี้เนื่องจากไม่มี EDA ที่ไม่ซ้ำกันหรือไม่เหมาะสม ฉันได้รวมรูปภาพอื่นเพื่อช่วยให้คุณเห็นสิ่งที่ฉันเห็น ฉันอยากจะเชิญคุณให้โพสต์คำตอบที่เท่าเทียมกันหรือมากกว่าและเป็นคำอธิบายที่เป็นประโยชน์
whuber

12
ในฐานะมนุษย์เรามีความโน้มเอียงเป็นพิเศษในการค้นหารูปแบบแม้กระทั่งคนที่ไม่ได้อยู่ที่นั่น ฉันคิดว่ามันค่อนข้างเป็นไปได้ที่จะได้พล็อตกระจายเหมือนกับที่เรามีที่นี่ด้วย RVs อิสระเพียงสองตัวอันที่หนึ่งบิดเบือน ฉันไม่มีข้อพิสูจน์และฉันไม่มีการวิเคราะห์ทางเลือกเพื่อเสนอ - นอกเหนือจากที่ระบุว่ามีความสัมพันธ์เพียงเล็กน้อยหรือไม่มีเลย ใช่เป็นไปได้ว่ามี bimodality อยู่ หากสามารถสังเกตกระบวนการต่อไปเราจะเห็นว่าเกิดอะไรขึ้น ฉันแค่คิดว่าเราต้องระมัดระวังและตระหนักถึงความชอบของเราที่จะตอบสนองต่อรูปแบบปลอมที่น่าเชื่อถือ
rvl

4
@ รัสคุณถูกต้อง จำเป็นต้องมีประสบการณ์เพื่อป้องกันไม่ให้อ่านมากเกินไปในรูปแบบ ประสบการณ์ของฉันบอกว่าด้วยคะแนน 150-200 คะแนนเป็นเรื่องยากที่จะได้รับ bimodality แบบสุ่มที่ฉันวัดได้ในพิกัด y ประสบการณ์ดังกล่าวสามารถเสริมได้อย่างง่ายดายและรวดเร็วทุกวันนี้ด้วยการจำลองสถานการณ์: เมื่อคุณคิดว่าคุณเห็นรูปแบบจากนั้น (1) กำหนดลักษณะเชิงปริมาณและ (2) มองหาตัวอย่างแบบสุ่มที่สร้างขึ้นตามสมมติฐานทางเลือกที่ง่ายกว่า หากรูปแบบปรากฏมากคุณสามารถตำหนิเยื่อหุ้มสมองที่มองเห็นของคุณ แต่ไม่เช่นนั้นคุณอาจพบบางอย่าง
whuber

1
@ รัสขอขอบคุณ นั่นไม่ใช่พล็อตที่เหลือที่ฉันอธิบาย - บทบาทของ x และ y กลับด้าน อย่างไรก็ตามมันเป็นข้อมูลอย่างไรก็ตาม heteroscedasticity เป็นสิ่งที่โดดเด่นที่สุด: จริง ๆ แล้วดูเหมือนว่าจะให้การสนับสนุนสมมติฐานสองกลุ่ม (ซึ่งจะทำให้ heteroscedasticity หายไป) โปรดทราบว่าฉันไม่เชื่อเรื่องสมมติฐาน ทุกสิ่งที่ฉันเขียนที่นี่อยู่ในจิตวิญญาณดั้งเดิมของคำอธิบายที่ละเอียดและแข็งแกร่งของข้อมูล เส้นโค้งเดี่ยวใด ๆที่เป็นคำอธิบายของข้อมูลเหล่านี้จะเป็นข้อมูลที่หยาบและอาจไม่เป็นที่น่าพอใจ
whuber

31

มาสนุกกันเถอะ!

แรกของทั้งหมดที่ผมคัดลอกมาข้อมูลออกกราฟของคุณ

X=0.4X

Y=β0+βXX+βcmax(Xθ,0)+ε

การประมาณค่าสัมประสิทธิ์คือ:

Y=50.937.7X26.74436max(X0.46,0)

ฉันจะทราบว่าในขณะที่ whuber redoubtable ยืนยันว่าไม่มีความสัมพันธ์เชิงเส้นที่แข็งแกร่งส่วนเบี่ยงเบนจากบรรทัดบอกเป็นนัยโดยคำของบานพับอยู่ในลำดับเดียวกันกับความชันของ (เช่น 37.7) ดังนั้นฉัน จะไม่เห็นด้วยอย่างสุภาพว่าเราไม่เห็นความสัมพันธ์แบบไม่เชิงเส้นที่แข็งแกร่ง (เช่นใช่ไม่มีความสัมพันธ์ที่แข็งแกร่ง แต่คำที่ไม่เป็นเชิงเส้นนั้นมีความแข็งแกร่งเท่ากับเชิงเส้น)XY=50.937.7XX

เล่นเวลากับข้อมูล

การตีความ
(ฉันได้ดำเนินการต่อไปโดยสมมติว่าคุณสนใจเฉพาะในฐานะตัวแปรตาม) ค่าของนั้นคาดเดาได้ยากมากโดย (ด้วย Adjusted- = 0.03) ความสัมพันธ์มีลักษณะเป็นเส้นตรงโดยมีความชันลดลงเล็กน้อยที่ประมาณ 0.46 เหลือจะเบ้ค่อนข้างไปทางขวาอาจจะเป็นเพราะเป็นคมขอบเขตล่างกับค่าของYที่กำหนดขนาดของกลุ่มตัวอย่าง , ฉันกำลังมีความโน้มเอียงที่จะทนต่อการละเมิดปกติ ข้อสังเกตเพิ่มเติมสำหรับค่าจะช่วยตอกย้ำว่าการเปลี่ยนแปลงของความชันเป็นจริงหรือเป็นสิ่งประดิษฐ์ของความแปรปรวนลดลงของY X R 2 Y N = 170 X > 0.5 YYYXR2YN=170X>0.5Y ในช่วงนั้น

กำลังอัปเดตด้วยกราฟ :ln(Y)

(เส้นสีแดงเป็นเพียงการถดถอยเชิงเส้นของ ln (Y) บน X. )

อัปเดตด้วยกราฟตามคำแนะนำของ Russ Lenth

ในความคิดเห็น Russ Lenth เขียนว่า: "ฉันแค่สงสัยว่าสิ่งนี้จะเกิดขึ้นถ้าคุณราบรื่น vs.การกระจายของเอียงไปทางขวา" นี่เป็นข้อเสนอแนะที่ดีเนื่องจากแปลงเทียบกับยังให้ความพอดีดีกว่าเล็กน้อยที่เส้นแบ่งระหว่างและกับส่วนที่เหลือซึ่งมีการกระจายแบบสมมาตรมากกว่า อย่างไรก็ตามทั้งที่เขาแนะนำและบานพับแนวตรงของฉันของแบ่งปันการตั้งค่าสำหรับความสัมพันธ์ระหว่าง (ไม่ได้แปลง)และที่ไม่ได้อธิบายโดยเส้นตรงlogYXYlogYXYXlog(Y)XYX


1
ฉันเพียงแค่สงสัยว่านี้ถือได้ถ้าคุณเรียบกับXการกระจายตัวของเบี่ยงเบนไปทางขวาและผมคิดว่าการแปลงที่ทำให้การกระจายแบบสมมาตรมากขึ้นจะไม่เหมือนกันกับสัญลักษณ์การกระจายแบบ null ที่เป็นสัญลักษณ์ logYXY
rvl

1
@Russ มันเป็นแบบดั้งเดิมที่การแจกแจงแบบ bimodal สามารถเอียงและแนะนำการเปลี่ยนแปลงของบันทึก แต่การกระจายตัว y ตรงนี้เป็น bimodal แน่นอนและบันทึกอาจไม่ใช่วิธีที่มีประโยชน์ในการแสดงซ้ำ เมื่อแยกส่วนประกอบทั้งสองออกแล้วส่วนล่างก็ยังเอียงในทางบวกและรากที่สองนั้นอยู่ในปริมาณที่เหมาะสมในการแปลงเพื่อให้ได้การกระจายแบบสมมาตร รากที่สองไม่ได้ส่งผลกระทบต่อความสมมาตรของกลุ่มคนบนอย่างเห็นได้ชัดแสดงว่ารากนั้นอาจเป็นทางเลือกที่ดี อย่างไรก็ตามนั่นไม่ได้แก้ปัญหา bimodality - และในนั้นก็มีปัญหากับประเภทนี้ที่ราบรื่น
whuber

1
Alexis ในคำตอบของเราเราทั้งคู่มีความผิดในการใช้ "strong" ในรูปแบบที่ไม่ได้กำหนด ความรู้สึกที่ฉันหมายถึง "อ่อนแอ" ถูกบอกใบ้ในถ้อยคำบางคำของฉันซึ่งหมายถึงการบ่งชี้ว่าความลาดเอียงมีขนาดเล็กเมื่อเปรียบเทียบกับการกระจายในค่า y ฉันไม่คิดว่าการวิเคราะห์ของคุณมาพร้อมกับข้อสรุปที่แตกต่างกันในเรื่องนั้น ฉันรู้สึกว่าจำเป็นต้องระมัดระวังเพราะการยอมรับสมมุติฐานว่าอาจมีการทำบุญแบบผสมสำหรับ y ปรากฏว่าในกลุ่มบนอาจมีความสัมพันธ์เชิงบวกที่อ่อนแอระหว่าง x และ y และไม่มีความสัมพันธ์ในกลุ่มล่าง
whuber

3
Alexis หนังสือEDAของ Tukey เต็มไปด้วยพวกเขา สำหรับเทคนิคมากขึ้น (ของความซับซ้อนมากขึ้นด้วยเหตุผลทางคณิตศาสตร์) ดู Hoaglin, Mosteller และทูกี, ความเข้าใจที่แข็งแกร่งและการสำรวจวิเคราะห์ข้อมูล
whuber

2
คู่มือ @rivu ใช้เวลาท็อปส์ซู 10 หรือ 15 นาที วางแต่ละจุดเริ่มต้นด้วยตัวชี้แล้ววางอย่างแม่นยำโดยใช้ปุ่มลูกศร
Alexis

21

นี่คือ2 ¢ 1.5 my ของฉัน สำหรับฉันคุณสมบัติที่โดดเด่นที่สุดคือข้อมูลหยุดทันทีและ 'จับ' ที่ด้านล่างของช่วงของ Y. ฉันเห็น 'กลุ่ม' และกลุ่มความสัมพันธ์เชิงลบ (ศักยภาพ) ของทั้งสอง แต่คุณสมบัติเด่นที่สุดคือ เอฟเฟกต์พื้น (ที่อาจเกิดขึ้น) และความจริงที่ว่าคลัสเตอร์ที่มีความหนาแน่นต่ำและสูงนั้นครอบคลุมส่วนหนึ่งของช่วง X เท่านั้น

เนื่องจาก 'กลุ่ม' นั้นมีความแปรปรวนแบบคู่ขนานแบบจำลองพาราเมทริกแบบผสมอาจน่าสนใจที่จะลอง จากการใช้ข้อมูล @Alexis ฉันพบว่าสามกลุ่มปรับ BIC ให้เหมาะสม 'เอฟเฟกต์พื้น' ความหนาแน่นสูงจะถูกเลือกเป็นคลัสเตอร์ที่สาม รหัสดังต่อไปนี้:

library(mclust)
dframe = read.table(url("http://doyenne.com/personal/files/data.csv"), header=T, sep=",")

mc = Mclust(dframe)
summary(mc)
# ----------------------------------------------------
#   Gaussian finite mixture model fitted by EM algorithm 
# ----------------------------------------------------
#   
#   Mclust VVI (diagonal, varying volume and shape) model with 3 components:
#   
#   log.likelihood   n df       BIC       ICL
#        -614.4713 170 14 -1300.844 -1338.715
# 
# Clustering table:
#  1  2  3 
# 72 72 26 

ป้อนคำอธิบายรูปภาพที่นี่

ทีนี้เราจะสรุปอะไรจากสิ่งนี้ ฉันไม่คิดว่านั่นMclustเป็นเพียงการจดจำรูปแบบของมนุษย์ที่ผิดไป (ในขณะที่อ่านของฉัน scatterplot อาจจะดี.) ในทางตรงกันข้ามมีคำถามว่านี่คือไม่มีการโพสต์-hoc ฉันเห็นสิ่งที่ฉันคิดว่าอาจเป็นรูปแบบที่น่าสนใจและตัดสินใจที่จะตรวจสอบ อัลกอริทึมหาบางอย่าง แต่จากนั้นฉันตรวจสอบเฉพาะสิ่งที่ฉันคิดว่าอาจมีอยู่ดังนั้นนิ้วหัวแม่มือของฉันจึงอยู่ในระดับ บางครั้งเป็นไปได้ที่จะคิดกลยุทธ์เพื่อลดปัญหานี้ (ดูคำตอบที่ยอดเยี่ยมของ @ whuber ที่นี่ ) แต่ฉันไม่รู้ว่าจะทำอย่างไรกับกระบวนการดังกล่าวในกรณีเช่นนี้ ด้วยเหตุนี้ฉันจึงนำผลการวิจัยเหล่านี้มาพร้อมกับเกลือจำนวนมาก (ฉันทำสิ่งนี้บ่อยครั้งพอที่บางคนหายไปจากเครื่องปั่นทั้งหมด) มันให้เนื้อหาบางอย่างแก่ฉันในการคิดและพูดคุยกับลูกค้าของฉันเมื่อเราพบกันครั้งต่อไป ข้อมูลเหล่านี้คืออะไร? มันสมเหตุสมผลไหมที่อาจมีเอฟเฟกต์พื้น? มันจะทำให้รู้สึกว่าอาจมีกลุ่มที่แตกต่างกัน? มันจะมีความหมาย / น่าประหลาดใจ / น่าสนใจ / สำคัญอย่างไรถ้ามันเป็นของจริง? มีข้อมูลอิสระ / เราสามารถทำให้พวกเขาสะดวกในการทำการทดสอบความเป็นไปได้เหล่านี้อย่างซื่อสัตย์หรือไม่? เป็นต้น


1
+1 สำหรับการชี้ให้เห็นว่าการวิเคราะห์เชิงสำรวจนำไปสู่คำถามที่น่าสนใจอย่างไร ฉันหวังว่าฉันจะเน้นจุดนั้นให้มากขึ้นในคำตอบของฉัน แม้ว่าฉันคิดว่ามันจะผลักดันสิ่งต่าง ๆ ให้เชื่อ (ณ จุดนี้) ว่ามีกลุ่มที่แตกต่างกันสามกลุ่ม แต่ผลลัพธ์ของกลุ่มยังคงมีวิธีที่ถูกต้องในการเห็นว่ามีความสัมพันธ์เชิงลบระหว่าง x และ y และสรุปความสัมพันธ์นั้น ฉันสงสัยว่าการจัดกลุ่มอัตโนมัติเป็นเครื่องมือสำรวจที่มีประโยชน์โดยทั่วไปอย่างไรหากเราไม่อยากอ่านผลลัพธ์มากเกินไป
whuber

14

ให้ฉันอธิบายสิ่งที่ฉันเห็นทันทีที่ฉันดู:

หากเราสนใจในการแจกแจงแบบมีเงื่อนไขของ (ซึ่งถ้าหากบ่อยครั้งที่ความสนใจสนใจถ้าเราเห็นเป็น IV และเป็น DV) สำหรับการกระจายตามเงื่อนไขของจะปรากฏ bimodal กับกลุ่มบน ( ระหว่างประมาณ 70 ถึง 125 โดยมีค่าเฉลี่ยต่ำกว่า 100) และกลุ่มที่ต่ำกว่า (ระหว่าง 0 ถึง 70 โดยมีค่าเฉลี่ยประมาณ 30 หรือมากกว่านั้น) ภายในแต่ละกลุ่มกิริยาความสัมพันธ์กับใกล้เคียงกัน (ดูเส้นสีแดงและสีน้ำเงินด้านล่างวาดโดยประมาณซึ่งฉันเดาได้ว่าเป็นตำแหน่งที่หยาบ)yxyx0.5Y|xx

จากนั้นโดยดูว่าทั้งสองกลุ่มมีความหนาแน่นมากขึ้นหรือน้อยลงในเราสามารถพูดเพิ่มเติมได้ที่:X

สำหรับกลุ่มบนหายไปอย่างสมบูรณ์ซึ่งทำให้ค่าเฉลี่ยโดยรวมของตกและต่ำกว่าประมาณ 0.2 กลุ่มที่ต่ำกว่านั้นมีความหนาแน่นน้อยกว่าด้านบนมากขึ้นทำให้ค่าเฉลี่ยโดยรวมสูงขึ้นx>0.5x

ระหว่างเอฟเฟกต์ทั้งสองนี้มันก่อให้เกิดความสัมพันธ์เชิงลบที่ชัดเจน (แต่ไม่เป็นเชิงเส้น) ระหว่างทั้งสองขณะที่ดูเหมือนว่าจะลดลงเมื่อเทียบกับแต่มีพื้นที่กว้างแบนส่วนใหญ่ในใจกลาง (ดูเส้นประสีม่วง)E(Y|X=x)x

ป้อนคำอธิบายรูปภาพที่นี่

ไม่ต้องสงสัยเลยว่าการรู้ว่าและคืออะไรเป็นสิ่งสำคัญเพราะจากนั้นอาจชัดเจนว่าทำไมการแจกแจงแบบมีเงื่อนไขสำหรับอาจจะมี bimodal มากกว่าช่วงของมันมาก (จริง ๆ แล้วมันอาจชัดเจนว่ามีสองกลุ่ม การแจกแจงในทำให้เกิดความสัมพันธ์ที่ลดลงอย่างชัดเจนใน )YXYXY|x

นี่คือสิ่งที่ฉันเห็นจากการตรวจสอบด้วยตาเปล่า ด้วยการเล่นรอบในบางสิ่งบางอย่างเช่นโปรแกรมจัดการภาพขั้นพื้นฐาน (เช่นที่ฉันวาดเส้นด้วย) เราสามารถเริ่มคิดตัวเลขที่แม่นยำมากขึ้น หากเราทำข้อมูลดิจิทัล (ซึ่งค่อนข้างง่ายด้วยเครื่องมือที่เหมาะสมหากบางครั้งน่าเบื่อเล็กน้อยที่จะทำให้ถูกต้อง) จากนั้นเราสามารถทำการวิเคราะห์ที่ซับซ้อนมากขึ้นของการแสดงผลนั้น

การวิเคราะห์เชิงสำรวจแบบนี้อาจนำไปสู่คำถามที่สำคัญบางอย่าง (บางครั้งคนที่ทำให้คนที่มีข้อมูลประหลาดใจ แต่แสดงให้เห็นถึงเรื่องพล็อต) แต่เราจะต้องระมัดระวังในขอบเขตที่โมเดลของเราได้รับเลือก เราใช้โมเดลที่เลือกตามลักษณะที่ปรากฏของพล็อตและจากนั้นประเมินโมเดลเหล่านั้นในข้อมูลเดียวกันเราจะพบปัญหาเดียวกันกับที่เราได้รับเมื่อเราใช้การเลือกแบบจำลองที่เป็นทางการมากขึ้นและการประเมินบนข้อมูลเดียวกัน [นี่ไม่ใช่การปฏิเสธความสำคัญของการวิเคราะห์เชิงสำรวจเลย - แค่เราต้องระวังผลที่จะตามมาโดยไม่คำนึงว่าเราจะไปอย่างไร ]


การตอบสนองต่อความคิดเห็นของรัส:

[แก้ไขในภายหลัง: เพื่อชี้แจง - ฉันเห็นด้วยอย่างกว้าง ๆ กับการวิพากษ์วิจารณ์ของ Russ เพื่อเป็นการป้องกันโดยทั่วไปและมีความเป็นไปได้ที่ฉันได้เห็นมากกว่าที่นั่นจริงๆ ฉันวางแผนที่จะกลับมาและแก้ไขสิ่งเหล่านี้ให้เป็นคำอธิบายที่ครอบคลุมมากขึ้นเกี่ยวกับรูปแบบปลอมที่เรามักระบุด้วยตาและวิธีที่เราอาจเริ่มหลีกเลี่ยงสิ่งที่เลวร้ายที่สุด ฉันเชื่อว่าฉันจะสามารถเพิ่มการให้เหตุผลบางอย่างเกี่ยวกับสาเหตุที่ฉันคิดว่ามันอาจจะไม่ปลอมในกรณีเฉพาะนี้ (เช่นผ่าน regressogram หรือ 0-kernel kernel เรียบ แต่แน่นอนไม่มีข้อมูลเพิ่มเติมเพื่อทดสอบมีเพียง จนถึงตอนนี้สามารถไปได้ตัวอย่างเช่นถ้าตัวอย่างของเราไม่เป็นตัวแทนแม้แต่การ resampling เพียงทำให้เราไปถึง]

ฉันเห็นด้วยอย่างยิ่งว่าเรามีแนวโน้มที่จะเห็นรูปแบบปลอม เป็นจุดที่ฉันทำบ่อยทั้งที่นี่และที่อื่น ๆ

สิ่งหนึ่งที่ฉันแนะนำเช่นเมื่อมองไปที่แปลงที่เหลือหรือแปลง QQ คือการสร้างแปลงจำนวนมากที่สถานการณ์เป็นที่รู้จัก (ทั้งสองเป็นสิ่งที่ควรจะเป็นและที่สมมติฐานไม่ถือ) เพื่อให้ได้ความคิดที่ชัดเจน ละเว้น

นี่คือตัวอย่างที่พล็อต QQ วางอยู่ท่ามกลางคนอื่น ๆ 24 คน (ซึ่งเป็นไปตามสมมติฐาน) เพื่อให้เราเห็นว่าพล็อตที่ผิดปกตินั้นเป็นอย่างไร การออกกำลังกายแบบนี้มีความสำคัญเพราะมันช่วยให้เราหลีกเลี่ยงการหลอกตัวเองด้วยการแปลความหมายของการกระดิกเล็ก ๆ น้อย ๆ ซึ่งส่วนใหญ่จะเป็นเสียงที่เรียบง่าย

ฉันมักจะชี้ให้เห็นว่าหากคุณสามารถเปลี่ยนการแสดงผลโดยครอบคลุมบางจุดเราอาจพึ่งพาการแสดงผลที่สร้างขึ้นโดยไม่มีอะไรมากไปกว่าเสียงรบกวน

[อย่างไรก็ตามเมื่อเห็นได้ชัดจากหลาย ๆ จุดแทนที่จะมีน้อยก็ยากที่จะยืนยันว่าไม่ได้อยู่ตรงนั้น]

แสดงในคำตอบ whuber สนับสนุนการแสดงผลของฉัน, พล็อตแบบเกาส์เบลอดูเหมือนว่าจะรับแนวโน้มเดียวกันกับ bimodality ในYY

เมื่อเราไม่มีข้อมูลเพิ่มเติมให้ตรวจสอบอย่างน้อยเราสามารถดูได้ว่าการแสดงผลมีแนวโน้มที่จะอยู่รอดได้อีกครั้งหรือไม่ (เริ่มต้นการกระจาย bivariate และดูว่ามันยังคงปรากฏอยู่เสมอ) หรือกิจวัตรอื่น ๆ ที่การแสดงผลไม่ควรชัดเจน ถ้ามันเป็นเสียงที่เรียบง่าย

1) ต่อไปนี้เป็นวิธีหนึ่งในการดูว่า bimodality ที่เห็นได้ชัดนั้นเป็นมากกว่าแค่ความเบ้และเสียงรบกวน - มันแสดงให้เห็นในการประมาณความหนาแน่นของเคอร์เนลหรือไม่? จะยังคงปรากฏให้เห็นหรือไม่ถ้าเราวางแผนความหนาแน่นของเคอร์เนลภายใต้การเปลี่ยนแปลงที่หลากหลาย? ที่นี่ฉันเปลี่ยนมันให้มีความสมมาตรมากกว่าเดิมที่ 85% ของแบนด์วิดท์เริ่มต้น (เนื่องจากเรากำลังพยายามระบุโหมดที่ค่อนข้างเล็กและแบนด์วิดท์เริ่มต้นไม่เหมาะสำหรับงานนั้น):

ป้อนคำอธิบายรูปภาพที่นี่

แปลงเป็น ,และ(Y) เส้นแนวตั้งอยู่ที่ ,และ(68) bimodality ลดลง แต่ก็ยังมองเห็นได้ค่อนข้าง เนื่องจากมันชัดเจนมากใน KDE ดั้งเดิมดูเหมือนว่าจะยืนยันว่ามี - และแปลงที่สองและสามแนะนำอย่างน้อยก็ค่อนข้างแข็งแกร่งในการแปลงYYlog(Y)6868log(68)

2) นี่เป็นอีกวิธีพื้นฐานในการดูว่าเป็น "เสียงรบกวน" มากกว่าหรือไม่:

ขั้นตอนที่ 1: ดำเนินการทำคลัสเตอร์บน Y

ป้อนคำอธิบายรูปภาพที่นี่

ขั้นตอนที่ 2: แบ่งออกเป็นสองกลุ่มในและจัดกลุ่มทั้งสองกลุ่มแยกกันและดูว่ามันค่อนข้างคล้ายกันหรือไม่ หากไม่มีอะไรเกิดขึ้นในสองส่วนนี้ไม่ควรคาดว่าจะแยกสิ่งเหล่านั้นออกจากกันมากนักX

ป้อนคำอธิบายรูปภาพที่นี่

จุดที่มีจุดถูกทำคลัสเตอร์แตกต่างจากคลัสเตอร์ "all in one set" ในพล็อตก่อนหน้า ฉันจะทำเพิ่มเติมในภายหลัง แต่ดูเหมือนว่าอาจจะมี "แยก" แนวนอนใกล้กับตำแหน่งนั้นจริงๆ

ฉันจะลองรีเครสโตแกรมหรือตัวประเมิน Nadaraya-Watson (ทั้งคู่เป็นการประมาณค่าท้องถิ่นของฟังก์ชันการถดถอย ) ฉันยังไม่ได้สร้าง แต่เราจะดูว่าพวกเขาไปอย่างไร ฉันอาจยกเว้นจุดสิ้นสุดที่มีข้อมูลน้อยมากE(Y|x)

3) แก้ไข: นี่คือ regressogram สำหรับช่องเก็บของความกว้าง 0.1 (ยกเว้นส่วนปลายสุดอย่างที่ฉันแนะนำก่อนหน้านี้):

ป้อนคำอธิบายรูปภาพที่นี่

ทั้งหมดนี้สอดคล้องกับความประทับใจดั้งเดิมที่ฉันมีในเนื้อเรื่อง มันไม่ได้พิสูจน์เหตุผลของฉันว่าถูกต้อง แต่ข้อสรุปของฉันมาถึงผลลัพธ์เดียวกันกับที่ regressogram ทำ

หากสิ่งที่ฉันเห็นในพล็อต - และเหตุผลที่เกิดขึ้น - เป็นของปลอมฉันอาจไม่ประสบความสำเร็จในการแยกแยะเช่นนี้E(Y|x)

(สิ่งต่อไปที่จะลองคือตัวประมาณค่า Nadayara-Watson จากนั้นฉันอาจเห็นว่ามันมีการสุ่มใหม่ได้อย่างไรถ้าฉันมีเวลา)

4) การแก้ไขในภายหลัง:

นาดารียา - วัตสัน, เคอร์เนลเสียนแบนด์วิดท์ 0.15:

ป้อนคำอธิบายรูปภาพที่นี่

อีกครั้งนี้สอดคล้องกับความประทับใจครั้งแรกของฉัน นี่คือค่าประมาณของ NW ที่อ้างอิงจากตัวอย่างบูตสิบอัน:

ป้อนคำอธิบายรูปภาพที่นี่

รูปแบบคร่าวๆอยู่ที่นั่นแม้ว่ามีตัวอย่างสองตัวอย่างที่ไม่ปฏิบัติตามคำอธิบายอย่างชัดเจนโดยยึดตามข้อมูลทั้งหมด เราเห็นว่ากรณีของระดับทางด้านซ้ายนั้นมีความแน่นอนน้อยกว่าทางด้านขวา - ระดับเสียง (ส่วนหนึ่งจากการสังเกตเพียงไม่กี่ส่วนจากการแพร่กระจายในวงกว้าง) เป็นเรื่องที่ง่ายกว่าที่จะเรียกร้องค่าเฉลี่ยนั้นสูงกว่า เหลือน้อยกว่าที่กึ่งกลาง

ความประทับใจโดยรวมของฉันคือฉันอาจไม่ได้หลอกตัวเองเพราะแง่มุมต่าง ๆ ยืนขึ้นพอสมควรกับความท้าทายที่หลากหลาย (การปรับให้เรียบการแปลงแยกเป็นกลุ่มย่อยการทดสอบซ้ำ) ที่มีแนวโน้มจะบดบังพวกเขาหากพวกเขาเป็นเพียงเสียงรบกวน ในทางกลับกันข้อบ่งชี้คือเอฟเฟกต์ในขณะที่สอดคล้องกับความประทับใจครั้งแรกของฉันค่อนข้างอ่อนแอและอาจมากเกินไปที่จะเรียกร้องการเปลี่ยนแปลงที่แท้จริงในความคาดหวังใด ๆ ที่เคลื่อนย้ายจากด้านซ้ายไปยังศูนย์


1
ฉันถามคำตอบเดียว แต่อันนี้ฉันมั่นใจในการพูดว่ากำลังค้นหาสิ่งที่ไม่มี
rvl

1
ฉันพยายามย้อนกลับการลงคะแนนของฉัน แต่ฉันเดาว่าฉันทำไม่ได้ เพียงเพราะฉันไม่เห็นด้วยกับคำตอบของคุณไม่ได้แปลว่ามันไม่ได้มีส่วนช่วยในการอภิปราย ฉันไม่แน่ใจว่าจะใช้การลงคะแนนเสียงอย่างไรและไม่ได้หมายความว่าจะเป็นเรื่องส่วนตัวเลย p
rvl

4
@Russ ไม่ต้องกังวลกับ downvote มันไม่สำคัญเลยนอกความจริงที่ว่ามันมีสัญญาณว่ามีบางสิ่งที่ฉันควรจะแก้ไข สำคัญกว่ามากที่จะเข้าใจว่าทำไมเราถึงไม่เห็นด้วย (เท่าที่เราทำได้) มากกว่าที่จะกังวลเกี่ยวกับคะแนนอินเทอร์เน็ตปลอม คุณมีการคัดค้านการพูดคุยและฉันยินดีจ่ายสิบครั้งที่ downvote เพื่อให้ได้การสนทนาสั้น ๆ นี้ ฉันขอแนะนำให้คุณลงคะแนนฉันทุกครั้งที่คุณไม่เห็นด้วยถ้าคุณจะพูดว่าทำไม นั่นเป็นโอกาสของฉันที่จะเรียนรู้บางสิ่ง
Glen_b

1
@RussLenth คุณสามารถเลิกทำการ downvote (หรือ upvote) ได้โดยการคลิก down down หากคุณไม่แน่ใจว่าโหวตของคุณอยู่ที่โฮเวอร์เท็กซ์เหนือลูกศรลง (หรือสูง) จะแจ้งให้คุณทราบ
Alexis

4
+1 จริง ๆ แล้วฉันทำการวิเคราะห์นี้มาก แต่ไม่ต้องการขยายคำตอบของฉันด้วยผลลัพธ์เหล่านั้นมากเกินไป คุณทำได้ดีมากในการนำเสนองานในรูปแบบที่ชัดเจนอ่านง่ายและน่าเชื่อถือ สิ่งหนึ่งที่ฉันทำคือการถอยหลัง (จริง ๆ แล้วราบรื่น) x เทียบกับ y (แม้จะมีลักษณะของ y ในฐานะ "ขึ้นอยู่กับ"): ฉันคิดว่าผลที่ได้นั้นมีประโยชน์ในการประเมินความไม่เชิงเส้นตรงในความสัมพันธ์ ควรถือว่าเป็นหนึ่งหรือสองกลุ่ม
whuber

13

โอเคคนที่ฉันทำตามนำของอเล็กซิสและจับข้อมูล นี่คือพล็อตของเมื่อเทียบกับxxlogyxพล็อตของบันทึก (Y) กับ X

และความสัมพันธ์:

> cor.test(~ x + y, data = data)

    Pearson's product-moment correlation

data:  x and y
t = -2.6311, df = 169, p-value = 0.009298
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.33836844 -0.04977867
sample estimates:
       cor 
-0.1983692 

> cor.test(~ x + log(y), data = data)

    Pearson's product-moment correlation

data:  x and log(y)
t = -2.8901, df = 169, p-value = 0.004356
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.35551268 -0.06920015
sample estimates:
       cor 
-0.2170188 

การทดสอบสหสัมพันธ์แสดงถึงการพึ่งพาในทางลบ ฉันยังคงไม่มั่นใจใน bimodality ใด ๆ (แต่ยังไม่มั่นใจว่ามันหายไป)

[ฉันลบพล็อตที่เหลือที่ฉันมีในเวอร์ชันก่อนหน้านี้เพราะฉันมองข้ามจุดที่ @whuber พยายามทำนาย ]X|Y


2
บังเอิญ ... มันเพิ่งเกิดขึ้นกับฉันว่าการเปลี่ยนแปลงการบันทึก (Y) ตามขึ้นอยู่กับยังคงเทียบเท่ากับการค้นหาความสัมพันธ์ที่ไม่ใช่เชิงเส้น ... บันทึก (Y) จะดีกว่า wrt ส่วนที่เหลือกว่าฟังก์ชั่นบานพับที่ฉันเล่นด้วย คำตอบของฉัน ... แต่หนึ่งในข้อสรุปที่คล้ายกัน: ความสัมพันธ์ระหว่างและมีการแสดงออกการทำงานที่ดีกว่าYX Y = a + b XYXY=a+bX
Alexis

ขอบคุณสำหรับพล็อตเรื่องที่เหลือรัส นี่ไม่ใช่คำขอ แต่ฉันอยากจะชี้ให้เห็นว่าสิ่งที่ฉันพบว่าน่าสนใจ - และอาจมีค่ามากขึ้นสำหรับการสำรวจ GoF - คือความสัมพันธ์ของxในฐานะหน้าที่ของyแทนที่จะเป็นแบบนี้ การดูx ที่เหลือจะทำให้มีคำถามเพิ่มเติม (อาจมีประโยชน์) ที่ไม่ได้ถามมาก่อนเช่นว่าเราสามารถเรียนรู้บางสิ่งผ่านการแสดงออกที่ไม่เป็นเชิงเส้นของx (ใช่เราทำได้); สามารถพูดได้มากแค่ไหนโดยไม่คำนึงถึงสมมติฐานสองประชากร (ใช่อีกครั้ง) และเกี่ยวกับความทนทานของความพอดีของฉัน (มันแข็งแกร่งมาก)
whuber

บางทีคุณอาจต้องการพล็อตที่เหลือเพื่อทำเช่นนั้น ฉันกำลังจะไปที่สิ่งอื่น ๆ
rvl

5

รัสเลินท์สงสัยว่ากราฟจะดูว่าแกน Y เป็นลอการิทึมหรือไม่ Alexis คัดลอกข้อมูลดังนั้นจึงง่ายต่อการวางแผนด้วยแกนบันทึก:

ป้อนคำอธิบายรูปภาพที่นี่

ในระดับบันทึกไม่มีคำใบ้ของ bimodality หรือแนวโน้ม ไม่ว่าขนาดของบันทึกจะสมเหตุสมผลหรือไม่ขึ้นอยู่กับรายละเอียดของข้อมูลที่นำเสนอ ในทำนองเดียวกันไม่ว่าจะเป็นการเหมาะสมหรือไม่ที่จะคิดว่าข้อมูลแสดงการสุ่มตัวอย่างจากประชากรสองกลุ่มตามที่ whuber แนะนำขึ้นอยู่กับรายละเอียด


ภาคผนวก: จากความคิดเห็นด้านล่างนี่คือรุ่นที่แก้ไข:

ป้อนคำอธิบายรูปภาพที่นี่


ฉันโพสต์กราฟของฉันภายในไม่กี่นาทีจาก Russ Lenth ฉันไม่เห็นเขาหรือฉันจะไม่โพสต์ของฉัน
Harvey Motulsky

Y

9
ภาพนี้แสดงตัวอย่างที่น่าสนใจของเอฟเฟ็กต์ของตัวเลือกการสร้างภาพที่ไม่ดี: โดยลดอัตราส่วนและขยายแกน y เกินสองเท่าเท่าที่จำเป็นซอฟต์แวร์จะยับยั้งการแสดงผลแบบกระจายของภาพแนวตั้งโดยอัตโนมัติ ทำให้ผู้ดูมองเห็นอะไรได้ยาก นี่คือเหตุผลที่การสำรวจที่ดีแม้ว่าจะได้รับคำแนะนำจากการแสดงกราฟิกต้อง (a) ใช้วิธีการสร้างภาพข้อมูลที่เหมาะสมที่จะเปิดเผยแทนที่จะปราบปรามพฤติกรรมของข้อมูลและ (b) สนับสนุนการวิเคราะห์เพิ่มเติม (เช่นแสดงในโพสต์ของ @ Glen_b) .
whuber

สำหรับช่วง Y ในคำถามล็อกฐาน 2 จะเป็นตัวเลือกที่ง่ายกว่าในการมีช่วงค่าที่เหมาะสมสำหรับแกน Y มันจะป้องกันช่วงบนจากค่าที่ดีของ 1 และ 1,000 ซึ่งไม่สอดคล้องกับข้อมูลที่อยู่ในมือ
Andy W

1

คุณพูดถูกความสัมพันธ์อ่อนแอ แต่ไม่เป็นศูนย์ ฉันจะเดาในแง่บวก อย่างไรก็ตามอย่าเดาเพียงใช้การถดถอยเชิงเส้นอย่างง่าย (OLS regression) และค้นหา! คุณจะได้รับความชันของ xxx ซึ่งบอกคุณว่าความสัมพันธ์คืออะไร และใช่คุณมีค่าผิดปกติที่อาจมีอคติกับผลลัพธ์ ที่สามารถจัดการได้ คุณสามารถใช้ระยะทางของแม่ครัวหรือสร้างเลเวอเรจเลเวอเรจเพื่อประเมินผลกระทบของค่าผิดปกติต่อความสัมพันธ์

โชคดี


อะไรที่ทำให้คุณคิดว่าพวกเขาเป็นคนผิดจริงแทนที่จะเป็น DGP ที่ไม่ใช่เชิงเส้น
abaumann

ฉันคิดว่านั่นอาจเป็นอย่างนั้น แต่มันก็ยากที่จะบอกจุดต่าง ๆ กระจัดกระจาย
Helgi Guðmundsson

ทำไมต้องเป็นเส้นตรงกับ OLS FTW การถดถอยแบบไม่ใช้พารามิเตอร์! :)
อเล็กซิส

1
@Alexis ถูกต้องในการเน้นย้ำว่าสมมติฐานเช่น linearity จะต้องเป็นธรรมไม่ว่าจะโดยทฤษฎีโดเมนหรือโดยการตรวจสอบรูปแบบ อย่างไรก็ตามฉันคิดว่าการลบค่าผิดปกติโดยไม่พิจารณาอย่างรอบคอบว่าทำไมค่าดังกล่าวเกิดขึ้นเป็นข้อผิดพลาดทั่วไปในการวิเคราะห์ทางสถิติ
abaumann

ใช่ไม่สามารถลบค่าผิดปกติโดยไม่มีเหตุผลอันสมควรเช่นค่าผิด แต่การแปลงสามารถช่วยปรับการกระจายของมูลค่าให้เหมาะสมยิ่งขึ้นและลดค่าผิดปกติ และใช่ฉันเห็นด้วยฉันเชื่อว่าเป็นเรื่องปกติที่จะลบค่าผิดปกติโดยไม่มีสาเหตุที่สมเหตุสมผล
Helgi Guðmundsson

1

คุณได้ให้สัญชาตญาณคำถามของคุณแล้วโดยดูที่การวางแนวของจุดข้อมูล X / Y และการกระจาย ในระยะสั้นคุณถูกต้อง

ในแง่ที่เป็นทางการปฐมนิเทศสามารถเรียกว่าเป็นความสัมพันธ์เข้าสู่ระบบและการกระจายเป็นความแปรปรวน ลิงก์ทั้งสองนี้จะให้ข้อมูลเพิ่มเติมเกี่ยวกับวิธีตีความความสัมพันธ์เชิงเส้นระหว่างตัวแปรสองตัว


0

นี่คืองานบ้าน ดังนั้นคำตอบสำหรับคำถามของคุณง่ายมาก ดำเนินการถดถอยเชิงเส้นของ Y บน X คุณจะได้รับสิ่งนี้:

    Coefficient Standard Er t Stat
C   53.14404163 6.522516463 8.147781908
X   -44.8798926 16.80565866 -2.670522684

ดังนั้นสถิติ t จึงมีความสำคัญต่อตัวแปร X ที่มีความมั่นใจ 99% ดังนั้นคุณสามารถประกาศตัวแปรว่ามีความสัมพันธ์บางอย่าง

มันเป็นเส้นตรงหรือไม่ เพิ่มตัวแปร X2 = (X-mean (X)) ^ 2 และถดถอยอีกครั้ง

    Coefficient Stand Err   t Stat
C   53.46173893 6.58938281  8.11331508
X   -43.9503443 17.01532569 -2.582985779
X2  -44.601130  114.1461801 -0.390736951

ค่าสัมประสิทธิ์ที่ X ยังคงมีความสำคัญ แต่ X2 ไม่ใช่ X2 แสดงถึงความไม่เชิงเส้น ดังนั้นคุณจึงประกาศว่าความสัมพันธ์ของชาดูเหมือนจะเป็นเชิงเส้น

ข้างต้นสำหรับใช้ในบ้าน

ในชีวิตจริงสิ่งต่าง ๆ มีความซับซ้อนมากขึ้น ลองนึกภาพว่านี่คือข้อมูลในชั้นเรียนของนักเรียน Y - ม้านั่งกดเป็นปอนด์, X - เวลาในไม่กี่นาทีจากลมหายใจก่อนที่จะกด ฉันขอเพศของนักเรียน เพื่อความสนุกลองเพิ่มอีกตัวแปร Z แล้วสมมุติว่า Z = 1 (หญิง) สำหรับ Y <60 และ Z = 0 (ชาย) เมื่อ Y> = 60 รันการถดถอยด้วยตัวแปรสามตัว:

    Coefficient Stand Error t Stat
C   92.93031357 3.877092841 23.969071
X   -6.55246715 8.977138488 -0.72990599
X2  -43.6291362 59.06955097 -0.738606194
Z   -63.3231270 2.960160265 -21.39179009

เกิดอะไรขึ้น?! "ความสัมพันธ์" ระหว่าง X และ Y ได้หายไป! โอ้ดูเหมือนว่าความสัมพันธ์จะหลอกลวงเนื่องจากตัวแปรที่ทำให้สับสนเพศ

คุณธรรมของเรื่องราวคืออะไร? คุณจำเป็นต้องรู้ว่าอะไรคือข้อมูลที่จะ "อธิบาย" ความสัมพันธ์ "หรือแม้แต่สร้างมันขึ้นมาในตอนแรก ในกรณีนี้ช่วงเวลาที่ฉันบอกว่าข้อมูลเกี่ยวกับการออกกำลังกายของนักเรียนฉันจะขอเพศทันทีและจะไม่รบกวนการวิเคราะห์ข้อมูลโดยไม่ได้รับตัวแปรเพศ

ในทางกลับกันหากคุณขอให้ "อธิบาย" พล็อตการกระจายสิ่งใดก็ตามจะไป ความสัมพันธ์ความพอดีเชิงเส้นเป็นต้นสำหรับงานบ้านของคุณสองขั้นตอนแรกข้างต้นควรจะเพียงพอ: ดูที่ค่าสัมประสิทธิ์ของ X (ความสัมพันธ์) แล้ว X ^ 2 (เป็นเชิงเส้น) ตรวจสอบให้แน่ใจว่าคุณไม่ได้หมายถึงตัวแปร X (ลบค่าเฉลี่ย)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.