ความสัมพันธ์ระหว่างและในโครงเรื่องต่อไปนี้คืออะไร? ในมุมมองของฉันมีความสัมพันธ์เชิงเส้นเชิงลบ แต่เนื่องจากเรามีค่าผิดจำนวนมากความสัมพันธ์จึงอ่อนมาก ฉันถูกไหม? ฉันต้องการเรียนรู้วิธีที่เราสามารถอธิบายแผนการกระจายX
ความสัมพันธ์ระหว่างและในโครงเรื่องต่อไปนี้คืออะไร? ในมุมมองของฉันมีความสัมพันธ์เชิงเส้นเชิงลบ แต่เนื่องจากเรามีค่าผิดจำนวนมากความสัมพันธ์จึงอ่อนมาก ฉันถูกไหม? ฉันต้องการเรียนรู้วิธีที่เราสามารถอธิบายแผนการกระจายX
คำตอบ:
คำถามเกี่ยวข้องกับแนวคิดหลายประการ: วิธีการประเมินข้อมูลที่ได้รับในรูปแบบของการกระจายเท่านั้นวิธีการสรุป scatterplot และความสัมพันธ์ (และระดับใด) ที่มีลักษณะเป็นเส้นตรงหรือไม่ เราจะพาพวกเขาไปตามลำดับ
ใช้หลักการของการวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) สิ่งเหล่านี้ (อย่างน้อยตอนแรกเมื่อได้รับการพัฒนาสำหรับการใช้ดินสอและกระดาษ) เน้นข้อมูลสรุปที่เรียบง่ายและง่ายต่อการคำนวณและมีประสิทธิภาพ หนึ่งในบทสรุปที่ง่ายที่สุดนั้นขึ้นอยู่กับตำแหน่งที่อยู่ภายในชุดของตัวเลขเช่นค่ากลางซึ่งอธิบายค่า "ปกติ" มิดเดิ้ลง่ายต่อการประมาณค่าที่เชื่อถือได้จากกราฟิก
Scatterplots แสดงคู่ของตัวเลข คู่แรกของแต่ละคู่ (ตามที่พล็อตบนแกนนอน) ให้ชุดของตัวเลขเดี่ยวซึ่งเราสามารถสรุปแยกกันได้
ในแผนการกระจายแบบพิเศษนี้ค่า y จะอยู่ภายในกลุ่มที่แยกกันเกือบสองกลุ่ม : ค่าที่สูงกว่าที่ด้านบนและกลุ่มที่มีค่าเท่ากับหรือน้อยกว่าที่ด้านล่าง (ความประทับใจนี้ได้รับการยืนยันโดยการวาดฮิสโตแกรมของค่า y ซึ่งเป็น bimodal อย่างรวดเร็ว แต่นั่นจะเป็นงานจำนวนมากในขั้นตอนนี้) ฉันขอเชิญคลางแคลงไปที่การกระจาย เมื่อฉัน - ใช้รัศมีขนาดใหญ่, Gaussian เบลอแก้ไข (นั่นคือผลการประมวลผลภาพอย่างรวดเร็วมาตรฐาน) ของจุดใน scatterplot ฉันเห็นนี้:60
ทั้งสองกลุ่ม - บนและล่าง - มีความชัดเจน (กลุ่มด้านบนมีน้ำหนักเบากว่าด้านล่างมากเนื่องจากมีจุดจำนวนน้อยกว่า)
ดังนั้นเรามาสรุปกลุ่มของค่า y แยกกัน ฉันจะทำอย่างนั้นโดยวาดเส้นแนวนอนที่ค่ามัธยฐานของทั้งสองกลุ่ม เพื่อเน้นความประทับใจของข้อมูลและเพื่อแสดงว่าเราไม่ได้ทำการคำนวณใด ๆ ฉันได้ (a) ลบการตกแต่งทั้งหมดเช่นแกนและเส้นตารางและ (b) ทำให้จุดมัว ข้อมูลเล็ก ๆ น้อย ๆ เกี่ยวกับรูปแบบในข้อมูลจะหายไปด้วยเหตุนี้ "squinting" ที่กราฟิก:
ในทำนองเดียวกันฉันได้พยายามทำเครื่องหมายค่ามัธยฐานของค่า x ด้วยส่วนของเส้นแนวตั้ง ในกลุ่มบน (เส้นสีแดง) คุณสามารถตรวจสอบ - โดยนับ blobs - ว่าเส้นเหล่านี้แยกกลุ่มออกเป็นสองส่วนเท่า ๆ กันทั้งแนวนอนและแนวตั้ง ในกลุ่มที่ต่ำกว่า (เส้นสีน้ำเงิน) ฉันได้ประเมินตำแหน่งที่เห็นได้โดยไม่ต้องนับจำนวนจริง
จุดตัดเป็นศูนย์กลางของทั้งสองกลุ่ม ข้อสรุปที่ยอดเยี่ยมอย่างหนึ่งของความสัมพันธ์ระหว่างค่า x และ y คือการรายงานตำแหน่งกลางเหล่านี้ จากนั้นจะต้องการเสริมบทสรุปนี้ด้วยคำอธิบายว่ามีการกระจายข้อมูลในแต่ละกลุ่มไปทางซ้ายและขวาด้านบนและด้านล่างรอบศูนย์ของพวกเขาอย่างไร เพื่อความกะทัดรัดฉันจะไม่ทำที่นี่ แต่โปรดทราบว่า (โดยประมาณ) ความยาวของส่วนของเส้นที่ฉันวาดนั้นสะท้อนการแพร่กระจายโดยรวมของแต่ละกลุ่ม
ในที่สุดฉันก็ลากเส้น (ประ) ที่เชื่อมต่อกับสองศูนย์ นี่คือเส้นการถดถอยที่สมเหตุสมผล มันเป็นคำอธิบายที่ดีของข้อมูลหรือไม่? ไม่แน่นอน: ดูว่าการกระจายข้อมูลอยู่รอบ ๆ บรรทัดนี้อย่างไร มันเป็นหลักฐานของความเป็นเส้นตรงหรือไม่? ไม่เกี่ยวข้องกันมากนักเนื่องจากคำอธิบายเชิงเส้นไม่ดีเท่านี้ อย่างไรก็ตามเพราะนั่นคือคำถามต่อหน้าเรา
ความสัมพันธ์เป็นเชิงเส้นในความหมายทางสถิติเมื่อทั้งค่า y ที่แตกต่างกันไปในแบบสุ่มสมดุลรอบบรรทัดหรือค่า x จะเห็นแตกต่างกันไปในแบบสุ่มสมดุลรอบบรรทัด (หรือทั้งสอง)
ก่อนหน้านี้ดูเหมือนจะไม่เป็นเช่นนี้: เนื่องจากค่า y ดูเหมือนจะตกอยู่ในสองกลุ่มการเปลี่ยนแปลงของพวกเขาจะไม่ดูสมดุลในแง่ของการกระจายอย่างสมมาตรเหนือหรือใต้เส้น (นั่นทำให้ความเป็นไปได้ที่จะทิ้งข้อมูลลงในแพ็คเกจการถดถอยเชิงเส้นและดำเนินการอย่างน้อยกำลังสองของ y เทียบกับ x: คำตอบจะไม่เกี่ยวข้องกัน)
ความแปรปรวนใน x เป็นเท่าไหร่? นั่นเป็นไปได้มากขึ้นที่ความสูงแต่ละจุดบนพล็อตการกระจายของแนวนอนของจุดรอบเส้นประนั้นค่อนข้างสมดุล การกระจายในการกระจายนี้ดูเหมือนว่าจะสูงขึ้นเล็กน้อยที่ความสูงต่ำกว่า (ค่า y ต่ำ) แต่อาจเป็นเพราะมีจุดอื่น ๆ อีกมากมาย (ยิ่งคุณสุ่มข้อมูลมากเท่าไหร่ก็ยิ่งมีค่ามากขึ้นเท่านั้น)
ยิ่งไปกว่านั้นเมื่อเราสแกนจากบนลงล่างไม่มีสถานที่ที่กระจายแนวนอนรอบเส้นถดถอยไม่สมดุลอย่างยิ่งนั่นจะเป็นหลักฐานของการไม่เชิงเส้น (อาจประมาณ y = 50 หรือมากกว่านั้นอาจมีค่า x ใหญ่เกินไปผลกระทบที่ลึกซึ้งนี้อาจถูกนำมาใช้เป็นหลักฐานเพิ่มเติมสำหรับการแบ่งข้อมูลออกเป็นสองกลุ่มรอบค่า y = 60)
เราได้เห็นแล้วว่า
มันสมเหตุสมผลแล้วที่จะดูว่า x เป็นฟังก์ชันเชิงเส้นของ y บวกกับการเปลี่ยนแปลงแบบสุ่มที่ "ดี"
มันไม่สมเหตุสมผลที่จะดูว่า y เป็นฟังก์ชันเชิงเส้นของ x บวกกับการเปลี่ยนแปลงแบบสุ่ม
เส้นการถดถอยสามารถประมาณได้โดยการแยกข้อมูลออกเป็นกลุ่มของค่า y สูงและกลุ่มของค่า y ต่ำค้นหาศูนย์กลางของทั้งสองกลุ่มโดยใช้ค่ามัธยฐานและการเชื่อมต่อศูนย์เหล่านั้น
เส้นผลลัพธ์มีความชันลดลงซึ่งแสดงถึงความสัมพันธ์เชิงเส้นเชิงลบ
ไม่มีขาออกที่แข็งแกร่งจากเส้นตรง
อย่างไรก็ตามเนื่องจากการแพร่กระจายของค่า x รอบ ๆ เส้นยังคงมีขนาดใหญ่ (เมื่อเทียบกับการแพร่กระจายโดยรวมของค่า x เพื่อเริ่มต้น) เราจะต้องอธิบายความสัมพันธ์เชิงเส้นเชิงลบนี้ว่า "อ่อนแอมาก"
มันอาจมีประโยชน์มากกว่าที่จะอธิบายข้อมูลว่าก่อตัวเป็นเมฆรูปไข่สองรูป (หนึ่งสำหรับ y ที่สูงกว่า 60 และอีกอันสำหรับค่าที่ต่ำกว่าของ y) ภายในแต่ละคลาวด์มีความสัมพันธ์ที่ตรวจพบได้น้อยระหว่าง x และ y ศูนย์กลางของเมฆอยู่ใกล้ (0.29, 90) และ (0.38, 30) เมฆมีสเปรดที่เปรียบเทียบกันได้ แต่เมฆด้านบนมีข้อมูลน้อยกว่าอันที่ต่ำกว่ามาก (อาจจะมากถึง 20%)
ข้อสรุปสองข้อยืนยันว่าสิ่งที่เกิดขึ้นในคำถามนั้นมีความสัมพันธ์เชิงลบที่อ่อนแอ คนอื่น ๆ เสริมและสนับสนุนข้อสรุปเหล่านั้น
ข้อสรุปหนึ่งที่พบในคำถามที่ดูเหมือนจะไม่ถือเป็นการยืนยันว่ามี "ผู้ผิด" การตรวจสอบอย่างรอบคอบมากขึ้น (ดังที่อธิบายไว้ด้านล่าง) จะล้มเหลวในการทำให้คะแนนแต่ละบุคคลหรือแม้แต่คะแนนกลุ่มเล็ก ๆ ที่ถูกต้องอาจถูกพิจารณาภายนอก หลังจากการวิเคราะห์ที่ยาวนานพอความสนใจของคน ๆ นั้นอาจถูกดึงไปยังจุดสองจุดที่อยู่ใกล้กลางด้านขวาหรือจุดหนึ่งที่มุมซ้ายล่าง แต่สิ่งเหล่านี้จะไม่เปลี่ยนการประเมินของข้อมูลมาก ๆ ห่างไกล
อาจกล่าวได้อีกมากมาย ขั้นตอนต่อไปคือการประเมินการแพร่กระจายของเมฆเหล่านั้น ความสัมพันธ์ระหว่าง x และ y ในแต่ละเมฆทั้งสองสามารถประเมินแยกกันโดยใช้เทคนิคเดียวกันที่แสดงที่นี่ ความไม่สมดุลเล็กน้อยของคลาวด์ล่าง (ข้อมูลดูเหมือนจะปรากฏขึ้นที่ค่า y ที่เล็กที่สุด) สามารถประเมินและปรับได้โดยการแสดงค่า y อีกครั้ง (รากที่สองอาจทำงานได้ดี) ในขั้นตอนนี้มันจะเหมาะสมที่จะมองหาข้อมูลที่อยู่ห่างไกลเพราะ ณ จุดนี้คำอธิบายจะรวมข้อมูลเกี่ยวกับค่าข้อมูลทั่วไปเช่นเดียวกับสเปรดของพวกเขา ค่าผิดปกติ (โดยคำจำกัดความ) จะอยู่ไกลจากกลางมากเกินไปที่จะอธิบายในแง่ของจำนวนการแพร่กระจายที่สังเกตได้
ไม่มีงานนี้ - ซึ่งค่อนข้างเชิงปริมาณ - ต้องการมากกว่าแค่การค้นหากลุ่มของข้อมูลและทำการคำนวณง่ายๆกับพวกมันดังนั้นสามารถทำได้อย่างรวดเร็วและแม่นยำแม้ในขณะที่ข้อมูลนั้นมีเฉพาะในรูปแบบกราฟิก ทุกผลลัพธ์รายงานที่นี่ - รวมถึงค่าเชิงปริมาณ - สามารถพบได้ง่ายภายในไม่กี่วินาทีโดยใช้ระบบการแสดงผล (เช่น hardcopy และดินสอ :-)) ซึ่งอนุญาตให้หนึ่งทำเครื่องหมายแสงที่ด้านบนของกราฟิก
มาสนุกกันเถอะ!
แรกของทั้งหมดที่ผมคัดลอกมาข้อมูลออกกราฟของคุณ
การประมาณค่าสัมประสิทธิ์คือ:
ฉันจะทราบว่าในขณะที่ whuber redoubtable ยืนยันว่าไม่มีความสัมพันธ์เชิงเส้นที่แข็งแกร่งส่วนเบี่ยงเบนจากบรรทัดบอกเป็นนัยโดยคำของบานพับอยู่ในลำดับเดียวกันกับความชันของ (เช่น 37.7) ดังนั้นฉัน จะไม่เห็นด้วยอย่างสุภาพว่าเราไม่เห็นความสัมพันธ์แบบไม่เชิงเส้นที่แข็งแกร่ง (เช่นใช่ไม่มีความสัมพันธ์ที่แข็งแกร่ง แต่คำที่ไม่เป็นเชิงเส้นนั้นมีความแข็งแกร่งเท่ากับเชิงเส้น)X
การตีความ
(ฉันได้ดำเนินการต่อไปโดยสมมติว่าคุณสนใจเฉพาะในฐานะตัวแปรตาม) ค่าของนั้นคาดเดาได้ยากมากโดย (ด้วย Adjusted- = 0.03) ความสัมพันธ์มีลักษณะเป็นเส้นตรงโดยมีความชันลดลงเล็กน้อยที่ประมาณ 0.46 เหลือจะเบ้ค่อนข้างไปทางขวาอาจจะเป็นเพราะเป็นคมขอบเขตล่างกับค่าของYที่กำหนดขนาดของกลุ่มตัวอย่าง , ฉันกำลังมีความโน้มเอียงที่จะทนต่อการละเมิดปกติ ข้อสังเกตเพิ่มเติมสำหรับค่าจะช่วยตอกย้ำว่าการเปลี่ยนแปลงของความชันเป็นจริงหรือเป็นสิ่งประดิษฐ์ของความแปรปรวนลดลงของY X R 2 Y N = 170 X > 0.5 Y ในช่วงนั้น
กำลังอัปเดตด้วยกราฟ :
(เส้นสีแดงเป็นเพียงการถดถอยเชิงเส้นของ ln (Y) บน X. )
ในความคิดเห็น Russ Lenth เขียนว่า: "ฉันแค่สงสัยว่าสิ่งนี้จะเกิดขึ้นถ้าคุณราบรื่น vs.การกระจายของเอียงไปทางขวา" นี่เป็นข้อเสนอแนะที่ดีเนื่องจากแปลงเทียบกับยังให้ความพอดีดีกว่าเล็กน้อยที่เส้นแบ่งระหว่างและกับส่วนที่เหลือซึ่งมีการกระจายแบบสมมาตรมากกว่า อย่างไรก็ตามทั้งที่เขาแนะนำและบานพับแนวตรงของฉันของแบ่งปันการตั้งค่าสำหรับความสัมพันธ์ระหว่าง (ไม่ได้แปลง)และที่ไม่ได้อธิบายโดยเส้นตรง
นี่คือ2 ¢ 1.5 my ของฉัน สำหรับฉันคุณสมบัติที่โดดเด่นที่สุดคือข้อมูลหยุดทันทีและ 'จับ' ที่ด้านล่างของช่วงของ Y. ฉันเห็น 'กลุ่ม' และกลุ่มความสัมพันธ์เชิงลบ (ศักยภาพ) ของทั้งสอง แต่คุณสมบัติเด่นที่สุดคือ เอฟเฟกต์พื้น (ที่อาจเกิดขึ้น) และความจริงที่ว่าคลัสเตอร์ที่มีความหนาแน่นต่ำและสูงนั้นครอบคลุมส่วนหนึ่งของช่วง X เท่านั้น
เนื่องจาก 'กลุ่ม' นั้นมีความแปรปรวนแบบคู่ขนานแบบจำลองพาราเมทริกแบบผสมอาจน่าสนใจที่จะลอง จากการใช้ข้อมูล @Alexis ฉันพบว่าสามกลุ่มปรับ BIC ให้เหมาะสม 'เอฟเฟกต์พื้น' ความหนาแน่นสูงจะถูกเลือกเป็นคลัสเตอร์ที่สาม รหัสดังต่อไปนี้:
library(mclust)
dframe = read.table(url("http://doyenne.com/personal/files/data.csv"), header=T, sep=",")
mc = Mclust(dframe)
summary(mc)
# ----------------------------------------------------
# Gaussian finite mixture model fitted by EM algorithm
# ----------------------------------------------------
#
# Mclust VVI (diagonal, varying volume and shape) model with 3 components:
#
# log.likelihood n df BIC ICL
# -614.4713 170 14 -1300.844 -1338.715
#
# Clustering table:
# 1 2 3
# 72 72 26
ทีนี้เราจะสรุปอะไรจากสิ่งนี้ ฉันไม่คิดว่านั่นMclust
เป็นเพียงการจดจำรูปแบบของมนุษย์ที่ผิดไป (ในขณะที่อ่านของฉัน scatterplot อาจจะดี.) ในทางตรงกันข้ามมีคำถามว่านี่คือไม่มีการโพสต์-hoc ฉันเห็นสิ่งที่ฉันคิดว่าอาจเป็นรูปแบบที่น่าสนใจและตัดสินใจที่จะตรวจสอบ อัลกอริทึมหาบางอย่าง แต่จากนั้นฉันตรวจสอบเฉพาะสิ่งที่ฉันคิดว่าอาจมีอยู่ดังนั้นนิ้วหัวแม่มือของฉันจึงอยู่ในระดับ บางครั้งเป็นไปได้ที่จะคิดกลยุทธ์เพื่อลดปัญหานี้ (ดูคำตอบที่ยอดเยี่ยมของ @ whuber ที่นี่ ) แต่ฉันไม่รู้ว่าจะทำอย่างไรกับกระบวนการดังกล่าวในกรณีเช่นนี้ ด้วยเหตุนี้ฉันจึงนำผลการวิจัยเหล่านี้มาพร้อมกับเกลือจำนวนมาก (ฉันทำสิ่งนี้บ่อยครั้งพอที่บางคนหายไปจากเครื่องปั่นทั้งหมด) มันให้เนื้อหาบางอย่างแก่ฉันในการคิดและพูดคุยกับลูกค้าของฉันเมื่อเราพบกันครั้งต่อไป ข้อมูลเหล่านี้คืออะไร? มันสมเหตุสมผลไหมที่อาจมีเอฟเฟกต์พื้น? มันจะทำให้รู้สึกว่าอาจมีกลุ่มที่แตกต่างกัน? มันจะมีความหมาย / น่าประหลาดใจ / น่าสนใจ / สำคัญอย่างไรถ้ามันเป็นของจริง? มีข้อมูลอิสระ / เราสามารถทำให้พวกเขาสะดวกในการทำการทดสอบความเป็นไปได้เหล่านี้อย่างซื่อสัตย์หรือไม่? เป็นต้น
ให้ฉันอธิบายสิ่งที่ฉันเห็นทันทีที่ฉันดู:
หากเราสนใจในการแจกแจงแบบมีเงื่อนไขของ (ซึ่งถ้าหากบ่อยครั้งที่ความสนใจสนใจถ้าเราเห็นเป็น IV และเป็น DV) สำหรับการกระจายตามเงื่อนไขของจะปรากฏ bimodal กับกลุ่มบน ( ระหว่างประมาณ 70 ถึง 125 โดยมีค่าเฉลี่ยต่ำกว่า 100) และกลุ่มที่ต่ำกว่า (ระหว่าง 0 ถึง 70 โดยมีค่าเฉลี่ยประมาณ 30 หรือมากกว่านั้น) ภายในแต่ละกลุ่มกิริยาความสัมพันธ์กับใกล้เคียงกัน (ดูเส้นสีแดงและสีน้ำเงินด้านล่างวาดโดยประมาณซึ่งฉันเดาได้ว่าเป็นตำแหน่งที่หยาบ)
จากนั้นโดยดูว่าทั้งสองกลุ่มมีความหนาแน่นมากขึ้นหรือน้อยลงในเราสามารถพูดเพิ่มเติมได้ที่:
สำหรับกลุ่มบนหายไปอย่างสมบูรณ์ซึ่งทำให้ค่าเฉลี่ยโดยรวมของตกและต่ำกว่าประมาณ 0.2 กลุ่มที่ต่ำกว่านั้นมีความหนาแน่นน้อยกว่าด้านบนมากขึ้นทำให้ค่าเฉลี่ยโดยรวมสูงขึ้น
ระหว่างเอฟเฟกต์ทั้งสองนี้มันก่อให้เกิดความสัมพันธ์เชิงลบที่ชัดเจน (แต่ไม่เป็นเชิงเส้น) ระหว่างทั้งสองขณะที่ดูเหมือนว่าจะลดลงเมื่อเทียบกับแต่มีพื้นที่กว้างแบนส่วนใหญ่ในใจกลาง (ดูเส้นประสีม่วง)
ไม่ต้องสงสัยเลยว่าการรู้ว่าและคืออะไรเป็นสิ่งสำคัญเพราะจากนั้นอาจชัดเจนว่าทำไมการแจกแจงแบบมีเงื่อนไขสำหรับอาจจะมี bimodal มากกว่าช่วงของมันมาก (จริง ๆ แล้วมันอาจชัดเจนว่ามีสองกลุ่ม การแจกแจงในทำให้เกิดความสัมพันธ์ที่ลดลงอย่างชัดเจนใน )
นี่คือสิ่งที่ฉันเห็นจากการตรวจสอบด้วยตาเปล่า ด้วยการเล่นรอบในบางสิ่งบางอย่างเช่นโปรแกรมจัดการภาพขั้นพื้นฐาน (เช่นที่ฉันวาดเส้นด้วย) เราสามารถเริ่มคิดตัวเลขที่แม่นยำมากขึ้น หากเราทำข้อมูลดิจิทัล (ซึ่งค่อนข้างง่ายด้วยเครื่องมือที่เหมาะสมหากบางครั้งน่าเบื่อเล็กน้อยที่จะทำให้ถูกต้อง) จากนั้นเราสามารถทำการวิเคราะห์ที่ซับซ้อนมากขึ้นของการแสดงผลนั้น
การวิเคราะห์เชิงสำรวจแบบนี้อาจนำไปสู่คำถามที่สำคัญบางอย่าง (บางครั้งคนที่ทำให้คนที่มีข้อมูลประหลาดใจ แต่แสดงให้เห็นถึงเรื่องพล็อต) แต่เราจะต้องระมัดระวังในขอบเขตที่โมเดลของเราได้รับเลือก เราใช้โมเดลที่เลือกตามลักษณะที่ปรากฏของพล็อตและจากนั้นประเมินโมเดลเหล่านั้นในข้อมูลเดียวกันเราจะพบปัญหาเดียวกันกับที่เราได้รับเมื่อเราใช้การเลือกแบบจำลองที่เป็นทางการมากขึ้นและการประเมินบนข้อมูลเดียวกัน [นี่ไม่ใช่การปฏิเสธความสำคัญของการวิเคราะห์เชิงสำรวจเลย - แค่เราต้องระวังผลที่จะตามมาโดยไม่คำนึงว่าเราจะไปอย่างไร ]
การตอบสนองต่อความคิดเห็นของรัส:
[แก้ไขในภายหลัง: เพื่อชี้แจง - ฉันเห็นด้วยอย่างกว้าง ๆ กับการวิพากษ์วิจารณ์ของ Russ เพื่อเป็นการป้องกันโดยทั่วไปและมีความเป็นไปได้ที่ฉันได้เห็นมากกว่าที่นั่นจริงๆ ฉันวางแผนที่จะกลับมาและแก้ไขสิ่งเหล่านี้ให้เป็นคำอธิบายที่ครอบคลุมมากขึ้นเกี่ยวกับรูปแบบปลอมที่เรามักระบุด้วยตาและวิธีที่เราอาจเริ่มหลีกเลี่ยงสิ่งที่เลวร้ายที่สุด ฉันเชื่อว่าฉันจะสามารถเพิ่มการให้เหตุผลบางอย่างเกี่ยวกับสาเหตุที่ฉันคิดว่ามันอาจจะไม่ปลอมในกรณีเฉพาะนี้ (เช่นผ่าน regressogram หรือ 0-kernel kernel เรียบ แต่แน่นอนไม่มีข้อมูลเพิ่มเติมเพื่อทดสอบมีเพียง จนถึงตอนนี้สามารถไปได้ตัวอย่างเช่นถ้าตัวอย่างของเราไม่เป็นตัวแทนแม้แต่การ resampling เพียงทำให้เราไปถึง]
ฉันเห็นด้วยอย่างยิ่งว่าเรามีแนวโน้มที่จะเห็นรูปแบบปลอม เป็นจุดที่ฉันทำบ่อยทั้งที่นี่และที่อื่น ๆ
สิ่งหนึ่งที่ฉันแนะนำเช่นเมื่อมองไปที่แปลงที่เหลือหรือแปลง QQ คือการสร้างแปลงจำนวนมากที่สถานการณ์เป็นที่รู้จัก (ทั้งสองเป็นสิ่งที่ควรจะเป็นและที่สมมติฐานไม่ถือ) เพื่อให้ได้ความคิดที่ชัดเจน ละเว้น
นี่คือตัวอย่างที่พล็อต QQ วางอยู่ท่ามกลางคนอื่น ๆ 24 คน (ซึ่งเป็นไปตามสมมติฐาน) เพื่อให้เราเห็นว่าพล็อตที่ผิดปกตินั้นเป็นอย่างไร การออกกำลังกายแบบนี้มีความสำคัญเพราะมันช่วยให้เราหลีกเลี่ยงการหลอกตัวเองด้วยการแปลความหมายของการกระดิกเล็ก ๆ น้อย ๆ ซึ่งส่วนใหญ่จะเป็นเสียงที่เรียบง่าย
ฉันมักจะชี้ให้เห็นว่าหากคุณสามารถเปลี่ยนการแสดงผลโดยครอบคลุมบางจุดเราอาจพึ่งพาการแสดงผลที่สร้างขึ้นโดยไม่มีอะไรมากไปกว่าเสียงรบกวน
[อย่างไรก็ตามเมื่อเห็นได้ชัดจากหลาย ๆ จุดแทนที่จะมีน้อยก็ยากที่จะยืนยันว่าไม่ได้อยู่ตรงนั้น]
แสดงในคำตอบ whuber สนับสนุนการแสดงผลของฉัน, พล็อตแบบเกาส์เบลอดูเหมือนว่าจะรับแนวโน้มเดียวกันกับ bimodality ในY
เมื่อเราไม่มีข้อมูลเพิ่มเติมให้ตรวจสอบอย่างน้อยเราสามารถดูได้ว่าการแสดงผลมีแนวโน้มที่จะอยู่รอดได้อีกครั้งหรือไม่ (เริ่มต้นการกระจาย bivariate และดูว่ามันยังคงปรากฏอยู่เสมอ) หรือกิจวัตรอื่น ๆ ที่การแสดงผลไม่ควรชัดเจน ถ้ามันเป็นเสียงที่เรียบง่าย
1) ต่อไปนี้เป็นวิธีหนึ่งในการดูว่า bimodality ที่เห็นได้ชัดนั้นเป็นมากกว่าแค่ความเบ้และเสียงรบกวน - มันแสดงให้เห็นในการประมาณความหนาแน่นของเคอร์เนลหรือไม่? จะยังคงปรากฏให้เห็นหรือไม่ถ้าเราวางแผนความหนาแน่นของเคอร์เนลภายใต้การเปลี่ยนแปลงที่หลากหลาย? ที่นี่ฉันเปลี่ยนมันให้มีความสมมาตรมากกว่าเดิมที่ 85% ของแบนด์วิดท์เริ่มต้น (เนื่องจากเรากำลังพยายามระบุโหมดที่ค่อนข้างเล็กและแบนด์วิดท์เริ่มต้นไม่เหมาะสำหรับงานนั้น):
แปลงเป็น ,และ(Y) เส้นแนวตั้งอยู่ที่ ,และ(68) bimodality ลดลง แต่ก็ยังมองเห็นได้ค่อนข้าง เนื่องจากมันชัดเจนมากใน KDE ดั้งเดิมดูเหมือนว่าจะยืนยันว่ามี - และแปลงที่สองและสามแนะนำอย่างน้อยก็ค่อนข้างแข็งแกร่งในการแปลง
2) นี่เป็นอีกวิธีพื้นฐานในการดูว่าเป็น "เสียงรบกวน" มากกว่าหรือไม่:
ขั้นตอนที่ 1: ดำเนินการทำคลัสเตอร์บน Y
ขั้นตอนที่ 2: แบ่งออกเป็นสองกลุ่มในและจัดกลุ่มทั้งสองกลุ่มแยกกันและดูว่ามันค่อนข้างคล้ายกันหรือไม่ หากไม่มีอะไรเกิดขึ้นในสองส่วนนี้ไม่ควรคาดว่าจะแยกสิ่งเหล่านั้นออกจากกันมากนัก
จุดที่มีจุดถูกทำคลัสเตอร์แตกต่างจากคลัสเตอร์ "all in one set" ในพล็อตก่อนหน้า ฉันจะทำเพิ่มเติมในภายหลัง แต่ดูเหมือนว่าอาจจะมี "แยก" แนวนอนใกล้กับตำแหน่งนั้นจริงๆ
ฉันจะลองรีเครสโตแกรมหรือตัวประเมิน Nadaraya-Watson (ทั้งคู่เป็นการประมาณค่าท้องถิ่นของฟังก์ชันการถดถอย ) ฉันยังไม่ได้สร้าง แต่เราจะดูว่าพวกเขาไปอย่างไร ฉันอาจยกเว้นจุดสิ้นสุดที่มีข้อมูลน้อยมาก
3) แก้ไข: นี่คือ regressogram สำหรับช่องเก็บของความกว้าง 0.1 (ยกเว้นส่วนปลายสุดอย่างที่ฉันแนะนำก่อนหน้านี้):
ทั้งหมดนี้สอดคล้องกับความประทับใจดั้งเดิมที่ฉันมีในเนื้อเรื่อง มันไม่ได้พิสูจน์เหตุผลของฉันว่าถูกต้อง แต่ข้อสรุปของฉันมาถึงผลลัพธ์เดียวกันกับที่ regressogram ทำ
หากสิ่งที่ฉันเห็นในพล็อต - และเหตุผลที่เกิดขึ้น - เป็นของปลอมฉันอาจไม่ประสบความสำเร็จในการแยกแยะเช่นนี้
(สิ่งต่อไปที่จะลองคือตัวประมาณค่า Nadayara-Watson จากนั้นฉันอาจเห็นว่ามันมีการสุ่มใหม่ได้อย่างไรถ้าฉันมีเวลา)
4) การแก้ไขในภายหลัง:
นาดารียา - วัตสัน, เคอร์เนลเสียนแบนด์วิดท์ 0.15:
อีกครั้งนี้สอดคล้องกับความประทับใจครั้งแรกของฉัน นี่คือค่าประมาณของ NW ที่อ้างอิงจากตัวอย่างบูตสิบอัน:
รูปแบบคร่าวๆอยู่ที่นั่นแม้ว่ามีตัวอย่างสองตัวอย่างที่ไม่ปฏิบัติตามคำอธิบายอย่างชัดเจนโดยยึดตามข้อมูลทั้งหมด เราเห็นว่ากรณีของระดับทางด้านซ้ายนั้นมีความแน่นอนน้อยกว่าทางด้านขวา - ระดับเสียง (ส่วนหนึ่งจากการสังเกตเพียงไม่กี่ส่วนจากการแพร่กระจายในวงกว้าง) เป็นเรื่องที่ง่ายกว่าที่จะเรียกร้องค่าเฉลี่ยนั้นสูงกว่า เหลือน้อยกว่าที่กึ่งกลาง
ความประทับใจโดยรวมของฉันคือฉันอาจไม่ได้หลอกตัวเองเพราะแง่มุมต่าง ๆ ยืนขึ้นพอสมควรกับความท้าทายที่หลากหลาย (การปรับให้เรียบการแปลงแยกเป็นกลุ่มย่อยการทดสอบซ้ำ) ที่มีแนวโน้มจะบดบังพวกเขาหากพวกเขาเป็นเพียงเสียงรบกวน ในทางกลับกันข้อบ่งชี้คือเอฟเฟกต์ในขณะที่สอดคล้องกับความประทับใจครั้งแรกของฉันค่อนข้างอ่อนแอและอาจมากเกินไปที่จะเรียกร้องการเปลี่ยนแปลงที่แท้จริงในความคาดหวังใด ๆ ที่เคลื่อนย้ายจากด้านซ้ายไปยังศูนย์
โอเคคนที่ฉันทำตามนำของอเล็กซิสและจับข้อมูล นี่คือพล็อตของเมื่อเทียบกับxx
และความสัมพันธ์:
> cor.test(~ x + y, data = data)
Pearson's product-moment correlation
data: x and y
t = -2.6311, df = 169, p-value = 0.009298
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.33836844 -0.04977867
sample estimates:
cor
-0.1983692
> cor.test(~ x + log(y), data = data)
Pearson's product-moment correlation
data: x and log(y)
t = -2.8901, df = 169, p-value = 0.004356
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.35551268 -0.06920015
sample estimates:
cor
-0.2170188
การทดสอบสหสัมพันธ์แสดงถึงการพึ่งพาในทางลบ ฉันยังคงไม่มั่นใจใน bimodality ใด ๆ (แต่ยังไม่มั่นใจว่ามันหายไป)
[ฉันลบพล็อตที่เหลือที่ฉันมีในเวอร์ชันก่อนหน้านี้เพราะฉันมองข้ามจุดที่ @whuber พยายามทำนาย ]
รัสเลินท์สงสัยว่ากราฟจะดูว่าแกน Y เป็นลอการิทึมหรือไม่ Alexis คัดลอกข้อมูลดังนั้นจึงง่ายต่อการวางแผนด้วยแกนบันทึก:
ในระดับบันทึกไม่มีคำใบ้ของ bimodality หรือแนวโน้ม ไม่ว่าขนาดของบันทึกจะสมเหตุสมผลหรือไม่ขึ้นอยู่กับรายละเอียดของข้อมูลที่นำเสนอ ในทำนองเดียวกันไม่ว่าจะเป็นการเหมาะสมหรือไม่ที่จะคิดว่าข้อมูลแสดงการสุ่มตัวอย่างจากประชากรสองกลุ่มตามที่ whuber แนะนำขึ้นอยู่กับรายละเอียด
ภาคผนวก: จากความคิดเห็นด้านล่างนี่คือรุ่นที่แก้ไข:
คุณพูดถูกความสัมพันธ์อ่อนแอ แต่ไม่เป็นศูนย์ ฉันจะเดาในแง่บวก อย่างไรก็ตามอย่าเดาเพียงใช้การถดถอยเชิงเส้นอย่างง่าย (OLS regression) และค้นหา! คุณจะได้รับความชันของ xxx ซึ่งบอกคุณว่าความสัมพันธ์คืออะไร และใช่คุณมีค่าผิดปกติที่อาจมีอคติกับผลลัพธ์ ที่สามารถจัดการได้ คุณสามารถใช้ระยะทางของแม่ครัวหรือสร้างเลเวอเรจเลเวอเรจเพื่อประเมินผลกระทบของค่าผิดปกติต่อความสัมพันธ์
โชคดี
คุณได้ให้สัญชาตญาณคำถามของคุณแล้วโดยดูที่การวางแนวของจุดข้อมูล X / Y และการกระจาย ในระยะสั้นคุณถูกต้อง
ในแง่ที่เป็นทางการปฐมนิเทศสามารถเรียกว่าเป็นความสัมพันธ์เข้าสู่ระบบและการกระจายเป็นความแปรปรวน ลิงก์ทั้งสองนี้จะให้ข้อมูลเพิ่มเติมเกี่ยวกับวิธีตีความความสัมพันธ์เชิงเส้นระหว่างตัวแปรสองตัว
นี่คืองานบ้าน ดังนั้นคำตอบสำหรับคำถามของคุณง่ายมาก ดำเนินการถดถอยเชิงเส้นของ Y บน X คุณจะได้รับสิ่งนี้:
Coefficient Standard Er t Stat
C 53.14404163 6.522516463 8.147781908
X -44.8798926 16.80565866 -2.670522684
ดังนั้นสถิติ t จึงมีความสำคัญต่อตัวแปร X ที่มีความมั่นใจ 99% ดังนั้นคุณสามารถประกาศตัวแปรว่ามีความสัมพันธ์บางอย่าง
มันเป็นเส้นตรงหรือไม่ เพิ่มตัวแปร X2 = (X-mean (X)) ^ 2 และถดถอยอีกครั้ง
Coefficient Stand Err t Stat
C 53.46173893 6.58938281 8.11331508
X -43.9503443 17.01532569 -2.582985779
X2 -44.601130 114.1461801 -0.390736951
ค่าสัมประสิทธิ์ที่ X ยังคงมีความสำคัญ แต่ X2 ไม่ใช่ X2 แสดงถึงความไม่เชิงเส้น ดังนั้นคุณจึงประกาศว่าความสัมพันธ์ของชาดูเหมือนจะเป็นเชิงเส้น
ข้างต้นสำหรับใช้ในบ้าน
ในชีวิตจริงสิ่งต่าง ๆ มีความซับซ้อนมากขึ้น ลองนึกภาพว่านี่คือข้อมูลในชั้นเรียนของนักเรียน Y - ม้านั่งกดเป็นปอนด์, X - เวลาในไม่กี่นาทีจากลมหายใจก่อนที่จะกด ฉันขอเพศของนักเรียน เพื่อความสนุกลองเพิ่มอีกตัวแปร Z แล้วสมมุติว่า Z = 1 (หญิง) สำหรับ Y <60 และ Z = 0 (ชาย) เมื่อ Y> = 60 รันการถดถอยด้วยตัวแปรสามตัว:
Coefficient Stand Error t Stat
C 92.93031357 3.877092841 23.969071
X -6.55246715 8.977138488 -0.72990599
X2 -43.6291362 59.06955097 -0.738606194
Z -63.3231270 2.960160265 -21.39179009
เกิดอะไรขึ้น?! "ความสัมพันธ์" ระหว่าง X และ Y ได้หายไป! โอ้ดูเหมือนว่าความสัมพันธ์จะหลอกลวงเนื่องจากตัวแปรที่ทำให้สับสนเพศ
คุณธรรมของเรื่องราวคืออะไร? คุณจำเป็นต้องรู้ว่าอะไรคือข้อมูลที่จะ "อธิบาย" ความสัมพันธ์ "หรือแม้แต่สร้างมันขึ้นมาในตอนแรก ในกรณีนี้ช่วงเวลาที่ฉันบอกว่าข้อมูลเกี่ยวกับการออกกำลังกายของนักเรียนฉันจะขอเพศทันทีและจะไม่รบกวนการวิเคราะห์ข้อมูลโดยไม่ได้รับตัวแปรเพศ
ในทางกลับกันหากคุณขอให้ "อธิบาย" พล็อตการกระจายสิ่งใดก็ตามจะไป ความสัมพันธ์ความพอดีเชิงเส้นเป็นต้นสำหรับงานบ้านของคุณสองขั้นตอนแรกข้างต้นควรจะเพียงพอ: ดูที่ค่าสัมประสิทธิ์ของ X (ความสัมพันธ์) แล้ว X ^ 2 (เป็นเชิงเส้น) ตรวจสอบให้แน่ใจว่าคุณไม่ได้หมายถึงตัวแปร X (ลบค่าเฉลี่ย)