สถิติและข้อมูลขนาดใหญ่ scatterplot

7

กราฟสำหรับความสัมพันธ์ระหว่างตัวแปรอันดับสอง

กราฟที่เหมาะสมในการแสดงความสัมพันธ์ระหว่างตัวแปรอันดับสองคืออะไร ตัวเลือกเล็ก ๆ น้อย ๆ ที่ฉันนึกได้: พล็อตกระจายที่มีตัวสั่นแบบสุ่มเพิ่มเพื่อหยุดจุดที่ซ่อนซึ่งกันและกัน เห็นได้ชัดว่ากราฟิกมาตรฐาน - Minitab เรียกสิ่งนี้ว่า "พล็อตค่าแต่ละค่า" ในความคิดของฉันมันอาจจะทำให้เข้าใจผิดตามที่เห็นกระตุ้นให้เกิดการแก้ไขเชิงเส้นระหว่างสายตาระดับลำดับราวกับว่าข้อมูลมาจากช่วงขนาด พล็อตกระจายที่ดัดแปลงเพื่อให้ขนาด (พื้นที่) ของจุดแทนความถี่ของการรวมกันของระดับนั้นแทนที่จะวาดหนึ่งจุดสำหรับแต่ละหน่วยสุ่มตัวอย่าง ฉันได้เห็นแผนการดังกล่าวเป็นครั้งคราวในทางปฏิบัติ พวกมันอ่านยาก แต่จุดนั้นอยู่บนโครงตาข่ายที่เว้นระยะสม่ำเสมอซึ่งจะเอาชนะการวิพากษ์วิจารณ์พล็อตกระจายที่กระวนกระวายใจ โดยเฉพาะอย่างยิ่งหากหนึ่งในตัวแปรนั้นถือว่าเป็นแบบพึ่งพาได้พล็อตกล่องจะถูกจัดกลุ่มตามระดับของตัวแปรอิสระ มีแนวโน้มที่จะดูแย่มากหากจำนวนระดับของตัวแปรตามไม่สูงพอ ("แบน" มากกับหนวดที่หายไปหรือแย่ลง quartiles ซึ่งทำให้การระบุภาพของค่ามัธยฐานเป็นไปไม่ได้) แต่อย่างน้อยก็ดึงดูดความสนใจไปที่มัธยฐานและควอไทล์ สถิติเชิงพรรณนาที่เกี่ยวข้องสำหรับตัวแปรลำดับ ตารางค่าหรือกริดเปล่าของเซลล์พร้อมแผนที่ความร้อนเพื่อระบุความถี่ มองเห็นแตกต่างกัน แต่มีแนวคิดคล้ายกับพล็อตกระจายที่มีพื้นที่จุดแสดงความถี่ มีความคิดอื่น ๆ หรือความคิดที่ดีกว่าแปลงไหน มีการวิจัยในสาขาใดบ้างที่มีการพิจารณาแปลงตามลำดับ - vs-ordinal บางแปลงเป็นมาตรฐานหรือไม่? (ฉันดูเหมือนจะจำความถี่ heatmap ที่แพร่หลายในจีโนมิกส์ แต่สงสัยว่าเป็นบ่อยขึ้นสำหรับเล็กน้อย - vs - ชื่อ.) คำแนะนำสำหรับการอ้างอิงมาตรฐานที่ดีก็จะได้รับการต้อนรับมากฉันคาดเดาบางอย่างจาก Agresti หากใครต้องการที่จะแสดงให้เห็นถึงพล็อตรหัส R สำหรับข้อมูลตัวอย่างปลอมดังต่อไปนี้ …

46 data-visualization categorical-data ordinal-data scatterplot

6

ฉันจะหลีกเลี่ยงการซ้อนฉลากในพล็อต R ได้อย่างไร [ปิด]

ฉันพยายามติดป้ายกระจายภาพง่าย ๆ ใน R. นี่คือสิ่งที่ฉันใช้: plot(SI, TI) text(SI, TI, Name, pos=4, cex=0.7) ผลที่ได้คือปานกลางตามที่คุณเห็น (คลิกเพื่อดูภาพขยาย): ผมพยายามที่จะชดเชยการนี้โดยใช้textxyฟังก์ชั่น แต่ก็ไม่ดีขึ้น การทำให้ภาพใหญ่ขึ้นไม่สามารถใช้กับกลุ่มที่หนาแน่น มีฟังก์ชั่นหรือวิธีง่าย ๆ ในการชดเชยสิ่งนี้และปล่อยให้ R plot label ที่ไม่ทับซ้อนกันหรือไม่? นี่เป็นส่วนย่อยของข้อมูลที่ฉันมี: Name;SI;TI 01_BAD_talking_head;6.944714;4.421208 01_GOOD_talking_head;5.680141;4.864035 01_GOOD_talking_head_subtitles;7.170114;4.664205

44 r data-visualization scatterplot

9

ความสัมพันธ์ระหว่าง

ความสัมพันธ์ระหว่างและในโครงเรื่องต่อไปนี้คืออะไร? ในมุมมองของฉันมีความสัมพันธ์เชิงเส้นเชิงลบ แต่เนื่องจากเรามีค่าผิดจำนวนมากความสัมพันธ์จึงอ่อนมาก ฉันถูกไหม? ฉันต้องการเรียนรู้วิธีที่เราสามารถอธิบายแผนการกระจายXYYYXXX

38 self-study correlation scatterplot

3

วิธีการวาดรูปหลายเหลี่ยมเรียบร้อยรอบ ๆ ภูมิภาคกระจายใน ggplot2 [ปิด]

ฉันจะเพิ่มรูปหลายเหลี่ยมที่เรียบร้อยรอบ ๆ กลุ่มของจุดบนแผนการกระจายได้อย่างไร ฉันใช้ ggplot2 geom_polygonแต่กำลังผิดหวังกับผลของการ ชุดข้อมูลอยู่ที่นั่นเป็นไฟล์ข้อความที่คั่นด้วยแท็บ กราฟด้านล่างแสดงให้เห็นถึงสองมาตรการของทัศนคติต่อสุขภาพและการว่างงานในหลายประเทศ: ฉันต้องการที่จะเปลี่ยนจากgeom_density2dการแฟนซีน้อย geom_polygonแต่สังเกตุที่ถูกต้องมากขึ้น ผลลัพธ์ของข้อมูลที่ไม่เรียงลำดับนั้นไม่เป็นประโยชน์: ฉันจะวาดรูปหลายเหลี่ยมที่ 'เรียบร้อย' ที่ทำหน้าที่เป็นเส้นทางเส้นรอบ ๆ ค่า min-max yx ได้อย่างไร ฉันพยายามจัดเรียงข้อมูลให้ไม่มีประโยชน์ รหัส: print(fig2 <- ggplot(d, aes(man, eff, colour=issue, fill=issue)) + geom_point() + geom_density2d(alpha=.5) + labs(x = "Efficiency", y = "Mandate")) dวัตถุที่ได้รับกับไฟล์ CSV นี้ วิธีการแก้: ขอบคุณWayne , Andy Wและคนอื่น ๆ ที่เป็นตัวชี้! ข้อมูลรหัสและกราฟได้รับการโพสต์ไป …

32 ggplot2 scatterplot

3

เป็นวิธีที่ดีในการใช้ R เพื่อสร้าง scatterplot ที่แยกข้อมูลโดยการรักษาคืออะไร?

ฉันใหม่มากกับ R และสถิติโดยทั่วไป แต่ฉันต้องสร้างโปรเจ็กต์ที่ฉันคิดว่าอาจเกินขีดความสามารถดั้งเดิม ฉันมีเวกเตอร์ของการสังเกตสองสามอันและฉันต้องการทำ scatterplot กับพวกเขาและแต่ละคู่ตกอยู่ในหนึ่งในสามประเภท ฉันต้องการสร้าง scatterplot ที่แยกแต่ละหมวดหมู่ตามสีหรือตามสัญลักษณ์ ฉันคิดว่าสิ่งนี้จะดีกว่าการสร้างแผนการกระจายที่แตกต่างกันสามแบบ ฉันมีปัญหาอีกอันหนึ่งกับความจริงที่ว่าในแต่ละหมวดหมู่มีกลุ่มขนาดใหญ่ ณ จุดหนึ่ง แต่กลุ่มนั้นมีขนาดใหญ่กว่ากลุ่มหนึ่งมากกว่าอีกสองกลุ่ม ไม่มีใครรู้วิธีที่ดีในการทำเช่นนี้? แพ็คเกจที่ฉันควรติดตั้งและเรียนรู้วิธีการใช้งาน? ใครทำอะไรที่คล้ายกัน? ขอบคุณ

30 r data-visualization scatterplot

2

Scatterplot พร้อม contour / heat overlay

ล็อคแล้ว คำถามและคำตอบนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ฉันเห็นพล็อตนี้ในส่วนเสริมของกระดาษเมื่อเร็ว ๆ นี้และฉันชอบที่จะสามารถทำซ้ำได้โดยใช้อาร์มันเป็นแผนการกระจาย ความหนาแน่นมากเกินไป ฉันจะทำสิ่งนี้ได้อย่างไร

23 r data-visualization scatterplot

2

แหล่งข้อมูลออนไลน์ที่ดีพร้อมเคล็ดลับในการเชื่อมโยงกราฟระหว่างตัวแปรตัวเลขสองตัวภายใต้เงื่อนไขต่าง ๆ

บริบท: ในขณะที่ฉันได้รับชุดของฮิวริสติกเกี่ยวกับวิธีการกำหนดความสัมพันธ์ระหว่างตัวแปรตัวเลขสองตัวอย่างมีประสิทธิภาพ ฉันคิดว่าคนส่วนใหญ่ที่ทำงานกับข้อมูลจะมีชุดของกฎที่คล้ายกัน ตัวอย่างของกฎดังกล่าวอาจเป็น: หากตัวแปรตัวใดตัวหนึ่งเอียงเชิงบวกให้พิจารณาการวางแผนแกนนั้นในระดับบันทึก หากมีจุดข้อมูลจำนวนมาก (เช่น n> 1,000) ให้ใช้กลยุทธ์ที่แตกต่างเช่นการใช้ความโปร่งใสบางส่วนหรือสุ่มตัวอย่างข้อมูล หากตัวแปรตัวใดตัวหนึ่งมีจำนวนหมวดหมู่ไม่ต่อเนื่องกันให้พิจารณาใช้ส่วนที่กระวนกระวายใจหรือเนื้อเรื่องของดอกทานตะวัน หากมีสามตัวหรือมากกว่าให้ลองใช้เมทริกซ์ scatterplot การปรับเทรนด์ไลน์บางรูปแบบมักมีประโยชน์ ปรับขนาดของอักขระการพล็อตเป็นขนาดตัวอย่าง (สำหรับ n ที่ใหญ่กว่าให้ใช้อักขระการพล็อตที่เล็กกว่า) และอื่น ๆ คำถาม: ฉันต้องการที่จะสามารถอ้างถึงนักเรียนไปยังหน้าเว็บหรือเว็บไซต์ที่อธิบายถึงเทคนิคเหล่านี้และเทคนิคอื่น ๆ สำหรับการวางแผนความสัมพันธ์ระหว่างตัวแปรตัวเลขสองตัวได้อย่างมีประสิทธิภาพหรืออาจเป็นตัวอย่าง มีหน้าเว็บหรือเว็บไซต์บนอินเทอร์เน็ตที่ใช้งานได้ดีหรือไม่?

22 data-visualization correlation teaching rule-of-thumb scatterplot

2

อะไรคือ Plotable Variable Plot (Partial Regression Plot) ที่อธิบายในการถดถอยหลายครั้ง?

ฉันมีชุดข้อมูลภาพยนตร์และฉันใช้การถดถอย: model <- lm(imdbVotes ~ imdbRating + tomatoRating + tomatoUserReviews+ I(genre1 ** 3.0) +I(genre2 ** 2.0)+I(genre3 ** 1.0), data = movies) library(ggplot2) res <- qplot(fitted(model), resid(model)) res+geom_hline(yintercept=0) ซึ่งให้ผลลัพธ์: ตอนนี้ฉันลองทำงานบางอย่างที่เรียกว่า "เพิ่ม Variable Plot" ครั้งแรกและฉันได้ผลลัพธ์ต่อไปนี้: car::avPlots(model, id.n=2, id.cex=0.7) ปัญหาคือฉันพยายามที่จะทำความเข้าใจกับตัวแปรที่เพิ่มเข้ามาโดยใช้ google แต่ฉันไม่สามารถเข้าใจความลึกของมันได้เพราะเห็นพล็อตที่ฉันเข้าใจว่ามันเป็นตัวแทนของการบิดเบือนที่ขึ้นอยู่กับตัวแปรอินพุตแต่ละตัวที่เกี่ยวข้องกับผลลัพธ์ ฉันสามารถรับรายละเอียดเพิ่มเติมได้เล็กน้อยเช่นวิธีปรับข้อมูลให้เป็นมาตรฐาน

17 regression data-visualization multiple-regression scatterplot

1

สมมติฐานของโมเดลเชิงเส้นทั่วไป

ฉันสร้างโมเดลเชิงเส้นแบบทั่วไปพร้อมตัวแปรตอบกลับเดียว (กระจายต่อเนื่อง / ปกติ) และตัวแปรอธิบาย 4 ตัว (3 ตัวซึ่งเป็นปัจจัยและตัวที่สี่คือจำนวนเต็ม) ฉันใช้การแจกแจงข้อผิดพลาดแบบเกาส์กับฟังก์ชั่นลิงค์ตัวตนแล้ว ขณะนี้ฉันกำลังตรวจสอบว่าแบบจำลองเป็นไปตามสมมติฐานของโมเดลเชิงเส้นทั่วไปซึ่ง ได้แก่ : ความเป็นอิสระของ Y ฟังก์ชั่นลิงค์ที่ถูกต้อง สเกลที่ถูกต้องของการวัดตัวแปรอธิบาย ไม่มีข้อสังเกตที่มีอิทธิพล คำถามของฉันคือฉันจะตรวจสอบว่าแบบจำลองตรงตามสมมติฐานเหล่านี้ได้อย่างไร ดูเหมือนว่าจุดเริ่มต้นที่ดีที่สุดคือการวางแผนการตอบสนองต่อตัวแปรอธิบายแต่ละตัว อย่างไรก็ตามตัวแปรอธิบาย 3 ตัวนั้นจัดอยู่ในหมวดหมู่ (ที่มีระดับ 1-4) ดังนั้นฉันควรมองหาอะไรในแปลง นอกจากนี้ฉันต้องตรวจสอบความหลากหลายและความสัมพันธ์ระหว่างตัวแปรอธิบายหรือไม่? ถ้าใช่ฉันจะทำสิ่งนี้กับตัวแปรอธิบายอย่างละเอียดได้อย่างไร

14 regression generalized-linear-model ancova assumptions scatterplot

5

ฉันจะตีความแผนการกระจายนี้ได้อย่างไร

ฉันมีพล็อตกระจายที่มีขนาดตัวอย่างซึ่งเท่ากับจำนวนคนบนแกน x และเงินเดือนมัธยฐานบนแกน y ฉันพยายามหาว่าขนาดกลุ่มตัวอย่างมีผลต่อเงินเดือนเฉลี่ยหรือไม่ นี่คือพล็อต: ฉันจะตีความพล็อตนี้ได้อย่างไร

12 data-visualization median scatterplot pandas

1

ทำไมต้องกระวนกระวายใจค่าอย่างต่อเนื่องในการกระจาย?

ฉันใช้ผ้าใบสีส้มและฉันสร้างโครงเรื่องกระจาย ฉันมีโอกาสที่จะกระวนกระวายใจตัวแปรต่อเนื่อง แต่ฉันไม่รู้จริง ๆ ว่าทำไมฉันถึงทำ ความคิดที่อยู่เบื้องหลังการกระวนกระวายใจคืออะไร?

12 data-visualization scatterplot

3

วิธีการพูดคุยเกี่ยวกับ scatterplot กับหลายบรรทัดที่เกิดขึ้นใหม่?

เราวัดตัวแปรได้สองตัวและ scatterplot ดูเหมือนว่าจะแนะนำโมเดล "เชิงเส้น" หลายอัน มีวิธีการกลั่นโมเดลเหล่านี้หรือไม่? การระบุตัวแปรอิสระอื่น ๆ กลายเป็นเรื่องยาก ตัวแปรทั้งสองมีความเบ้ซ้ายอย่างหนัก (ต่อจำนวนน้อย) นี่เป็นการกระจายที่คาดหวังในโดเมนของเรา ความเข้มของจุดหมายถึงจำนวนเงินของจุดข้อมูล (บนขนาด) นี้y> < x , y >เข้าสู่ระบบ10log10\log_{10}< x , y><x,y> อีกวิธีหนึ่งมีวิธีการจัดกลุ่มคะแนนหรือไม่ ในสาขาของเรามันจะอ้างว่าตัวแปรทั้งสองเหล่านี้มีความสัมพันธ์เชิงเส้น เราพยายามที่จะเข้าใจ / อธิบายว่าทำไมข้อมูลของเราถึงไม่เป็นเช่นนั้น (หมายเหตุเรามี 17M data points) ปรับปรุง:ขอบคุณสำหรับคำตอบทั้งหมดต่อไปนี้เป็นคำชี้แจงที่ขอ: ตัวแปรทั้งสองเป็นจำนวนเต็มเท่านั้นซึ่งจะอธิบายรูปแบบบางอย่างใน scatterplot ของบันทึก โชคดีที่ตามนิยามแล้วค่าต่ำสุดของตัวแปรทั้งสองคือ 1 คะแนน 7M อยู่ที่ ("อธิบาย" โดยความเบ้ซ้ายของข้อมูล)< 3 , 1 ><3,1><3,1> นี่คือแปลงที่ร้องขอ: บันทึกการกระจายล็อก: (ช่องว่างเกิดจากค่าจำนวนเต็ม) …

11 linear-model scatterplot

1

รับผลลัพธ์ที่แตกต่างเมื่อทำการพล็อตจุดไข่ปลา 95% ด้วย ggplot หรือแพ็คเกจวงรี

ฉันต้องการให้เห็นภาพผลลัพธ์ของการจัดกลุ่ม (สร้างด้วยprotoclust{protoclust}) โดยสร้างแผนการสแกลเลอร์สำหรับแต่ละคู่ของตัวแปรที่ใช้สำหรับการจำแนกข้อมูลของฉันการระบายสีตามคลาส คลาส elipses- ทับซ้อนกันภายใต้ตัวแปรแต่ละคู่) ฉันใช้รูปวาดของวงรีในสองวิธีที่แตกต่างกันและรูปวงรีที่ได้นั้นแตกต่างกัน! (รูปวงรีที่ใหญ่กว่าสำหรับการใช้งานครั้งแรก!) นิรนัยที่มีขนาดแตกต่างกันเท่านั้น ฉันเดาว่าฉันต้องทำอะไรผิดโดยใช้หนึ่งในนั้น (หวังว่าจะไม่ใช้ทั้งคู่!) หรือด้วยข้อโต้แย้ง มีใครบอกฉันได้ไหมว่าฉันทำอะไรผิด นี่คือรหัสสำหรับการใช้งานทั้งสอง ทั้งสองขึ้นอยู่กับคำตอบของวิธีการที่วงรีข้อมูลสามารถวางทับบน scatterplot ggplot2 ได้อย่างไร ### 1st implementation ### using ellipse{ellipse} library(ellipse) library(ggplot2) library(RColorBrewer) colorpal <- brewer.pal(10, "Paired") x <- data$x y <- data$y group <- data$group df <- data.frame(x=x, y=y, group=factor(group)) df_ell <- data.frame() for(g in …

11 r confidence-interval ggplot2 scatterplot

3

วิธีการดึงข้อมูลจากเมทริกซ์สแคทเทอร์พล็อตเมื่อคุณมี N ขนาดใหญ่ข้อมูลแยกและตัวแปรจำนวนมาก

ฉันกำลังเล่นกับชุดข้อมูลมะเร็งเต้านมและสร้าง scatterplot ของคุณลักษณะทั้งหมดเพื่อให้ได้ไอเดียว่าอันไหนมีผลมากที่สุดในการทำนายคลาสmalignant(สีน้ำเงิน) ของbenign(สีแดง) ฉันเข้าใจว่าแถวนั้นแทนแกน x และคอลัมน์แทนแกน y แต่ฉันไม่เห็นว่าการสังเกตใดที่ฉันสามารถทำได้เกี่ยวกับข้อมูลหรือคุณลักษณะจากสแกตเตอร์แปลงนี้ ฉันกำลังมองหาความช่วยเหลือในการตีความ / ทำการสังเกตเกี่ยวกับข้อมูลจาก scatterplot นี้หรือถ้าฉันควรใช้การสร้างภาพข้อมูลอื่น ๆ เพื่อให้เห็นภาพข้อมูลนี้ ฉันใช้รหัส R link <- "http://www.cs.iastate.edu/~cs573x/labs/lab1/breast-cancer-wisconsin.arff" breast <- read.arff(link) cols <- character(nrow(breast)) cols[] <- "black" cols[breast$class == 2] <- "red" cols[breast$class == 4] <- "blue" pairs(breast, col=cols)

10 r data-visualization interpretation scatterplot

2

สำรวจเมทริกซ์กระจาย - พล็อตสำหรับตัวแปรมากมาย

ฉันกำลังวิเคราะห์ชุดข้อมูลที่มีพารามิเตอร์หลายตัว (เช่น 50-200) และฉันสนใจที่จะดูความสัมพันธ์ระหว่างตัวแปร (เช่นในแง่ของแผนการกระจาย 2 ตัวแปรหรือ 2d ฮิสโทแกรม) อย่างไรก็ตามสำหรับพารามิเตอร์จำนวนนี้ดูเหมือนว่าเป็นไปไม่ได้ที่จะวาดพล็อตอาเรย์ 200x200 (เว้นแต่ฉันจะพิมพ์และแขวนบนผนัง) ในทางตรงกันข้ามการทำเพียงแค่เมทริกซ์สหสัมพันธ์นั้นไม่ได้ให้ข้อมูลทั้งหมดเกี่ยวกับความสัมพันธ์ 2 ตัวแปร มีวิธี (ไลบรารีหรือเวิร์กโฟลว์) ในการสำรวจความสัมพันธ์ 2 ตัวแปรสำหรับตัวแปรหลายตัวหรือไม่ ฉันสนใจที่จะแสดงผลลัพธ์ให้ผู้อื่นโดยเฉพาะอย่างยิ่ง (บางทีหลังจากการประมวลผลข้อมูลล่วงหน้า) เช่นสิ่งที่มีการโต้ตอบใน JavaScript ฉันสามารถเห็นเมทริกซ์กระจาย - พล็อตสำหรับเขตข้อมูลที่เลือกจากเมทริกซ์สหสัมพันธ์ โดยเมทริกซ์การกระจาย - พล็อตฉันหมายถึงสิ่งที่ต้องการ: (นำมาจากบล็อก pandasplotting ; สามารถใช้งานได้ในPython / Pandas , R , D3.jsฯลฯ )

10 correlation data-visualization multivariate-analysis scatterplot

คำถามติดแท็ก scatterplot