สถิติและข้อมูลขนาดใหญ่ data-visualization

9

ไม่มีใครรู้ว่าซอฟต์แวร์โอเพ่นซอร์สที่ดีสำหรับการแสดงข้อมูลจากฐานข้อมูล?

เมื่อเร็ว ๆ นี้ฉันเจอTableauและพยายามมองเห็นข้อมูลจากฐานข้อมูลและไฟล์ csv ผู้ใช้ iterface ช่วยให้ผู้ใช้สามารถเห็นภาพเวลาและข้อมูลเชิงพื้นที่และสร้างแปลงในทันที เครื่องมือดังกล่าวมีประโยชน์มากเพราะช่วยให้สามารถสังเกตข้อมูลกราฟิกได้โดยไม่ต้องเขียนโค้ด เนื่องจากมีแหล่งข้อมูลจำนวนมากที่ฉันต้องดึงและแสดงข้อมูลมันจะมีประโยชน์มากที่จะมีเครื่องมือที่เปิดใช้งานเพื่อสร้างแผนภูมิโดยเพียงลากคอลัมน์บนแกนและปรับเปลี่ยนการสร้างภาพด้วยการลากชื่อคอลัมน์ด้วย ไม่มีใครรู้ว่าซอฟต์แวร์โอเพนซอร์ซหรือฟรีหรือไม่?

50 data-visualization software interactive-visualization

17

บล็อกการสร้างภาพข้อมูลที่คุณชื่นชอบคืออะไร?

บล็อกที่ดีที่สุดในการสร้างภาพข้อมูลคืออะไร? ฉันตั้งคำถามนี้เป็นวิกิชุมชนเพราะเป็นอัตวิสัยสูง โปรด จำกัด คำตอบแต่ละข้อไว้ที่ลิงก์เดียว โปรดทราบเกณฑ์ต่อไปนี้สำหรับคำตอบที่เสนอ: [A] คำตอบที่ยอมรับได้สำหรับคำถามเช่นนี้ ... จำเป็นต้องให้คำอธิบายที่เพียงพอและเหตุผลที่สมเหตุสมผล การเชื่อมโยงหลายมิติเพียงอย่างเดียวไม่สามารถทำได้ ... [A] ny อนาคตตอบกลับ [ต้อง] พบ ... [เหล่านี้] มาตรฐาน; มิฉะนั้นพวกเขาจะถูกลบโดยไม่มีความเห็นเพิ่มเติม

48 data-visualization references

5

R - QQPlot: วิธีการดูว่ามีการกระจายข้อมูลตามปกติ

ฉันได้วางแผนเรื่องนี้หลังจากที่ฉันทำการทดสอบตามปกติ การทดสอบแสดงให้เห็นว่ามีโอกาสที่ประชากรจะกระจายตัวตามปกติ อย่างไรก็ตามวิธีดู "พฤติกรรม" นี้ในพล็อตนี้ UPDATE ฮิสโตแกรมอย่างง่ายของข้อมูล: UPDATE การทดสอบของ Shapiro-Wilk พูดว่า:

47 r data-visualization normal-distribution histogram qq-plot

3

ฉันจะหาจุดสูงสุดในชุดข้อมูลได้อย่างไร

หากฉันมีชุดข้อมูลที่สร้างกราฟดังต่อไปนี้ฉันจะกำหนดอัลกอริทึมค่า x ของยอดเขาที่แสดงได้อย่างไร (ในกรณีนี้คือสามชุด):

47 data-visualization mode

7

กราฟสำหรับความสัมพันธ์ระหว่างตัวแปรอันดับสอง

กราฟที่เหมาะสมในการแสดงความสัมพันธ์ระหว่างตัวแปรอันดับสองคืออะไร ตัวเลือกเล็ก ๆ น้อย ๆ ที่ฉันนึกได้: พล็อตกระจายที่มีตัวสั่นแบบสุ่มเพิ่มเพื่อหยุดจุดที่ซ่อนซึ่งกันและกัน เห็นได้ชัดว่ากราฟิกมาตรฐาน - Minitab เรียกสิ่งนี้ว่า "พล็อตค่าแต่ละค่า" ในความคิดของฉันมันอาจจะทำให้เข้าใจผิดตามที่เห็นกระตุ้นให้เกิดการแก้ไขเชิงเส้นระหว่างสายตาระดับลำดับราวกับว่าข้อมูลมาจากช่วงขนาด พล็อตกระจายที่ดัดแปลงเพื่อให้ขนาด (พื้นที่) ของจุดแทนความถี่ของการรวมกันของระดับนั้นแทนที่จะวาดหนึ่งจุดสำหรับแต่ละหน่วยสุ่มตัวอย่าง ฉันได้เห็นแผนการดังกล่าวเป็นครั้งคราวในทางปฏิบัติ พวกมันอ่านยาก แต่จุดนั้นอยู่บนโครงตาข่ายที่เว้นระยะสม่ำเสมอซึ่งจะเอาชนะการวิพากษ์วิจารณ์พล็อตกระจายที่กระวนกระวายใจ โดยเฉพาะอย่างยิ่งหากหนึ่งในตัวแปรนั้นถือว่าเป็นแบบพึ่งพาได้พล็อตกล่องจะถูกจัดกลุ่มตามระดับของตัวแปรอิสระ มีแนวโน้มที่จะดูแย่มากหากจำนวนระดับของตัวแปรตามไม่สูงพอ ("แบน" มากกับหนวดที่หายไปหรือแย่ลง quartiles ซึ่งทำให้การระบุภาพของค่ามัธยฐานเป็นไปไม่ได้) แต่อย่างน้อยก็ดึงดูดความสนใจไปที่มัธยฐานและควอไทล์ สถิติเชิงพรรณนาที่เกี่ยวข้องสำหรับตัวแปรลำดับ ตารางค่าหรือกริดเปล่าของเซลล์พร้อมแผนที่ความร้อนเพื่อระบุความถี่ มองเห็นแตกต่างกัน แต่มีแนวคิดคล้ายกับพล็อตกระจายที่มีพื้นที่จุดแสดงความถี่ มีความคิดอื่น ๆ หรือความคิดที่ดีกว่าแปลงไหน มีการวิจัยในสาขาใดบ้างที่มีการพิจารณาแปลงตามลำดับ - vs-ordinal บางแปลงเป็นมาตรฐานหรือไม่? (ฉันดูเหมือนจะจำความถี่ heatmap ที่แพร่หลายในจีโนมิกส์ แต่สงสัยว่าเป็นบ่อยขึ้นสำหรับเล็กน้อย - vs - ชื่อ.) คำแนะนำสำหรับการอ้างอิงมาตรฐานที่ดีก็จะได้รับการต้อนรับมากฉันคาดเดาบางอย่างจาก Agresti หากใครต้องการที่จะแสดงให้เห็นถึงพล็อตรหัส R สำหรับข้อมูลตัวอย่างปลอมดังต่อไปนี้ …

46 data-visualization categorical-data ordinal-data scatterplot

3

การแปลความหมายของตัวทำนายการแปลงสภาพบันทึกและ / หรือการตอบสนอง

ฉันสงสัยว่ามันจะสร้างความแตกต่างในการตีความไม่ว่าจะเป็นเพียงขึ้นอยู่กับทั้งขึ้นอยู่กับและเป็นอิสระหรือตัวแปรอิสระเท่านั้นที่ถูกเปลี่ยนเข้าสู่ระบบ พิจารณากรณีของ log(DV) = Intercept + B1*IV + Error ฉันสามารถตีความ IV เป็นเปอร์เซ็นต์เพิ่มขึ้น แต่จะเปลี่ยนแปลงได้อย่างไรเมื่อฉันมี log(DV) = Intercept + B1*log(IV) + Error หรือเมื่อฉันมี DV = Intercept + B1*log(IV) + Error ?

46 regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model

1

วิธีการตรวจสอบว่าแกน y ของกราฟควรเริ่มต้นที่ศูนย์?

วิธีหนึ่งที่ใช้กันทั่วไปในการ "โกหกกับข้อมูล" คือการใช้ระดับแกน y ที่ทำให้ดูเหมือนว่าการเปลี่ยนแปลงมีความสำคัญมากกว่าที่เป็นจริง เมื่อฉันตรวจสอบสิ่งพิมพ์ทางวิทยาศาสตร์หรือรายงานห้องปฏิบัติการของนักเรียนฉันมักจะผิดหวังกับ "บาปการสร้างภาพข้อมูล" (ซึ่งฉันเชื่อว่าผู้เขียนกระทำโดยไม่ได้ตั้งใจ แต่ยังส่งผลให้เกิดการนำเสนอที่ทำให้เข้าใจผิด) อย่างไรก็ตาม "การเริ่มต้นแกน y ที่ศูนย์เสมอ" ไม่ใช่กฎที่ยากและรวดเร็ว ตัวอย่างเช่น Edward Tufte ชี้ให้เห็นว่าในอนุกรมเวลาพื้นฐานไม่จำเป็นต้องเป็นศูนย์: โดยทั่วไปในอนุกรมเวลาให้ใช้ข้อมูลพื้นฐานที่แสดงข้อมูลไม่ใช่จุดศูนย์ หากจุดศูนย์เกิดขึ้นอย่างมีเหตุผลในการวางแผนข้อมูลปรับ แต่อย่าใช้พื้นที่แนวตั้งที่ว่างเปล่าจำนวนมากในการพยายามเข้าถึงจนถึงจุดศูนย์ที่ค่าใช้จ่ายในการซ่อนสิ่งที่เกิดขึ้นในสายข้อมูลเอง (หนังสือวิธีโกหกกับสถิติผิดในจุดนี้) ยกตัวอย่างเช่นสถานที่ที่ไม่มีจุดศูนย์ในอนุกรมเวลาดูที่สิ่งพิมพ์วิจัยทางวิทยาศาสตร์ที่สำคัญ นักวิทยาศาสตร์ต้องการแสดงข้อมูลไม่ใช่ศูนย์ การกระตุ้นให้บริบททำให้ข้อมูลเป็นสิ่งที่ดี แต่บริบทไม่ได้มาจากพื้นที่แนวตั้งว่างเปล่าที่ถึงลงถึงศูนย์จำนวนที่ไม่เกิดขึ้นในชุดข้อมูลจำนวนมาก แต่สำหรับบริบทให้แสดงข้อมูลในแนวนอนมากกว่าเดิม! ฉันต้องการชี้ให้เห็นการนำเสนอที่ทำให้เข้าใจผิดในเอกสารที่ฉันตรวจทาน แต่ฉันไม่ต้องการเป็นคนเจ้าระเบียบแกนศูนย์ y มีแนวทางใดบ้างที่กล่าวถึงเมื่อเริ่มแกน y ที่ศูนย์และเมื่อไม่จำเป็นและ / หรือไม่เหมาะสม? (โดยเฉพาะอย่างยิ่งในบริบทของงานวิชาการ)

45 data-visualization

10

วิธีการพล็อตแนวโน้มอย่างถูกต้อง

ฉันกำลังสร้างกราฟเพื่อแสดงแนวโน้มอัตราการตาย (ต่อ 1,000 ppl.) ในประเทศต่าง ๆ และเรื่องราวที่ควรได้จากพล็อตคือประเทศเยอรมนี (เส้นสีฟ้าอ่อน) เป็นสิ่งเดียวที่แนวโน้มเพิ่มขึ้นหลังปี 1932 นี่คือ ลอง (พื้นฐาน) ครั้งแรกของฉัน ในความคิดของฉันกราฟนี้แสดงสิ่งที่เราต้องการบอก แต่มันไม่ง่ายอย่างยิ่ง คุณมีข้อเสนอแนะใด ๆ ที่จะทำให้ชัดเจนว่ามีความแตกต่างระหว่างแนวโน้มหรือไม่ ฉันกำลังคิดที่จะวางแผนอัตราการเติบโต แต่ฉันพยายามแล้วก็ไม่ได้ดีกว่านี้ ข้อมูลมีดังต่อไปนี้ year de fr be nl den ch aut cz pl 1927 10.9 16.5 13 10.2 11.6 12.4 15 16 17.3 1928 11.2 16.4 12.8 9.6 11 12 14.5 …

45 data-visualization

6

กราฟสถิติที่คุณชื่นชอบคืออะไร?

นี่คือรายการโปรดของฉัน ตัวอย่างนี้อยู่ในเส้นเลือดที่มีอารมณ์ขัน (ให้เครดิตกับอดีตศาสตราจารย์ของฉัน Steven Gortmaker) แต่ฉันก็สนใจในกราฟที่คุณรู้สึกว่าจับได้อย่างสวยงามและสื่อสารข้อมูลเชิงลึกหรือวิธีการทางสถิติพร้อมกับความคิดของคุณในเรื่องเดียวกัน หนึ่งรายการต่อคำตอบ แน่นอนคำถามนี้อยู่ในแนวเดียวกันกับการ์ตูน "การวิเคราะห์ข้อมูล" ที่คุณโปรดปราน กรุณาให้เครดิต / การอ้างอิงที่เหมาะสมพร้อมรูปภาพใด ๆ ที่คุณให้ไว้

44 data-visualization

6

ฉันจะหลีกเลี่ยงการซ้อนฉลากในพล็อต R ได้อย่างไร [ปิด]

ฉันพยายามติดป้ายกระจายภาพง่าย ๆ ใน R. นี่คือสิ่งที่ฉันใช้: plot(SI, TI) text(SI, TI, Name, pos=4, cex=0.7) ผลที่ได้คือปานกลางตามที่คุณเห็น (คลิกเพื่อดูภาพขยาย): ผมพยายามที่จะชดเชยการนี้โดยใช้textxyฟังก์ชั่น แต่ก็ไม่ดีขึ้น การทำให้ภาพใหญ่ขึ้นไม่สามารถใช้กับกลุ่มที่หนาแน่น มีฟังก์ชั่นหรือวิธีง่าย ๆ ในการชดเชยสิ่งนี้และปล่อยให้ R plot label ที่ไม่ทับซ้อนกันหรือไม่? นี่เป็นส่วนย่อยของข้อมูลที่ฉันมี: Name;SI;TI 01_BAD_talking_head;6.944714;4.421208 01_GOOD_talking_head;5.680141;4.864035 01_GOOD_talking_head_subtitles;7.170114;4.664205

44 r data-visualization scatterplot

3

วิธีการมองเห็นโมเดลการถดถอยแบบหลายจุดที่เหมาะสม?

ฉันกำลังเขียนบทความที่มีการวิเคราะห์การถดถอยหลายครั้ง ในขณะที่เห็นภาพการถดถอยเชิงเส้นแบบไม่แปรเปลี่ยนนั้นทำได้ง่าย ๆ ผ่านทางแผนการกระจายฉันสงสัยว่ามีวิธีใดที่ดีที่จะเห็นภาพการถดถอยเชิงเส้นหลายเส้น? ขณะนี้ฉันเพิ่งพล็อตแผนการกระจายเช่นตัวแปรตามกับตัวแปรอิสระตัวที่ 1 จากนั้นเทียบกับตัวแปรอิสระตัวที่สอง ฯลฯ ฉันจะขอขอบคุณข้อเสนอแนะใด ๆ

42 regression data-visualization multiple-regression

8

วิธีการตรวจหาชุมชนในเครือข่ายโซเชียล / กราฟถ่วงน้ำหนัก

ฉันสงสัยว่าใครบางคนสามารถแนะนำสิ่งที่เป็นจุดเริ่มต้นที่ดีเมื่อพูดถึงการดำเนินการตรวจสอบชุมชน / การแบ่งกราฟ / การจัดกลุ่มบนกราฟที่มีขอบแบบถ่วงน้ำหนักและไม่มีทิศทาง กราฟที่มีปัญหานั้นมีขอบประมาณ 3 ล้านเส้นและแต่ละขอบจะแสดงระดับความคล้ายคลึงกันระหว่างจุดยอดทั้งสองที่เชื่อมต่อ โดยเฉพาะอย่างยิ่งในชุดข้อมูลนี้เป็นบุคคลและจุดยอดเป็นตัวชี้วัดความคล้ายคลึงกันของพฤติกรรมที่สังเกตได้ ในอดีตฉันทำตามคำแนะนำที่ฉันได้รับที่นี่ใน stats.stackexchange.com และใช้การดำเนินการตามกฎเกณฑ์ของการจัดกลุ่มแบบแยกส่วนของนิวแมนและพอใจกับผลการทดลอง มีอัลกอริทึมเฉพาะที่ฉันควรจะดูหรือไม่?

42 clustering data-visualization networks partitioning modularity

15

ฉันควรทำตามแนวทางปฏิบัติที่ดีที่สุดอย่างไรเมื่อเตรียมแปลง?

ฉันมักจะสร้างทางเลือกที่แปลกประหลาดของตัวเองเมื่อเตรียมแปลง อย่างไรก็ตามฉันสงสัยว่ามีวิธีปฏิบัติที่ดีที่สุดในการสร้างแปลงหรือไม่ หมายเหตุ: ความคิดเห็นของ Robต่อคำตอบสำหรับคำถามนี้มีความเกี่ยวข้องมากที่นี่

40 data-visualization references

3

ผลการปราบปรามในการถดถอย: คำจำกัดความและคำอธิบาย / การพรรณนาภาพ

ตัวแปรตัวยับยั้งในการถดถอยหลายครั้งและอะไรคือวิธีที่จะแสดงผลการปราบปรามด้วยสายตา (กลไกหรือหลักฐานในผลลัพธ์) ฉันต้องการเชิญทุกคนที่มีความคิดมาแบ่งปัน

40 multiple-regression data-visualization geometry suppressor

2

PP-แปลงเทียบกับ QQ-แปลง

อะไรคือความแตกต่างระหว่างแปลงความน่าจะเป็น, PP- แปลงและ QQ- แปลงเมื่อพยายามวิเคราะห์การกระจายการพอดีกับข้อมูล?

39 probability data-visualization goodness-of-fit qq-plot

คำถามติดแท็ก data-visualization