คำถามติดแท็ก data-visualization

การสร้างข้อมูลกราฟิกที่เป็นประโยชน์และมีประโยชน์ (หากคำถามของคุณเกี่ยวกับวิธีการรับซอฟต์แวร์เฉพาะเพื่อสร้างเอฟเฟกต์เฉพาะอาจเป็นไปได้ว่าไม่ใช่หัวข้อที่นี่)

9
ไม่มีใครรู้ว่าซอฟต์แวร์โอเพ่นซอร์สที่ดีสำหรับการแสดงข้อมูลจากฐานข้อมูล?
เมื่อเร็ว ๆ นี้ฉันเจอTableauและพยายามมองเห็นข้อมูลจากฐานข้อมูลและไฟล์ csv ผู้ใช้ iterface ช่วยให้ผู้ใช้สามารถเห็นภาพเวลาและข้อมูลเชิงพื้นที่และสร้างแปลงในทันที เครื่องมือดังกล่าวมีประโยชน์มากเพราะช่วยให้สามารถสังเกตข้อมูลกราฟิกได้โดยไม่ต้องเขียนโค้ด เนื่องจากมีแหล่งข้อมูลจำนวนมากที่ฉันต้องดึงและแสดงข้อมูลมันจะมีประโยชน์มากที่จะมีเครื่องมือที่เปิดใช้งานเพื่อสร้างแผนภูมิโดยเพียงลากคอลัมน์บนแกนและปรับเปลี่ยนการสร้างภาพด้วยการลากชื่อคอลัมน์ด้วย ไม่มีใครรู้ว่าซอฟต์แวร์โอเพนซอร์ซหรือฟรีหรือไม่?

17
บล็อกการสร้างภาพข้อมูลที่คุณชื่นชอบคืออะไร?
บล็อกที่ดีที่สุดในการสร้างภาพข้อมูลคืออะไร? ฉันตั้งคำถามนี้เป็นวิกิชุมชนเพราะเป็นอัตวิสัยสูง โปรด จำกัด คำตอบแต่ละข้อไว้ที่ลิงก์เดียว โปรดทราบเกณฑ์ต่อไปนี้สำหรับคำตอบที่เสนอ: [A] คำตอบที่ยอมรับได้สำหรับคำถามเช่นนี้ ... จำเป็นต้องให้คำอธิบายที่เพียงพอและเหตุผลที่สมเหตุสมผล การเชื่อมโยงหลายมิติเพียงอย่างเดียวไม่สามารถทำได้ ... [A] ny อนาคตตอบกลับ [ต้อง] พบ ... [เหล่านี้] มาตรฐาน; มิฉะนั้นพวกเขาจะถูกลบโดยไม่มีความเห็นเพิ่มเติม

5
R - QQPlot: วิธีการดูว่ามีการกระจายข้อมูลตามปกติ
ฉันได้วางแผนเรื่องนี้หลังจากที่ฉันทำการทดสอบตามปกติ การทดสอบแสดงให้เห็นว่ามีโอกาสที่ประชากรจะกระจายตัวตามปกติ อย่างไรก็ตามวิธีดู "พฤติกรรม" นี้ในพล็อตนี้ UPDATE ฮิสโตแกรมอย่างง่ายของข้อมูล: UPDATE การทดสอบของ Shapiro-Wilk พูดว่า:


7
กราฟสำหรับความสัมพันธ์ระหว่างตัวแปรอันดับสอง
กราฟที่เหมาะสมในการแสดงความสัมพันธ์ระหว่างตัวแปรอันดับสองคืออะไร ตัวเลือกเล็ก ๆ น้อย ๆ ที่ฉันนึกได้: พล็อตกระจายที่มีตัวสั่นแบบสุ่มเพิ่มเพื่อหยุดจุดที่ซ่อนซึ่งกันและกัน เห็นได้ชัดว่ากราฟิกมาตรฐาน - Minitab เรียกสิ่งนี้ว่า "พล็อตค่าแต่ละค่า" ในความคิดของฉันมันอาจจะทำให้เข้าใจผิดตามที่เห็นกระตุ้นให้เกิดการแก้ไขเชิงเส้นระหว่างสายตาระดับลำดับราวกับว่าข้อมูลมาจากช่วงขนาด พล็อตกระจายที่ดัดแปลงเพื่อให้ขนาด (พื้นที่) ของจุดแทนความถี่ของการรวมกันของระดับนั้นแทนที่จะวาดหนึ่งจุดสำหรับแต่ละหน่วยสุ่มตัวอย่าง ฉันได้เห็นแผนการดังกล่าวเป็นครั้งคราวในทางปฏิบัติ พวกมันอ่านยาก แต่จุดนั้นอยู่บนโครงตาข่ายที่เว้นระยะสม่ำเสมอซึ่งจะเอาชนะการวิพากษ์วิจารณ์พล็อตกระจายที่กระวนกระวายใจ โดยเฉพาะอย่างยิ่งหากหนึ่งในตัวแปรนั้นถือว่าเป็นแบบพึ่งพาได้พล็อตกล่องจะถูกจัดกลุ่มตามระดับของตัวแปรอิสระ มีแนวโน้มที่จะดูแย่มากหากจำนวนระดับของตัวแปรตามไม่สูงพอ ("แบน" มากกับหนวดที่หายไปหรือแย่ลง quartiles ซึ่งทำให้การระบุภาพของค่ามัธยฐานเป็นไปไม่ได้) แต่อย่างน้อยก็ดึงดูดความสนใจไปที่มัธยฐานและควอไทล์ สถิติเชิงพรรณนาที่เกี่ยวข้องสำหรับตัวแปรลำดับ ตารางค่าหรือกริดเปล่าของเซลล์พร้อมแผนที่ความร้อนเพื่อระบุความถี่ มองเห็นแตกต่างกัน แต่มีแนวคิดคล้ายกับพล็อตกระจายที่มีพื้นที่จุดแสดงความถี่ มีความคิดอื่น ๆ หรือความคิดที่ดีกว่าแปลงไหน มีการวิจัยในสาขาใดบ้างที่มีการพิจารณาแปลงตามลำดับ - vs-ordinal บางแปลงเป็นมาตรฐานหรือไม่? (ฉันดูเหมือนจะจำความถี่ heatmap ที่แพร่หลายในจีโนมิกส์ แต่สงสัยว่าเป็นบ่อยขึ้นสำหรับเล็กน้อย - vs - ชื่อ.) คำแนะนำสำหรับการอ้างอิงมาตรฐานที่ดีก็จะได้รับการต้อนรับมากฉันคาดเดาบางอย่างจาก Agresti หากใครต้องการที่จะแสดงให้เห็นถึงพล็อตรหัส R สำหรับข้อมูลตัวอย่างปลอมดังต่อไปนี้ …

3
การแปลความหมายของตัวทำนายการแปลงสภาพบันทึกและ / หรือการตอบสนอง
ฉันสงสัยว่ามันจะสร้างความแตกต่างในการตีความไม่ว่าจะเป็นเพียงขึ้นอยู่กับทั้งขึ้นอยู่กับและเป็นอิสระหรือตัวแปรอิสระเท่านั้นที่ถูกเปลี่ยนเข้าสู่ระบบ พิจารณากรณีของ log(DV) = Intercept + B1*IV + Error ฉันสามารถตีความ IV เป็นเปอร์เซ็นต์เพิ่มขึ้น แต่จะเปลี่ยนแปลงได้อย่างไรเมื่อฉันมี log(DV) = Intercept + B1*log(IV) + Error หรือเมื่อฉันมี DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

1
วิธีการตรวจสอบว่าแกน y ของกราฟควรเริ่มต้นที่ศูนย์?
วิธีหนึ่งที่ใช้กันทั่วไปในการ "โกหกกับข้อมูล" คือการใช้ระดับแกน y ที่ทำให้ดูเหมือนว่าการเปลี่ยนแปลงมีความสำคัญมากกว่าที่เป็นจริง เมื่อฉันตรวจสอบสิ่งพิมพ์ทางวิทยาศาสตร์หรือรายงานห้องปฏิบัติการของนักเรียนฉันมักจะผิดหวังกับ "บาปการสร้างภาพข้อมูล" (ซึ่งฉันเชื่อว่าผู้เขียนกระทำโดยไม่ได้ตั้งใจ แต่ยังส่งผลให้เกิดการนำเสนอที่ทำให้เข้าใจผิด) อย่างไรก็ตาม "การเริ่มต้นแกน y ที่ศูนย์เสมอ" ไม่ใช่กฎที่ยากและรวดเร็ว ตัวอย่างเช่น Edward Tufte ชี้ให้เห็นว่าในอนุกรมเวลาพื้นฐานไม่จำเป็นต้องเป็นศูนย์: โดยทั่วไปในอนุกรมเวลาให้ใช้ข้อมูลพื้นฐานที่แสดงข้อมูลไม่ใช่จุดศูนย์ หากจุดศูนย์เกิดขึ้นอย่างมีเหตุผลในการวางแผนข้อมูลปรับ แต่อย่าใช้พื้นที่แนวตั้งที่ว่างเปล่าจำนวนมากในการพยายามเข้าถึงจนถึงจุดศูนย์ที่ค่าใช้จ่ายในการซ่อนสิ่งที่เกิดขึ้นในสายข้อมูลเอง (หนังสือวิธีโกหกกับสถิติผิดในจุดนี้) ยกตัวอย่างเช่นสถานที่ที่ไม่มีจุดศูนย์ในอนุกรมเวลาดูที่สิ่งพิมพ์วิจัยทางวิทยาศาสตร์ที่สำคัญ นักวิทยาศาสตร์ต้องการแสดงข้อมูลไม่ใช่ศูนย์ การกระตุ้นให้บริบททำให้ข้อมูลเป็นสิ่งที่ดี แต่บริบทไม่ได้มาจากพื้นที่แนวตั้งว่างเปล่าที่ถึงลงถึงศูนย์จำนวนที่ไม่เกิดขึ้นในชุดข้อมูลจำนวนมาก แต่สำหรับบริบทให้แสดงข้อมูลในแนวนอนมากกว่าเดิม! ฉันต้องการชี้ให้เห็นการนำเสนอที่ทำให้เข้าใจผิดในเอกสารที่ฉันตรวจทาน แต่ฉันไม่ต้องการเป็นคนเจ้าระเบียบแกนศูนย์ y มีแนวทางใดบ้างที่กล่าวถึงเมื่อเริ่มแกน y ที่ศูนย์และเมื่อไม่จำเป็นและ / หรือไม่เหมาะสม? (โดยเฉพาะอย่างยิ่งในบริบทของงานวิชาการ)

10
วิธีการพล็อตแนวโน้มอย่างถูกต้อง
ฉันกำลังสร้างกราฟเพื่อแสดงแนวโน้มอัตราการตาย (ต่อ 1,000 ppl.) ในประเทศต่าง ๆ และเรื่องราวที่ควรได้จากพล็อตคือประเทศเยอรมนี (เส้นสีฟ้าอ่อน) เป็นสิ่งเดียวที่แนวโน้มเพิ่มขึ้นหลังปี 1932 นี่คือ ลอง (พื้นฐาน) ครั้งแรกของฉัน ในความคิดของฉันกราฟนี้แสดงสิ่งที่เราต้องการบอก แต่มันไม่ง่ายอย่างยิ่ง คุณมีข้อเสนอแนะใด ๆ ที่จะทำให้ชัดเจนว่ามีความแตกต่างระหว่างแนวโน้มหรือไม่ ฉันกำลังคิดที่จะวางแผนอัตราการเติบโต แต่ฉันพยายามแล้วก็ไม่ได้ดีกว่านี้ ข้อมูลมีดังต่อไปนี้ year de fr be nl den ch aut cz pl 1927 10.9 16.5 13 10.2 11.6 12.4 15 16 17.3 1928 11.2 16.4 12.8 9.6 11 12 14.5 …

6
กราฟสถิติที่คุณชื่นชอบคืออะไร?
นี่คือรายการโปรดของฉัน ตัวอย่างนี้อยู่ในเส้นเลือดที่มีอารมณ์ขัน (ให้เครดิตกับอดีตศาสตราจารย์ของฉัน Steven Gortmaker) แต่ฉันก็สนใจในกราฟที่คุณรู้สึกว่าจับได้อย่างสวยงามและสื่อสารข้อมูลเชิงลึกหรือวิธีการทางสถิติพร้อมกับความคิดของคุณในเรื่องเดียวกัน หนึ่งรายการต่อคำตอบ แน่นอนคำถามนี้อยู่ในแนวเดียวกันกับการ์ตูน "การวิเคราะห์ข้อมูล" ที่คุณโปรดปราน กรุณาให้เครดิต / การอ้างอิงที่เหมาะสมพร้อมรูปภาพใด ๆ ที่คุณให้ไว้

6
ฉันจะหลีกเลี่ยงการซ้อนฉลากในพล็อต R ได้อย่างไร [ปิด]
ฉันพยายามติดป้ายกระจายภาพง่าย ๆ ใน R. นี่คือสิ่งที่ฉันใช้: plot(SI, TI) text(SI, TI, Name, pos=4, cex=0.7) ผลที่ได้คือปานกลางตามที่คุณเห็น (คลิกเพื่อดูภาพขยาย): ผมพยายามที่จะชดเชยการนี้โดยใช้textxyฟังก์ชั่น แต่ก็ไม่ดีขึ้น การทำให้ภาพใหญ่ขึ้นไม่สามารถใช้กับกลุ่มที่หนาแน่น มีฟังก์ชั่นหรือวิธีง่าย ๆ ในการชดเชยสิ่งนี้และปล่อยให้ R plot label ที่ไม่ทับซ้อนกันหรือไม่? นี่เป็นส่วนย่อยของข้อมูลที่ฉันมี: Name;SI;TI 01_BAD_talking_head;6.944714;4.421208 01_GOOD_talking_head;5.680141;4.864035 01_GOOD_talking_head_subtitles;7.170114;4.664205

3
วิธีการมองเห็นโมเดลการถดถอยแบบหลายจุดที่เหมาะสม?
ฉันกำลังเขียนบทความที่มีการวิเคราะห์การถดถอยหลายครั้ง ในขณะที่เห็นภาพการถดถอยเชิงเส้นแบบไม่แปรเปลี่ยนนั้นทำได้ง่าย ๆ ผ่านทางแผนการกระจายฉันสงสัยว่ามีวิธีใดที่ดีที่จะเห็นภาพการถดถอยเชิงเส้นหลายเส้น? ขณะนี้ฉันเพิ่งพล็อตแผนการกระจายเช่นตัวแปรตามกับตัวแปรอิสระตัวที่ 1 จากนั้นเทียบกับตัวแปรอิสระตัวที่สอง ฯลฯ ฉันจะขอขอบคุณข้อเสนอแนะใด ๆ

8
วิธีการตรวจหาชุมชนในเครือข่ายโซเชียล / กราฟถ่วงน้ำหนัก
ฉันสงสัยว่าใครบางคนสามารถแนะนำสิ่งที่เป็นจุดเริ่มต้นที่ดีเมื่อพูดถึงการดำเนินการตรวจสอบชุมชน / การแบ่งกราฟ / การจัดกลุ่มบนกราฟที่มีขอบแบบถ่วงน้ำหนักและไม่มีทิศทาง กราฟที่มีปัญหานั้นมีขอบประมาณ 3 ล้านเส้นและแต่ละขอบจะแสดงระดับความคล้ายคลึงกันระหว่างจุดยอดทั้งสองที่เชื่อมต่อ โดยเฉพาะอย่างยิ่งในชุดข้อมูลนี้เป็นบุคคลและจุดยอดเป็นตัวชี้วัดความคล้ายคลึงกันของพฤติกรรมที่สังเกตได้ ในอดีตฉันทำตามคำแนะนำที่ฉันได้รับที่นี่ใน stats.stackexchange.com และใช้การดำเนินการตามกฎเกณฑ์ของการจัดกลุ่มแบบแยกส่วนของนิวแมนและพอใจกับผลการทดลอง มีอัลกอริทึมเฉพาะที่ฉันควรจะดูหรือไม่?

15
ฉันควรทำตามแนวทางปฏิบัติที่ดีที่สุดอย่างไรเมื่อเตรียมแปลง?
ฉันมักจะสร้างทางเลือกที่แปลกประหลาดของตัวเองเมื่อเตรียมแปลง อย่างไรก็ตามฉันสงสัยว่ามีวิธีปฏิบัติที่ดีที่สุดในการสร้างแปลงหรือไม่ หมายเหตุ: ความคิดเห็นของ Robต่อคำตอบสำหรับคำถามนี้มีความเกี่ยวข้องมากที่นี่

3
ผลการปราบปรามในการถดถอย: คำจำกัดความและคำอธิบาย / การพรรณนาภาพ
ตัวแปรตัวยับยั้งในการถดถอยหลายครั้งและอะไรคือวิธีที่จะแสดงผลการปราบปรามด้วยสายตา (กลไกหรือหลักฐานในผลลัพธ์) ฉันต้องการเชิญทุกคนที่มีความคิดมาแบ่งปัน


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.