สถิติและข้อมูลขนาดใหญ่ data-visualization

1

ขออภัยสำหรับคำถามที่คลุมเครือ แต่แผนภูมินี้ปรากฏในBiddle et al ปี 2009และฉันไม่เคยเจออะไรแบบนี้มาก่อน มันเป็นแผนภูมิแท่งที่มีขอบมุมซึ่งบางครั้งก็มีเขา สิ่งเหล่านี้หมายความว่าอย่างไร แผนภูมิประเภทนี้มีชื่อหรือไม่? ต่อ/meta/244083/site-for-asking-about-chartsฉันคิดว่า Academia เป็นสถานที่ที่ดีที่สุดที่จะถาม

13 data-visualization boxplot

2

พล็อต Box-and-Whisker สำหรับการกระจายหลายรูปแบบ

ฉันสามารถใช้พล็อตแบบ box-and-มัสสุสำหรับการแจกจ่ายแบบ multimodal หรือสำหรับการกระจายแบบ unimodal ได้หรือไม่

13 distributions data-visualization boxplot

4

Boxplot เทียบเท่ากับการแจกของหนัก

สำหรับข้อมูลที่กระจายตามปกติประมาณกล่องแปลงเป็นวิธีที่ดีในการมองเห็นค่ามัธยฐานและการแพร่กระจายของข้อมูลได้อย่างรวดเร็วเช่นเดียวกับการปรากฏตัวของค่าผิดปกติใด ๆ อย่างไรก็ตามสำหรับการแจกแจงแบบเทลด์ที่หนักกว่านั้นจำนวนมากของคะแนนจะแสดงเป็นค่าผิดปกติเนื่องจากค่าผิดปกติถูกกำหนดว่าอยู่นอกปัจจัยคงที่ของ IQR และสิ่งนี้เกิดขึ้นแน่นอนบ่อยครั้งมากขึ้นด้วยการแจกแจงแบบหนา ดังนั้นสิ่งที่ผู้คนใช้ในการมองเห็นข้อมูลประเภทนี้? มีอะไรที่ดัดแปลงเพิ่มเติมหรือไม่ ฉันใช้ ggplot กับ R ถ้ามันสำคัญ

13 r distributions data-visualization data-transformation ggplot2

4

การทำพล็อตค่าเฉลี่ยในฮิสโตแกรมนั้นเหมาะสมหรือไม่?

"โอเค" เพื่อเพิ่มเส้นแนวตั้งลงในฮิสโตแกรมเพื่อให้เห็นภาพค่าเฉลี่ยหรือไม่ ดูเหมือนว่าจะโอเคสำหรับฉัน แต่ฉันไม่เคยเห็นสิ่งนี้มาในตำราและสิ่งที่ชอบดังนั้นฉันสงสัยว่าจะมีการประชุมบางประเภทที่จะไม่ทำอย่างนั้นหรือ กราฟเป็นกระดาษคำฉันแค่ต้องการให้แน่ใจว่าฉันจะไม่ละเมิดกฎสถิติที่สำคัญที่ไม่ได้พูด :)

13 self-study data-visualization mean histogram

4

วาดหลายแปลงบนกราฟเดียวใน R?

Rการใช้รหัสต่อไปนี้ผมพยายามที่จะวาดสี่แปลงในกราฟใน ฉันไม่พอใจกับตัวเลขเพราะมีช่องว่างจำนวนมากระหว่างแปลงดังนั้นความกว้างของแปลงไม่เพียงพอที่จะวิเคราะห์แปลง ใครช่วยฉันสร้างกราฟที่ดีที่มีสี่แปลง? ฉันจะเก็บเลเบลแกน x ได้ตั้งแต่ 1 ถึง 10 แทนที่จะเป็น 5 ป้ายเริ่มต้นได้อย่างไร ข้อมูล: a1: 11.013 13.814 13.831 13.714 13.787 13.734 13.778 13.771 13.823 13.659 a2: 5.181 7.747 8.314 8.061 7.920 8.153 8.540 8.845 7.881 8.301 ฉันใช้ข้อมูล a1 สำหรับ b1, c1 และ d1; ข้อมูล a2 สำหรับ b2, c2 และ d2 เฉพาะที่นี่ …

13 r data-visualization

3

คำอธิบายที่ง่ายสำหรับพล็อตพิกัดขนาน

ฉันได้อ่านและเห็นพล็อตพิกัดขนานมากมาย ใครสามารถตอบคำถามชุดต่อไปนี้: อะไรคือสมการพิกัดขนาน (PCP) ในคำง่ายๆเพื่อให้คนธรรมดาเข้าใจ คำอธิบายทางคณิตศาสตร์พร้อมปรีชาถ้าเป็นไปได้ PCP มีประโยชน์เมื่อใดและควรใช้เมื่อใด PCP ไม่มีประโยชน์เมื่อใดและควรหลีกเลี่ยงเมื่อใด? ข้อดีและข้อเสียที่เป็นไปได้ของ PCP

13 r data-visualization

5

การประมวลผลความรู้ความเข้าใจ / ตีความเทคนิคการสร้างภาพข้อมูล

มีใครรู้บ้างเกี่ยวกับการวิจัยที่ตรวจสอบประสิทธิผล (ความเข้าใจ?) ของเทคนิคการสร้างภาพข้อมูลที่แตกต่างกันหรือไม่? ตัวอย่างเช่นผู้คนเข้าใจว่าการสร้างภาพข้อมูลหนึ่งรูปแบบรวดเร็วกว่าอีกรูปแบบหนึ่งได้อย่างไร การโต้ตอบกับการสร้างภาพข้อมูลช่วยให้ผู้คนจำข้อมูลได้หรือไม่? อะไรก็ได้ตามสายเหล่านั้น ตัวอย่างของการสร้างภาพข้อมูลอาจเป็น: แผนการกระจายกราฟเส้นลำดับเวลาแผนที่ส่วนต่อประสานเชิงโต้ตอบ (เช่นพิกัดขนาน) เป็นต้น ฉันสนใจงานวิจัยโดยเฉพาะในกลุ่มคนทั่วไป

13 data-visualization communication

1

แพคเกจ GBM กับ Caret ใช้ GBM

ฉันเคยใช้การจูนโมเดลcaretแต่แล้วก็รันโมเดลอีกครั้งโดยใช้gbmแพ็คเกจ ฉันเข้าใจว่าcaretแพ็กเกจที่ใช้gbmและเอาต์พุตควรเหมือนกัน อย่างไรก็ตามการทดสอบการทำงานอย่างรวดเร็วโดยใช้data(iris)แสดงความแตกต่างในรูปแบบประมาณ 5% โดยใช้ RMSE และ R ^ 2 เป็นตัวชี้วัดการประเมินผล ฉันต้องการค้นหาประสิทธิภาพของแบบจำลองที่ดีที่สุดโดยใช้caretแต่เรียกใช้อีกครั้งgbmเพื่อใช้ประโยชน์จากแผนการพึ่งพาบางส่วน รหัสด้านล่างสำหรับการทำซ้ำ คำถามของฉันจะเป็น: 1) เหตุใดฉันจึงเห็นความแตกต่างระหว่างแพ็คเกจทั้งสองนี้ถึงแม้ว่าพวกเขาจะเหมือนกัน (ฉันเข้าใจว่าพวกมันสุ่ม แต่ 5% ค่อนข้างแตกต่างกันมากโดยเฉพาะอย่างยิ่งเมื่อฉันไม่ได้ใช้ชุดข้อมูลที่ดีirisสำหรับการสร้างแบบจำลองของฉัน) . 2) มีข้อดีหรือข้อเสียในการใช้ทั้งสองแพคเกจหรือไม่ 3) ไม่เกี่ยวข้อง: การใช้irisชุดข้อมูลที่ดีที่สุดinteraction.depthคือ 5 แต่สูงกว่าที่ฉันได้อ่านควรจะใช้สูงสุดfloor(sqrt(ncol(iris)))ซึ่งควรจะเป็น 2 นี่เป็นกฎง่ายๆหรือเข้มงวดหรือไม่? library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric …

13 r caret gbm matrix linear-algebra logistic modeling logit ordered-logit r confidence-interval survival population weibull classification separation hypothesis-testing correlation statistical-significance p-value python r data-visualization r regression multiple-regression chi-squared multivariate-analysis distributions random-variable experiment-design distributions poisson-regression residuals excel time-series garch var survival modeling cox-model interaction r pca normality-assumption

3

การจัดรูปแบบกราฟ: เมื่อใดควรเลือกใช้การเติมใต้กราฟเส้น

นี่เป็นคำถามการสร้างภาพข้อมูล - ฉันหวังว่ามันจะโอเคที่จะถามที่นี่ เมื่อใดจึงเหมาะสมที่จะใช้การเติมใต้กราฟเส้นสำหรับอนุกรมเวลาเช่นกราฟด้านล่าง (ซึ่งแสดงการ ping ครั้งต่อวัน) ฉันเดาว่าเป็นเรื่องปกติมากที่จะใช้บรรทัดธรรมดาโดยไม่มีการเติมใต้ แต่มันก็โอเคที่จะใช้การเติมสำหรับความหลากหลายในการมองเห็นหรือไม่? ฉันมีความสนใจเป็นพิเศษในการรู้เกี่ยวกับการวิจัยการรับรู้ในหัวข้อหรือแนวทางการออกแบบใด ๆ

13 data-visualization

6

แพ็คเกจ R สำหรับการระบุความสัมพันธ์ระหว่างตัวแปร [ปิด]

ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน4 ปีที่แล้ว มีแพ็คเกจ R ที่ฉันสามารถใช้เพื่อสำรวจว่ามีความสัมพันธ์ระหว่างตัวแปรหรือไม่? โดยทั่วไปเมื่อฉันกำลังมองหารูปแบบที่ฉันดูที่ความสัมพันธ์แล้วพล็อตด้าน จากนั้นฉันใช้การแปลงบางอย่างกับตัวแปรในข้อมูลด้วยตนเอง ฉันสงสัยว่าฉันสามารถเร่งกระบวนการนี้ผ่านแพ็คเกจ R ได้หรือไม่

13 r data-visualization correlation eda

2

การสร้างภาพเหตุผลเพียงพอสำหรับการแปลงข้อมูลหรือไม่

ปัญหา ฉันต้องการพล็อตความแปรปรวนที่อธิบายโดยพารามิเตอร์ 30 ตัวแต่ละตัวเช่น barplot ที่มีแถบที่แตกต่างกันสำหรับแต่ละพารามิเตอร์และความแปรปรวนบนแกน y: อย่างไรก็ตามความแปรปรวนจะเบ้อย่างมากต่อค่าเล็กรวมถึง 0 ซึ่งสามารถเห็นได้ในฮิสโตแกรมด้านล่าง: ถ้าฉันแปลงมันด้วยมันจะง่ายขึ้นที่จะเห็นความแตกต่างระหว่างค่าเล็ก ๆ (ฮิสโตแกรมและบาร์พล็อตด้านล่าง):log(x+1)log⁡(x+1)\log(x+1) คำถาม การพล็อตในระดับบันทึกเป็นเรื่องปกติ แต่การวางแผนสมเหตุสมผลหรือไม่?log(x+1)log⁡(x+1)\log(x+1)

13 data-visualization data-transformation histogram

1

พล็อตเพื่อแสดงผลลัพธ์ของโมเดลเอฟเฟกต์เชิงเส้นผสม

ฉันกำลังวิเคราะห์ข้อมูลบางอย่างโดยใช้การสร้างแบบจำลองเอฟเฟกต์แบบผสมเชิงเส้นในอาร์ฉันวางแผนที่จะสร้างโปสเตอร์ที่มีผลลัพธ์และฉันก็สงสัยว่าถ้าใครมีประสบการณ์กับโมเดลเอฟเฟกต์ผสมสามารถแนะนำแผนการที่จะใช้ แบบ ฉันกำลังคิดเกี่ยวกับพล็อตที่เหลือพล็อตของค่าติดตั้งกับค่าเดิม ฯลฯ ฉันรู้ว่าสิ่งนี้จะขึ้นอยู่กับข้อมูลของฉันเป็นอย่างมาก แต่ฉันแค่พยายามทำความเข้าใจถึงวิธีที่ดีที่สุดในการอธิบายผลลัพธ์ของตัวแบบผสมเอฟเฟกต์เชิงเส้น ฉันใช้แพ็คเกจ nlme ใน R ขอบคุณ

13 r data-visualization mixed-model

5

ฉันจะตีความแผนการกระจายนี้ได้อย่างไร

ฉันมีพล็อตกระจายที่มีขนาดตัวอย่างซึ่งเท่ากับจำนวนคนบนแกน x และเงินเดือนมัธยฐานบนแกน y ฉันพยายามหาว่าขนาดกลุ่มตัวอย่างมีผลต่อเงินเดือนเฉลี่ยหรือไม่ นี่คือพล็อต: ฉันจะตีความพล็อตนี้ได้อย่างไร

12 data-visualization median scatterplot pandas

1

ทำไมต้องกระวนกระวายใจค่าอย่างต่อเนื่องในการกระจาย?

ฉันใช้ผ้าใบสีส้มและฉันสร้างโครงเรื่องกระจาย ฉันมีโอกาสที่จะกระวนกระวายใจตัวแปรต่อเนื่อง แต่ฉันไม่รู้จริง ๆ ว่าทำไมฉันถึงทำ ความคิดที่อยู่เบื้องหลังการกระวนกระวายใจคืออะไร?

12 data-visualization scatterplot

1

วิธีการตีความความสูงของพล็อตความหนาแน่น

ฉันจะตีความความสูงของแปลงความหนาแน่นได้อย่างไร: ตัวอย่างเช่นในพล็อตข้างต้นจุดสูงสุดอยู่ที่ประมาณ 0.07 ที่ x = 18 ฉันสามารถสรุปได้ว่าประมาณ 7% ของค่าประมาณ 18? ฉันจะเจาะจงมากกว่านี้ได้ไหม? นอกจากนี้ยังมีจุดสูงสุดที่สองที่ x = 30 ที่มีความสูง 0.02 นั่นหมายความว่าประมาณ 2% ของค่าประมาณ 30? แก้ไข: คำถามเกี่ยวกับค่าการแจกแจงความน่าจะเป็นที่เกิน 1 นั้นเป็นไปได้ไหมกล่าวถึงค่าความน่าจะเป็น> 1 ซึ่งไม่ใช่ปัญหาเลย นอกจากนี้ยังกล่าวถึงความสัมพันธ์ที่ไร้เดียงสากับ Bayes classfier ซึ่งไม่ใช่จุดที่นี่ ฉันต้องการมีการอนุมานเชิงตัวเลขที่เราสามารถวาดจากเส้นโค้งความหนาแน่นเช่นในภาษาที่เรียบง่าย มีการกล่าวถึงบทบาทของพื้นที่ภายใต้เส้นโค้ง แต่คำถามของฉันคือสิ่งที่เราสามารถอนุมานได้โดยเฉพาะเกี่ยวกับชุดค่าผสม x และ y เฉพาะที่มีอยู่บนเส้นโค้ง ตัวอย่างเช่นเราจะเชื่อมโยง x = 30 และ y = 0.02 บนกราฟนี้ได้อย่างไร เราสามารถเขียนข้อความอะไรเกี่ยวกับความสัมพันธ์ระหว่าง 30 …

12 data-visualization pdf

คำถามติดแท็ก data-visualization