คำถามติดแท็ก data-visualization

การสร้างข้อมูลกราฟิกที่เป็นประโยชน์และมีประโยชน์ (หากคำถามของคุณเกี่ยวกับวิธีการรับซอฟต์แวร์เฉพาะเพื่อสร้างเอฟเฟกต์เฉพาะอาจเป็นไปได้ว่าไม่ใช่หัวข้อที่นี่)

8
ฟังก์ชันภาพรวมข้อมูลกราฟิก (สรุป) ใน R
ฉันแน่ใจว่าฉันเจอฟังก์ชั่นแบบนี้ในแพ็คเกจ R มาก่อน แต่หลังจาก Googling ที่กว้างขวางฉันดูเหมือนจะไม่สามารถหาได้ทุกที่ ฟังก์ชั่นที่ฉันคิดว่าจะสร้างบทสรุปกราฟิกสำหรับตัวแปรที่กำหนดให้กับมันสร้างผลลัพธ์ด้วยกราฟ (ฮิสโตแกรมและอาจเป็นกล่องและพล็อตมัสสุ) และข้อความบางส่วนที่ให้รายละเอียดเช่นค่าเฉลี่ย SD เป็นต้น ฉันค่อนข้างมั่นใจว่าฟังก์ชั่นนี้ไม่รวมอยู่ใน base R แต่ฉันไม่สามารถหาแพ็คเกจที่ฉันใช้ ไม่มีใครรู้ถึงฟังก์ชั่นเช่นนี้และถ้าเป็นเช่นนั้นมันเป็นแพคเกจอะไร?

4
สำหรับการวางแผนด้วย R ฉันควรเรียนรู้ ggplot2 หรือ ggvis หรือไม่
สำหรับการวางแผนด้วย R ฉันควรเรียนรู้ ggplot2 หรือ ggvis หรือไม่ ฉันไม่ต้องการเรียนรู้ทั้งสองอย่างถ้าหนึ่งในนั้นดีกว่าไม่ว่าในเรื่องใด เหตุใดชุมชน R จึงยังคงสร้างแพ็คเกจใหม่ด้วยฟังก์ชันที่ทับซ้อนกันอยู่ โพสต์แนะนำบล็อกไม่ได้พูดถึงคำว่าทำไม ggvis ถูกสร้างขึ้นให้ว่าพล็อตที่มีความซับซ้อนแพคเกจ ggplot2 มีอยู่แล้ว

3
PCA จะทำงานกับชนิดข้อมูลบูลีน (ไบนารี) หรือไม่
ฉันต้องการลดมิติของระบบการสั่งซื้อที่สูงขึ้นและจับความแปรปรวนส่วนใหญ่ในฟิลด์ 2 มิติหรือ 1 มิติ ฉันเข้าใจว่าสามารถทำได้ผ่านการวิเคราะห์องค์ประกอบหลักและฉันใช้ PCA ในหลาย ๆ สถานการณ์ อย่างไรก็ตามฉันไม่เคยใช้กับชนิดข้อมูลบูลีนและฉันสงสัยว่ามันมีความหมายที่จะทำ PCA กับชุดนี้หรือไม่ ตัวอย่างเช่นสมมติว่าฉันมีตัวชี้วัดเชิงคุณภาพหรือเชิงพรรณนาและฉันกำหนด "1" หากการวัดนั้นใช้ได้สำหรับมิตินั้นและ "0" หากไม่ใช่ (ข้อมูลไบนารี) ตัวอย่างเช่นสมมติว่าคุณกำลังพยายามเปรียบเทียบคนแคระทั้งเจ็ดในสโนว์ไวท์ เรามี: Doc, Dopey, Bashful, Grumpy, Sneezy, Sleepy และ Happy และคุณต้องการจัดเรียงตามคุณสมบัติและทำตามที่: ⎛⎝⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜DocDopeyBashfulGrumpySneezySleepyHappyLactose Intolerant1011011A Honor Roll0001101Athletic1011100Wealthy1011000⎞⎠⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟(Lactose IntolerantA Honor RollAthleticWealthyDoc1011Dopey0000Bashful1011Grumpy1111Sneezy0110Sleepy1000Happy1100)\begin{pmatrix} & Lactose\ Intolerant & A \ Honor\ Roll & Athletic & Wealthy \\ …

5
ทำอย่างไรจึงจะเห็นภาพ / เข้าใจว่าเครือข่ายประสาทกำลังทำอะไร
โครงข่ายประสาทมักได้รับการปฏิบัติเหมือน "กล่องดำ" เนื่องจากโครงสร้างที่ซับซ้อน สิ่งนี้ไม่เหมาะเนื่องจากมักจะมีประโยชน์ที่จะเข้าใจอย่างถ่องแท้ว่าโมเดลทำงานภายในอย่างไร วิธีการแสดงให้เห็นว่าเครือข่ายประสาทที่ได้รับการฝึกฝนนั้นทำงานอย่างไร อีกวิธีหนึ่งเราจะแยกคำอธิบายที่ย่อยได้ง่ายของเครือข่าย (เช่นโหนดที่ซ่อนอยู่นี้ทำงานกับอินพุตเหล่านี้เป็นหลัก) ฉันสนใจเครือข่ายการส่งต่อเลเยอร์สองระดับเป็นหลัก แต่ฉันอยากจะได้ยินโซลูชั่นสำหรับเครือข่ายที่ลึกกว่า ข้อมูลที่ป้อนเข้าสามารถเป็นได้ทั้งแบบเป็นภาพและไม่เป็นภาพ

2
T-SNE จะทำให้เข้าใจผิดเมื่อใด
การอ้างอิงจากผู้เขียนคนหนึ่ง: t-Distributed Stochastic Neighbor Embedding (t-SNE) เป็นเทคนิค(ที่ได้รับรางวัล ) สำหรับการลดมิติที่เหมาะอย่างยิ่งสำหรับการสร้างภาพชุดข้อมูลมิติสูง ดังนั้นมันฟังดูดีมาก แต่นั่นคือผู้เขียนพูดคุย ข้อความอ้างอิงอื่นจากผู้เขียน (อีกครั้ง: การแข่งขันดังกล่าว): คุณนำอะไรไปจากการแข่งขันครั้งนี้? ให้มองเห็นข้อมูลของคุณก่อนเสมอก่อนที่คุณจะเริ่มฝึกการทำนายข้อมูล! บ่อยครั้งที่การสร้างภาพข้อมูลเช่นที่ฉันทำนั้นให้ข้อมูลเชิงลึกเกี่ยวกับการกระจายข้อมูลที่อาจช่วยคุณในการกำหนดรูปแบบการทำนายที่ควรลอง ข้อมูลจะต้อง หายไป1 - มันเป็นเทคนิคการลดขนาด อย่างไรก็ตามเนื่องจากเป็นเทคนิคที่ดีที่จะใช้เมื่อสร้างภาพข้อมูลที่สูญหายจึงมีค่าน้อยกว่าข้อมูลที่ถูกเน้น (/ ทำให้มองเห็น / เข้าใจได้ผ่านการลดขนาดเป็น 2 หรือ 3 มิติ) ดังนั้นคำถามของฉันคือ: tSNE เป็นเครื่องมือที่ผิดสำหรับงานเมื่อใด ชุดข้อมูลประเภทใดที่ทำให้ไม่สามารถใช้งานได้ คำถามประเภทใดที่ดูเหมือนว่าจะสามารถตอบได้ แต่จริง ๆ แล้วไม่สามารถทำได้ ในการอ้างอิงที่สองข้างต้นขอแนะนำให้มองเห็นชุดข้อมูลของคุณเสมอการสร้างภาพข้อมูลนี้ควรทำด้วย tSNE เสมอหรือไม่ ฉันคาดหวังว่าคำถามนี้อาจตอบได้ดีที่สุดในการสนทนาคือการตอบ: tSNE เป็นเครื่องมือที่เหมาะสมสำหรับงานเมื่อใด ฉันได้รับการเตือนว่าไม่ต้องพึ่งพา tSNE เพื่อบอกฉันว่าข้อมูลง่าย ๆ จะจำแนกได้อย่างไร (แยกเป็นคลาส …

3
หลักฐานการทดลองที่สนับสนุนการสร้างภาพข้อมูลสไตล์ Tufte?
ถาม: มีหลักฐานการทดลองที่สนับสนุนการสร้างภาพข้อมูลแบบ Tufte แบบมินิมัลลิสต์และพูดข้อมูลบนการสร้างภาพข้อมูลแบบแผนภูมิที่ไม่ได้รับการพูดNigel Holmesหรือไม่? ฉันถามวิธีเพิ่มแผนภูมิขยะลงในแปลง R ที่นี่และเจ้าหน้าที่ตอบโต้ก็ส่งเสียงจำนวนมากกลับมาที่ฉัน ดังนั้นแน่นอนต้องมีหลักฐานการทดลองบางอย่างที่ฉันไม่ได้เป็นส่วนตัวสนับสนุนตำแหน่งขยะแผนภูมิต่อต้านของพวกเขา --- หลักฐานมากกว่าเพียงแค่ "Tufte กล่าวเช่นนั้น" ขวา? หากมีหลักฐานดังกล่าวมันจะขัดแย้งกับการวิจัยทางจิตวิทยามากมายที่เรามีเกี่ยวกับมนุษย์การระลึกถึงความทรงจำและการระบุรูปแบบ ดังนั้นฉันจะตื่นเต้นที่จะอ่านเกี่ยวกับเรื่องนี้อย่างแน่นอน เกร็ดเล็ก ๆ น้อย ๆ : ที่ประชุมผมถามเอ็ดเวิร์ด Tufte วิธีการที่เขานับถือการค้นพบหลักฐานการทดลองที่ภาพเคลื่อนไหวขยะและวิดีโอปรับปรุงมนุษย์การทำความเข้าใจและการเรียกคืนหน่วยความจำ [ดูงานวิจัยที่อ้างถึงในกฎสมอง] คำตอบของเขา: "อย่าเชื่อพวกเขา" มากสำหรับวิธีการทางวิทยาศาสตร์! ป.ล. แน่นอนฉันต้องการคนที่นี่เล็กน้อย ฉันเป็นเจ้าของหนังสือทั้งหมดของ Tufte และคิดว่างานของเขานั้นยอดเยี่ยมมาก ฉันแค่คิดว่าผู้สนับสนุนของเขามีข้อโต้แย้งบางอย่างของเขา หมายเหตุ: นี่เป็นคำถามที่ฉันถามใน StackOverflowอีกครั้ง ผู้ดำเนินรายการปิดเพราะไม่ได้เป็นโปรแกรมเฉพาะ CrossValidated อาจเป็นบ้านที่ดีกว่า อัปเดต: มีลิงก์ที่มีประโยชน์บางส่วนในส่วนความเห็นของโพสต์คำถามเดิมของฉัน --- คือไปยังงานของ Chambers, Cleveland และกลุ่มดาต้าที่ Stanford UPDATE: คำถามนี้เกี่ยวกับหัวข้อที่คล้ายกัน

4
จะตีความค่าเฉลี่ยของพล็อต Silhouette ได้อย่างไร?
ฉันกำลังพยายามใช้รูปเงาดำเพื่อกำหนดจำนวนของคลัสเตอร์ในชุดข้อมูลของฉัน รับชุดข้อมูลTrainฉันใช้รหัส matlab ต่อไปนี้ Train_data = full(Train); Result = []; for num_of_cluster = 1:20 centroid = kmeans(Train_data,num_of_cluster,'distance','sqeuclid'); s = silhouette(Train_data,centroid,'sqeuclid'); Result = [ Result; num_of_cluster mean(s)]; end plot( Result(:,1),Result(:,2),'r*-.');` พล็อตผลที่จะได้รับด้านล่างด้วย xaxis เป็นจำนวนคลัสเตอร์และ yaxis ค่าเฉลี่ยของความเงา ฉันจะตีความกราฟนี้ได้อย่างไร ฉันจะกำหนดจำนวนของคลัสเตอร์จากสิ่งนี้ได้อย่างไร?

3
เหตุใดจึงมีความแตกต่างระหว่างการคำนวณช่วงความเชื่อมั่นแบบโลจิสติก 95% ด้วยตนเองและการใช้ฟังก์ชัน confint () ใน R
เรียนคุณทุกคน - ฉันสังเกตเห็นบางสิ่งแปลก ๆ ที่ไม่สามารถอธิบายได้ไหม โดยสรุป: แนวทางแบบแมนนวลเพื่อคำนวณช่วงความมั่นใจในโมเดลการถดถอยโลจิสติกและฟังก์ชัน R confint()ให้ผลลัพธ์ที่แตกต่างกัน ฉันเคยผ่านการถดถอยโลจิสติกประยุกต์ของ Hosmer & Lemeshow แล้ว (ฉบับที่ 2) ในบทที่ 3 มีตัวอย่างของการคำนวณอัตราส่วนอัตราต่อรองและช่วงความมั่นใจ 95% ด้วย R ฉันสามารถสร้างโมเดลได้อย่างง่ายดาย: Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

2
มีตัวแปรแบบกล่องสำหรับข้อมูลแบบกระจายของปัวซองหรือไม่
ฉันต้องการที่จะรู้ว่ามีตัวแปร boxplot ปรับให้เข้ากับข้อมูลการกระจายปัวซอง (หรือการกระจายอื่น ๆ ) ด้วยการแจกแจงแบบเกาส์หนวดที่ L = Q1 - 1.5 IQR และ U = Q3 + 1.5 IQR บ็อกซ์ล็อตมีคุณสมบัติที่จะมีค่าผิดปกติต่ำมาก (คะแนนต่ำกว่า L) เนื่องจากมีค่าผิดปกติสูง ) หากข้อมูลที่มีการกระจาย Poisson แต่นี้ไม่ได้ถืออีกต่อไปเพราะของเบ้เชิงบวกที่เราได้รับPr (X <L) <Pr (X> U) มีวิธีอื่นในการวางเคราเช่นนี้เพื่อให้พอดีกับการแจกแจงปัวซองหรือไม่?

3
ชุดข้อมูลที่สร้างขึ้นเพื่อวัตถุประสงค์คล้ายกับชุดของ Anscombe
ฉันเพิ่งเจอชุดสี่ของ Anscombe (สี่ชุดข้อมูลที่มีสถิติเชิงพรรณนาเกือบจะแยกไม่ออก แต่ดูแตกต่างกันมากเมื่อถูกวางแผน) และฉันอยากรู้ว่ามีชุดข้อมูลที่รู้จักกันดีอื่น ๆ อีกมากหรือน้อยที่สร้างขึ้นเพื่อแสดงให้เห็นถึง ของการวิเคราะห์ทางสถิติ

2
กำลังทำการทดสอบทางสถิติหลังจากแสดงข้อมูลเป็นภาพ - การขุดลอกข้อมูลหรือไม่
ฉันจะเสนอคำถามนี้โดยใช้ตัวอย่าง สมมติว่าฉันมีชุดข้อมูลเช่นชุดข้อมูลราคาบ้านบอสตันซึ่งฉันมีตัวแปรแบบต่อเนื่องและหมวดหมู่ ที่นี่เรามีตัวแปร "คุณภาพ" ตั้งแต่ 1 ถึง 10 และราคาขาย ฉันสามารถแยกข้อมูลออกเป็นบ้านคุณภาพ "ต่ำ", "ปานกลาง" และ "สูง" โดย (โดยพลการ) สร้างการตัดเพื่อคุณภาพ จากนั้นใช้การจัดกลุ่มเหล่านี้ฉันสามารถพล็อตฮิสโตแกรมของราคาขายต่อกันได้ ชอบมาก ที่นี่ "ต่ำ" คือและ "สูง" คือในคะแนน "คุณภาพ" ตอนนี้เรามีการกระจายของราคาขายสำหรับแต่ละกลุ่ม เป็นที่ชัดเจนว่ามีความแตกต่างในศูนย์กลางของที่ตั้งสำหรับบ้านขนาดกลางและคุณภาพสูง ตอนนี้เมื่อทำสิ่งนี้ทั้งหมดเสร็จฉันคิดว่า "หืมดูเหมือนว่าจะมีความแตกต่างในจุดศูนย์กลางของที่ตั้ง! จากนั้นฉันได้รับค่า p ที่ดูเหมือนว่าจะปฏิเสธสมมติฐานว่างที่ถูกต้องว่าไม่มีความแตกต่างในค่าเฉลี่ย≤ 3≤3\leq 3> 7>7>7 ทีนี้สมมติว่าฉันไม่มีอะไรในใจที่จะทดสอบสมมติฐานนี้จนกว่าฉันจะพล็อตข้อมูล ข้อมูลนี้ขุดลอกหรือไม่ มันยังคงเป็นข้อมูลที่ขุดขึ้นมาหรือไม่ถ้าฉันคิดว่า: "หืมฉันว่าบ้านคุณภาพสูงราคาแพงกว่าเพราะฉันเป็นมนุษย์ที่เคยอาศัยอยู่ในบ้านก่อนหน้านี้ฉันจะลงจุดข้อมูลอาฮ่า! เพื่อทดสอบ t! " ตามธรรมชาติแล้วมันไม่ใช่การขุดลอกข้อมูลถ้าชุดข้อมูลถูกเก็บรวบรวมด้วยความตั้งใจที่จะทดสอบสมมติฐานนี้จากการเดินทาง แต่บ่อยครั้งที่เราต้องทำงานกับชุดข้อมูลที่เรามอบให้และบอกให้ "มองหารูปแบบ" บางคนหลีกเลี่ยงการขุดข้อมูลด้วยงานที่คลุมเครือในใจ สร้างชุดค้างไว้สำหรับการทดสอบข้อมูลหรือไม่ การสร้างภาพข้อมูล "นับ" เป็นการสอดแนมโอกาสที่จะทดสอบสมมติฐานที่เสนอโดยข้อมูลหรือไม่

5
คำแนะนำสีและความหนาของเส้นสำหรับแปลงเส้น
มีการเขียนมากมายเกี่ยวกับตัวเลือกสีที่เป็นมิตรกับตาบอดสำหรับแผนที่รูปหลายเหลี่ยมและพื้นที่สีเทาโดยทั่วไป (ดูตัวอย่างhttp://colorbrewer2.org ) ฉันไม่สามารถค้นหาคำแนะนำสำหรับสีของเส้นและความหนาของเส้นที่แตกต่างกันสำหรับกราฟเส้น เป้าหมายคือ: แยกแยะเส้นได้อย่างง่ายดายแม้ในขณะที่พวกเขาพันกัน เส้นนั้นแยกได้ง่ายโดยบุคคลที่มีอาการตาบอดสีในรูปแบบที่พบได้บ่อยที่สุด บรรทัด (สำคัญน้อยกว่า) เป็นมิตรกับเครื่องพิมพ์ (ดู Color Brewer ด้านบน) ในบริบทของเส้นสเกลสีดำและสีเทาฉันพบว่ามันมีประสิทธิภาพมากที่จะมีเส้นสีดำบาง ๆ และเส้นสเกลสีเทาหนาขึ้น ฉันขอขอบคุณคำแนะนำเฉพาะที่รวมถึงสีที่ต่างกันระดับของสีเทาและความหนาของเส้น ฉันไม่ชอบประเภทบรรทัดที่แตกต่างกัน (ทึบ / ประ / ประ) แต่สามารถพูดออกมาจากความคิดเห็นนั้น มันจะดีกว่าที่จะมีคำแนะนำถึง 10 เส้นโค้งในกราฟ ยิ่งไปกว่านั้นจะต้องทำตามที่ Color Brewer ทำ: อนุญาตให้คำแนะนำสำหรับ m line เป็นส่วนย่อยของคำแนะนำสำหรับ n บรรทัดที่ n> m และแตกต่าง m จาก 1 ถึง 10 โปรดทราบ : ฉันขอขอบคุณคำแนะนำที่เน้นเฉพาะส่วนของการระบายสีเส้นของคำถาม ผู้ปฏิบัติงานบางคนเพิ่มสัญลักษณ์ให้กับเส้นทุกสองสามเซนติเมตรเพื่อแยกความแตกต่างของชั้นเรียนที่ดีกว่า …

2
วิธีการกำหนดขอบเขตการตัดสินใจของลักษณนามเพื่อนบ้านใกล้เคียง k- ที่ใกล้ที่สุดจากองค์ประกอบของการเรียนรู้ทางสถิติ
ฉันต้องการสร้างพล็อตที่อธิบายไว้ในหนังสือ ElemStatLearn "องค์ประกอบของการเรียนรู้ทางสถิติ: การทำเหมืองข้อมูลการอนุมานและการทำนายรุ่นที่สอง" โดย Trevor Hastie & Robert Tibshirani & Jerome Friedman เนื้อเรื่องคือ: ฉันสงสัยว่าฉันสามารถสร้างกราฟที่แน่นอนนี้ได้Rอย่างไรโดยเฉพาะบันทึกกราฟกริดและการคำนวณเพื่อแสดงขอบเขต

3
แสดงภาพล้านฉบับ PCA
เป็นไปได้หรือไม่ที่จะเห็นภาพผลลัพธ์ของการวิเคราะห์องค์ประกอบหลักในรูปแบบที่ให้ข้อมูลเชิงลึกมากกว่าแค่ตารางสรุป? เป็นไปได้ไหมที่จะทำเมื่อจำนวนการสังเกตมีขนาดใหญ่พูด ~ 1e4 และเป็นไปได้หรือไม่ที่จะทำใน R [สภาพแวดล้อมอื่น ๆ ยินดีต้อนรับ]?

8
เครื่องมือโอเพนซอร์สสำหรับการแสดงภาพข้อมูลหลายมิติ?
นอกจากgnuplotและggobiเครื่องมือโอเพ่นซอร์สคืออะไรที่ผู้คนใช้ในการแสดงภาพข้อมูลหลายมิติ? Gnuplot เป็นแพ็คเกจการวางแผนพื้นฐานมากหรือน้อย Ggobi สามารถทำสิ่งต่าง ๆ มากมายเช่น: ข้อมูลภาพเคลื่อนไหวตามมิติข้อมูลหรือในกลุ่มการรวบรวมแบบแยก การผสมเชิงเส้นเคลื่อนไหวเคลื่อนไหวค่าสัมประสิทธิ์ที่แตกต่างกัน คำนวณส่วนประกอบหลักและการแปลงอื่น ๆ เห็นภาพและหมุนกลุ่มข้อมูล 3 มิติ ใช้สีเพื่อแสดงมิติที่แตกต่าง มีวิธีการใดที่มีประโยชน์อื่นอีกที่มาจากโอเพ่นซอร์สและสามารถนำมาใช้ใหม่หรือปรับแต่งได้อย่างอิสระ? โปรดระบุคำอธิบายโดยย่อเกี่ยวกับความสามารถของแพ็คเกจในคำตอบ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.