สถิติและข้อมูลขนาดใหญ่ data-visualization

6

ฉันไม่แน่ใจว่าหัวเรื่องเข้าสู่ความสนใจของ CrossValidated คุณจะบอกฉัน ฉันต้องศึกษากราฟ (จากทฤษฎีกราฟ ) เช่น ฉันมีจุดจำนวนหนึ่งที่เชื่อมต่ออยู่ ฉันมีตารางที่มีจุดทั้งหมดและจุดแต่ละจุดขึ้นอยู่กับ (ฉันมีตารางอื่นที่มีความหมาย) คำถามของฉันคือ: มีซอฟต์แวร์ที่ดี (หรือแพ็คเกจ R) เพื่อการศึกษาที่ง่ายดายหรือไม่? มีวิธีง่าย ๆ ในการแสดงกราฟหรือไม่?

22 r data-visualization graph-theory

3

ตีความแกน y ของแปลงที่พึ่งพาบางส่วน

คำถามนี้ถูกโยกย้ายจาก Stack Overflow เพราะสามารถตอบได้ในการตรวจสอบข้าม อพยพ 5 ปีที่ผ่านมา ฉันได้อ่านหัวข้ออื่น ๆ เกี่ยวกับพล็อตพึ่งพาบางส่วนและส่วนใหญ่อยู่ในวิธีการที่คุณพล็อตพวกเขาด้วยแพคเกจที่แตกต่างกันไม่ใช่วิธีที่คุณสามารถตีความได้อย่างถูกต้องดังนั้น: ฉันอ่านและสร้างแผนการพึ่งพาบางส่วนในปริมาณที่พอใช้ ฉันรู้ว่าพวกเขาวัดผลกระทบเล็กน้อยของตัวแปรในฟังก์ชั่นƒS (withS) ด้วยค่าเฉลี่ยผลกระทบของตัวแปรอื่นทั้งหมด ((c) จากแบบจำลองของฉัน ค่า y ที่สูงกว่าหมายความว่าพวกเขามีอิทธิพลต่อการทำนายชั้นเรียนของฉันอย่างแม่นยำ อย่างไรก็ตามฉันไม่พอใจกับการตีความเชิงคุณภาพนี้ โมเดลของฉัน (ฟอเรสต์แบบสุ่ม) กำลังทำนายคลาสรอบคอบสองคลาส "ใช่ต้นไม้" และ "ไม่มีต้นไม้" TRI เป็นตัวแปรที่พิสูจน์แล้วว่าเป็นตัวแปรที่ดีสำหรับเรื่องนี้ สิ่งที่ฉันเริ่มคิดว่าค่า Y กำลังแสดงความน่าจะเป็นสำหรับการจำแนกประเภทที่ถูกต้อง ตัวอย่าง: y (0.2) แสดงว่าค่า TRI ของ> ~ 30 มีโอกาส 20% ในการระบุการจำแนกประเภท True Positive อย่างถูกต้อง อยู่ที่ไหนตรงกันข้าม y (-0.2) แสดงว่าค่า TRI …

22 r classification data-visualization random-forest interpretation

1

t-SNE กับ MDS

เคยอ่านคำถามบางอย่างเกี่ยวกับt-SNE ( t-Distributed Stochastic Neighbor Embedding ) เมื่อเร็ว ๆ นี้และยังได้เยี่ยมชมบางคำถามเกี่ยวกับMDS (การวัดหลายมิติ ) พวกเขามักจะใช้แบบอะนาล็อกดังนั้นจึงเป็นความคิดที่ดีที่ทำให้คำถามนี้เมื่อเห็นว่ามีคำถามมากมายทั้งแยกต่างหาก (หรือเปรียบเทียบกับPCA ) ที่นี่ ในระยะสั้นสิ่งที่ทำให้ t-SNE และ MDS แตกต่างกันอย่างไร เช่น. ลำดับชั้นของข้อมูลที่พวกเขาสำรวจมีข้อสมมติฐานที่แตกต่างกัน ฯลฯ อัตราการลู่เข้า? สิ่งที่เกี่ยวกับการใช้เมล็ดทั้งสองทำตาม?

21 data-visualization dimensionality-reduction multidimensional-scaling tsne

8

คุณจะเห็นภาพความสัมพันธ์ระหว่างตัวแปรเด็ดขาด 3 ตัวได้อย่างไร

ฉันมีชุดข้อมูลที่มีตัวแปรเด็ดขาดสามชุดและฉันต้องการเห็นภาพความสัมพันธ์ระหว่างทั้งสามในกราฟเดียว ความคิดใด ๆ ขณะนี้ฉันกำลังใช้กราฟสามตัวต่อไปนี้: กราฟแต่ละกราฟใช้สำหรับระดับพื้นฐานของภาวะซึมเศร้า (Mild, Moderate, Severe) จากนั้นในแต่ละกราฟฉันดูความสัมพันธ์ระหว่างการรักษา (0,1) และการปรับปรุงอาการซึมเศร้า (ไม่มี, ปานกลาง, เป็นกอบเป็นกำ) กราฟ 3 ตัวนี้ทำงานเพื่อดูความสัมพันธ์แบบ 3 ทาง แต่มีวิธีการทำเช่นนี้กับกราฟเดียวหรือไม่

21 r data-visualization categorical-data

2

วิธีการอธิบายหรือมองเห็นโมเดลการถดถอยเชิงเส้นหลายแบบ

ฉันกำลังพยายามปรับโมเดลการถดถอยเชิงเส้นหลายแบบให้สอดคล้องกับข้อมูลของฉันด้วยพารามิเตอร์อินพุตสองสามตัวบอกว่า 3 F( x )F( x )= A x1+ B x2+ Cx3+ dหรือ= ( A B C )T( x1 x2 x3) + d(ผม)(ii)(i)F(x)=Ax1+Bx2+Cx3+dor(ii)F(x)=(A B C)T(x1 x2 x3)+d\begin{align} F(x) &= Ax_1 + Bx_2 + Cx_3 + d \tag{i} \\ &\text{or} \\ F(x) &= (A\ B\ C)^T (x_1\ x_2\ x_3) + d …

21 regression data-visualization multiple-regression communication

4

วิธีการฉายเวกเตอร์ใหม่บนพื้นที่ PCA?

หลังจากทำการวิเคราะห์องค์ประกอบหลัก (PCA) ฉันต้องการฉายเวกเตอร์ใหม่ลงบนพื้นที่ PCA (เช่นค้นหาพิกัดในระบบพิกัด PCA) ผมได้คำนวณ PCA ในภาษา R prcompโดยใช้ ตอนนี้ฉันควรคูณเวกเตอร์ของฉันด้วยเมทริกซ์การหมุน PCA ควรจัดองค์ประกอบหลักในเมทริกซ์นี้เป็นแถวหรือคอลัมน์?

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

14

ซอฟต์แวร์สำหรับการสำรวจข้อมูลที่เรียบง่าย แต่มีประสิทธิภาพ

ในความพยายามของฉันในการต่อสู้กับการทำร้ายร่างกายของสเปรดชีตฉันมักจะประกาศข่าวประเสริฐในการผลักดันเครื่องมือที่มีประสิทธิภาพมากขึ้นเช่นซอฟต์แวร์สถิติจริง (R, Stata และอื่น ๆ ) เมื่อเร็ว ๆ นี้ฉันถูกท้าทายในมุมมองนี้โดยคนที่ระบุว่าพวกเขาจะไม่เรียนรู้ที่จะทำรายการ ฉันต้องการมอบเครื่องมือวิเคราะห์ข้อมูลที่ไม่จำเป็นต้องมีการเขียนโปรแกรม (แต่เป็นการดีที่จะขยายการเขียนโปรแกรมหากพวกเขาตัดสินใจที่จะจุ่มนิ้วเท้าลงไปในน้ำในภายหลัง) มีแพ็คเกจอะไรบ้างสำหรับการสำรวจข้อมูลที่ฉันสามารถแนะนำได้อย่างตรงไปตรงมา?

20 data-visualization software

4

ค่าที่ถูกต้องสำหรับความแม่นยำและการเรียกคืนในกรณีขอบคืออะไร?

ความแม่นยำหมายถึง: p = true positives / (true positives + false positives) มันถูกต้องหรือไม่ที่ในฐานะtrue positivesและfalse positivesวิธีที่ 0 ความแม่นยำเข้าใกล้ 1? คำถามเดียวกันสำหรับการเรียกคืน: r = true positives / (true positives + false negatives) ขณะนี้ฉันกำลังใช้การทดสอบทางสถิติที่ฉันต้องการคำนวณค่าเหล่านี้และบางครั้งมันก็เกิดขึ้นที่ตัวส่วนเป็น 0 และฉันสงสัยว่าจะคืนค่าใดให้กับกรณีนี้ PS: ขอโทษแท็กที่ไม่เหมาะสมผมอยากจะใช้recall, precisionและlimitแต่ฉันไม่สามารถสร้างแท็กใหม่ ๆ

20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

7

สิ่งที่เป็นทางเลือกให้กับ boxplot

ฉันกำลังสร้างเว็บไซต์ซึ่งแสดงข้อมูลการสำรวจสำมะโนประชากรสำหรับรูปหลายเหลี่ยมที่ผู้ใช้เลือก & ต้องการแสดงการกระจายตัวของพารามิเตอร์ต่างๆแบบกราฟิก (กราฟหนึ่งต่อพารามิเตอร์) ข้อมูลมักจะมีคุณสมบัติดังต่อไปนี้: ขนาดตัวอย่างมีแนวโน้มที่จะใหญ่ (พูดประมาณ 10,000 จุดข้อมูล) ช่วงของค่ามักจะมีขนาดใหญ่ (ตัวอย่างเช่นจำนวนประชากรขั้นต่ำอาจน้อยกว่า 100 และสูงสุดอาจเท่ากับ 500,000) q1 มักจะใกล้เคียงกับค่าต่ำสุด (พูด 200) ในขณะที่ q2 & q3 จะอยู่ภายใน 10,000 มันดูไม่เหมือนการแจกแจงแบบปกติ ฉันไม่ใช่นักสถิติดังนั้นคำอธิบายของฉันอาจไม่ชัดเจน ฉันต้องการแสดงการกระจายตัวนี้บนกราฟซึ่งพลเมืองจะมองเห็นได้ (คนธรรมดาถ้าคุณต้องการ) ฉันชอบที่จะใช้ฮิสโตแกรมที่ดีที่สุด แต่มันเป็นไปไม่ได้เนื่องจากค่าที่หลากหลายเนื่องจากการทำถังขยะไม่ใช่เรื่องง่าย & ส่งตรงไปข้างหน้า จากสิ่งที่ฉันรู้เกี่ยวกับสถิติพล็อตกล่องเป็นสิ่งที่มักใช้ในการแสดงข้อมูลประเภทนี้ แต่ฉันรู้สึกว่าสำหรับคนธรรมดาการถอดรหัสพล็อตบ็อกซ์นั้นไม่ใช่เรื่องง่าย ตัวเลือกของฉันคืออะไรเพื่อแสดงข้อมูลนี้ในลักษณะที่เข้าใจง่าย

20 distributions data-visualization boxplot

3

พล็อตนี้มีชื่ออะไรที่มีแถวที่มีจุดเชื่อมต่อสองจุด

ฉันอ่านรายงาน EIA และโครงเรื่องนี้ได้รับความสนใจ ตอนนี้ฉันต้องการที่จะสร้างพล็อตประเภทเดียวกัน มันแสดงให้เห็นถึงวิวัฒนาการการผลิตพลังงานระหว่างสองปี (2533-2558) และเพิ่มมูลค่าการเปลี่ยนแปลงระหว่างสองช่วงเวลานี้ พล็อตประเภทนี้ชื่ออะไร ฉันจะสร้างพล็อตเดียวกัน (กับประเทศต่าง ๆ ) ใน excel ได้อย่างไร

19 data-visualization terminology excel

1

ประวัติของกล่องแปลงคืออะไรและการออกแบบ“ กล่องและหนวด” พัฒนาอย่างไร?

หลายแหล่งวันที่ออกแบบ "แผนกล่อง" คลาสสิกกับจอห์น Tukeyและ "แผนผังแผน" ของ 2513 การออกแบบที่ดูเหมือนจะค่อนข้างคงที่ตั้งแต่นั้นมากับเอ็ดเวิร์ด Tufteตัดลงมาเป็นกล่องรุ่น - พล็อตไม่ทันตั้งตัวขณะแผนการของไวโอลิน - แม้ว่าจะเป็นข้อมูลที่แตกต่างของพล็อตกล่อง - ยังคงได้รับความนิยมน้อยลง ข้อเสนอแนะของคลีฟแลนด์ที่เคราขยายออกไปเป็นร้อยละ 10 และ 90 มีผู้สนับสนุนบางส่วนดูCox (2009)แต่ไม่ใช่บรรทัดฐาน Hadley Wickham และ Lisa Stryjewski เขียนกระดาษที่ไม่ได้เผยแพร่เกี่ยวกับประวัติความเป็นมาของแผนการกล่องแต่ดูเหมือนว่ามันจะไม่ครอบคลุมถึงบรรพบุรุษของกล่องแปลง แล้วพล็อตปัจจุบัน "แพร่หลาย" และ "หนวด" จึงเกิดขึ้นได้อย่างไร การสร้างภาพข้อมูลแบบใดที่วิวัฒนาการมาจากการออกแบบก่อนหน้านี้มีข้อได้เปรียบที่สำคัญและทำไมพวกเขาถึงดูเหมือนจะถูกบดบังดังนั้นการใช้งานอย่างละเอียดตามแบบแผนการของ Tukey? คำตอบที่แสดงให้เห็นจะเป็นโบนัส แต่จะถูกนำไปอ้างอิงที่ดำลึกในอดีตกว่า Wickham และ Stryjewski จะเป็นประโยชน์ อ้างอิง Cox, NJ (2009) Stata พูด: การสร้างและการแปลงกล่องแปลง Stata Journal , …

19 data-visualization references boxplot history

5

มีรุ่นใดของ t-SNE สำหรับการสตรีมข้อมูลหรือไม่

ความเข้าใจของฉันเกี่ยวกับt-SNEและการประมาณ Barnes-Hut คือจุดข้อมูลทั้งหมดจำเป็นต้องใช้เพื่อให้การคำนวณการโต้ตอบกับแรงทั้งหมดในเวลาเดียวกันและแต่ละจุดสามารถปรับได้ในแผนที่ 2d (หรือมิติที่ต่ำกว่า) มีเวอร์ชั่นใดบ้างที่สามารถจัดการกับการสตรีมข้อมูลได้อย่างมีประสิทธิภาพหรือไม่ ดังนั้นหากการสำรวจของฉันมาถึงทีละครั้งมันจะหาตำแหน่งที่ดีที่สุดบนแผนที่ 2d เพื่อทำการสำรวจใหม่หรืออัปเดตทุกจุดบนแผนที่ 2d เป็นบัญชีสำหรับการสังเกตใหม่ ht สิ่งนี้จะสมเหตุสมผลหรือไม่หรือขัดกับการตั้งค่าของ t-sne

19 data-visualization dimensionality-reduction multidimensional-scaling tsne

1

ฉันจะ 'หลบ' ตำแหน่งของ geom_point ใน ggplot2 ได้อย่างไร

ล็อคแล้ว คำถามและคำตอบนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ฉันใช้ ggplot2 ใน R เพื่อทำแปลงเหมือนอันต่อไปนี้: แถบข้อผิดพลาดซ้อนทับกันซึ่งดูยุ่งเหยิงจริงๆ ฉันจะแยกแถบข้อผิดพลาดสำหรับดัชนีต่าง ๆ ได้อย่างไร ฉันใช้ตำแหน่ง = "หลบ" แต่ดูเหมือนจะไม่ทำงาน นี่คือส่วนหลักของรหัสของฉัน: plot = ggplot(data,aes(x=ntrunc,y=beta_best,group=ntrunc,colour=INDEX)) +geom_point(aes(shape=detectable),na.rm=TRUE,position="dodge") +geom_errorbar(aes(x=ntrunc,ymax=beta_high,ymin=beta_low),na.rm=TRUE,position="dodge")

19 data-visualization ggplot2

1

วิธีการแสดงภาพฟังก์ชั่นความหนาแน่น 3 มิติ

อะไรคือวิธีที่ดีที่สุดในการแสดงภาพกราฟิกด้วยฟังก์ชั่นความหนาแน่น 3 มิติ ในขณะที่ฉันต้องการเห็นภาพ Z= fX, วาย( x , y)Z=ฉX,Y(x,Y)z=f_{X,Y}(x,y) ? ไม่จำเป็น แต่Rรหัสสำหรับสิ่งนี้จะดีมาก

19 r data-visualization methodology

5

เป็นวิธีที่ดีที่สุดในการเห็นภาพความสัมพันธ์ระหว่างตัวแปรที่ไม่ต่อเนื่องและตัวแปรต่อเนื่องคืออะไร?

วิธีที่ดีที่สุดในการแสดงความสัมพันธ์ระหว่าง: ตัวแปรต่อเนื่องและไม่ต่อเนื่อง ตัวแปรที่แยกกันสองตัว จนถึงตอนนี้ฉันได้ใช้แผนการกระจายเพื่อดูความสัมพันธ์ระหว่างตัวแปรต่อเนื่อง อย่างไรก็ตามในกรณีที่จุดข้อมูลตัวแปรไม่ต่อเนื่องถูกสะสมในช่วงเวลาที่แน่นอน ดังนั้นเส้นที่ดีที่สุดอาจจะลำเอียง

19 data-visualization categorical-data random-variable

คำถามติดแท็ก data-visualization