สถิติและข้อมูลขนาดใหญ่ data-visualization

1

ทำไมเราต้องการพล็อตการติดตามสำหรับผลลัพธ์ MCMC

ฉันกำลังอ่านรายงานการวิจัยโดยใช้วิธีการ MCMC และฉันเห็นว่าส่วนใหญ่ให้แผนการแปลง เหตุใดเราจึงต้องมีแผนการแปลงร่องรอยใน Monte Carlo Markov Chain พล็อตการติดตามของพารามิเตอร์ระบุอะไร

12 data-visualization mcmc

2

ตัวอย่างง่ายๆที่แสดงให้เห็นถึงข้อดีของรูปแบบเฉลี่ยของ Bayesian (BMA)

ฉันกำลังผสมผสานวิธีการแบบเบอเซียนโมเดลเฉลี่ย (BMA) ในการวิจัยของฉันและอีกไม่นานจะมีการนำเสนอเกี่ยวกับงานของฉันกับเพื่อนร่วมงานของฉัน อย่างไรก็ตาม BMA ไม่ได้เป็นที่รู้จักกันดีในสาขาของฉันดังนั้นหลังจากนำเสนอพวกเขาด้วยทฤษฎีทั้งหมดและก่อนที่จะนำไปใช้กับปัญหาของฉันจริง ๆ ฉันต้องการนำเสนอตัวอย่างที่เรียบง่ายและให้คำแนะนำเกี่ยวกับสาเหตุที่ BMA ทำงาน ฉันกำลังคิดเกี่ยวกับตัวอย่างง่าย ๆ ที่มีสองแบบให้เลือก แต่แบบจำลองการสร้างข้อมูลที่แท้จริง (DGM) นั้นอยู่ที่ไหนสักแห่งในระหว่างนั้นและหลักฐานไม่ได้ให้ประโยชน์อย่างใดอย่างหนึ่งกับพวกเขา ดังนั้นหากคุณเลือกหนึ่งและดำเนินการต่อจากพวกเขาคุณจะไม่สนใจความไม่แน่นอนของแบบจำลองและทำผิดพลาด แต่ BMA ถึงแม้ว่าตัวแบบที่แท้จริงไม่ได้เป็นส่วนหนึ่งของชุดแบบจำลองอย่างน้อยก็ให้ความหนาแน่นหลังพารามิเตอร์ที่น่าสนใจ ตัวอย่างเช่นมีการพยากรณ์อากาศสองครั้งในแต่ละวัน (A และ B) และต้องการพยากรณ์อากาศที่ดีที่สุดดังนั้นในสถิติแบบดั้งเดิมคุณจะต้องพยายามค้นหาพยากรณ์ที่ดีที่สุดระหว่างสองคนนี้ แต่จะเป็นอย่างไรหากความจริงอยู่ที่ไหนสักแห่งระหว่าง (นั่นคือบางครั้ง A ถูกต้องบางครั้ง B) แต่ฉันทำมันไม่เป็นทางการ บางอย่างเช่นนั้น แต่ฉันเปิดกว้างต่อความคิด ฉันหวังว่าคำถามนี้เฉพาะเจาะจงมาก! ในวรรณคดีฉันไม่พบตัวอย่างที่ดีจากสิ่งที่ฉันได้อ่าน: Kruschke (2011)ในขณะที่การแนะนำที่ดีเกี่ยวกับสถิติ Bayesian ไม่ได้มุ่งเน้นไปที่ BMA อย่างแท้จริงและตัวอย่างการโยนเหรียญที่เขามีในบทที่ 4 นั้นยอดเยี่ยมสำหรับการแนะนำสถิติ Bayesian แต่ไม่ได้โน้มน้าวให้นักวิจัยคนอื่นใช้ BMA ("ทำไมฉันถึงมีสามรุ่นอีกครั้งหนึ่งพูดว่าเหรียญยุติธรรมและสองคนบอกว่ามันลำเอียงในทิศทางใดทิศทางหนึ่ง?") สิ่งอื่น ๆ ทั้งหมดที่ฉันอ่าน …

12 bayesian data-visualization

4

วิธีการวาดช่องทางโดยใช้ ggplot2 ใน R?

ในฐานะชื่อฉันต้องวาดบางอย่างเช่นนี้: ggplot หรือแพ็คเกจอื่น ๆ หาก ggplot ไม่สามารถใช้เพื่อวาดสิ่งนี้

12 r data-visualization ggplot2 funnel-plot

2

การอ่านพล็อตแบบกล่องและมัสสุ: สามารถรวบรวมความแตกต่างที่สำคัญระหว่างกลุ่มได้หรือไม่

สมมติว่าเรากำลังดูพล็อตบ็อกซ์และมัสสุนี้: ระหว่างวันพฤหัสบดีและวันศุกร์ฉันคิดว่าส่วนใหญ่จะเห็นว่าดูเหมือนจะมีความแตกต่างอย่างมีนัยสำคัญในเวลานอน นั่นเป็นการคาดเดาทางสถิติที่ถูกต้องใช่มั้ย เราสามารถแยกแยะความแตกต่างอย่างมีนัยสำคัญได้หรือไม่เนื่องจากช่วงควอไทล์ชั้นในนั้นไม่ทับซ้อนกันระหว่างวันพฤหัสบดีและวันศุกร์? สิ่งที่เกี่ยวกับความจริงที่ว่าเคราบนและล่างของวันพฤหัสบดีและวันศุกร์ตามลำดับทับซ้อนกัน? สิ่งนี้มีผลต่อการวิเคราะห์ของเราหรือไม่ มักจะมาพร้อมกับแผนภูมิเช่นนี้จะเป็นแบบ ANOVA แต่ฉันแค่อยากรู้ว่าเราสามารถพูดเกี่ยวกับความแตกต่างระหว่างกลุ่มได้ง่ายๆเพียงแค่ดูที่บ็อกซ์ล็อต

11 anova data-visualization boxplot

3

เห็นภาพการกระจายตัวแบบทวินามทวิภาค

คำถาม:การกระจายตัวแบบทวินามแบบไบวาเรียมีลักษณะอย่างไรในอวกาศ 3 มิติ ด้านล่างเป็นฟังก์ชั่นเฉพาะที่ฉันต้องการเห็นภาพสำหรับค่าต่างๆของพารามิเตอร์ คือ , หน้า1และหน้า 2nnnp1p1p_{1}p2p2p_{2} f(x1,x2)=n!x1!x2!px11px22,x1+x2=n,p1+p2=1.f(x1,x2)=n!x1!x2!p1x1p2x2,x1+x2=n,p1+p2=1.f(x_{1},x_{2}) = \frac{n!}{x_{1}!x_{2}!}p_{1}^{x_{1}}p_{2}^{x_{2}}, \qquad x_{1}+x_{2}=n, \quad p_{1}+p_{2}=1. สังเกตว่ามีข้อ จำกัด สองประการ และP 1 + P 2 = 1 นอกจากนี้nเป็นจำนวนเต็มบวกพูด, 5x1+x2=nx1+x2=nx_{1}+x_{2}=np1+p2=1p1+p2=1p_{1}+p_{2}=1nnn555 มีความพยายามสองครั้งในการพล็อตฟังก์ชันโดยใช้ LaTeX (TikZ / PGFPLOTS) ในการทำเช่นนี้ฉันจะได้รับกราฟด้านล่างสำหรับค่าต่อไปนี้: , p 1 = 0.1และp 2 = 0.9และ, n = 5 , p 1 = 0.4และp 2 …

11 probability data-visualization binomial discrete-data distributions

3

การพล็อตผลลัพธ์ที่มีค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานเท่านั้น

ฉันพยายามนึกภาพพล็อตที่เหมาะสมสำหรับการสังเกตในตารางวิธีการนี้และค่าเบี่ยงเบนมาตรฐานของคะแนนการเรียกคืน: จำควบคุมMean37SD8การทดลองMean21SD6ควบคุมการทดลองMeanSDMeanSDจำ378216\begin{array} {c|c c|c c|} & \text{Control} & & \text{Experimental} & \\ & \text{Mean} & \text{SD} &\text{Mean} &\text{SD} \\ \hline \text{Recall} & 37 & 8 & 21 & 6 \\ \hline \end{array} อะไรคือวิธีที่ดีที่สุดในการทำเช่นนั้น? แผนภูมิแท่งเป็นวิธีที่ดีหรือไม่ ฉันจะอธิบายค่าเบี่ยงเบนมาตรฐานในกรณีนั้นได้อย่างไร

11 data-visualization standard-deviation mean descriptive-statistics barplot

1

วิธีการตีความสีที่เหลือในพล็อตโมเสค?

นี่คือพล็อตโมเสคของชุดข้อมูลตารางฉุกเฉินHairEyeColorอธิบายไว้ที่นี่ ฉันจะตีความสีที่แสดงถึงสิ่งตกค้างได้อย่างไร อะไรคือความแตกต่างระหว่างของเพียร์สันที่มีค่าสูงและค่าบวก (แสดงเป็นสีน้ำเงิน) เมื่อเทียบกับค่าต่ำและค่าลบที่แสดงเป็นสีแดง

11 data-visualization chi-squared residuals contingency-tables

1

กราฟ ACF ของฉันบอกอะไรฉันเกี่ยวกับข้อมูลของฉัน

ฉันมีสองชุดข้อมูล: ชุดข้อมูลแรกของฉันคือมูลค่าของการลงทุน (เป็นพันล้านดอลลาร์) เทียบกับเวลาแต่ละหน่วยเวลาเป็นหนึ่งในสี่ตั้งแต่ไตรมาส 1 ของปี 1947 เวลาขยายไปถึงไตรมาสที่ 3 ของปี 2545 ชุดข้อมูลที่สองของฉันคือ "ผลลัพธ์ของการเปลี่ยนค่าของการลงทุนใน [ชุดข้อมูลแรก] เป็นกระบวนการคงที่โดยประมาณ" ชุดแรกของข้อมูลและชุดที่สองของข้อมูล แปลง ACF ที่เกี่ยวข้อง: ฉันรู้ว่าแผนการนั้นถูกต้องและฉันถูกขอให้ "แสดงความคิดเห็นกับพวกเขา" ผมค่อนข้างใหม่ในฟังก์ชั่นอัตและฉันไม่ได้อย่างสิ้นเชิงแน่ใจว่าสิ่งที่มันบอกฉันเกี่ยวกับข้อมูลของฉัน หากใครสามารถใช้เวลาอธิบายสั้น ๆ มันจะได้รับการชื่นชมอย่างมาก

11 r self-study data-visualization autocorrelation

2

เป็นวิธีที่ดีที่สุดในการมองเห็นผลกระทบของหมวดหมู่และความชุกของพวกเขาในการถดถอยโลจิสติกคืออะไร?

ฉันต้องนำเสนอข้อมูลเกี่ยวกับตัวทำนายหลักของการลงคะแนนของผู้สมัครโดยใช้ข้อมูลการสำรวจความคิดเห็นสาธารณะ ฉันใช้การถดถอยโลจิสติกโดยใช้ตัวแปรทั้งหมดที่ฉันสนใจ แต่ฉันไม่สามารถหาวิธีที่ดีในการนำเสนอข้อมูลนี้ ลูกค้าของฉันไม่สนใจขนาดของเอฟเฟกต์เท่านั้น แต่เกี่ยวกับการโต้ตอบระหว่างขนาดของเอฟเฟกต์และขนาดของประชากรด้วยคุณลักษณะดังกล่าว ฉันจะจัดการกับสิ่งนั้นในกราฟได้อย่างไร ข้อเสนอแนะใด ๆ นี่คือตัวอย่าง: ของเพศตัวแปร (ชาย = 1) เมื่อตัวแปรตามคือโหวต / ไม่ได้อยู่ในผู้สมัครคือ 2.3 ซึ่งเป็นจำนวนมากหลังจากถูก exponentiated และถือว่าเป็นอัตราส่วนราคาต่อรองหรือความน่าจะเป็น อย่างไรก็ตามสังคมที่ดำเนินการสำรวจนี้มีเพียงผู้ชาย 30% ดังนั้นแม้ว่ามนุษย์จะสนับสนุนผู้สมัครคนนี้ค่อนข้างมาก แต่ตัวเลขของพวกเขาไม่มีความสำคัญสำหรับผู้สมัครที่พยายามชนะการเลือกตั้งที่สำคัญββ\beta

11 logistic data-visualization survey

3

โมดูลาร์เครือข่ายของนิวแมนใช้งานได้กับกราฟน้ำหนักที่ลงนามแล้วหรือไม่?

ต้นแบบของกราฟถูกกำหนดไว้ในตัวหน้าวิกิพีเดีย ในการโพสต์ที่แตกต่างกันบางคนอธิบายว่า modularity สามารถคำนวณได้ง่าย (และขยายใหญ่สุด) สำหรับเครือข่ายที่มีน้ำหนักเนื่องจากเมทริกซ์ adjacencyสามารถมีความสัมพันธ์ที่มีคุณค่า อย่างไรก็ตามฉันต้องการทราบว่าสิ่งนี้จะใช้ได้กับขอบที่มีการเซ็นชื่อและมีค่าเช่นตั้งแต่ -10 ถึง +10 คุณสามารถให้สัญชาติญาณพิสูจน์หรืออ้างอิงถึงปัญหานี้ได้หรือไม่?AฉันเจAijA_{ij}

11 clustering data-visualization networks partitioning modularity

2

มันหมายความว่าอย่างไรเมื่อทุกขอบในเครือข่าย / กราฟในโลกแห่งความเป็นจริงมีความเป็นไปได้ที่จะเกิดขึ้นโดยบังเอิญ

ฉันใช้วิธีการแยกเครือข่ายกระดูกสันหลังที่ระบุไว้ในบทความนี้: http://www.pnas.org/content/106/16/6483.abstract โดยทั่วไปผู้เขียนเสนอวิธีการตามสถิติที่ก่อให้เกิดความน่าจะเป็นสำหรับแต่ละขอบของกราฟที่เกิดขึ้นโดยบังเอิญ ฉันใช้การตัดนัยสำคัญทางสถิติทั่วไปที่ 0.05 ฉันใช้วิธีนี้กับเครือข่ายในโลกแห่งความจริงหลายแห่งและบางเครือข่ายก็น่าสนใจที่ไม่มีอะไรจะสำคัญ ฉันพยายามที่จะเข้าใจว่าสิ่งนี้เกี่ยวข้องกับเครือข่าย เวลาอื่นที่ฉันใช้วิธีการกับเครือข่ายและไม่มีขอบออกมาเป็นสำคัญคือเมื่อฉันใช้วิธีการกับเครือข่ายแบบสุ่มที่ฉันสร้างขึ้นซึ่งเป็นสิ่งที่เราคาดหวัง ในฐานะที่เป็นตัวอย่างเครือข่ายโลกแห่งความจริงคุณอาจเห็นภาพเครือข่ายล่าสุดที่เกิดขึ้นกับนักเศรษฐศาสตร์ซึ่งแสดงให้เห็นถึงการแบ่งขั้วของวุฒิสภาสหรัฐอเมริกาในช่วง 25 ปีที่ผ่านมา: http://www.economist.com/news/united-states/21591190 -United ฉันใช้วิธีการแยกเครือข่ายกระดูกสันหลังกับเครือข่ายเหล่านั้นและไม่มีขอบปรากฏขึ้นอย่างมีนัยสำคัญ ถึงแม้ว่าขอบดิบจะแสดงสิ่งที่แนบและการจัดกลุ่มแบบพิเศษ แต่ก็เป็นไปได้หรือไม่ เครือข่ายการลงคะแนนของวุฒิสภาเป็นแบบสุ่มหรือไม่

11 probability statistical-significance data-visualization graph-theory networks

3

วิธีการฉายอวกาศมิติสูงในระนาบสองมิติ?

ฉันมีชุดของจุดข้อมูลในช่องว่าง N- มิติ นอกจากนี้ฉันยังมีเซนทรอยด์ในพื้นที่ N-มิติเดียวกัน มีวิธีใดบ้างที่อนุญาตให้ฉันฉายจุดข้อมูลเหล่านี้ลงในพื้นที่สองมิติในขณะที่เก็บข้อมูลระยะทางสัมพัทธ์ไว้ในพื้นที่เดิม PCA ถูกต้องหรือไม่

11 data-visualization pca multidimensional-scaling

8

การแสดงข้อมูลมิติสูง

ฉันมีตัวอย่างของสองคลาสซึ่งเป็นเวกเตอร์ในพื้นที่มิติสูงและฉันต้องการพล็อตพวกมันใน 2D หรือ 3D ฉันรู้เกี่ยวกับเทคนิคการลดขนาด แต่ฉันต้องการเครื่องมือที่ง่ายและใช้งานง่าย (ใน matlab, python หรือ. exe ที่สร้างไว้ล่วงหน้า) นอกจากนี้ฉันสงสัยว่าการเป็นตัวแทนใน 2D จะเป็น "ความหมาย" หรือไม่? (ตัวอย่างเช่นวิธีที่สองคลาสตัดกันหรือสามารถแยกได้)

11 data-visualization matlab python dimensionality-reduction

2

การสร้างภาพข้อมูลที่ดีสำหรับการถดถอยของปัวซองคืออะไร

ฉันต้องการเชื่อมโยงข้อบกพร่องของรหัสเข้ากับการวัดความซับซ้อนของรหัสเช่นความใกล้ชิด แบบจำลองทั่วไปอย่างหนึ่งคือการดูสิ่งนี้เป็นกระบวนการปัวซองซึ่งระยะเวลาคือเวลาที่ใช้ในการเข้ารหัสและความหนาแน่นเป็นฟังก์ชันของความซับซ้อนของรหัส ฉันสามารถทำการถดถอยและรับค่านัยสำคัญเป็นต้น อย่างไรก็ตามมันยากสำหรับฉันที่จะเห็นภาพผลลัพธ์ (และยิ่งยากขึ้นสำหรับเพื่อนร่วมงานที่มีความโน้มเอียงทางคณิตศาสตร์ของฉัน) มีวิธีที่ดีในการดูสิ่งนี้เพื่อดูสิ่งต่าง ๆ เช่นค่าผิดปกติหรือไม่หากเป็นแนวโน้มเชิงเส้นเป็นต้น (ลิงก์ไปยังแพ็คเกจ R ได้รับการชื่นชม) ตัวอย่างเช่นฉันสามารถพล็อตได้Defects / Time ~ Complexityแต่มันค่อนข้างมีเสียงรบกวนและเนื่องจากDefectsมีการแบ่งแยกและมีขนาดเล็กมากจึงยากที่จะดูแนวโน้ม สิ่งหนึ่งที่ฉันคิดคือการที่ฉันสามารถแบ่งข้อมูลออกเป็นควอนไทล์แล้วทำการถดถอยต่อควอไทล์และวางแผนความหนาแน่นที่เกิดขึ้น - ฉันไม่แน่ใจว่ามันถูกต้องแค่ไหนโดยเฉพาะอย่างยิ่งเนื่องจากข้อมูลของฉันไม่ได้กระจายตามปกติ ผู้คนเข้าใจผิดเกี่ยวกับสิ่งที่เป็น quantile

11 regression data-visualization poisson-distribution

1

'bagplot' หรือ 'bivariate boxplot' คืออะไร?

ฉันพบกระดาษที่แนะนำ boxplot รุ่นหลายมิติ (ที่นี่) กระเป๋าใบนั้นคืออะไรกันแน่? ฉันสามารถเห็นชุดของรูปหลายเหลี่ยมซ้อนกันขึ้นอยู่กับจุดยอดหนึ่งในรูปหลายเหลี่ยมเหล่านั้นถูกประกาศให้เป็นกระเป๋า แนวคิดของการสร้างรูปหลายเหลี่ยมซ้อนกันคืออะไร รูปหลายเหลี่ยมใดที่เป็นรูปแบบถุง (กลางหรือถือจำนวนคะแนนเฉลี่ย) ขอบของกระเป๋ามีคุณสมบัติที่มีประโยชน์ (เช่นการแบ่งชุดจุดเฉพาะ) หรือไม่?

11 data-visualization bivariate boxplot

คำถามติดแท็ก data-visualization