สถิติและข้อมูลขนาดใหญ่ data-visualization

4

วิธีการเห็นภาพตัวอย่างการทดสอบสองตัวอย่าง

วิธีที่ได้รับการยอมรับมากที่สุดในการแสดงภาพผลลัพธ์ของการทดสอบตัวอย่างสองตัวอย่างที่เป็นอิสระคืออะไร ตารางตัวเลขใช้บ่อยขึ้นหรือมีการเรียงลำดับบางอย่างหรือไม่? เป้าหมายคือเพื่อให้ผู้สังเกตการณ์แบบชั่วคราวมองดูรูปและเห็นได้ทันทีว่าพวกเขาอาจมาจากประชากรสองกลุ่มที่แตกต่างกัน

11 data-visualization t-test

6

ฉันจะลดจำนวนจุดข้อมูลในชุดข้อมูลได้อย่างไร

ฉันไม่ได้เรียนสถิติมานานกว่า 10 ปี (แล้วก็เป็นหลักสูตรพื้นฐาน) ดังนั้นคำถามของฉันอาจจะยากที่จะเข้าใจ อย่างไรก็ตามสิ่งที่ฉันต้องการทำคือลดจำนวนจุดข้อมูลในชุดข้อมูล แกน x คือจำนวนมิลลิวินาทีนับตั้งแต่เริ่มต้นการวัดและแกน y คือการอ่านสำหรับจุดนั้น บ่อยครั้งที่มีจุดข้อมูลหลายพันจุด แต่ฉันอาจต้องการเพียงไม่กี่ร้อยเท่านั้น ดังนั้นคำถามของฉันคือฉันจะลดจำนวนจุดข้อมูลอย่างแม่นยำได้อย่างไร กระบวนการนี้เรียกว่าอะไร? (ดังนั้นฉันสามารถ google มัน) มีอัลกอริทึมที่ต้องการ (ฉันจะใช้มันใน C #) หวังว่าคุณจะได้เบาะแส ขออภัยสำหรับคำศัพท์ที่ไม่เหมาะสม แก้ไข: รายละเอียดเพิ่มเติมมาที่นี่: ข้อมูลดิบที่ฉันได้รับคือข้อมูลอัตราการเต้นของหัวใจและในรูปของจำนวนมิลลิวินาทีนับตั้งแต่จังหวะสุดท้าย ก่อนทำการพล็อตข้อมูลฉันคำนวณจำนวนมิลลิวินาทีจากตัวอย่างแรกและ bpm (จำนวนครั้งต่อนาที) ที่จุดข้อมูลแต่ละจุด (60000 / timesincelastbeat) ฉันต้องการที่จะเห็นภาพข้อมูลเช่นพล็อตมันในกราฟเส้น ฉันต้องการลดจำนวนคะแนนในกราฟจากหลายพันเป็นหลายร้อย ทางเลือกหนึ่งคือการคำนวณ bpm เฉลี่ยสำหรับทุก ๆ วินาทีในซีรีย์หรืออาจจะทุกๆ 5 วินาทีหรือมากกว่านั้น นั่นคงง่ายมากถ้าฉันรู้ว่าฉันจะมีตัวอย่างอย่างน้อยหนึ่งรายการสำหรับแต่ละช่วงเวลาเหล่านั้น (วินาทีของช่วงเวลา 5 วินาที)

11 data-visualization

2

Paradox ของ Simpson ครอบคลุมการกลับรายการทั้งหมดจากตัวแปรที่ซ่อนอยู่หรือไม่?

ต่อไปนี้เป็นคำถามเกี่ยวกับการสร้างภาพข้อมูลจำนวนมากที่เสนอเป็น 'พิสูจน์ด้วยภาพ' ของการดำรงอยู่ของบุคคลที่ผิดธรรมดาของ Simpson และอาจเป็นคำถามเกี่ยวกับคำศัพท์ ซิมป์สัน Paradox เป็นปรากฏการณ์ที่ค่อนข้างง่ายที่จะอธิบายและยกตัวอย่างตัวเลขของ (เหตุผลที่ว่าทำไมนี้สามารถเกิดขึ้นได้เป็นลึกและน่าสนใจ) ความขัดแย้งก็คือมีตารางฉุกเฉิน 2x2x2 อยู่ (Agresti, การวิเคราะห์ข้อมูลอย่างมีหมวดหมู่) ซึ่งสมาคมร่อแร่มีทิศทางที่แตกต่างจากความสัมพันธ์ตามเงื่อนไข นั่นคือการเปรียบเทียบอัตราส่วนในสองประชากรย่อยสามารถไปในทิศทางเดียว แต่การเปรียบเทียบในประชากรที่รวมกันไปในทิศทางอื่น ในสัญลักษณ์: มีเช่นนั้น a + ba , b , c , d, e , f, g, ชั่วโมงa,b,c,d,e,f,g,ha,b,c,d,e,f,g,ha + bc + d> e + fก.+ ชมa+bc+d>e+fg+h \frac{a+b}{c+d} > \frac{e+f}{g+h} แต่ และaค< eก.ac<eg \frac{a}{c} < \frac{e}{g} …

10 mathematical-statistics data-visualization causality contingency-tables simpsons-paradox

1

พล็อตกล่องมีรอยหยักเมื่อเทียบกับช่วง Tukey-Kramer

"การบาก" เอกสารความช่วยเหลือ ( หรือข้อความเดิม ) จาก Boxplot ใน 'R' ให้ต่อไปนี้: หากรอยหยักของสองแปลงไม่ทับซ้อนกันนี่คือ 'หลักฐานที่ชัดเจน' ซึ่งสื่อกลางทั้งสองนั้นต่างกัน (Chambers et al, 1983, p. 62) ดู boxplot.stats สำหรับการคำนวณที่ใช้ และ ' boxplot.stats ' ให้สิ่งต่อไปนี้: รอยหยัก (ถ้ามีการร้องขอ) ขยายไปถึง +/- 1.58 IQR / sqrt (n) สิ่งนี้น่าจะเป็นไปตามการคำนวณแบบเดียวกับสูตรที่มี 1.57 ใน Chambers et al (1983, p. 62) ที่กำหนดใน McGill et al (1978, …

10 data-visualization median boxplot tukey-hsd

1

การพล็อตค่าที่คาดการณ์ไว้ในอนุกรมเวลา ARIMA ใน R

มีความเป็นไปได้มากกว่าหนึ่งความเข้าใจผิดที่ร้ายแรงในคำถามนี้ แต่มันไม่ได้หมายถึงการได้รับการคำนวณที่ถูกต้อง แต่เพื่อกระตุ้นการเรียนรู้ของอนุกรมเวลาที่มีความสำคัญในใจ ในการพยายามที่จะเข้าใจการประยุกต์ใช้อนุกรมเวลาดูเหมือนว่าการตัดแนวโน้มข้อมูลทำให้การคาดการณ์ค่าในอนาคตไม่น่าเชื่อถือ ตัวอย่างเช่นgtempอนุกรมเวลาจากastsaแพ็คเกจมีลักษณะดังนี้: แนวโน้มสูงขึ้นในทศวรรษที่ผ่านมาจะต้องมีการแยกตัวประกอบในเมื่อวางแผนการทำนายค่าในอนาคต อย่างไรก็ตามเพื่อประเมินความผันผวนของอนุกรมเวลาข้อมูลจำเป็นต้องถูกแปลงเป็นอนุกรมเวลาคงที่ ถ้าผมรูปแบบมันเป็นกระบวนการ ARIMA กับ differencing (ฉันเดานี้จะดำเนินการเพราะของกลาง1ในorder = c(-, 1, -)) เช่น: require(tseries); require(astsa) fit = arima(gtemp, order = c(4, 1, 1)) แล้วพยายามทำนายค่าในอนาคต ( ปี) ฉันคิดถึงองค์ประกอบแนวโน้มสูงขึ้น:505050 pred = predict(fit, n.ahead = 50) ts.plot(gtemp, pred$pred, lty = c(1,3), col=c(5,2)) โดยไม่จำเป็นต้องสัมผัสกับการเพิ่มประสิทธิภาพที่แท้จริงของพารามิเตอร์ ARIMA โดยเฉพาะ ฉันจะกู้คืนแนวโน้มขาขึ้นในส่วนที่คาดการณ์ของพล็อตได้อย่างไร ฉันสงสัยว่าจะมี "ซ่อน" ของ …

10 r time-series data-visualization

2

พล็อตประเภทนี้เรียกว่าอะไรกับแถบความหนาแน่นแนวนอนที่อยู่กึ่งกลางด้านข้าง

สิ่งที่คุณจะเรียกว่าพล็อตประเภทนี้และเป็นไปได้ที่จะสร้างพวกเขาใน R? แก้ไข: ขอบคุณมากทุกคน - เป็นประโยชน์มาก ชื่อที่ดีที่สุดจนถึงตอนนี้: แปลงไวโอลินเชิงปริมาณ!

10 r data-visualization

1

PCA มีความหมายว่าอย่างไรในการรักษาระยะทางคู่ที่มีขนาดใหญ่เท่านั้น?

ขณะนี้ฉันกำลังอ่านเทคนิคการสร้างภาพข้อมูล t-SNE และได้มีการกล่าวว่าหนึ่งในข้อเสียของการใช้การวิเคราะห์องค์ประกอบหลัก (PCA) สำหรับการแสดงข้อมูลมิติสูงคือการรักษาระยะห่างระหว่างจุดสองจุดขนาดใหญ่เท่านั้น จุดความหมายที่อยู่ห่างกันในพื้นที่มิติสูงก็จะปรากฏห่างกันในพื้นที่ย่อยต่ำ แต่นอกเหนือจากนั้นระยะทางคู่อื่น ๆ ทั้งหมดจะได้รับการเมาขึ้น ใครช่วยให้ฉันเข้าใจว่าทำไมมันถึงเป็นเช่นนั้นและมันหมายถึงอะไร?

10 machine-learning data-visualization pca tsne

1

ชี้แจงเกี่ยวกับการอ่านคำย่อ

ต่อไปนี้เป็น Nomogram ที่สร้างขึ้นจากชุดข้อมูล mtcars พร้อมแพ็กเกจ rms สำหรับสูตร: mpg ~ wt + am + qsec ตัวแบบนั้นดูดีด้วย R2 ที่ 0.85 และ P <0.00001 > mod Linear Regression Model ols(formula = mpg ~ wt + am + qsec, data = mtcars) Model Likelihood Discrimination Ratio Test Indexes Obs 32 LR chi2 60.64 R2 …

10 regression multiple-regression data-visualization predictive-models regression-strategies

3

วิธีการและตัวอย่างของการจัดกลุ่มกราฟใน“ R”

ฉันกำลังมองหาการจัดกลุ่ม / ผสานโหนดในกราฟโดยใช้การจัดกลุ่มกราฟใน 'r' นี่คือรูปแบบของเล่นที่น่าทึ่งของปัญหาของฉัน มี "กลุ่ม" สอง มี "สะพาน" เชื่อมต่อกับกลุ่ม นี่คือเครือข่ายผู้สมัคร: เมื่อฉันดูระยะการเชื่อมต่อ "hopcount" ถ้าคุณต้องการฉันจะได้เมทริกซ์ต่อไปนี้: mymatrix <- rbind( c(1,1,2,3,3,3,2,1,1,1), c(1,1,1,2,2,2,1,1,1,1), c(2,1,1,1,1,1,1,1,2,2), c(3,2,1,1,1,1,1,2,3,3), c(3,2,1,1,1,1,1,2,3,3), c(3,2,1,1,1,1,1,2,2,2), c(2,1,1,1,1,1,1,1,2,2), c(1,1,1,2,2,2,1,1,1,1), c(1,1,2,3,3,2,2,1,1,1), c(1,1,2,3,3,2,2,1,1,1)) ความคิดที่นี่: โชคหรือเนื่องจากความเรียบง่ายของของเล่นเมทริกซ์มีแพทช์ที่เห็นได้ชัดนี่ไม่ใช่กรณีในเมทริกซ์ (ใหญ่มาก) ถ้าฉันสุ่มความสัมพันธ์ระหว่างจุดกับแถวมันจะไม่สะอาด ฉันอาจจะผิดหนึ่ง - ดังนั้นถ้าฉันพิมพ์ผิดแจ้งให้ฉันทราบ Hop-count ที่นี่คือจำนวน hops ที่สั้นที่สุดเพื่อเชื่อมต่อจุดบนแถว i กับจุดบนคอลัมน์ j การกระโดดด้วยตัวเองยังคงเป็นการกระโดดดังนั้นเส้นทแยงมุมจึงเป็นเส้นโค้งทั้งหมด ดังนั้นในเมทริกซ์นี้ระยะทางที่มากขึ้น (ฮ็อพ) มีจำนวนมาก ถ้าฉันต้องการเมทริกซ์ที่แสดง "การเชื่อมต่อ" แทนระยะทางฉันสามารถทำ dot-inverse …

10 r clustering data-visualization numerics

2

วิธีการมองเห็นเปอร์เซ็นต์เปรียบเทียบกับจำนวนรายการ

ฉันกำลังพยายามหาวิธีที่ดีที่สุดในการมองเห็นแผนภูมิด้านล่างและเน้นประสิทธิภาพของการรักษาตามที่ระบุไว้กับจำนวนผู้ป่วยที่พยายามรักษา นี่คือลิงค์ไปยังหน้าจริง: http://curetogether.com/cluster-headaches/treatments/ อะไรคือวิธีที่ดีที่สุดในการเน้นประสิทธิภาพในขณะที่ยังคงเปรียบเทียบการรักษาได้ง่ายและดูว่าผู้ป่วยแต่ละรายให้คะแนนเท่าใด ความคิดของฉันคือการแสดงประสิทธิภาพเป็นเปอร์เซ็นต์ แต่ฉันไม่แน่ใจว่าจะทำให้พวกเขาเปรียบเทียบได้ง่ายและแสดงจำนวนผู้ป่วยที่ลองแต่ละวิธี ขอบคุณ!

10 data-visualization pie-chart

3

วิธีการดึงข้อมูลจากเมทริกซ์สแคทเทอร์พล็อตเมื่อคุณมี N ขนาดใหญ่ข้อมูลแยกและตัวแปรจำนวนมาก

ฉันกำลังเล่นกับชุดข้อมูลมะเร็งเต้านมและสร้าง scatterplot ของคุณลักษณะทั้งหมดเพื่อให้ได้ไอเดียว่าอันไหนมีผลมากที่สุดในการทำนายคลาสmalignant(สีน้ำเงิน) ของbenign(สีแดง) ฉันเข้าใจว่าแถวนั้นแทนแกน x และคอลัมน์แทนแกน y แต่ฉันไม่เห็นว่าการสังเกตใดที่ฉันสามารถทำได้เกี่ยวกับข้อมูลหรือคุณลักษณะจากสแกตเตอร์แปลงนี้ ฉันกำลังมองหาความช่วยเหลือในการตีความ / ทำการสังเกตเกี่ยวกับข้อมูลจาก scatterplot นี้หรือถ้าฉันควรใช้การสร้างภาพข้อมูลอื่น ๆ เพื่อให้เห็นภาพข้อมูลนี้ ฉันใช้รหัส R link <- "http://www.cs.iastate.edu/~cs573x/labs/lab1/breast-cancer-wisconsin.arff" breast <- read.arff(link) cols <- character(nrow(breast)) cols[] <- "black" cols[breast$class == 2] <- "red" cols[breast$class == 4] <- "blue" pairs(breast, col=cols)

10 r data-visualization interpretation scatterplot

1

การแสดงภาพการแจกแจงแบบเบ้ซ้ายจำนวนมาก

ฉันมีชุดของการแจกแจงแบบเบ้ซ้าย / หนักที่ฉันต้องการแสดง 42 มีการกระจายทั่วทั้งสามปัจจัยคือ (ระบุว่าเป็นA, BและCด้านล่าง) Bนอกจากนี้การเปลี่ยนแปลงจะหดตัวทั่วปัจจัย ปัญหาที่ฉันมีคือการกระจายยากที่จะแยกความแตกต่างในระดับของผลลัพธ์ (อัตราส่วนหรือพับเปลี่ยน): ดูเหมือนว่าการบันทึกข้อมูลจะเน้นไปที่ความเบ้ด้านซ้ายและย้ายตัวอย่างไปที่ก้อยมากขึ้น (สร้างจุดที่ผิดพลาด) ใครบ้างมีคำแนะนำเกี่ยวกับเทคนิคอื่น ๆ สำหรับการแสดงข้อมูลเหล่านี้?

10 data-visualization multivariate-analysis heteroscedasticity skewness boxplot

2

พล็อตสถิติสรุปด้วย Mean, sd, min และ max?

ฉันมาจากพื้นหลังทางเศรษฐศาสตร์และมักจะอยู่ในวินัยสถิติสรุปของตัวแปรที่มีการรายงานในตาราง อย่างไรก็ตามฉันต้องการพล็อตพวกเขา ฉันสามารถแก้ไขพล็อตกล่องเพื่อให้สามารถแสดงค่าเฉลี่ยส่วนเบี่ยงเบนมาตรฐานต่ำสุดและสูงสุด แต่ฉันไม่ต้องการทำเช่นนั้นเนื่องจากพล็อตกล่องถูกใช้เพื่อแสดงค่ามัธยฐานและ Q1 และ Q3 ตัวแปรทั้งหมดของฉันมีสเกลต่างกัน มันจะดีถ้ามีคนแนะนำวิธีที่มีความหมายโดยที่ฉันสามารถวางแผนสถิติสรุปเหล่านี้ได้ ฉันสามารถทำงานกับ R หรือ Stata ได้

10 r data-visualization boxplot

2

สำรวจเมทริกซ์กระจาย - พล็อตสำหรับตัวแปรมากมาย

ฉันกำลังวิเคราะห์ชุดข้อมูลที่มีพารามิเตอร์หลายตัว (เช่น 50-200) และฉันสนใจที่จะดูความสัมพันธ์ระหว่างตัวแปร (เช่นในแง่ของแผนการกระจาย 2 ตัวแปรหรือ 2d ฮิสโทแกรม) อย่างไรก็ตามสำหรับพารามิเตอร์จำนวนนี้ดูเหมือนว่าเป็นไปไม่ได้ที่จะวาดพล็อตอาเรย์ 200x200 (เว้นแต่ฉันจะพิมพ์และแขวนบนผนัง) ในทางตรงกันข้ามการทำเพียงแค่เมทริกซ์สหสัมพันธ์นั้นไม่ได้ให้ข้อมูลทั้งหมดเกี่ยวกับความสัมพันธ์ 2 ตัวแปร มีวิธี (ไลบรารีหรือเวิร์กโฟลว์) ในการสำรวจความสัมพันธ์ 2 ตัวแปรสำหรับตัวแปรหลายตัวหรือไม่ ฉันสนใจที่จะแสดงผลลัพธ์ให้ผู้อื่นโดยเฉพาะอย่างยิ่ง (บางทีหลังจากการประมวลผลข้อมูลล่วงหน้า) เช่นสิ่งที่มีการโต้ตอบใน JavaScript ฉันสามารถเห็นเมทริกซ์กระจาย - พล็อตสำหรับเขตข้อมูลที่เลือกจากเมทริกซ์สหสัมพันธ์ โดยเมทริกซ์การกระจาย - พล็อตฉันหมายถึงสิ่งที่ต้องการ: (นำมาจากบล็อก pandasplotting ; สามารถใช้งานได้ในPython / Pandas , R , D3.jsฯลฯ )

10 correlation data-visualization multivariate-analysis scatterplot

3

วิธีการเห็นภาพความดีแบบเบย์ของความเหมาะสมสำหรับการถดถอยโลจิสติก

สำหรับปัญหาการถดถอยแบบลอจิสติกแบบเบย์ฉันได้สร้างการแจกแจงการคาดการณ์หลัง ฉันสุ่มตัวอย่างจากการแจกแจงแบบคาดการณ์และได้รับตัวอย่างจำนวนมาก (0,1) สำหรับการสังเกตแต่ละครั้งที่ฉันมี การแสดงให้เห็นถึงความดีงามของพอดีนั้นน้อยกว่าที่น่าสนใจตัวอย่างเช่น พล็อตนี้แสดงตัวอย่าง 10,000 ตัวอย่าง + จุดข้อมูลที่สังเกตได้ (วิธีทางซ้ายสามารถสร้างเส้นสีแดงได้: ใช่แล้วนั่นคือการสังเกต) ปัญหาคือว่าพล็อตนี้ไม่ค่อยให้ข้อมูลและฉันจะมี 23 อันหนึ่งอันสำหรับแต่ละจุดข้อมูล มีวิธีที่ดีกว่าในการมองเห็นจุดข้อมูล 23 จุดพร้อมตัวอย่างหลังหรือไม่ ความพยายามอื่น: ความพยายามอื่นขึ้นอยู่กับกระดาษที่นี่

10 bayesian data-visualization classification goodness-of-fit binary-data

คำถามติดแท็ก data-visualization