คำถามติดแท็ก descriptive-statistics

สถิติเชิงพรรณนาสรุปคุณสมบัติของกลุ่มตัวอย่างเช่นค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานค่ามัธยฐานและค่าควอไทล์สูงสุดและต่ำสุด ด้วยตัวแปรหลายตัวอาจรวมความสัมพันธ์และแท็บไขว้ สามารถรวมการแสดงภาพ - boxplots, ฮิสโทแกรม, scatterplots และอื่น ๆ

4
จะสรุปข้อมูลหมวดหมู่ได้อย่างไร
ฉันได้รับการดิ้นรนกับปัญหาต่อไปนี้ด้วยความหวังเป็นเรื่องง่ายสำหรับนักสถิติ (ฉันเป็นโปรแกรมเมอร์ที่มีการสัมผัสกับสถิติบางอย่าง) ฉันต้องสรุปคำตอบของแบบสำรวจ (สำหรับการจัดการ) แบบสำรวจมีคำถามมากกว่า 100 ข้อจัดกลุ่มในพื้นที่ต่าง ๆ (มีประมาณ 5 ถึง 10 คำถามต่อพื้นที่) คำตอบทั้งหมดเป็นหมวดหมู่ (ในระดับปกติพวกเขาเป็นเหมือน "ไม่เลย", "ไม่ค่อย" ... "รายวันหรือบ่อยกว่า") ฝ่ายบริหารต้องการที่จะได้รับการสรุปสำหรับแต่ละพื้นที่และนี่คือปัญหาของฉัน: วิธีการรวมคำตอบที่เป็นหมวดหมู่ภายในคำถามที่เกี่ยวข้อง? . คำถามมีมากเกินกว่าที่จะสร้างกราฟหรือแม้แต่พล็อตขัดแตะสำหรับแต่ละพื้นที่ ฉันชอบวิธีการใช้ภาพหากเป็นไปได้เปรียบเทียบกับพูดด้วยตารางที่มีตัวเลข (อนิจจาพวกเขาจะไม่อ่าน) สิ่งเดียวที่ฉันสามารถทำได้คือการนับจำนวนคำตอบในแต่ละพื้นที่จากนั้นพล็อตกราฟ มีอะไรอีกบ้างที่ใช้ได้สำหรับข้อมูลที่เป็นหมวดหมู่? ฉันใช้ R แต่ไม่แน่ใจว่าเกี่ยวข้องหรือไม่ฉันรู้สึกว่านี่เป็นคำถามทั่วไปเกี่ยวกับสถิติมากกว่า

2
สัมประสิทธิ์ของลูกเต๋าเหมือนกับความถูกต้องหรือไม่?
ผมเจอค่าสัมประสิทธิ์ลูกเต๋าสำหรับความคล้ายคลึงกันเสียง ( https://en.wikipedia.org/wiki/S%C3%B8rensen%E2%80%93Dice_coefficient ) และความถูกต้อง ( https://en.wikipedia.org/wiki/Accuracy_and_precision ) สำหรับฉันแล้วดูเหมือนว่ามาตรการทั้งสองนี้เหมือนกัน ความคิดใด ๆ

1
ถ้าการกระจายตัวของสถิติทดสอบเป็น bimodal, p-value จะมีความหมายอะไรไหม?
P-value ถูกกำหนดความน่าจะเป็นที่จะได้รับสถิติการทดสอบอย่างน้อยที่สุดเท่าที่จะสังเกตได้โดยสมมติว่าสมมติฐานว่างเป็นจริง ในคำอื่น ๆ P( X≥ t | H0)P(X≥t|H0)P( X \ge t | H_0 ) แต่จะเป็นอย่างไรถ้าสถิติการทดสอบนั้นมีค่า bimodal ในการแจกแจง? p-value มีความหมายอะไรในบริบทนี้หรือไม่? ตัวอย่างเช่นฉันจะจำลองข้อมูล bimodal ใน R: set.seed(0) # Generate bi-modal distribution bimodal <- c(rnorm(n=100,mean=25,sd=3),rnorm(n=100,mean=100,sd=5)) hist(bimodal, breaks=100) และสมมติว่าเราสังเกตค่าสถิติทดสอบ 60 และที่นี่เรารู้จากภาพค่านี้ไม่น่ามาก ดังนั้นฉันต้องการให้ขั้นตอนสถิติที่ฉันใช้ (พูด p-value) เปิดเผยสิ่งนี้ แต่ถ้าเราคำนวณค่า p ตามที่กำหนดเราจะได้ค่าสูงมาก observed <- 60 # Get P-value …

2
สถิติพิซซ่าสำหรับฝูง
ข้อมูลสั้น ๆ เกี่ยวกับเว็บไซต์ NY Times นำเสนอข้อเท็จจริงและตัวเลขการบริโภคพิซซ่าในสหรัฐอเมริกา ฉันมีความสนใจในการใช้สถิติ (หรือถูกทารุณกรรม) เพื่อให้ข้อมูลแก่ผู้ชมทั่วไปและคำถามสองสามข้อได้เกิดขึ้นตามสถิติที่นำเสนอ: ถ้าคนอเมริกัน 1 ใน 8 คนจะกินพิซซ่าในวันนี้นั่นหมายความว่าคนอเมริกันโดยเฉลี่ยจะกินพิซซ่าทุกๆ 8 วันหรือไม่? มีสมมติฐานว่าที่นี่ทุกคนอเมริกันกินพิซซ่าซึ่งไม่ใช่กรณี; อย่างไรก็ตามนั่นทำให้เกิดคำถามว่าจะทำให้สมมติฐานที่ถูกต้องของจำนวนชาวอเมริกันที่กินพิซซ่า มีรายงานว่า 25% ของการบริโภคแคลอรี่ของเด็กคือพิซซ่า ฉันจะให้คำจำกัดความของเด็กอายุ 9 ขวบที่มีความกระตือรือร้นปานกลางดังนั้นจึงจำเป็นต้องได้รับแคลอรี่ 2,000 ครั้งต่อวัน หากเราเชื่อมั่นในการประมาณการของ Google ว่าจำนวนแคลอรี่ในชิ้นพิซซ่าเท่ากับ 285 แสดงว่าแนะนำให้เด็กกินพิซซ่า 12 ชิ้นต่อสัปดาห์โดยเฉลี่ยหรือไม่ (2000 * 7 * 0.25 / 285) ฉันสงสัยว่าการตีความสถิติของฉันมีข้อบกพร่อง ฉันไม่เห็นด้วยหรอกว่าเด็ก ๆ อาจเป็นส่วนหนึ่งของชาวอเมริกัน 1 ใน 8 คนที่กินพิซซ่าวันนี้ในขณะที่กินวันละ 1.7 ชิ้นต่อวันเพื่อให้ได้ปริมาณแคลอรี่ …

6
การวัดที่แข็งแกร่ง (ไม่ใช่พารามิเตอร์) เช่นค่าสัมประสิทธิ์การแปรผัน - IQR / ค่ามัธยฐานหรือทางเลือก?
สำหรับชุดข้อมูลที่กำหนดการแพร่กระจายมักจะคำนวณเช่นค่าเบี่ยงเบนมาตรฐานหรือเป็น IQR (ช่วงควอไทล์ระหว่าง) ในขณะที่ a standard deviationอยู่ในเกณฑ์ปกติ (คะแนน z, ฯลฯ ) และสามารถนำมาใช้เพื่อเปรียบเทียบการแพร่กระจายจากประชากรสองกลุ่มที่แตกต่างกันนี่ไม่ใช่กรณีที่มี IQR เนื่องจากตัวอย่างจากประชากรสองคนที่แตกต่างกันอาจมีค่าในระดับที่แตกต่างกันสองระดับ e.g. Pop A: 100, 67, 89, 75, 120, ... Pop B: 19, 22, 43, 8, 12, ... สิ่งที่ฉันตามมาคือการวัดที่แข็งแกร่ง (ไม่ใช่พารามิเตอร์) ที่ฉันสามารถใช้เพื่อเปรียบเทียบการเปลี่ยนแปลงภายในประชากรที่แตกต่างกัน ทางเลือกที่ 1: IQR / Median- นี้จะเป็นโดยการเปรียบเทียบกับค่าสัมประสิทธิ์ของการเปลี่ยนแปลงคือการหมู่}σμσμ \frac{\sigma}{\mu} ตัวเลือก 2: Range / IQR คำถาม: มาตรการใดที่มีความหมายมากขึ้นสำหรับการเปรียบเทียบความแปรปรวนระหว่างประชากร? และถ้าเป็นตัวเลือกที่ 1 …

2
จะประเมินควอไทล์ที่สามของข้อมูลที่ถูกรวมเป็นอย่างไร
มีเคล็ดลับทางเทคนิคในการกำหนดควอไทล์ที่สามหรือไม่ถ้ามันเป็นช่วงเวลาเปิดซึ่งมีจำนวนมากกว่าหนึ่งในสี่ของประชากร (ดังนั้นฉันจึงไม่สามารถปิดช่วงเวลาและใช้สูตรมาตรฐานได้) แก้ไข ในกรณีที่ฉันเข้าใจผิดบางสิ่งฉันจะให้บริบทเต็มรูปแบบไม่มากก็น้อย ฉันมีข้อมูลที่จัดเรียงในตารางที่มีสองคอลัมน์และพูดว่า 6 แถว ด้วยแต่ละคอลัมน์จะสอดคล้องกับช่วงเวลา (ในคอลัมน์แรก) และปริมาณของประชากรที่ "เป็น" กับช่วงเวลานั้น ช่วงเวลาสุดท้ายเปิดและมีประชากรมากกว่า 25% ช่วงเวลาทั้งหมด (ยกเว้นช่วงสุดท้าย) มีช่วงเดียวกัน ข้อมูลตัวอย่าง (แสดงเพื่อการนำเสนอ): Column 1: (6;8),(8;10),(10;12),(12;14),(14;16),(16;∞) Column 2: 51, 65, 68, 82, 78, 182 คอลัมน์แรกจะถูกตีความเป็นช่วงระดับรายได้ ที่สองคือการตีความว่าเป็นจำนวนพนักงานที่มีรายได้เป็นช่วงเวลา สูตรมาตรฐานที่ฉันคิดคือ{3}}Q3=xQ3+3N4−∑k−1i=1ninQ3rQ3Q3=xQ3+3N4−∑i=1k−1ninQ3rQ3\mathbb{Q}_{3}=x_{Q_{3}}+ \frac{\frac{3N}{4}- \sum_{i=1}^{k-1}n_{i}}{n_{Q_{3}}}r_{Q_{3}}

3
ความแตกต่างคือสถิติสรุป: ค่าสัมประสิทธิ์จินีและส่วนเบี่ยงเบนมาตรฐาน
มีสถิติสรุปหลายอย่าง เมื่อคุณต้องการที่จะอธิบายการแพร่กระจายของการกระจายที่คุณสามารถใช้สำหรับตัวอย่างส่วนเบี่ยงเบนมาตรฐานหรือสัมประสิทธิ์จีนี ฉันรู้ว่าค่าเบี่ยงเบนมาตรฐานขึ้นอยู่กับแนวโน้มกลางนั่นคือการเบี่ยงเบนจากค่าเฉลี่ยและค่าสัมประสิทธิ์ Gini เป็นการวัดทั่วไปของการกระจายตัว ผมยังไม่ทราบว่าค่าสัมประสิทธิ์ Gini มีลดลงและผูกไว้บน [0 1] และค่าเบี่ยงเบนมาตรฐานไม่ได้ คุณสมบัติเหล่านี้เป็นสิ่งที่ดีที่จะรู้ แต่ความเข้าใจส่วนเบี่ยงเบนมาตรฐานสามารถให้ Gini ไม่สามารถและหนีบในทางกลับกันได้? ถ้าฉันต้องเลือกที่จะใช้หนึ่งในสองสิ่งที่เป็นประโยชน์ของการใช้หนึ่งเมื่อเทียบกับคนอื่นเมื่อมันเป็นข้อมูลและลึกซึ้ง

4
การใช้เดซิเบลในสถิติ
ฉันกำลังทำงานในโครงการที่เกี่ยวข้องกับการอ่านแท็ก RFID และเปรียบเทียบความแรงของสัญญาณที่ผู้อ่านเห็นเมื่อคุณเปลี่ยนการกำหนดค่าเสาอากาศ (จำนวนเสาอากาศ, ตำแหน่ง, ฯลฯ ... ) เป็นส่วนหนึ่งของโครงการฉันต้องเปรียบเทียบการตั้งค่าเพื่อดูว่ามีประสิทธิภาพมากที่สุด เป็นการดีที่ฉันจะสามารถทำการทดสอบ Unpaired t-Test หรือ ANOVA ระหว่างตำแหน่งเสาอากาศสองตำแหน่ง (หรือ MANOVA ระหว่างหลายตำแหน่ง) อย่างไรก็ตามเนื่องจากการตอบสนองอยู่ในเดซิเบลซึ่งเป็นลอการิทึมฉันสงสัยว่าวิธีที่ดีที่สุดในการดำเนินการต่อคืออะไร เป็นการดีที่สุดหรือไม่ที่จะแปลงผลลัพธ์ให้เป็นสเกลเชิงเส้นแล้วเปรียบเทียบโดยใช้หนึ่งในวิธีที่ฉันกล่าวถึงหรือฉันควรใช้เดซิเบลเนื่องจากมีการทดสอบทางสถิติที่แตกต่างกันเพื่อทำการเปรียบเทียบ

3
การพล็อตผลลัพธ์ที่มีค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานเท่านั้น
ฉันพยายามนึกภาพพล็อตที่เหมาะสมสำหรับการสังเกตในตารางวิธีการนี้และค่าเบี่ยงเบนมาตรฐานของคะแนนการเรียกคืน: จำควบคุมMean37SD8การทดลองMean21SD6ควบคุมการทดลองMeanSDMeanSDจำ378216\begin{array} {c|c c|c c|} & \text{Control} & & \text{Experimental} & \\ & \text{Mean} & \text{SD} &\text{Mean} &\text{SD} \\ \hline \text{Recall} & 37 & 8 & 21 & 6 \\ \hline \end{array} อะไรคือวิธีที่ดีที่สุดในการทำเช่นนั้น? แผนภูมิแท่งเป็นวิธีที่ดีหรือไม่ ฉันจะอธิบายค่าเบี่ยงเบนมาตรฐานในกรณีนั้นได้อย่างไร

2
พล็อต QQ ใน Python
ฉันสร้างพล็อต qq โดยใช้รหัสต่อไปนี้ ฉันรู้ว่าพล็อต qq ใช้เพื่อตรวจสอบว่ามีการเผยแพร่ข้อมูลตามปกติหรือไม่ คำถามของฉันคือสิ่งที่ป้ายแกน x และ y ระบุในพล็อต qq และค่า r กำลังสองที่ระบุคืออะไร? N = 1200 p = 0.53 q = 1000 obs = np.random.binomial(N, p, size = q)/N import scipy.stats as stats z = (obs-np.mean(obs))/np.std(obs) stats.probplot(z, dist="norm", plot=plt) plt.title("Normal Q-Q plot") plt.show() ฉันรู้แล้วว่ามีการอภิปรายเกี่ยวกับเรื่องqqแต่ฉันไม่เข้าใจแนวคิดของการสนทนา

5
“ Peakedness” ของฟังก์ชันความหนาแน่นของความน่าจะเป็นแบบเบ้
ฉันต้องการอธิบาย "ความแหลม" และ "ความหนักเบา" ของฟังก์ชันความหนาแน่นของความน่าจะเป็นแบบเบ้ คุณสมบัติที่ฉันต้องการจะอธิบายพวกเขาจะถูกเรียกว่า "kurtosis" หรือไม่? ฉันเคยเห็นเพียงคำว่า "kurtosis" ใช้สำหรับการแจกแจงแบบสมมาตรหรือไม่

1
กำลังค้นหากลุ่มควบคุมเทียบเคียงสำหรับกลุ่มการรักษาหรือไม่?
ฉันมีกลุ่มการรักษาขนาด 30 (30 โรงเรียนในแคลิฟอร์เนีย) ที่ใช้ซอฟต์แวร์เสริมทางคณิตศาสตร์ ในการวิเคราะห์อย่างง่ายฉันต้องการเปรียบเทียบการเจริญเติบโตทางคณิตศาสตร์เฉลี่ยของนักเรียนระหว่างกลุ่มการรักษาของเรากับกลุ่มควบคุมที่เปรียบเทียบกันได้ มีหลายโรงเรียนใน CA ที่ไม่ได้ใช้ซอฟต์แวร์ ฉันต้องการให้กลุ่มควบคุมรวมโรงเรียนที่คล้ายคลึงกัน (คะแนนพื้นฐานของพวกเขาคล้ายกับโรงเรียนสอนบำบัดที่มีข้อผิดพลาดที่สมเหตุสมผล) นอกจากนี้ฉันต้องการให้กลุ่มตัวอย่างเป็นกลุ่มรักษา 3 เท่า (ที่นี่ 90 โรงเรียน) มีตัวเลือกมากมายให้เลือก 90 โรงเรียนจากกว่า 1,000 โรงเรียนในแคลิฟอร์เนีย คุณจะเลือกกลุ่มควบคุมอย่างไร

5
การอธิบายค่าเฉลี่ยมัธยฐานโหมดตามข้อกำหนดของคนธรรมดา
คุณจะอธิบายแนวคิดเกี่ยวกับค่าเฉลี่ยค่ามัธยฐานและโหมดของรายการตัวเลขอย่างไรและทำไมพวกเขาถึงมีความสำคัญต่อใครบางคนที่มีทักษะการคิดคำนวณขั้นพื้นฐานเท่านั้น อย่าพูดถึงความเบ้, CLT, แนวโน้มกลาง, คุณสมบัติทางสถิติ, ฯลฯ ฉันอธิบายให้คนที่หมายถึงเป็นเพียงวิธีที่รวดเร็วและสกปรกในการ "สรุป" รายการตัวเลข แต่เมื่อมองย้อนกลับไป ความคิดหรือตัวอย่างโลกแห่งความจริง?

3
glm ใน R - pvalue ใดที่แสดงให้เห็นถึงความดีของแบบเต็มรูปแบบ?
ฉันกำลังเรียกใช้ glms ใน R (โมเดลเชิงเส้นเชิงเส้นทั่วไป) ฉันคิดว่าฉันรู้จัก pvalues ​​- จนกระทั่งฉันเห็นว่าการเรียกสรุปสำหรับ glm ไม่ได้ให้ตัวแทน pvalue ที่เอาชนะคุณของโมเดลทั้งหมด - อย่างน้อยก็ไม่ได้อยู่ในตำแหน่งที่โมเดลเชิงเส้นทำ ฉันสงสัยว่าสิ่งนี้จะได้รับเป็นค่าสำหรับการสกัดกั้นที่ด้านบนของตารางค่าสัมประสิทธิ์ ดังนั้นในตัวอย่างต่อไปนี้ในขณะที่ Wind.speed .. knots และ canopy_density อาจมีความสำคัญต่อตัวแบบเราจะรู้ได้อย่างไรว่าตัวแบบนั้นสำคัญหรือไม่ ฉันจะรู้ได้อย่างไรว่าจะเชื่อใจคุณค่าเหล่านี้หรือไม่ ฉันถูกสงสัยหรือไม่ว่า Pr (> | z |) สำหรับ (Intercept) แสดงถึงความสำคัญของตัวแบบ? รุ่นนี้มีความหมายหรือไม่? ขอบคุณ! ฉันควรทราบว่าการใช้การทดสอบแบบ F จะไม่ทำให้เกิดความเสียหายเนื่องจากฉันได้รับข้อความแสดงข้อผิดพลาดที่บอกว่าการทดสอบแบบ F ในครอบครัวแบบทวินามนั้นไม่เหมาะสม Call: glm(formula = Empetrum_bin ~ Wind.speed..knots. + canopy_density, family = …

2
ทำไมสัมประสิทธิ์ความแปรปรวนไม่ถูกต้องเมื่อใช้ข้อมูลที่มีค่าเป็นบวกและลบ
ฉันดูเหมือนจะไม่พบคำตอบที่ชัดเจนสำหรับคำถามของฉัน ข้อมูลของฉันประกอบด้วยแปลงหลายแปลงที่มีค่าเฉลี่ยที่วัดได้จาก 0.27 ถึง 0.57 ในกรณีของฉันค่าข้อมูลทั้งหมดเป็นค่าบวก แต่การวัดตัวเองนั้นขึ้นอยู่กับอัตราส่วนของค่าการสะท้อนที่สามารถอยู่ในช่วงตั้งแต่ -1 ถึง +1 พล็อตแสดงค่าของNDVIซึ่งเป็นตัวบ่งชี้ที่ได้มาจากระยะไกลของพืช "ผลผลิต" ความตั้งใจของฉันคือการเปรียบเทียบความแปรปรวนของค่าในแต่ละพล็อต แต่เนื่องจากแต่ละพล็อตมีค่าเฉลี่ยที่แตกต่างกันฉันเลือกใช้ CV เพื่อวัดการกระจายสัมพัทธ์ของค่า NDVI ต่อพล็อต จากสิ่งที่ฉันเข้าใจการใช้ CV ของพล็อตเหล่านี้ไม่ใช่เพียวเพราะแต่ละพล็อตสามารถมีทั้งค่าบวกและค่าลบ เหตุใดจึงไม่เหมาะสมที่จะใช้ CV ในกรณีดังกล่าว สิ่งที่จะเป็นทางเลือกที่ทำงานได้ (เช่นการทดสอบการกระจายตัวที่คล้ายกันการแปลงข้อมูลและอื่น ๆ )?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.