คำถามติดแท็ก descriptive-statistics

สถิติเชิงพรรณนาสรุปคุณสมบัติของกลุ่มตัวอย่างเช่นค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานค่ามัธยฐานและค่าควอไทล์สูงสุดและต่ำสุด ด้วยตัวแปรหลายตัวอาจรวมความสัมพันธ์และแท็บไขว้ สามารถรวมการแสดงภาพ - boxplots, ฮิสโทแกรม, scatterplots และอื่น ๆ

7
“ การแจกจ่ายปกติ” จำเป็นต้องมีค่าเฉลี่ย = มัธยฐาน = โหมดหรือไม่?
ฉันกำลังถกเถียงกับอาจารย์สถิติระดับบัณฑิตศึกษาเกี่ยวกับ "การแจกแจงแบบปกติ" ฉันขอยืนยันว่าการได้รับการแจกแจงแบบปกติอย่างแท้จริงต้องมีค่าเฉลี่ย = มัธยฐาน = โหมดข้อมูลทั้งหมดจะต้องอยู่ภายใต้เส้นโค้งรูประฆังและสมมาตรรอบ ๆ ค่าเฉลี่ยอย่างสมบูรณ์ ดังนั้นในทางเทคนิคแล้วไม่มีการแจกแจงแบบปกติในการศึกษาจริงและเราควรเรียกพวกมันอย่างอื่นบางทีอาจจะ "ใกล้เคียงปกติ" เธอบอกว่าฉันจู้จี้จุกจิกมากเกินไปและถ้าความเบ้ / ความโด่งต่ำกว่า 1.0 มันเป็นการแจกแจงแบบปกติและเอาคะแนนไปสอบ ชุดข้อมูลคือจำนวนรวมของน้ำตก / ปีในการสุ่มตัวอย่างจากบ้านพักคนชรา 52 แห่งซึ่งเป็นกลุ่มตัวอย่างที่สุ่มของประชากรขนาดใหญ่ ความเข้าใจใด ๆ ปัญหา: คำถาม: 3. คำนวณหาค่าความเบ้และความโด่งของข้อมูลนี้ รวมฮิสโตแกรมด้วยเส้นโค้งปกติ อภิปรายสิ่งที่คุณค้นพบ มีการกระจายข้อมูลตามปกติหรือไม่ Statistics Number of falls N Valid 52 Missing 0 Mean 11.23 Median 11.50 Mode 4a มีหลายโหมด ค่าที่น้อยที่สุดจะปรากฏขึ้น Number of falls …

5
เราควรสอน kurtosis ในหลักสูตรสถิติประยุกต์หรือไม่? ถ้าเป็นเช่นนั้นได้อย่างไร
แนวโน้มที่เป็นศูนย์กลางการแพร่กระจายและความเบ้สามารถกำหนดได้ค่อนข้างดีอย่างน้อยบนพื้นฐานที่เข้าใจง่าย มาตรการทางคณิตศาสตร์มาตรฐานของสิ่งเหล่านี้ยังสอดคล้องกับแนวคิดที่ใช้งานง่ายของเรา แต่ดูเหมือนว่าจะแตกต่าง Kurtosis มันสับสนมากและมันก็ไม่เข้ากันกับสัญชาตญาณเกี่ยวกับรูปร่างการกระจาย คำอธิบายทั่วไปของ kurtosis ในการตั้งค่าที่ใช้อาจเป็นสารสกัดจากสถิติประยุกต์สำหรับธุรกิจและการจัดการโดยใช้ Microsoft Excel :[1][1]^{[1]} Kurtosis หมายถึงการกระจายของจุดสูงสุดหรือในทางกลับกันว่ามันกระจายตัวอย่างไร หากมีค่าของข้อมูลในก้อยมากกว่าที่คุณคาดหวังจากการแจกแจงแบบปกติ Kurtosis จะเป็นค่าบวก ในทางกลับกันหากมีค่าข้อมูลในก้อยน้อยกว่าที่คุณคาดหวังจากการแจกแจงแบบปกติ kurtosis จะเป็นค่าลบ Excel ไม่สามารถคำนวณสถิตินี้เว้นแต่ว่าคุณมีค่าข้อมูลอย่างน้อยสี่ค่า นอกเหนือจากความสับสนระหว่าง "kurtosis" และ "เกิน kurtosis" (เช่นเดียวกับในหนังสือเล่มนี้มันเป็นเรื่องธรรมดาที่จะใช้คำเดิมเพื่อหมายถึงสิ่งที่ผู้เขียนคนอื่นเรียกหลัง) การตีความในแง่ของ "แหลม" หรือ "เรียบ" ถูกยุ่งเหยิงโดยสวิตช์ของความสนใจกับจำนวนข้อมูลในส่วนท้าย พิจารณาทั้ง "ยอด" และ "ก้อย" เป็นสิ่งจำเป็น - Kaplansky[2][2]^{[2]}บ่นในปี 1945 ว่าตำราหลายเล่มในเวลาที่ระบุไว้อย่างไม่ถูกต้อง kurtosis จะทำอย่างไรกับยอดสูงของการกระจายเมื่อเทียบกับที่ของการกระจายปกติโดยไม่ต้องพิจารณาหาง แต่เห็นได้ชัดว่าต้องพิจารณารูปร่างทั้งที่จุดสูงสุดและในหางทำให้สัญชาตญาณยากที่จะเข้าใจจุดที่ยกมาเหนือข้ามไปโดยแยกออกจากยอดแหลมจนถึงหางของหางราวกับว่าแนวคิดเหล่านี้เหมือนกัน ยิ่งไปกว่านั้นคำอธิบาย "จุดสูงสุดและก้อย" แบบคลาสสิกของ kurtosis ใช้งานได้ดีสำหรับการกระจายแบบสมมาตรและแบบ unimodal …

3
สถิติเชิงพรรณนามีค่า p หรือไม่?
ฉันถูกขอให้ค้นหาค่า p สำหรับสถิติเชิงพรรณนา อย่างไรก็ตามฉันเข้าใจว่าค่า p ใช้สำหรับสถิติการทดสอบ ถ้าฉันไม่เข้าใจผิดค่า p คือความน่าจะเป็นในการสังเกตค่ามากที่สุดเท่าที่สถิติการทดสอบหากสมมติฐานว่างเป็นจริง

4
เรื่องราวสงครามที่การตัดสินใจผิดพลาดนั้นขึ้นอยู่กับข้อมูลทางสถิติ?
ฉันคิดว่ามันยุติธรรมที่จะบอกว่าสถิติเป็นวิทยาศาสตร์ประยุกต์ดังนั้นเมื่อมีการคำนวณค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานมันเป็นเพราะมีใครบางคนกำลังมองหาการตัดสินใจบางอย่างขึ้นอยู่กับตัวเลขเหล่านั้น ส่วนหนึ่งของการเป็นนักสถิติที่ดีฉันก็หวังว่าจะสามารถ "รับรู้" ได้เมื่อข้อมูลตัวอย่างสามารถเชื่อถือได้และเมื่อการทดสอบทางสถิติบางอย่างบิดเบือนความจริงในข้อมูลจริงที่เราสนใจเป็นโปรแกรมเมอร์ที่สนใจในการวิเคราะห์ ชุดข้อมูลขนาดใหญ่ฉันกำลังเรียนรู้สถิติและทฤษฎีความน่าจะเป็นบางอย่าง แต่ฉันไม่สามารถสั่นคลอนความรู้สึกที่ดุด่าว่าหนังสือทุกเล่มที่ฉันดูเป็นเหมือนนักการเมืองที่ลุกขึ้นมาบนเวทีและพูดสิ่งต่าง ๆ ทั้งหมดแล้วต่อท้าย ข้อจำกัดความรับผิดชอบต่อไปนี้ในตอนท้ายของคำพูดของพวกเขา: ตอนนี้ฉันไม่ได้พูดว่ามันดีหรือไม่ดี แต่ตัวเลขบอกว่ามันดีดังนั้นคุณควรโหวตให้ฉัน บางทีคุณอาจได้รับสิ่งนั้น แต่บางทีคุณอาจไม่ได้คำถามนี้ ฉันจะไปหาเรื่องราวสงครามโดยนักสถิติที่การตัดสินใจบางอย่างอยู่บนพื้นฐานของข้อมูลทางสถิติที่ภายหลังกลายเป็นผิดอย่างสมบูรณ์?

1
จะเข้าใจสูตรสัมประสิทธิ์สหสัมพันธ์ได้อย่างไร
ทุกคนสามารถช่วยฉันเข้าใจสูตรสหสัมพันธ์ของเพียร์สันได้ไหม ตัวอย่างrrr = ค่าเฉลี่ยของผลิตภัณฑ์ของคะแนนมาตรฐานของตัวแปรXXXและYYYY ฉันเข้าใจว่าทำไมพวกเขาต้องสร้างมาตรฐานXXXและYYYแต่จะเข้าใจผลิตภัณฑ์ของทั้งสองคะแนนได้อย่างไร สูตรนี้เรียกอีกอย่างว่า "สัมประสิทธิ์สหสัมพันธ์ของโมเมนต์ผลิตภัณฑ์" แต่เหตุผลในการดำเนินการของผลิตภัณฑ์คืออะไร ฉันไม่แน่ใจว่าฉันได้ทำคำถามของฉันชัดเจนหรือไม่ แต่ฉันต้องการที่จะจำสูตรอย่างสังหรณ์ใจ

6
สถิติที่สำคัญยิ่งกว่า: '90 เปอร์เซ็นต์ของผู้หญิงทุกคนรอดชีวิต 'หรือ '90 เปอร์เซ็นต์ของผู้หญิงที่รอดชีวิตมาจากผู้หญิง'?
พิจารณาข้อความต่อไปนี้ที่เขียนว่า Titanic: ข้อสันนิษฐานที่ 1: มีเพียงผู้ชายและผู้หญิงเท่านั้นที่อยู่บนเรือ ข้อสันนิษฐานที่ 2: มีผู้ชายเป็นจำนวนมากเช่นเดียวกับผู้หญิง คำแถลงที่ 1: 90 เปอร์เซ็นต์ของผู้หญิงทุกคนรอดชีวิตมาได้ คำแถลงที่ 2: 90 เปอร์เซ็นต์ของผู้รอดชีวิตทั้งหมดเป็นผู้หญิง คนแรกบ่งชี้ว่าผู้หญิงที่รอดชีวิตอาจมีความสำคัญสูง สถิติที่สองมีประโยชน์เมื่อใด เราสามารถพูดได้ว่าหนึ่งในนั้นมักจะมีประโยชน์มากกว่าอีกหรือไม่

1
เมื่อไหร่ที่เราจะใช้ tantiles และอยู่ตรงกลางแทนที่จะเป็น quantiles และมัธยฐาน?
ฉันไม่สามารถหาคำจำกัดความของคำว่า tantile หรือ medial บน Wikipedia หรือ Wolfram Mathworld แต่คำอธิบายต่อไปนี้มีให้ในBílková, D. และ Mala, I. (2012), "การประยุกต์ใช้วิธี L-moment เมื่อสร้างแบบจำลองการกระจายรายได้ ในสาธารณรัฐเช็ก ", วารสารสถิติออสเตรีย , 41 (2), 125–132 ตรงกลางคือค่าของที่ (ตัวอย่าง) tantile เช่นเดียวกับค่าเฉลี่ยของกลุ่มตัวอย่างเท่ากับมูลค่าของที่50 % quantile ตัวอย่าง ตัวอย่าง tantiles เช่นเดียวกับ quantiles ตัวอย่างจะขึ้นอยู่กับตัวอย่างที่สั่งซื้อ ก่อนอื่นผลรวมสะสมของการสังเกตในตัวอย่างที่สั่งซื้อจะถูกประเมิน แล้วสำหรับที่กำหนดร้อยละP , 0 &lt; P &lt; 100เป็นพี50%50%50\%50%50%50\%ppp0&lt;p&lt;1000&lt;p&lt;1000<p<100 tantile ถูกกำหนดให้เป็นค่าของตัวแปรที่วิเคราะห์ซึ่งแบ่งการสังเกตทั้งหมดในตัวอย่างที่ได้รับคำสั่งออกเป็นสองส่วน: ผลรวมของการสังเกตที่น้อยกว่าหรือเท่ากับคือ p %p%p%p\%p%p%p\%ของผลรวมการสังเกตและผลรวมของการสังเกตที่มากขึ้นแสดงถึงส่วนที่เหลือของผลรวมนี้( …

5
มีการกระจายของ 'สมดุล' ของการวัดหรือไม่?
ฉันค้นหาบนเว็บ แต่ไม่พบสิ่งที่เป็นประโยชน์ โดยทั่วไปฉันกำลังมองหาวิธีการวัดว่ามีการกระจายมูลค่าอย่างเท่าเทียมกันอย่างไร ในขณะที่การกระจายกระจายอย่างเท่าเทียมกันเช่นX : และการแจกแจงการแจกแจงแบบ'ไม่สม่ำเสมอ' Yซึ่งมีค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานเท่ากัน: แต่มีการวัดค่าสมดุลใด ๆ m เช่นนั้น m (X)&gt; m (Y)? หากไม่มีสิ่งใดจะเป็นวิธีที่ดีที่สุดในการสร้างการวัดเช่นนี้ (ภาพสกรีนช็อตจาก Khan Academy)

1
คาร์ลเพียร์สันคิดสถิติไคสแควร์อย่างไร
เพียร์สันเกิดขึ้นได้อย่างไรกับสถิติเพียร์สันไคสแควร์ในปี 1900 ที่ K~χ2K=∑(Oij−Eij)2EijK=∑(Oij−Eij)2Eij K = \sum \frac{(O_{ij} -E_{ij})^2}{E_{ij}} K∼χ2K∼χ2 K \sim \chi^2 เขาคิดแบบไคสแควร์แล้วคิดมาตรวัดKKK (วิธีการจากล่างขึ้นบน) หรือเขาคิดค่าสถิติและต่อมาพิสูจน์ว่ามันเป็นไปตามการแจกแจงไคสแควร์ (บนลงล่าง)? ฉันต้องการที่จะรู้ว่าทำไมเขาถึงเลือกว่ารูปแบบที่เฉพาะเจาะจงและไม่ได้อื่น ๆ เช่นหรือΣ | O i j - E i j | และทำไมเขาจึงแบ่งสี่เหลี่ยมกับตัวส่วน∑(Oij−Eij)2∑(Oij−Eij)2\sum(O_{ij} -E_{ij})^2∑|Oij−Eij|∑|Oij−Eij|\sum|O_{ij} -E_{ij}|

2
ความสัมพันธ์ระหว่างช่วงและส่วนเบี่ยงเบนมาตรฐาน
ในบทความฉันพบสูตรสำหรับค่าเบี่ยงเบนมาตรฐานของขนาดตัวอย่างNNN σ=R¯¯¯¯2.534σ=R¯2.534\sigma=\frac{\overline{R}}{2.534} โดยที่R¯¯¯¯R¯\overline{R}คือช่วงเฉลี่ยของตัวอย่างย่อย (ขนาด666 ) จากตัวอย่างหลัก การคำนวณจำนวน2.5342.5342.534เป็นอย่างไร? ตัวเลขนี้ถูกต้องหรือไม่


1
จะหาช่วงเวลาที่น่าเชื่อถือ 95% ได้อย่างไร
ฉันพยายามคำนวณช่วงเวลาที่น่าเชื่อถือ 95% ของการแจกแจงหลัง ฉันไม่พบฟังก์ชันใน R สำหรับมัน แต่วิธีการด้านล่างถูกต้องหรือไม่ x &lt;- seq(0.4,12,0.4) px &lt;- c(0,0, 0, 0, 0, 0, 0.0002, 0.0037, 0.018, 0.06, 0.22 ,0.43, 0.64,0.7579, 0.7870, 0.72, 0.555, 0.37, 0.24, 0.11, 0.07, 0.02, 0.009, 0.005, 0.0001, 0,0.0002, 0, 0, 0) plot(x,px, type="l") mm &lt;- sum(x*px)/sum(px) var &lt;- (sum((x)^2*px)/sum(px)) - (mm^2) cat("95% …

4
สร้างกราฟตัวอย่างขนาดเล็ก
ฉันมีชุดข้อมูลขนาดเล็กจำนวน 14 ครั้งเพื่อให้งานเสร็จสมบูรณ์ อย่างไรก็ตามฉันมีปัญหาในการหากราฟที่เหมาะสมเพื่อใช้ในการทำกราฟข้อมูล หากตัวอย่างมีขนาดใหญ่กว่าฉันจะใช้พล็อตกล่องหรือฮิสโตแกรม แต่ไม่แน่ใจว่าควรใช้ในกรณีนี้เมื่อกลุ่มตัวอย่างมีขนาดเล็กหรือไม่ อัปเดต: เวลาคือ 5.2,3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.9,4.9,4.9,4.9,4.2

3
การวัดมาตรฐานของความเป็นก้อนหรือไม่?
ฉันมีข้อมูลจำนวนมากและฉันต้องการทำสิ่งที่ดูเหมือนง่ายมาก ในชุดข้อมูลขนาดใหญ่นี้ฉันสนใจว่าองค์ประกอบเฉพาะรวมตัวกันเป็นจำนวนเท่าใด สมมติว่าข้อมูลของฉันเป็นชุดที่ได้รับคำสั่งดังนี้: {A, C, B, D, A, Z, T, C ... } สมมติว่าฉันต้องการทราบว่ามีแนวโน้มที่จะพบว่าติดกับแต่ละอื่น ๆ ซึ่งตรงข้ามกับการกระจายแบบสุ่ม (หรือมากกว่าอย่างสม่ำเสมอ) ตลอดทั้งชุด นี่คือคุณสมบัติที่ฉันเรียกว่า "clumpiness" ทีนี้มีการวัดง่ายๆของข้อมูล "clumpiness" หรือไม่? นั่นคือสถิติบางอย่างที่จะบอกฉันว่าห่างจากการกระจายแบบสุ่มเท่าไหร่? และถ้าไม่มีวิธีง่ายๆในการทำเช่นนี้สิ่งที่ยากจะเป็นอย่างไรประมาณ? คำแนะนำใด ๆ ชื่นชมอย่างมาก!

2
แหล่งข้อมูลออนไลน์สำหรับการเรียนรู้สถิติแบบฝึกหัด (พร้อมโซลูชัน)
ปัจจุบันฉันทำงานเป็นผู้ช่วยสอนในมหาวิทยาลัยของฉันในหลักสูตรสถิติเบื้องต้น (สำหรับนักศึกษาแพทย์) ออฟไลน์มีหนังสือมากมายพร้อมข้อมูลเพื่อช่วยเหลือครู อย่างไรก็ตามสิ่งที่ฉันสนใจที่จะรู้คือถ้าคุณอาจนำฉันไปยังแหล่งข้อมูล (ดี) ใด ๆที่ให้แบบฝึกหัด (พร้อมคำตอบ) ในสถิติซึ่งมีให้ทางออนไลน์ (เช่น: บันทึกของครู) เนื้อหาวิชาอาจอยู่ในช่วงระหว่างสถิติเชิงพรรณนาความน่าจะเป็นและการอนุมานเชิงสถิติเชิงพารามิเตอร์ / ไม่ใช่เชิงพารามิเตอร์

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.