คำถามติดแท็ก mean

ค่าที่คาดหวังของตัวแปรสุ่ม หรือวัดตำแหน่งสำหรับตัวอย่าง

3
ค่าสูงสุดของสัมประสิทธิ์การแปรผันสำหรับชุดข้อมูลที่มีขอบเขต
ในการอภิปรายทำตามคำถามล่าสุดเกี่ยวกับว่าส่วนเบี่ยงเบนมาตรฐานสามารถสูงกว่าค่าเฉลี่ยได้หรือไม่คำถามหนึ่งถูกยกให้สั้น ๆ แต่ไม่เคยตอบอย่างสมบูรณ์ ดังนั้นฉันถามมันที่นี่ พิจารณาชุดของnnnตัวเลขไม่ติดลบ xixix_iที่0≤xi≤c0≤xi≤c0 \leq x_i \leq cสำหรับ1≤i≤n1≤i≤n1 \leq i \leq n n ไม่จำเป็นต้องให้xixix_iแตกต่างนั่นคือเซตอาจเป็นหลายเซ็ต ค่าเฉลี่ยและความแปรปรวนของชุดถูกกำหนดเป็น x¯=1n∑i=1nxi, σ2x=1n∑i=1n(xi−x¯)2=(1n∑i=1nx2i)−x¯2x¯=1n∑i=1nxi, σx2=1n∑i=1n(xi−x¯)2=(1n∑i=1nxi2)−x¯2\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i, ~~ \sigma_x^2 = \frac{1}{n}\sum_{i=1}^n (x_i - \bar{x})^2 = \left(\frac{1}{n}\sum_{i=1}^n x_i^2\right) - \bar{x}^2 และค่าเบี่ยงเบนมาตรฐานคือσxσx\sigma_xx โปรดทราบว่าชุดของตัวเลขไม่ใช่ตัวอย่างจากประชากรและเราไม่ได้ประมาณค่าเฉลี่ยประชากรหรือความแปรปรวนของประชากร คำถามคือ: ค่าสูงสุดของσ xคืออะไรσxx¯σxx¯\dfrac{\sigma_x}{\bar{x}}สัมประสิทธิ์ของการเปลี่ยนแปลงมากกว่าตัวเลือกทั้งหมดของxixix_i's ในช่วง[0,c][0,c][0,c]? ค่าสูงสุดที่ฉันสามารถหาได้สำหรับσxx¯σxx¯\frac{\sigma_x}{\bar{x}}คือn−1−−−−−√n−1\sqrt{n-1} ซึ่งทำได้เมื่อn−1n−1n-1ของxixix_iมีค่า000และส่วนที่เหลือ (นอก)xixix_i มีค่าccc, ให้ แต่นี่ไม่ได้ขึ้นอยู่กับcเลยและฉันสงสัยว่าถ้าค่าที่มากขึ้นอาจขึ้นอยู่กับทั้งnและcสามารถทำได้x¯=cn, 1n∑x2i=c2n⇒σx=c2n−c2n2−−−−−−−√=cnn−1−−−−−√.x¯=cn, 1n∑xi2=c2n⇒σx=c2n−c2n2=cnn−1.\bar{x} = …

5
ค่าเฉลี่ยตัวแปรสุ่มแบบตัวแปรไม่แปรจะเท่ากับจำนวนอินทิกรัลของฟังก์ชันควอไทล์เสมอหรือไม่?
ฉันเพิ่งสังเกตเห็นว่าการรวมฟังก์ชั่นควอไทล์ของตัวแปรสุ่ม (ตัวแปรผกผัน cdf) แบบ univariate จาก p = 0 ถึง p = 1 ทำให้เกิดค่าเฉลี่ยของตัวแปร ฉันไม่เคยได้ยินความสัมพันธ์นี้มาก่อนดังนั้นฉันจึงสงสัยว่า: เป็นเช่นนี้เสมอหรือไม่ ถ้าเป็นเช่นนั้นความสัมพันธ์นี้เป็นที่รู้จักกันอย่างกว้างขวาง? นี่คือตัวอย่างในไพ ธ อน: from math import sqrt from scipy.integrate import quad from scipy.special import erfinv def normalPdf(x, mu, sigma): return 1.0 / sqrt(2.0 * pi * sigma**2.0) * exp(-(x - mu)**2.0 / (2.0 …

7
ค่ามัธยฐานนั้นดีกว่าค่าเฉลี่ยหรือไม่
ฉันเพิ่งอ่านคำแนะนำที่คุณควรใช้ค่ามัธยฐานไม่ได้หมายถึงการกำจัดค่าผิดปกติ ตัวอย่าง: บทความต่อไปนี้ http://www.amazon.com/Forensic-Science-Introduction-Scientific-Investigative/product-reviews/1420064932/ มี 16 ความคิดเห็นในขณะนี้: review= c(5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 4, 4, 3, 2, 1, 1) summary(review) ## "ordinary" summary Min. 1st Qu. Median Mean 3rd Qu. Max. 1.000 3.750 5.000 4.062 5.000 5.000 เพราะพวกเขาใช้Meanบทความได้ 4 ดาว แต่ถ้าพวกเขาใช้Medianมันก็จะได้ 5 ดาว ค่ามัธยฐานไม่ใช่การตัดสินที่ 'ยุติธรรม' …
17 mean  median  average 

2
วิธีการคำนวณระยะเวลาในการรับประทานมังสวิรัติโดยเฉลี่ยเมื่อเรามีข้อมูลการสำรวจเกี่ยวกับมังสวิรัติในปัจจุบันเท่านั้น
สำรวจประชากรตัวอย่างแบบสุ่ม พวกเขาถูกถามว่าพวกเขากินอาหารมังสวิรัติหรือไม่ หากพวกเขาตอบว่าใช่พวกเขาจะถูกขอให้ระบุว่าพวกเขากินอาหารมังสวิรัตินานแค่ไหนโดยไม่หยุดชะงัก ฉันต้องการใช้ข้อมูลนี้เพื่อคำนวณระยะเวลาในการรับประทานมังสวิรัติโดยเฉลี่ย กล่าวอีกนัยหนึ่งเมื่อใครบางคนกลายเป็นมังสวิรัติฉันอยากรู้ว่าพวกเขากินเจโดยเฉลี่ยนานเท่าไร สมมติว่า: ผู้ตอบแบบสอบถามทุกคนให้คำตอบที่ถูกต้องและแม่นยำ โลกมีเสถียรภาพ: ความนิยมของการทานมังสวิรัติไม่เปลี่ยนแปลงความยาวของการยึดถือโดยเฉลี่ยก็ไม่เปลี่ยนแปลงเช่นกัน เหตุผลของฉันจนถึงตอนนี้ ฉันพบว่ามีประโยชน์ในการวิเคราะห์แบบจำลองของเล่นของโลกที่จุดเริ่มต้นของทุก ๆ ปีคนสองคนกลายเป็นมังสวิรัติ ทุกครั้งหนึ่งในนั้นจะเป็นมังสวิรัติ 1 ปีและอีก 3 ปี เห็นได้ชัดว่าความยาวของการยึดมั่นในโลกนี้คือ (1 + 3) / 2 = 2 ปี นี่คือกราฟที่แสดงตัวอย่าง สี่เหลี่ยมผืนผ้าแต่ละรูปแสดงระยะเวลาของการกินเจ: สมมติว่าเราทำแบบสำรวจกลางปี ​​4 (เส้นสีแดง) เราได้รับข้อมูลต่อไปนี้: เราจะได้ข้อมูลเดียวกันถ้าเราทำแบบสำรวจทุกปีเริ่มปีที่ 3 ถ้าเราแค่ตอบสนองโดยเฉลี่ยเราจะได้รับ: (2 * 0.5 + 1.5 + 2.5) / 4 = 1.25 เราดูถูกดูแคลนเพราะเราคิดว่าทุกคนหยุดเป็นมังสวิรัติทันทีหลังจากสำรวจซึ่งเห็นได้ชัดว่าไม่ถูกต้อง เพื่อให้ได้ค่าประมาณที่ใกล้เคียงกับเวลาเฉลี่ยจริงที่ผู้เข้าร่วมจะยังคงเป็นมังสวิรัติเราสามารถสันนิษฐานได้ว่าโดยเฉลี่ยพวกเขารายงานเวลาครึ่งทางผ่านช่วงเวลาของการกินเจและระยะเวลารายงานคูณด้วย 2 …

5
ความแปรปรวนร่วม“ ความจริง” หมายถึงอะไร?
ฉันเป็นคนที่ไม่มีสถิติดังนั้นพวกคุณได้โปรดช่วยฉันที่นี่ด้วย คำถามของฉันมีดังต่อไปนี้: ความแปรปรวนร่วมหมายถึงอะไรจริง ๆ เมื่อฉันมองหาสูตรสำหรับความแปรปรวนแบบรวมในอินเทอร์เน็ตฉันพบวรรณกรรมจำนวนมากที่ใช้สูตรต่อไปนี้ (ตัวอย่างเช่นที่นี่: http://math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistical_Tests/thispage/newnode19.html ): S2p=S21(n1−1)+S22(n2−1)n1+n2−2Sp2=S12(n1−1)+S22(n2−1)n1+n2−2\begin{equation} \label{eq:stupidpooledvar} \displaystyle S^2_p = \frac{S_1^2 (n_1-1) + S_2^2 (n_2-1)}{n_1 + n_2 - 2} \end{equation} แต่จริง ๆ แล้วมันคำนวณอะไร เพราะเมื่อฉันใช้สูตรนี้ในการคำนวณค่าความแปรปรวนรวมของฉันมันให้คำตอบที่ผิด ตัวอย่างเช่นพิจารณา "ตัวอย่างหลัก" เหล่านี้: 2,2,2,2,2,8,8,8,8,82,2,2,2,2,8,8,8,8,8\begin{equation} \label{eq:parentsample} 2,2,2,2,2,8,8,8,8,8 \end{equation} ความแปรปรวนของกลุ่มตัวอย่างผู้ปกครองนี้เป็นและค่าเฉลี่ยของมันคือˉ x P = 5S2p=10Sp2=10S^2_p=10x¯p=5x¯p=5\bar{x}_p=5 ตอนนี้สมมติว่าฉันแยกตัวอย่างผู้ปกครองนี้ออกเป็นสองตัวอย่างย่อย: ครั้งแรกที่ย่อยตัวอย่างเป็น 2,2,2,2,2 ที่มีค่าเฉลี่ยและแปรปรวนS 2 1 = 0x¯1=2x¯1=2\bar{x}_1=2S21=0S12=0S^2_1=0 ที่สองย่อยตัวอย่างเป็น 8,8,8,8,8 ที่มีค่าเฉลี่ยและแปรปรวนS …
15 variance  mean  pooling 

1
ฉันควรใช้ t-test กับข้อมูลที่มีการบิดเบือนสูงหรือไม่ ขอหลักฐานทางวิทยาศาสตร์
ฉันมีตัวอย่างจากชุดข้อมูลที่มีการบิดเบือนสูง (ดูคล้ายการแจกแจงแบบเอ็กซ์โปเนนเชียล) เกี่ยวกับการมีส่วนร่วมของผู้ใช้ (เช่น: จำนวนโพสต์) ที่มีขนาดต่างกัน (แต่ไม่น้อยกว่า 200) และฉันต้องการเปรียบเทียบค่าเฉลี่ย สำหรับสิ่งนั้นฉันใช้การทดสอบ t สองแบบที่ไม่มีการจับคู่ (และการทดสอบ t กับปัจจัยของ Welch เมื่อตัวอย่างมีความแปรปรวนต่างกัน) อย่างที่ฉันได้ยินมาว่าสำหรับกลุ่มตัวอย่างที่มีขนาดใหญ่จริง ๆ มันไม่สำคัญว่ากลุ่มตัวอย่างจะไม่แจกแจงแบบปกติ มีคนกำลังตรวจสอบสิ่งที่ฉันทำบอกว่าการทดสอบที่ฉันใช้ไม่เหมาะกับข้อมูลของฉัน พวกเขาแนะนำให้บันทึกการแปลงตัวอย่างของฉันก่อนใช้การทดสอบ t ฉันเป็นผู้เริ่มต้นดังนั้นฉันจึงสับสนในการตอบคำถามการวิจัยของฉันด้วย "บันทึกการเข้าร่วมการวัด" พวกเขาผิดหรือเปล่า? ฉันผิดหรือเปล่า? หากพวกเขาคิดผิดมีหนังสือหรือเอกสารทางวิทยาศาสตร์ที่ฉันสามารถอ้างอิง / แสดงได้หรือไม่? หากฉันผิดฉันควรใช้การทดสอบแบบใด

1
สัญชาตญาณของตัวอย่างที่แลกเปลี่ยนได้ภายใต้สมมติฐานว่างคืออะไร
การทดสอบการเปลี่ยนรูป (เรียกอีกอย่างว่าการทดสอบแบบสุ่มการทดสอบแบบสุ่มอีกครั้งหรือการทดสอบที่แน่นอน) มีประโยชน์มากและมีประโยชน์เมื่อสมมติฐานของการแจกแจงปกติที่ต้องการโดยตัวอย่างเช่นt-testไม่พบและเมื่อการเปลี่ยนแปลงของค่าโดยการจัดอันดับ การทดสอบแบบไม่มีพารามิเตอร์Mann-Whitney-U-testจะนำไปสู่การสูญเสียข้อมูลมากขึ้น อย่างไรก็ตามไม่ควรมองข้ามสมมุติฐานข้อเดียวและข้อเดียวเพียงข้อเดียวเมื่อใช้การทดสอบชนิดนี้คือข้อสมมติฐานของความสามารถแลกเปลี่ยนได้ของตัวอย่างภายใต้สมมติฐานว่าง เป็นที่น่าสังเกตว่าวิธีการแบบนี้สามารถใช้ได้เมื่อมีตัวอย่างมากกว่าสองตัวอย่างเช่นสิ่งที่นำไปใช้ในcoinแพ็คเกจ R คุณช่วยกรุณาใช้ภาษาที่เป็นรูปเป็นร่างหรือปรีชาเชิงแนวคิดในภาษาอังกฤษธรรมดาเพื่อแสดงสมมติฐานนี้ได้หรือไม่? นี่จะมีประโยชน์มากในการอธิบายปัญหาที่ถูกมองข้ามในหมู่ผู้ที่ไม่ใช่นักสถิติเช่นฉัน หมายเหตุ: จะเป็นประโยชน์อย่างมากหากพูดถึงกรณีที่การใช้การทดสอบการเปลี่ยนแปลงไม่ถือหรือไม่ถูกต้องภายใต้สมมติฐานเดียวกัน ปรับปรุง: สมมติว่าฉันมี 50 วิชาที่รวบรวมจากคลินิกท้องถิ่นในเขตของฉันโดยการสุ่ม พวกเขาถูกสุ่มให้รับยาหรือยาหลอกในอัตราส่วน 1: 1 พวกเขาทั้งหมดถูกวัดสำหรับ Paramerter 1 Par1ที่ V1 (พื้นฐาน), V2 (3 เดือนต่อมา) และ V3 (1 ปีต่อมา) วิชาทั้งหมด 50 กลุ่มสามารถแบ่งเป็น 2 กลุ่มตามคุณสมบัติ A; ค่าบวก = 20 และค่าลบ = 30 นอกจากนี้ยังสามารถจัดกลุ่มย่อยได้อีก 2 กลุ่มตามคุณลักษณะ B; B positive = …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

9
ค่าเบี่ยงเบนมาตรฐานของข้อมูลที่ไม่เป็นลบสามารถเกินค่าเฉลี่ยได้หรือไม่
ฉันมีตาข่ายสามมิติแบบสามเหลี่ยม สถิติสำหรับพื้นที่สามเหลี่ยมคือ: ต่ำสุด 0.000 สูงสุด 2341.141 ค่าเฉลี่ย 56.317 Std dev 98.720 ดังนั้นมันหมายถึงสิ่งใดที่มีประโยชน์เป็นพิเศษเกี่ยวกับค่าเบี่ยงเบนมาตรฐานหรือแนะนำว่ามีข้อบกพร่องในการคำนวณเมื่อตัวเลขออกมาเหมือนด้านบน? พื้นที่อยู่ไกลจากการกระจายตามปกติอย่างแน่นอน และเมื่อมีคนพูดถึงคำตอบข้อใดข้อหนึ่งของพวกเขาด้านล่างสิ่งที่ทำให้ฉันประหลาดใจจริง ๆ ก็คือการใช้ SD หนึ่งฉบับจากค่าเฉลี่ยเพื่อให้ตัวเลขติดลบและออกจากโดเมนตามกฎหมาย ขอบคุณ

3
หลักสูตรความผิดพลาดในการประมาณค่าเฉลี่ยที่มีประสิทธิภาพ
ฉันมีการประมาณ (ประมาณ 1,000 รายการ) และพวกเขาทั้งหมดควรจะประมาณความยืดหยุ่นในระยะยาว น้อยกว่าครึ่งหนึ่งของจำนวนนี้ประมาณโดยใช้วิธี A และที่เหลือใช้วิธี B บางแห่งที่ฉันอ่านบางสิ่งบางอย่างเช่น "ฉันคิดว่าวิธี B ประมาณการบางสิ่งที่แตกต่างจากวิธี A มากขึ้นเนื่องจากการประมาณการสูงกว่ามาก (50-60%) " ความรู้เกี่ยวกับสถิติที่แข็งแกร่งของฉันนั้นอยู่ถัดจากอะไรเลยดังนั้นฉันจึงคำนวณค่าเฉลี่ยตัวอย่างและค่ามัธยฐานของตัวอย่างทั้งสอง ... และฉันเห็นความแตกต่างทันที วิธี A มีความเข้มข้นมากความแตกต่างระหว่างค่ามัธยฐานและค่าเฉลี่ยน้อยมาก แต่ตัวอย่างวิธี B แตกต่างกันอย่างมาก ฉันได้ข้อสรุปว่าค่าผิดปกติและการวัดผิดพลาดทำให้ตัวอย่างวิธี B ดังนั้นฉันโยนค่าประมาณ 50 ค่า (ประมาณ 15%) ที่ไม่สอดคล้องกับทฤษฎี ... และทันใดนั้นค่าเฉลี่ยของทั้งสองตัวอย่าง (รวมถึง CI) มีความคล้ายคลึงกันมาก . ความหนาแน่นของแปลงก็เช่นกัน (ในการค้นหาการกำจัดค่าผิดปกติฉันดูช่วงของตัวอย่าง A และลบจุดตัวอย่างทั้งหมดใน B ที่อยู่นอกมัน) ฉันอยากให้คุณบอกฉันว่าฉันสามารถหาข้อมูลเบื้องต้นเกี่ยวกับการประมาณค่าที่แข็งแกร่งของวิธีการที่จะ อนุญาตให้ฉันตัดสินสถานการณ์นี้อย่างจริงจังมากขึ้น และจะมีการอ้างอิงบางอย่าง ฉันไม่ต้องการความเข้าใจอย่างลึกซึ้งในเทคนิคต่าง …

1
แปลงข้อมูลเป็นค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐาน
ฉันกำลังมองหาวิธีในการแปลงชุดข้อมูลของฉันจากค่าเฉลี่ยปัจจุบันและส่วนเบี่ยงเบนมาตรฐานเป็นค่าเฉลี่ยเป้าหมายและส่วนเบี่ยงเบนมาตรฐานเป้าหมาย โดยพื้นฐานแล้วฉันต้องการย่อ / ขยายการกระจายและขยายตัวเลขทั้งหมดให้เท่ากับค่าเฉลี่ย มันไม่ทำงานที่จะทำการแปลงเชิงเส้นแยกกันสองอันอันหนึ่งสำหรับค่าเบี่ยงเบนมาตรฐานแล้วก็อีกอันสำหรับค่าเฉลี่ย ฉันควรใช้วิธีใด วิธีแก้ปัญหาอาจถูกนำไปใช้กับตัวอย่างที่มีจุด 1.02 ในชุดข้อมูลที่มี SD .4 และค่าเฉลี่ย 0.88 ถูกเปลี่ยนเมื่อฉันปรับค่าเฉลี่ยของชุดข้อมูลเป็น 0.5 และ SD เป็น 0.1667 หรือไม่ คุณค่าใหม่ของประเด็นคืออะไร?

1
ชื่อของค่าเฉลี่ยของค่าที่มากที่สุดและน้อยที่สุดในชุดข้อมูลที่กำหนดคืออะไร?
คุณเรียกค่าเฉลี่ยเชิงสถิติที่คำนวณจากสุดขั้วบนและล่างในชุดข้อมูลใด ๆ ตัวอย่างเช่นหากคุณมีชุด: { -2, 0 , 8, 9, 1, 50, -2, 6} สุดขีดบนของชุดนี้อยู่และรุนแรงที่ต่ำกว่า50 -2ดังนั้นค่าเฉลี่ยของความสุดขั้วจะเป็น(-2 + 50 / 2) = 48/2 = 24 มีคำสำหรับค่าเฉลี่ยทางสถิติแบบนี้หรือไม่?

1
Caret glmnet กับ cv.glmnet
ดูเหมือนจะมีความสับสนมากในการเปรียบเทียบการใช้glmnetภายในcaretเพื่อค้นหาแลมบ์ดาที่ดีที่สุดและใช้cv.glmnetในการทำงานเดียวกัน มีการตั้งคำถามมากมายเช่น: โมเดลการจำแนกประเภท train.glmnet vs. cv.glmnet วิธีที่เหมาะสมในการใช้ glmnet กับคาเร็ตคืออะไร? การตรวจสอบข้าม `glmnet 'โดยใช้` คาเร็ต' แต่ไม่ได้รับคำตอบซึ่งอาจเป็นเพราะความสามารถในการทำซ้ำของคำถาม ตามคำถามแรกฉันให้ตัวอย่างที่คล้ายกัน แต่มีคำถามเดียวกัน: ทำไม lambdas โดยประมาณแตกต่างกันอย่างไร library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to …


4
ควรใช้ค่าเฉลี่ยเมื่อข้อมูลเบี่ยงเบนหรือไม่
บ่อยครั้งที่ตำราสถิติประยุกต์ที่นำมาใช้แยกแยะความแตกต่างของค่าเฉลี่ยจากค่ามัธยฐาน (มักจะอยู่ในบริบทของสถิติเชิงพรรณนาและกระตุ้นการสรุปแนวโน้มกลางโดยใช้ค่าเฉลี่ยมัธยฐานและโหมด) โดยอธิบายว่าค่าเฉลี่ยนั้นอ่อนไหวต่อค่าผิดปกติในข้อมูลตัวอย่างและ / หรือ เพื่อการแจกแจงแบบเบ้ของประชากรและนี่ใช้เป็นข้ออ้างสำหรับการยืนยันว่าค่ามัธยฐานจะเป็นที่ต้องการเมื่อข้อมูลไม่สมมาตร ตัวอย่างเช่น: การวัดแนวโน้มศูนย์กลางที่ดีที่สุดสำหรับชุดข้อมูลที่กำหนดมักขึ้นอยู่กับวิธีการกระจายค่า ... เมื่อข้อมูลไม่สมมาตรค่ามัธยฐานมักเป็นตัวชี้วัดที่ดีที่สุดของแนวโน้มกลาง เพราะหมายถึงการมีความไวต่อการสังเกตมากก็จะถูกดึงไปในทิศทางของค่าข้อมูลที่ห่างไกลและเป็นผลจะจบลงที่สูงเกินจริงมากเกินไปหรือมากเกินไปกิ่ว." -Pagano และ Gauvreau, (2000) หลักการชีวสถิติ 2 เอ็ด (พีแอนด์จีอยู่ในมือ BTW ไม่แยกพวกเขาออกต่อกัน) ผู้เขียนกำหนด "แนวโน้มกลาง" ดังนี้: "ลักษณะการตรวจสอบที่พบบ่อยที่สุดของชุดข้อมูลคือศูนย์กลางของมันหรือจุดที่การสังเกตมักจะรวมกลุ่มกัน" สิ่งนี้ทำให้ฉันเป็นวิธีที่ตรงไปตรงมาน้อยกว่าการพูดเพียงใช้ค่ามัธยฐานระยะเวลาเพราะใช้ค่าเฉลี่ยเมื่อข้อมูล / การแจกแจงสมมาตรเป็นสิ่งเดียวกับที่บอกว่าใช้ค่าเฉลี่ยเมื่อเท่ากับค่ามัธยฐาน แก้ไข: whuber ชี้ให้เห็นอย่างถูกต้องว่าฉันกำลังพูดถึงมาตรการที่แข็งแกร่งของแนวโน้มกลางกับค่ามัธยฐาน ดังนั้นจึงเป็นสิ่งสำคัญที่จะต้องจำไว้ว่าฉันกำลังพูดถึงกรอบเฉพาะของค่าเฉลี่ยเลขคณิตเทียบกับค่ามัธยฐานในสถิติประยุกต์เบื้องต้น (ที่, โหมดกัน, มาตรการอื่น ๆ ของแนวโน้มกลางไม่ได้รับแรงจูงใจ) แทนที่จะตัดสินว่าค่าเฉลี่ยของยูทิลิตี้ลดลงเท่าใดจากพฤติกรรมของค่ามัธยฐานเราไม่ควรเข้าใจสิ่งเหล่านี้ว่าเป็นมาตรการสองอย่างที่แตกต่างกันของการเป็นศูนย์กลาง? ในคำอื่น ๆ ที่มีความไวต่อความเบ้เป็นคุณสมบัติของค่าเฉลี่ย เราสามารถโต้แย้งได้อย่างถูกต้องว่า "ค่ามัธยฐานนั้นไม่ดีเพราะส่วนใหญ่ไม่ไวต่อความเบ้ดังนั้นควรใช้เมื่อมันเท่ากับค่าเฉลี่ยเท่านั้น" (โหมดค่อนข้างสมเหตุสมผลไม่ได้เกี่ยวข้องกับคำถามนี้)

2
overdispersion ในการถดถอยโลจิสติก
ฉันพยายามจัดการกับแนวคิดของการกระจายเกินเหตุในการถดถอยโลจิสติก ฉันได้อ่านว่าการกระจายข้อความเกินขนาดนั้นเกิดขึ้นเมื่อความแปรปรวนที่สังเกตได้ของตัวแปรตอบกลับสูงกว่าที่คาดไว้จากการแจกแจงทวินาม แต่หากตัวแปรทวินามมีได้เพียงสองค่า (1/0) จะมีค่าเฉลี่ยและความแปรปรวนได้อย่างไร ฉันสบายดีกับการคำนวณค่าเฉลี่ยและความแปรปรวนของความสำเร็จจากการทดลองหมายเลข Bernoulli แต่ฉันไม่สามารถคาดเดาแนวคิดเรื่องค่าเฉลี่ยและความแปรปรวนของตัวแปรที่มีค่าได้สองค่าเท่านั้น ทุกคนสามารถให้ภาพรวมที่ใช้งานง่ายของ: แนวคิดของค่าเฉลี่ยและความแปรปรวนในตัวแปรที่สามารถมีได้สองค่าเท่านั้น แนวคิดของการกระจายเกินเหตุในตัวแปรที่มีได้เพียงสองค่า

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.