คำถามติดแท็ก median

ค่ามัธยฐานคือค่าด้านล่างซึ่งครึ่งหนึ่งของข้อมูลหรือการแจกแจงความน่าจะเป็น - เมื่อขนาดตัวอย่างเป็นเลขคี่ค่ามัธยฐานคือค่า 'กลาง' ของตัวอย่างที่ได้รับคำสั่ง

8
ถ้าหมายถึงอ่อนไหวทำไมใช้มันตั้งแต่แรก?
มันเป็นความจริงที่รู้จักกันว่าค่ามัธยฐานสามารถทนต่อค่าผิดปกติ ถ้าเป็นเช่นนั้นเราจะใช้ค่าเริ่มต้นเมื่อใดและทำไม สิ่งหนึ่งที่ฉันสามารถนึกได้ก็คือเข้าใจว่ามีค่าผิดปกติเช่นถ้าค่ามัธยฐานอยู่ห่างจากค่าเฉลี่ยจากนั้นการแจกแจงจะเบ้และอาจต้องมีการตรวจสอบข้อมูลเพื่อตัดสินใจว่าจะทำอย่างไรกับค่าผิดปกติ มีการใช้อื่น ๆ ?


5
ทฤษฎีขีด จำกัด กลางสำหรับค่ามัธยฐานตัวอย่าง
ถ้าฉันคำนวณค่ามัธยฐานของจำนวนการสังเกตที่มากพอจากการแจกแจงแบบเดียวกันทฤษฎีบทขีด จำกัด กลางจะระบุว่าการกระจายของค่ามัธยฐานจะประมาณการกระจายตัวแบบปกติหรือไม่? ความเข้าใจของฉันคือว่านี่เป็นความจริงด้วยวิธีการของกลุ่มตัวอย่างจำนวนมาก แต่มันก็เป็นความจริงกับมัธยฐาน? ถ้าไม่เป็นเช่นนั้นการกระจายตัวพื้นฐานของค่ามัธยฐานตัวอย่างคืออะไร

10
อัลกอริทึมที่ดีสำหรับการประมาณค่ามัธยฐานของชุดข้อมูลที่อ่านครั้งเดียวขนาดใหญ่คืออะไร?
ฉันกำลังมองหาอัลกอริทึมที่ดี (หมายถึงการคำนวณขั้นต่ำสุดข้อกำหนดด้านการจัดเก็บขั้นต่ำ) เพื่อประมาณค่ามัธยฐานของชุดข้อมูลที่ใหญ่เกินกว่าจะจัดเก็บได้เช่นว่าแต่ละค่าสามารถอ่านได้ครั้งเดียวเท่านั้น ไม่มีขอบเขตของข้อมูลที่สามารถสันนิษฐานได้ การประมาณนั้นดีตราบใดที่ทราบความแม่นยำ ตัวชี้ใด ๆ

13
เหตุใดอายุมัธยฐานจึงเป็นสถิติที่ดีกว่าอายุเฉลี่ย
ถ้าคุณดูWolfram Alpha หรือหน้า Wikipedia นี้รายชื่อประเทศเรียงตามอายุมัธยฐาน เห็นได้ชัดว่าค่าเฉลี่ยอยู่ในสถิติของการเลือกเมื่อมันมาถึงวัย ฉันไม่สามารถอธิบายให้ตัวเองได้ว่าทำไมค่าเฉลี่ยเลขคณิตจึงเป็นสถิติที่แย่กว่านั้น ทำไมถึงเป็นเช่นนั้น? โพสต์ครั้งแรกที่นี่เพราะฉันไม่รู้ว่ามีเว็บไซต์นี้อยู่
41 mean  median 


7
มีคำจำกัดความที่ยอมรับได้สำหรับค่ามัธยฐานของตัวอย่างบนระนาบหรือเว้นวรรคที่สูงขึ้นหรือไม่
ถ้าเป็นเช่นนั้นอะไร ถ้าไม่ทำไมไม่ สำหรับตัวอย่างในบรรทัดค่ามัธยฐานจะลดความเบี่ยงเบนสัมบูรณ์ทั้งหมด มันดูเหมือนเป็นธรรมชาติที่จะขยายคำจำกัดความให้เป็น R2 เป็นต้น แต่ฉันไม่เคยเห็นมาก่อน แต่ฉันออกไปจากสนามไปนานแล้ว

3
ทำไมการทดสอบสมมติฐานขั้นพื้นฐานมุ่งเน้นไปที่ค่าเฉลี่ยและไม่ได้อยู่บนค่ามัธยฐาน?
ในหลักสูตรสถิติขั้นพื้นฐานระดับล่างนักเรียนจะได้รับการสอนการทดสอบสมมติฐานสำหรับค่าเฉลี่ยของประชากร เหตุใดจึงให้ความสำคัญกับค่าเฉลี่ยและไม่ใช่ค่ามัธยฐาน? ฉันเดาว่ามันง่ายกว่าที่จะทดสอบค่าเฉลี่ยเนื่องจากทฤษฎีบทขีด จำกัด กลาง แต่ฉันชอบอ่านคำอธิบายที่มีการศึกษา

2
มีช่วงความเชื่อมั่นที่ไม่ใช่พารามิเตอร์ที่เชื่อถือได้สำหรับค่าเฉลี่ยของการแจกแจงแบบเบ้หรือไม่?
การแจกแจงแบบเบ้อย่างมากเช่นบันทึกปกติไม่ส่งผลให้ช่วงความมั่นใจในการบูตที่ถูกต้องแม่นยำ นี่คือตัวอย่างที่แสดงว่าบริเวณหางด้านซ้ายและขวาอยู่ห่างจากอุดมคติในอุดมคติ 0.025 ไม่ว่าคุณจะลองใช้วิธีบูตสแตรปแบบใดใน R: require(boot) n <- 25 B <- 1000 nsim <- 1000 set.seed(1) which <- c('basic', 'perc', 'norm', 'bca', 'stud') mul <- 0; sdl <- 1.65 # on log scale dist <- c('normal', 'lognormal')[2] switch(dist, normal = {g <- function(x) x; mu <- mul}, lognormal = {g …

2
จะสร้างช่วงความมั่นใจ 95% ของความแตกต่างระหว่างค่ามัธยฐานได้อย่างไร
ปัญหาของฉัน: กลุ่มทดลองแบบสุ่มมีการแจกแจงเบ้อย่างถูกต้องของผลลัพธ์หลัก ฉันไม่ต้องการใช้กฎเกณฑ์ปกติและใช้ CIs พื้นฐาน 95% (เช่นใช้ 1.96 X SE) ฉันรู้สึกสะดวกสบายที่จะแสดงการวัดแนวโน้มกลางว่าเป็นค่ามัธยฐาน แต่คำถามของฉันคือวิธีการสร้าง 95% CI ของความแตกต่างในค่ามัธยฐานระหว่างสองกลุ่ม สิ่งแรกที่อยู่ในใจคือ bootstrapping (ลองสุ่มใหม่พร้อมการแทนที่กำหนดค่ามัธยฐานในแต่ละกลุ่มและลบหนึ่งจากกลุ่มอื่นทำซ้ำ 1,000 ครั้งและใช้ Bias ที่ได้รับการแก้ไข 95%) นี่เป็นวิธีที่ถูกต้องหรือไม่? ข้อเสนอแนะอื่น ๆ ?

4
จะทราบได้อย่างไรว่าการกระจายข้อมูลของฉันสมมาตร
ฉันรู้ว่าถ้าค่ามัธยฐานและค่าเฉลี่ยเท่ากันโดยประมาณนี่หมายความว่ามีการกระจายแบบสมมาตร แต่ในกรณีนี้ฉันไม่แน่ใจ ค่าเฉลี่ยและค่ามัธยฐานค่อนข้างใกล้เคียง (เพียง 0.487m / ความแตกต่างของถุงน้ำดี) ซึ่งจะทำให้ฉันบอกว่ามีการกระจายแบบสมมาตร แต่เมื่อมองที่กล่องสี่เหลี่ยมดูเหมือนว่ามันจะเป็นเชิงบวกเล็กน้อย (ค่ามัธยฐานนั้นใกล้เคียงกับไตรมาสที่ 1 โดยค่า) (ฉันใช้ Minitab หากคุณมีคำแนะนำเฉพาะสำหรับซอฟต์แวร์ชิ้นนี้)

4
ทำไมค่าเฉลี่ยมีแนวโน้มที่จะมีความเสถียรในตัวอย่างที่แตกต่างจากค่ามัธยฐาน?
ส่วน 1.7.2 ของการค้นพบสถิติการใช้ Rโดย Andy Fields และอื่น ๆ ในขณะที่แสดงรายการคุณธรรมของค่าเฉลี่ย vs มัธยฐาน: ... ค่าเฉลี่ยมีแนวโน้มที่จะคงที่ในกลุ่มตัวอย่างที่แตกต่างกัน สิ่งนี้หลังจากอธิบายถึงคุณงามความดีของคนมัธยฐานเช่น ... ค่ามัธยฐานค่อนข้างไม่ได้รับผลกระทบจากคะแนนสูงสุดที่ปลายด้านหนึ่งของการกระจาย ... เนื่องจากค่ามัธยฐานค่อนข้างไม่ได้รับผลกระทบจากคะแนนสูงสุดฉันจึงคิดว่ามันจะมีเสถียรภาพมากขึ้นในกลุ่มตัวอย่าง ดังนั้นฉันจึงงงงวยโดยการยืนยันของผู้เขียน เพื่อยืนยันว่าฉันใช้การจำลอง - ฉันสร้างตัวเลขสุ่ม 1M และสุ่มตัวอย่าง 100 ตัวเลข 1,000 ครั้งและคำนวณค่าเฉลี่ยและค่ามัธยฐานของแต่ละตัวอย่างแล้วคำนวณ SD ของค่าเฉลี่ยตัวอย่างและค่ามัธยฐาน nums = rnorm(n = 10**6, mean = 0, sd = 1) hist(nums) length(nums) means=vector(mode = "numeric") medians=vector(mode = "numeric") for …
22 mean  median 

2
เป็นไปได้หรือไม่ที่จะรวบรวมชุดของสถิติที่อธิบายตัวอย่างจำนวนมากเช่นนี้จากนั้นฉันสามารถสร้าง boxplot ได้?
ฉันต้องชี้แจงทันทีว่าฉันเป็นนักพัฒนาซอฟต์แวร์ฝึกไม่ใช่นักสถิติและชั้นเรียนสถิติของวิทยาลัยของฉันเป็นเวลานานมากแล้ว ... ที่กล่าวว่าฉันอยากจะรู้ว่ามีวิธีการสะสมชุดของสถิติเชิงพรรณนาที่สามารถนำมาใช้ในการผลิต boxplot ที่ไม่เกี่ยวข้องกับการจัดเก็บตัวอย่างแต่ละกลุ่ม? สิ่งที่ฉันพยายามทำคือสร้างสรุปกราฟิกของเวลาบริการคิวภายในกระบวนการหลายคิวที่ซับซ้อน ก่อนหน้านี้ฉันเคยใช้แพคเกจที่เรียกว่า tnftools ซึ่งอนุญาตให้กลุ่มตัวอย่างจำนวนมากสะสมและโพสต์ประมวลผลเป็นกราฟเวลาตอบสนองและค่าผิดปกติที่ดี ... แต่ tnftools ไม่พร้อมใช้งานสำหรับแพลตฟอร์มปัจจุบันของฉัน เป็นการดีที่ฉันต้องการจะสามารถรวบรวมชุดของสถิติเชิงพรรณนา "ในทันที" ในขณะที่กระบวนการทำงานแล้วดึงข้อมูลสำหรับการวิเคราะห์ตามความต้องการ แต่ฉันไม่สามารถให้กระบวนการเก็บตัวอย่างเพียงอย่างเดียวได้เนื่องจากหน่วยความจำ / IO ที่เกี่ยวข้องในการทำเช่นนั้นจะส่งผลกระทบต่อประสิทธิภาพของระบบที่ยอมรับไม่ได้

1
เมื่อใดหากเคยเป็นค่ามัธยฐานของสถิติสถิติที่เพียงพอหรือไม่
ฉันพบข้อสังเกตเกี่ยวกับสถิติทางเคมีว่าค่ามัธยฐานตัวอย่างมักจะเป็นทางเลือกสำหรับสถิติที่เพียงพอ แต่นอกเหนือจากกรณีที่เห็นได้ชัดจากการสังเกตเพียงหนึ่งหรือสองครั้งซึ่งมันเท่ากับค่าเฉลี่ยตัวอย่างฉันไม่สามารถคิดถึงสิ่งอื่น ๆ กรณีที่ค่ามัธยฐานตัวอย่างเพียงพอ

4
วิธีการฉายเวกเตอร์ใหม่บนพื้นที่ PCA?
หลังจากทำการวิเคราะห์องค์ประกอบหลัก (PCA) ฉันต้องการฉายเวกเตอร์ใหม่ลงบนพื้นที่ PCA (เช่นค้นหาพิกัดในระบบพิกัด PCA) ผมได้คำนวณ PCA ในภาษา R prcompโดยใช้ ตอนนี้ฉันควรคูณเวกเตอร์ของฉันด้วยเมทริกซ์การหมุน PCA ควรจัดองค์ประกอบหลักในเมทริกซ์นี้เป็นแถวหรือคอลัมน์?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.