คำถามติดแท็ก quantiles

quantiles ของการแจกแจงอ้างถึงจุดบนฟังก์ชันการแจกแจงสะสม ควอไทล์ทั่วไปบางส่วนเป็นควอไทล์และเปอร์เซ็นไทล์

2
การประมาณควอไทล์แบบออนไลน์โดยไม่ต้องเก็บการสังเกต
ฉันจำเป็นต้องคำนวณควอไทล์ (Q1, มัธยฐานและ Q3) แบบเรียลไทม์กับชุดข้อมูลขนาดใหญ่โดยไม่ต้องจัดเก็บข้อสังเกต ฉันลองใช้อัลกอริธึม P square (Jain / Chlamtac) ครั้งแรก แต่ฉันไม่พอใจกับมัน (ใช้ซีพียูมากเกินไปและไม่เชื่อในความแม่นยำของชุดข้อมูลของฉันอย่างน้อย) ตอนนี้ฉันใช้อัลกอริธึม FAME ( Feldman / Shavitt ) สำหรับการประมาณค่ามัธยฐานในขณะเดินทางและพยายามหาขั้นตอนวิธีในการคำนวณ Q1 และ Q3 ด้วย: M = Q1 = Q3 = first data value step =step_Q1 = step_Q3 = a small value for each new data : # update …

1
Quantiles จากการรวมการแจกแจงแบบปกติ
ฉันมีข้อมูลเกี่ยวกับการแจกแจงสัดส่วนมิติของร่างกาย (เช่นช่วงไหล่) สำหรับเด็กทุกวัย สำหรับแต่ละอายุและมิติฉันมีค่าเฉลี่ยส่วนเบี่ยงเบนมาตรฐาน (ฉันมีแปดควอนไทล์ แต่ฉันไม่คิดว่าฉันจะได้สิ่งที่ฉันต้องการจากพวกเขา) สำหรับแต่ละมิติฉันต้องการประเมินจำนวนเฉพาะของการกระจายความยาว หากฉันสมมติว่าแต่ละมิติมีการกระจายตามปกติฉันสามารถทำได้ด้วยค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐาน มีสูตรสวยที่ฉันสามารถใช้เพื่อรับค่าที่เกี่ยวข้องกับ quantile เฉพาะของการกระจายหรือไม่ การย้อนกลับค่อนข้างง่าย: สำหรับค่าใดค่าหนึ่งให้หาพื้นที่ทางด้านขวาของค่าสำหรับการแจกแจงปกติ (อายุ) แต่ละค่า รวมผลลัพธ์และหารด้วยจำนวนการแจกแจง ปรับปรุง : นี่คือคำถามเดียวกันในรูปแบบกราฟิก สมมติว่าการแจกแจงสีแต่ละแบบนั้นปกติจะกระจาย นอกจากนี้ฉันเห็นได้ชัดว่าสามารถลองความยาวหลาย ๆ แบบและเปลี่ยนมันต่อไปเรื่อย ๆ จนกว่าฉันจะได้ค่าที่ใกล้เคียงกับควอนไทล์ที่ต้องการเพื่อความแม่นยำของฉัน ฉันสงสัยว่ามีวิธีที่ดีกว่านี้หรือไม่ และถ้านี่เป็นแนวทางที่ถูกต้องมีชื่อไหม?

1
การกำหนดปริมาณในตัวอย่างน้ำหนัก
ฉันมีตัวอย่างถ่วงน้ำหนักซึ่งฉันต้องการคำนวณปริมาณ 1 จะเป็นการดีที่น้ำหนักเท่ากัน (ไม่ว่าจะ = 1 หรืออื่น ๆ ) ผลจะสอดคล้องกับพวกและอาร์เอสscipy.stats.scoreatpercentile()quantile(...,type=7) วิธีการง่ายๆวิธีหนึ่งคือ "คูณออก" ตัวอย่างโดยใช้ตุ้มน้ำหนักที่ให้ ที่ให้ ecdf "แบน" ในพื้นที่ได้อย่างมีประสิทธิภาพในพื้นที่น้ำหนัก> 1 ซึ่งดูเหมือนว่าวิธีการที่ไม่ถูกต้องโดยสัญชาตญาณเมื่อตัวอย่างเป็นตัวอย่างย่อย โดยเฉพาะมันหมายความว่าตัวอย่างที่มีน้ำหนักทั้งหมดเท่ากับ 1 มีควอนไทล์ที่แตกต่างกันมากกว่าหนึ่งที่มีน้ำหนักทั้งหมดเท่ากับ 2 หรือ 3 (หมายเหตุอย่างไรก็ตามกระดาษที่อ้างถึงใน [1] จะใช้วิธีการนี้) http://en.wikipedia.org/wiki/Percentile#Weighted_percentileเป็นสูตรทางเลือกสำหรับเปอร์เซ็นไทล์แบบถ่วงน้ำหนัก มันไม่ชัดเจนในการกำหนดนี้ว่าตัวอย่างที่อยู่ติดกันที่มีค่าเหมือนกันควรนำมารวมกันก่อนและรวมน้ำหนักและในกรณีใด ๆ ผลลัพธ์ของผลลัพธ์จะไม่สอดคล้องกับชนิดเริ่มต้นของ R 7 quantile()ในกรณีที่ไม่มีน้ำหนัก / น้ำหนักเท่ากัน หน้าวิกิพีเดียเกี่ยวกับ quantiles ไม่ได้พูดถึงกรณีน้ำหนักเลย มีฟังก์ชั่นทั่วไปของฟังก์ชั่น quantile "type 7" แบบถ่วงน้ำหนักของ R หรือไม่? [ใช้ Python แต่เพียงมองหาอัลกอริทึมจริงๆดังนั้นภาษาใดก็ตามที่จะทำ] …

2
คำจำกัดความของ“ เปอร์เซ็นไทล์”
ตอนนี้ฉันกำลังอ่านบันทึกเกี่ยวกับชีวสถิติที่เขียนโดย PMT Education และสังเกตประโยคต่อไปนี้ในหัวข้อ 2.7: เด็กที่เกิดในเปอร์เซ็นไทล์ที่ 50 สำหรับมวลนั้นหนักกว่าทารก 50% ทารกที่เกิดในเปอร์เซนต์ไทล์ที่ 25 สำหรับมวลนั้นหนักกว่า 75% ของทารก เด็กที่เกิดที่ 75 เปอร์เซ็นไทล์ต่อมวลนั้นหนักกว่าทารก 25% แต่อย่างที่ฉันรู้เด็กทารกที่เกิดในเปอร์เซนต์ไทล์ที่ 25 สำหรับมวลควรหนักกว่าเด็ก 25% มีคำจำกัดความพิเศษของ "เปอร์เซ็นไทล์" ในฟิลด์นี้หรือไม่หรือฉันเข้าใจผิดว่าประโยคในฐานะผู้พูดที่ไม่ใช่เจ้าของภาษา?

1
R / mgcv: เพราะเหตุใดผลิตภัณฑ์ te () และ ti () เทนเซอร์จึงให้พื้นผิวที่แตกต่างกัน
mgcvแพคเกจสำหรับการRมีสองฟังก์ชั่นสำหรับการปฏิสัมพันธ์กระชับเมตริกซ์ผลิตภัณฑ์: และte() ti()ฉันเข้าใจการแบ่งขั้นพื้นฐานของการใช้แรงงานระหว่างคนทั้งสอง (ปรับให้เหมาะสมกับการทำงานแบบไม่เป็นเชิงเส้นเปรียบเทียบกับการย่อยสลายการโต้ตอบนี้เป็นผลกระทบหลักและการโต้ตอบ) สิ่งที่ฉันไม่เข้าใจคือสาเหตุte(x1, x2)และti(x1) + ti(x2) + ti(x1, x2)อาจให้ผลลัพธ์ที่แตกต่าง (เล็กน้อย) MWE (ดัดแปลงมาจาก?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

1
เหตุใดจึงต้องใช้การขยายคอร์นิชฟิชเชอร์แทนที่จะเป็นตัวอย่าง Quantile
การขยายตัวของคอร์นิชฟิชเชอร์เป็นวิธีการประมาณปริมาณของการแจกแจงตามช่วงเวลา (ในแง่นี้ฉันเห็นว่าเป็นส่วนเสริมของการขยาย Edgeworthซึ่งให้การประมาณของการแจกแจงสะสมตามช่วงเวลา) ฉันอยากจะรู้ว่าในสถานการณ์ใดที่เราจะชอบการขยายตัวของคอร์นิช - ฟิชเชอร์สำหรับการทดลองเชิงประจักษ์ ตัวอย่าง quantile หรือในทางกลับกัน เดาไม่กี่: สามารถคำนวณช่วงเวลาตัวอย่างได้ทางออนไลน์ในขณะที่การประมาณปริมาณตัวอย่างทำได้ยาก ในกรณีนี้โฆษณา CF 'ชนะ' หากมีความสามารถในการคาดการณ์ช่วงเวลา CF จะอนุญาตให้หนึ่งในการใช้ประโยชน์จากการคาดการณ์เหล่านี้สำหรับการประเมินเชิงปริมาณ CF Expansion อาจให้การประมาณค่าควอนไทล์นอกช่วงของค่าที่สังเกตได้ในขณะที่ควอนไทด์ตัวอย่างอาจไม่ควร ฉันไม่ทราบวิธีคำนวณช่วงความมั่นใจรอบ ๆ การประมาณควอนไทล์ที่ CF กำหนด ในกรณีนี้ตัวอย่าง quantile 'wins' ดูเหมือนว่า CF Expansion ต้องการหนึ่งในการประมาณช่วงเวลาที่สูงขึ้นของการแจกแจง ข้อผิดพลาดในการประมาณการเหล่านี้อาจรวมกันในลักษณะที่การขยาย CF มีข้อผิดพลาดมาตรฐานที่สูงกว่าควอนไทด์ตัวอย่าง คนอื่น ๆ ? ไม่มีใครมีประสบการณ์ใช้ทั้งสองวิธีเหล่านี้หรือไม่

1
คาดว่ามูลค่าเป็นฟังก์ชั่นของ quantiles หรือไม่?
ฉันสงสัยว่ามีสูตรทั่วไปที่เกี่ยวข้องกับค่าที่คาดหวังของตัวแปรสุ่มต่อเนื่องเป็นฟังก์ชันของ quantiles ของ rv เดียวกันค่าที่คาดหวังของ rvถูกกำหนดเป็น: และ quantiles จะถูกกำหนดเป็น: สำหรับ(0,1)XXX E(X)=∫xdFX(x)E(X)=∫xdFX(x)E(X) = \int x dF_X(x) QpX={x:FX(x)=p}=F−1X(p)QXp={x:FX(x)=p}=FX−1(p)Q^p_X = \{x : F_X(x) = p \} =F_X^{-1}(p) p∈(0,1)p∈(0,1)p\in(0,1) มีอินสแตนซ์ของฟังก์ชันฟังก์ชันเช่นนั้นหรือไม่: GGGE(X)=∫p∈(0,1)G(QpX)dpE(X)=∫p∈(0,1)G(QXp)dpE(X) = \int_{p\in(0,1)} G(Q^p_X) dp

1
การอ้างอิง: ส่วนท้ายของ c ผกผัน
ฉันเกือบจะแน่ใจว่าฉันได้เห็นผลลัพธ์ต่อไปนี้ในสถิติ แต่ฉันจำไม่ได้ว่าอยู่ที่ไหน ถ้าเป็นตัวแปรสุ่มแบบบวกและดังนั้นเมื่อโดยที่คือ CDF ของXE ( X ) &lt; ∞ ε F - 1 ( 1 - ε ) → 0 ε → 0 + F XXXXE(X)&lt;∞E(X)&lt;∞\mathbb{E}(X)<\inftyεF−1(1−ε)→0εF−1(1−ε)→0\varepsilon F^{-1}(1-\varepsilon) \to 0ε→0+ε→0+\varepsilon\to 0^+FFFXXX นี้เป็นเรื่องง่ายที่จะเห็นทางเรขาคณิตโดยใช้ความเสมอภาคและโดยพิจารณาตัดแนวนอนที่ของพื้นที่ใต้เส้นโค้งของ integrand 1-Fε 1 - FE(X)=∫1−FE(X)=∫1−F\mathbb{E}(X)=\int 1-Fεε\varepsilon1−F1−F1-F คุณรู้จักการอ้างอิงสำหรับผลลัพธ์นี้และมีชื่อหรือไม่

2
วิธีที่ดีที่สุดในการสร้างแผนภูมิการเติบโต
ฉันต้องสร้างแผนภูมิ (คล้ายกับแผนภูมิการเจริญเติบโต) สำหรับเด็กอายุ 5 ถึง 15 ปี (เพียง 5,6,7 และอื่น ๆ ไม่มีค่าเศษส่วนเช่น 2.6 ปี) สำหรับตัวแปรสุขภาพที่ไม่เป็นลบต่อเนื่องและใน ช่วง 50-150 (มีเพียงไม่กี่ค่าที่อยู่นอกช่วงนี้) ฉันต้องสร้างกราฟไทล์เปอร์ไทล์ 90th, 95 และ 99 และสร้างตารางสำหรับเปอร์เซนต์เหล่านี้ ขนาดตัวอย่างประมาณ 8000 ฉันตรวจสอบและพบวิธีที่เป็นไปได้ดังต่อไปนี้: ค้นหา quantiles แล้วใช้วิธีเหลืองเพื่อให้ได้เส้นโค้งที่ราบรื่นจาก quantiles เหล่านี้ ระดับของความนุ่มนวลสามารถปรับได้โดยใช้พารามิเตอร์ 'span' ใช้วิธี LMS (Lambda-Mu-Sigma) (เช่นใช้ gamlss หรือแพ็คเกจ VGAM ใน R) ใช้การถดถอยเชิงปริมาณ ใช้ค่าเฉลี่ยและค่า SD ของแต่ละกลุ่มอายุในการประมาณเปอร์เซ็นต์ไทล์สำหรับอายุนั้นและสร้างกราฟไทล์ไทล์ไทล์ วิธีที่ดีที่สุดที่จะทำคืออะไร? โดย 'ดีที่สุด' …

6
ควอไทล์ใน Excel
ฉันสนใจคำจำกัดความของควอไทล์ที่มักใช้เมื่อคุณอยู่ในสถิติพื้นฐาน ฉันมีหนังสือประเภท Stat 101 และมันให้นิยามที่เข้าใจง่าย "ประมาณหนึ่งในสี่ของข้อมูลตรงกับหรือต่ำกว่าควอไทล์แรก ... " แต่มันให้ตัวอย่างที่จะคำนวณ Q1, Q2 และ Q3 สำหรับชุดข้อมูล 5, 7, 9, 10, 11, 13, 14, 15, 16, 17, 18, 18, 20, 21, 37 เนื่องจากมีข้อมูล 15 ชิ้นจึงเลือก 15 ค่ามัธยฐาน Q2 จากนั้นจะแยกข้อมูลที่เหลือออกเป็นสองส่วนคือ 5 ถึง 14 และ 16 ถึง 37 แต่ละอันประกอบด้วยข้อมูล 7 ชิ้นและพวกเขาพบค่ามัธยฐานของแต่ละชุดเหล่านี้คือ 10 และ 18 ตามลำดับในไตรมาสที่ …
10 excel  quantiles 

4
ทำไมความจริงที่ว่า 1 มัธยฐานต่ำกว่าค่ามัธยฐานอื่นหมายความว่าส่วนใหญ่ในกลุ่ม 1 ต่ำกว่าในกลุ่มที่ 2 มากที่สุด?
ฉันเชื่อว่ากล่องสี่เหลี่ยมด้านล่างอาจตีความได้ว่า "ผู้ชายส่วนใหญ่เร็วกว่าผู้หญิงส่วนใหญ่" (ในชุดข้อมูลนี้) ส่วนใหญ่เป็นเพราะเวลาเฉลี่ยของผู้ชายต่ำกว่าเวลาเฉลี่ยของผู้หญิง แต่หลักสูตร EdX สำหรับแบบทดสอบ R และสถิติบอกฉันว่าไม่ถูกต้อง โปรดช่วยฉันเข้าใจว่าทำไมปรีชาของฉันไม่ถูกต้อง นี่คือคำถาม: ลองพิจารณาตัวอย่างของนักสำเร็จจากนิวยอร์กซิตี้มาราธอนในปี 2002 ชุดข้อมูลนี้สามารถพบได้ในแพคเกจ UsingR โหลดไลบรารีจากนั้นโหลดชุดข้อมูล nym.2002 library(dplyr) data(nym.2002, package="UsingR") ใช้บ็อกซ์พล็อตและฮิสโทแกรมเพื่อเปรียบเทียบเวลาสิ้นสุดของชายและหญิง ข้อใดต่อไปนี้อธิบายความแตกต่างได้ดีที่สุด เพศชายและเพศหญิงมีการกระจายตัวเหมือนกัน ผู้ชายส่วนใหญ่เร็วกว่าผู้หญิงส่วนใหญ่ ตัวผู้และตัวเมียมีการแจกแจงเบ้คล้ายกันกับแบบก่อนหน้านี้, 20 นาทีเปลี่ยนไปทางซ้าย การแจกแจงทั้งสองแบบจะกระจายตามปกติโดยมีความแตกต่างในค่าเฉลี่ยประมาณ 30 นาที ที่นี่เวลา NYC มาราธอนสำหรับชายและหญิงเป็น quantiles, histograms และ boxplots: # Men's time quantile 0% 25% 50% 75% 100% 147.3333 226.1333 256.0167 290.6375 …

1
การแจกแจงเบต้าสองครั้งจะกำหนดพารามิเตอร์หรือไม่
หากฉันให้ปริมาณสองค่าและตำแหน่งที่สอดคล้องกัน (แต่ละอัน) ในช่วงเวลาเปิดฉันจะหาพารามิเตอร์ของการแจกแจงแบบเบต้าที่มีปริมาณเหล่านั้นในตำแหน่งที่ระบุได้หรือไม่?(q1,q2)(q1,q2)(q_1,q_2)(l1,l2)(l1,l2)(l_1,l_2)(0,1)(0,1)(0,1)

1
ค่าสถิติเชิงลำดับของการแจกแจงแบบเทลด์หนัก
พื้นหลัง: ฉันมีตัวอย่างที่ฉันต้องการสร้างแบบจำลองที่มีการกระจายแบบเทลด์อย่างหนัก ฉันมีค่ามากเช่นการแพร่กระจายของการสังเกตมีขนาดค่อนข้างใหญ่ ความคิดของฉันคือทำแบบนี้ด้วยการแจกแจงแบบพาเรโตทั่วไปและฉันก็ทำไปแล้ว ตอนนี้ quantile 0.975 ของข้อมูลเชิงประจักษ์ของฉัน (ประมาณ 100 datapoints) ต่ำกว่า 0.975 quantile ของการแจกแจง Generalized Pareto ที่ฉันพอดีกับข้อมูลของฉัน ตอนนี้ฉันคิดว่ามีวิธีตรวจสอบว่าความแตกต่างนี้เป็นสิ่งที่ต้องกังวลหรือไม่ เรารู้ว่าการแจกแจงเชิงเส้นกำกับของควอนไทล์จะได้รับเป็น: ดังนั้นฉันจึงคิดว่ามันเป็นความคิดที่ดีที่จะสร้างความบันเทิงด้วยความอยากรู้อยากเห็นของฉันโดยพยายามพล็อตแถบความเชื่อมั่น 95% รอบ ๆ 0.975 ควอไทล์ของการแจกแจงแบบพาเรโตทั่วไปด้วยพารามิเตอร์เดียวกับที่ฉันได้รับ อย่างที่คุณเห็นเรากำลังทำงานกับค่าที่สุดยอดบางอย่างที่นี่ และเนื่องจากการแพร่กระจายมีขนาดใหญ่มากฟังก์ชั่นความหนาแน่นมีค่าน้อยมากทำให้วงความเชื่อมั่นไปที่คำสั่งของโดยใช้ความแปรปรวนของสูตรเชิงบรรทัดฐานเชิงเส้นกำกับด้านบน:±1012±1012\pm 10^{12} ± 1.960.975 ∗ 0.025n (ฉจีพีD(Q0.975))2±1.960.975* * * *0.025n(ฉGPD(Q0.975))2\pm 1.96\frac{0.975*0.025}{n({f_{GPD}(q_{0.975})})^2} ดังนั้นนี่ไม่สมเหตุสมผลเลย ฉันมีการแจกจ่ายที่มีผลลัพธ์เชิงบวกเท่านั้นและช่วงความมั่นใจรวมถึงค่าลบ มีบางอย่างเกิดขึ้นที่นี่ ถ้าผมคำนวณวงรอบ 0.5 quantile, วงดนตรีที่จะไม่ว่าขนาดใหญ่ แต่ยังคงขนาดใหญ่ ผมดำเนินการต่อเพื่อดูวิธีการนี้ไปกับการกระจายอีกคือกระจาย จำลองการสังเกตจากการแจกแจงและตรวจสอบว่า quantiles อยู่ในช่วงความเชื่อมั่นหรือไม่ …

1
คำนวณควอนไทล์ของผลรวมของการแจกแจงจากควอไทล์เฉพาะ
สมมติว่าอิสระตัวแปรสุ่มที่ quantiles ในบางระดับที่เฉพาะเจาะจงเป็นที่รู้จักกันผ่านการประมาณจากข้อมูล: , ... ,&lt;q_N) ตอนนี้ขอกำหนดตัวแปรสุ่มเป็นผลรวมx_i มีวิธีคำนวณค่าของควอไทล์ของผลรวมที่ระดับหรือไม่นั่นคือใน ?NNNX1,...,XNX1,...,XNX_1, ..., X_Nαα\alphaα=P(X1&lt;q1)α=P(X1&lt;q1)\alpha = P(X_1 < q_1)α=P(XN&lt;qN)α=P(XN&lt;qN)\alpha = P(X_N < q_N)ZZZZ=∑Ni=1XiZ=∑i=1NXiZ = \sum_{i=1}^N X_iαα\alphaqzqzq_zα=P(Z&lt;qZ)α=P(Z&lt;qZ)\alpha = P(Z < q_Z) ฉันคิดว่าในบางกรณีเช่นถ้าติดตามการกระจายแบบเกาส์นี้ก็ง่าย แต่ฉันก็ไม่แน่ใจในกรณีที่การกระจายของไม่เป็นที่รู้จัก ความคิดใด ๆXiXiX_i∀i∀i\forall iXiXiX_i
9 quantiles 

1
การใช้ bootstrap เพื่อรับการกระจายตัวตัวอย่างของค่าร้อยละที่ 1
ฉันมีกลุ่มตัวอย่าง (ขนาด 250) จากประชากร ฉันไม่ทราบว่าการกระจายตัวของประชากร คำถามหลัก:ฉันต้องการประมาณจุดของ 1 เซนต์ - เปอร์เซ็นไทล์ของประชากรแล้วฉันต้องการช่วงความมั่นใจ 95% รอบการประเมินจุดของฉัน ประมาณการจุดของฉันจะเป็นตัวอย่าง 1 เซนต์ -percentile ผมหมายถึงมันxxxx หลังจากนั้นฉันพยายามสร้างช่วงความมั่นใจรอบค่าประมาณจุด ฉันสงสัยว่ามันสมเหตุสมผลหรือไม่ที่จะใช้ bootstrap ที่นี่ ฉันไม่มีประสบการณ์มากกับ bootstrap ดังนั้นขออภัยถ้าฉันไม่สามารถใช้คำศัพท์ที่เหมาะสมเป็นต้น นี่คือวิธีที่ฉันพยายามทำ ฉันดึงตัวอย่างสุ่ม 1,000 ตัวอย่างโดยแทนที่จากตัวอย่างดั้งเดิมของฉัน ฉันได้รับอันดับ 1 จากแต่ละคน ดังนั้นฉันมี 1,000 คะแนน - "1 เซนต์ - เปอร์เซ็นไทล์" ฉันดูการกระจายเชิงประจักษ์ของ 1,000 คะแนน ผมหมายถึงความหมายของมัน{} ผมหมายถึงว่า "อคติ" ดังต่อไปนี้: \ฉันใช้เวลา 2.5 วัน -percentile …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.