คำถามติดแท็ก sampling

การสร้างตัวอย่างจากประชากรที่ระบุอย่างดีโดยใช้วิธีความน่าจะเป็นและ / หรือการสร้างตัวเลขสุ่มจากการแจกแจงที่ระบุ เนื่องจากแท็กนี้ไม่ชัดเจนโปรดพิจารณา [การสำรวจตัวอย่าง] สำหรับอดีตและ [monte-carlo] หรือ [จำลอง] สำหรับหลัง สำหรับคำถามเกี่ยวกับการสร้างตัวอย่างแบบสุ่มจากการแจกแจงที่รู้จักโปรดพิจารณาใช้แท็ก [การสร้างแบบสุ่ม]

2
การวาดตัวอย่างจากการแจกแจงปกติหลายตัวแปรภายใต้ข้อ จำกัด กำลังสอง
ผมอยากจะได้อย่างมีประสิทธิภาพวาดตัวอย่างจากภายใต้ข้อ จำกัด ที่|| x || _2 = 1x∈Rdx∈Rdx \in \mathbb{R}^dN(μ,Σ)N(μ,Σ)\mathcal{N}(\mu, \Sigma)||x||2=1||x||2=1||x||_2 = 1

2
การสุ่มตัวอย่าง CDF ผกผันสำหรับการแจกแจงแบบผสม
เวอร์ชันย่อที่ไม่อยู่ในบริบท ปล่อยให้เป็นตัวแปรสุ่มด้วย CDF yyyF(⋅)≡{θθ+(1−θ)×CDFlog-normal(⋅;μ,σ) y = 0 y > 0F(⋅)≡{θ y = 0 θ+(1−θ)×CDFlog-normal(⋅;μ,σ) y > 0 F(\cdot) \equiv \cases{\theta & y = 0 \\ \theta + (1-\theta) \times \text{CDF}_{\text{log-normal}}(\cdot; \mu, \sigma) & y > 0} สมมติว่าฉันต้องการจำลองการจับด้วยวิธี inverse CDF เป็นไปได้ไหม ฟังก์ชั่นนี้ไม่ได้มีสิ่งที่ตรงกันข้าม จากนั้นอีกครั้งมีการสุ่มตัวอย่างการแปลงผกผันสำหรับการกระจายการผสมของการแจกแจงปกติสองรายการซึ่งแสดงให้เห็นว่ามีวิธีที่รู้จักในการใช้การสุ่มตัวอย่างการแปลงผกผันที่นี่yyy ฉันทราบวิธีสองขั้นตอน แต่ฉันไม่ทราบวิธีนำไปใช้กับสถานการณ์ของฉัน (ดูด้านล่าง) รุ่นยาวที่มีพื้นหลัง ฉันติดตั้งโมเดลต่อไปนี้สำหรับการตอบสนองที่มีค่าเวกเตอร์โดยใช้ MCMC (โดยเฉพาะสแตน):yi=(y1,…,yK)iyi=(y1,…,yK)iy^i = …

4
วิธีสุ่มตัวอย่างเมื่อคุณไม่รู้การกระจาย
ฉันค่อนข้างใหม่กับสถิติ (หยิบของหลักสูตร Uni ระดับเริ่มต้น) และสงสัยเกี่ยวกับการสุ่มตัวอย่างจากการแจกแจงที่ไม่รู้จัก โดยเฉพาะถ้าคุณไม่มีความคิดเกี่ยวกับการแจกแจงพื้นฐานมีวิธีใดที่จะ "รับประกัน" ว่าคุณได้รับตัวอย่างตัวแทนหรือไม่? ตัวอย่างเพื่ออธิบาย: สมมติว่าคุณพยายามเข้าใจการกระจายความมั่งคั่งทั่วโลก สำหรับบุคคลใดก็ตามคุณสามารถค้นหาความมั่งคั่งที่แน่นอนของพวกเขา; แต่คุณไม่สามารถ "ตัวอย่าง" ทุกคนบนโลกนี้ได้ สมมุติว่าคุณสุ่มตัวอย่าง n = 1,000 คนโดยการสุ่ม หากตัวอย่างของคุณไม่รวม Bill Gates คุณอาจคิดว่าไม่มีเศรษฐีพันล้านคน หากคุณมีตัวอย่างรวมถึง Bill Gates คุณอาจคิดว่าเศรษฐีมีเงินมากกว่าที่เป็นอยู่จริง ไม่ว่าในกรณีใดคุณไม่สามารถบอกได้ว่าเศรษฐีทั่วไปหรือหายากเป็นอย่างไร คุณอาจไม่สามารถบอกได้ว่ามีอยู่จริงหรือไม่ มีกลไกการสุ่มตัวอย่างที่ดีกว่าสำหรับกรณีเช่นนี้หรือไม่? คุณจะบอกขั้นตอนเบื้องต้นในการใช้ตัวอย่าง (และจำเป็นต้องมีตัวอย่างจำนวนเท่าใด) ฉันคิดว่าคุณอาจจะต้อง "สุ่มตัวอย่าง" เปอร์เซ็นต์ของประชากรจำนวนมากที่จะรู้ว่ามีอะไรเข้าใกล้ความเชื่อมั่นที่สมเหตุสมผลว่าเศรษฐีทั่วไปหรือหายากอยู่บนโลกและสิ่งนี้เกิดจากการกระจายตัวของพื้นฐานค่อนข้างยาก ที่จะทำงานกับ

4
(การโต้ตอบ) MCMC สำหรับรูปหลังด้านหลัง
ฉันพยายามที่จะสุ่มตัวอย่างจากผู้โพสต์ด้านหลังที่มีหลายโหมดโดยเฉพาะอย่างยิ่งที่ไกลจากกันโดยใช้ MCMC ปรากฏว่าในกรณีส่วนใหญ่เฉพาะหนึ่งในโหมดเหล่านี้เท่านั้นที่มี 95% hpd ที่ฉันกำลังมองหา ฉันพยายามที่จะใช้โซลูชั่นตามการจำลองอารมณ์ แต่สิ่งนี้ไม่ได้ผลลัพธ์ที่น่าพอใจในทางปฏิบัติที่เกิดขึ้นจาก "ช่วงการจับภาพ" หนึ่งไปยังอีกที่หนึ่งคือค่าใช้จ่ายสูง สำหรับฉันแล้วดูเหมือนว่าโซลูชันที่มีประสิทธิภาพมากขึ้นจะใช้ MCMC ง่าย ๆ หลายจุดจากจุดเริ่มต้นที่แตกต่างกันและดำดิ่งลงสู่โซลูชันที่โดดเด่นด้วยการทำให้ MCMC โต้ตอบ คุณรู้หรือไม่ว่ามีวิธีที่เหมาะสมในการนำแนวคิดดังกล่าวไปใช้หรือไม่ หมายเหตุ: ฉันพบว่ากระดาษhttp://lccc.eecs.berkeley.edu/Papers/dmcmc_short.pdf (กระจายมาร์คอฟโซ่มอนติคาร์โลลอเรนซ์เมอเรย์) ที่ดูใกล้เคียงกับสิ่งที่ฉันกำลังมองหา แต่ฉันไม่เข้าใจการออกแบบ ของฟังก์ชั่นR_iRผมRiR_i [แก้ไข]:การขาดคำตอบดูเหมือนจะบ่งบอกว่าไม่มีทางออกที่ชัดเจนสำหรับปัญหาเริ่มต้นของฉัน (ทำให้การสุ่มตัวอย่าง MCMC หลายครั้งจากการกระจายเป้าหมายเดียวกันจากจุดเริ่มต้นที่แตกต่างกันมีปฏิสัมพันธ์ซึ่งกันและกัน) มันเป็นเรื่องจริงเหรอ? ทำไมมันซับซ้อนจัง ขอบคุณ

1
หนังสือที่แนะนำเกี่ยวกับสถิติเชิงพื้นที่
อะไรคือหนังสือที่ดีที่สุดสำหรับการศึกษา i) ความแปรปรวนของตัวแปร univariate และหลายตัวแปร (ข้อมูลจริงนับจำนวน) ทั่วโดเมนเชิงพื้นที่ ii) การสุ่มตัวอย่างตัวแปร univariate หรือตัวแปรหลายตัวแปรตามการกระจายข้ามพื้นที่เชิงพื้นที่ (การสุ่มตัวอย่างเชิงพื้นที่ในระยะสั้น)

1
จะเปรียบเทียบเหตุการณ์ที่สังเกตได้กับเหตุการณ์ที่คาดหวังได้อย่างไร
สมมติว่าฉันมีตัวอย่างหนึ่งความถี่ของเหตุการณ์ที่เป็นไปได้ 4 เหตุการณ์: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 และฉันมีโอกาสที่จะเกิดเหตุการณ์ที่คาดหวัง: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 ด้วยผลรวมของความถี่ที่สังเกตได้จากเหตุการณ์ทั้งสี่ของฉัน (18) ฉันสามารถคำนวณความถี่ที่คาดหวังของเหตุการณ์ได้ใช่ไหม expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

4
เราสามารถละทิ้งข้อมูลจากการวิจัยเพราะมันไม่สำคัญหรือไม่?
ผมเคยเจอประโยคนี้ในขณะที่อ่านบทความเกี่ยวกับ sciencemag.org ในท้ายที่สุดการตอบสนองจากนักวิจัยเพียง 7600 คนใน 12 ประเทศถูกรวมเข้าด้วยกันเพราะข้อมูลที่เหลือไม่ถือว่ามีนัยสำคัญทางสถิติ นี่เป็นวิธีที่เหมาะสมในการทำวิจัยหรือไม่? ที่จะออกผลเพราะพวกเขาไม่ถือว่ามีนัยสำคัญทางสถิติ?

3
ฉันจะจำลอง microdata การสำรวจสำมะโนประชากรสำหรับพื้นที่ขนาดเล็กโดยใช้ตัวอย่าง microdata 1% ที่สถิติขนาดใหญ่และมวลรวมในระดับพื้นที่ขนาดเล็กได้อย่างไร
ฉันต้องการทำการวิเคราะห์หลายตัวแปรในระดับบุคคลในระดับเล็ก ๆ ของการรวมกลุ่มทางภูมิศาสตร์ (เขตการเก็บรวบรวมสำมะโนประชากรของออสเตรเลีย) เห็นได้ชัดว่าการสำรวจสำมะโนประชากรไม่สามารถหาได้จากการรวมตัวเพียงเล็กน้อยด้วยเหตุผลความเป็นส่วนตัวดังนั้นฉันจึงตรวจสอบทางเลือกอื่น ๆ ตัวแปรที่น่าสนใจเกือบทั้งหมดจัดอยู่ในหมวดหมู่ ฉันมีสองชุดข้อมูลที่การกำจัดของฉัน: ตัวอย่างการสำรวจสำมะโนประชากร 1% นั้นมีอยู่ในระดับที่สูงกว่าของการรวมตัวเชิงพื้นที่ (พื้นที่ที่มีประชากรประมาณ 190,000 คนและการแยกเชิงพื้นที่ขนาดใหญ่ของประชากร ตารางความถี่สำหรับตัวแปรที่ฉันสนใจในระดับพื้นที่เล็ก ๆ (500 พื้นที่เล็ก ๆ หมายถึงป๊อป = 385, sd = 319, มัธยฐาน = 355) ฉันจะใช้ชุดข้อมูลทั้งสองนี้เพื่อจำลองการกระจายของประชากรในระดับพื้นที่ขนาดเล็กที่ใกล้เคียงกับประชากรจริงของพื้นที่ขนาดเล็กที่สุดได้อย่างไร ฉันขอขอบคุณที่อาจมีวิธีการประจำในการทำเช่นนี้; ถ้าเป็นเช่นนั้นตัวชี้ไปยังตำราหรือบทความในวารสารที่เกี่ยวข้องจะได้รับการชื่นชมอย่างมากมาย

3
อัตราการยอมรับของ Metropolis-Hastings พร้อมการกระจายผู้สมัครที่สม่ำเสมอ
เมื่อรันอัลกอริทึม Metropolis-Hastings ด้วยการแจกแจงผู้สมัครที่สม่ำเสมอเหตุผลในการมีอัตราการยอมรับประมาณ 20% คืออะไร? ความคิดของฉันคือ: เมื่อค้นพบค่าพารามิเตอร์จริง (หรือใกล้เคียงกับจริง) แล้วไม่มีการตั้งค่าพารามิเตอร์ของตัวเลือกใหม่จากช่วงเวลาเดียวกันที่เหมือนกันจะเพิ่มค่าของฟังก์ชันความน่าจะเป็น ดังนั้นยิ่งฉันวิ่งซ้ำมากเท่าไหร่อัตราการยอมรับก็ยิ่งต่ำลงเท่านั้น ฉันผิดในความคิดนี้ที่ไหน ขอบคุณมาก! นี่คือภาพประกอบการคำนวณของฉัน: A c c e p t a n c e _ r a t e = exp{ l (θค| Y) + บันทึก( p (θค) ) - [ l (θ* * * *| Y) + บันทึก( p (θ* …

1
การสุ่มตัวอย่างเพื่อกำหนดน้ำหนัก / RIM คืออะไร
ฉันได้พบกับวิธีการสุ่มตัวอย่างที่เรียกว่า "การสุ่มตัวอย่างน้ำหนัก / ความน่าจะเป็น" แต่ฉันไม่มีความคิดที่ดีว่าวิธีการสำรวจเหล่านี้เกี่ยวข้องกับอะไร การอ้างอิงอะไรในวรรณกรรมครอบคลุมหัวข้อนี้

3
แนะนำการอ้างอิงเกี่ยวกับน้ำหนักตัวอย่างของแบบสำรวจ
มาตั้งเป้าหมายไว้บ้างในระดับเกริ่นนำบทความและตำราบางเล่ม ใช้แล้วมีประโยชน์มากกว่ารวมถึงรหัส R นั้นยอดเยี่ยม ขอบคุณ!

1
ฉันสามารถประเมินความถี่ของเหตุการณ์โดยพิจารณาจากการสุ่มตัวอย่างเหตุการณ์ที่เกิดขึ้นได้หรือไม่
มีการแก้ไขบางอย่าง ... คำถามนี้มีไว้เพื่อความสนุกเท่านั้นดังนั้นหากมันไม่สนุกโปรดอย่าเพิกเฉย ฉันได้รับความช่วยเหลือมากมายจากไซต์นี้ดังนั้นฉันจึงไม่ต้องการกัดมือที่เลี้ยงฉัน มันขึ้นอยู่กับตัวอย่างในชีวิตจริงและเป็นเพียงสิ่งที่ฉันสงสัยเกี่ยวกับหลายอย่าง ฉันไปเยี่ยมโดโจในพื้นที่ของฉันเพื่อฝึกซ้อมแบบสุ่มเป็นหลักในวันจันทร์ถึงวันศุกร์ สมมติว่าฉันไปเยี่ยมสัปดาห์ละสองครั้ง ซึ่งหมายความว่าฉันไปเยี่ยมสองครั้งทุกสัปดาห์โดยมีเพียงสองวันเท่านั้นที่เปลี่ยนแปลง มีใครคนหนึ่งที่เกือบจะทุกครั้งที่ฉันอยู่ที่นั่น หากเขามาในวันเดียวกันกับฉันฉันก็จะเห็นเขา สมมติว่าเขาอยู่ที่นั่น 90% ของเวลาเมื่อฉันอยู่ที่นั่น ฉันอยากรู้สองสิ่ง: 1) เขาฝึกบ่อยแค่ไหน 2) ไม่ว่าเขาจะมาแบบสุ่มหรือในวันที่กำหนดของสัปดาห์ ฉันเดาว่าบางทีเราต้องสมมติให้เดาอีกอัน ฉันไม่เคยได้รับสิ่งนี้เลย ฉันแค่คิดเกี่ยวกับมันในการอุ่นเครื่องทุกสัปดาห์และงงงันอีกครั้ง แม้ว่าบางคนให้วิธีคิดเกี่ยวกับปัญหาที่ฉันจะขอบคุณมากที่สุด ไชโย!

3
วิธีการสุ่มตัวอย่างอนุกรมเวลา XTS ใน R ได้อย่างไร
ฉันมีXTSอนุกรมเวลาที่เว้นระยะผิดปกติ(มีPOSIXctค่าเป็นประเภทดัชนี) ฉันจะสร้างซีรีย์เวลาใหม่ที่สุ่มตัวอย่างในช่วงเวลา 10 นาทีได้อย่างไร แต่แต่ละช่วงเวลาตัวอย่างจะถูกจัดให้สอดคล้องกับรอบเวลา (13:00:00, 13:10:00, 13:20:00, ... ) . หากช่วงเวลาการสุ่มตัวอย่างไม่ตรงกับค่าซีรี่ส์ดั้งเดิมฉันต้องการใช้ช่วงเวลาก่อนหน้า

2
การสุ่มตัวอย่างจากการแจกแจงไบวาเรียที่มีความหนาแน่นเป็นที่รู้จักโดยใช้ MCMC
ฉันพยายามที่จะจำลองจากความหนาแน่นของ bivariate p(x,y)p(x,y)p(x,y)การใช้อัลกอริทึม Metropolis ใน R และไม่มีโชค ความหนาแน่นสามารถแสดงเป็น p(y|x)p(x)p(y|x)p(x)p(y|x)p(x)ที่ไหน p(x)p(x)p(x) คือการกระจาย Singh-Maddala p(x)=aqxa−1ba(1+(xb)a)1+qp(x)=aqxa−1ba(1+(xb)a)1+qp(x)=\dfrac{aq x^{a-1}}{b^a (1 + (\frac{x}{b})^a)^{1+q}} ด้วยพารามิเตอร์ aaa, qqq, bbbและ p(y|x)p(y|x)p(y|x) เป็นบันทึกปกติโดยมีค่าเฉลี่ยล็อกเป็นเศษส่วนของ xxxและ log-sd ค่าคงที่ เพื่อทดสอบว่าตัวอย่างของฉันเป็นสิ่งที่ฉันต้องการหรือไม่ฉันดูที่ความหนาแน่นของxxxซึ่งควรจะเป็น p(x)p(x)p(x). ฉันลองอัลกอริทึม Metropolis ที่แตกต่างจากแพ็คเกจ R MCMCpack, mcmc และความฝัน ฉันทิ้งการเบิร์นอินใช้การทำให้ผอมบางใช้ตัวอย่างที่มีขนาดสูงถึงล้าน แต่ความหนาแน่นส่วนเกินที่ได้นั้นไม่ได้เป็นอย่างที่ฉันให้ นี่คือรหัสสุดท้ายที่ฉันใช้: logvrls <- function(x,el,sdlog,a,scl,q.arg) { if(x[2]>0) { dlnorm(x[1],meanlog=el*log(x[2]),sdlog=sdlog,log=TRUE)+ dsinmad(x[2],a=a,scale=scl,q.arg=q.arg,log=TRUE) } else -Inf } …

1
ฉันสามารถตัวอย่างชุดข้อมูลขนาดใหญ่ที่การทำซ้ำ MCMC ทุกครั้งได้หรือไม่
ปัญหา:ฉันต้องการทำการสุ่มตัวอย่างของกิ๊บส์เพื่อสรุปหลังชุดข้อมูลขนาดใหญ่ โชคไม่ดีโมเดลของฉันไม่ง่ายนักและการสุ่มตัวอย่างช้าเกินไป ฉันจะพิจารณาแนวทางที่หลากหลายหรือขนาน แต่ก่อนที่จะไปไกล ... คำถาม:ฉันต้องการทราบว่าฉันสามารถสุ่มตัวอย่างตัวอย่าง (พร้อมการแทนที่) จากชุดข้อมูลของฉันที่การวนซ้ำของกิ๊บส์ทุกครั้งหรือไม่ สัญชาตญาณของฉันคือแม้ว่าฉันจะเปลี่ยนตัวอย่างฉันจะไม่เปลี่ยนความหนาแน่นของความน่าจะเป็นและดังนั้นตัวอย่างกิ๊บส์ไม่ควรสังเกตเห็นเคล็ดลับ ฉันถูกไหม? มีผู้อ้างอิงบางคนที่ทำสิ่งนี้หรือไม่?
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.