คำถามติดแท็ก sampling

การสร้างตัวอย่างจากประชากรที่ระบุอย่างดีโดยใช้วิธีความน่าจะเป็นและ / หรือการสร้างตัวเลขสุ่มจากการแจกแจงที่ระบุ เนื่องจากแท็กนี้ไม่ชัดเจนโปรดพิจารณา [การสำรวจตัวอย่าง] สำหรับอดีตและ [monte-carlo] หรือ [จำลอง] สำหรับหลัง สำหรับคำถามเกี่ยวกับการสร้างตัวอย่างแบบสุ่มจากการแจกแจงที่รู้จักโปรดพิจารณาใช้แท็ก [การสร้างแบบสุ่ม]

3
ประเมินขนาดของประชากรที่ถูกสุ่มตัวอย่างด้วยจำนวนการสังเกตซ้ำ
สมมติว่าฉันมีประชากร 50 ล้านสิ่งที่ไม่เหมือนใครและฉันนำตัวอย่าง 10 ล้านชิ้น (มาทดแทน) ... กราฟแรกที่ฉันแนบมาแสดงให้เห็นว่าฉันได้ทดลองสิ่ง "เดียวกัน" กี่ครั้งซึ่งค่อนข้างหายาก ประชากรใหญ่กว่าตัวอย่างของฉัน อย่างไรก็ตามหากประชากรของฉันมีเพียง 10 ล้านสิ่งและฉันใช้ตัวอย่าง 10 ล้านตัวเนื่องจากกราฟที่สองแสดงให้เห็นว่าฉันมักจะลองทำซ้ำอีกครั้ง คำถามของฉันคือ - จากตารางความถี่การสังเกตของฉัน (ข้อมูลในแผนภูมิแท่ง) เป็นไปได้หรือไม่ที่จะได้ประมาณขนาดประชากรดั้งเดิมเมื่อไม่ทราบ? และมันจะดีมากถ้าคุณสามารถหาตัวชี้ว่าจะทำยังไงในอาร์

1
ลำดับ Halton เทียบกับลำดับ Sobol '?
จากคำตอบในคำถามก่อนหน้านี้ฉันถูกนำไปยังลำดับ Halton สำหรับการสร้างชุดของเวกเตอร์ที่ครอบคลุมพื้นที่ตัวอย่างสม่ำเสมอพอ ๆ กัน แต่หน้าวิกิพีเดียกล่าวว่าช่วงเวลาที่สูงขึ้นโดยเฉพาะอย่างยิ่งมักจะมีความสัมพันธ์สูงในช่วงต้นของซีรีส์ นี้ดูเหมือนว่าจะเป็นกรณีสำหรับคู่ใด ๆ ของช่วงเวลาที่สูงที่มีขนาดตัวอย่างที่ค่อนข้างสั้น - และแม้กระทั่งเมื่อตัวแปรไม่มีความสัมพันธ์พื้นที่ตัวอย่างที่ไม่ได้เก็บตัวอย่างสม่ำเสมอค่อนข้างมีวงดนตรีในแนวทแยงของความหนาแน่นของตัวอย่างสูงในพื้นที่ . เนื่องจากฉันใช้เวกเตอร์ที่มีความยาว 6 ขึ้นไปฉันจะต้องใช้บางช่วงเวลาซึ่งเป็นปัญหา (แม้ว่าจะไม่เลวร้ายอย่างในตัวอย่างที่ถูกกล่าวถึง) และตัวแปรบางตัวจะไม่ถูกสุ่มตัวอย่างเหมือนกัน ระนาบตัวอย่างของพวกมัน การใช้ลำดับ Sobol 'เพื่อสร้างชุดที่คล้ายกันดูเหมือนว่าฉัน (เพียงจากการดูกราฟ) เพื่อสร้างตัวอย่างระหว่างคู่ของตัวแปรที่มีการกระจายอย่างเท่าเทียมกันมากขึ้นแม้สำหรับตัวอย่างจำนวนค่อนข้างน้อย ดูเหมือนว่าจะมีประโยชน์มากกว่านี้และฉันก็สงสัยว่าเมื่อไรที่ลำดับ Halton จะมีประโยชน์มากกว่านี้ หรือว่าเป็นเพียงลำดับของ Halton ที่คำนวณได้ง่ายกว่า หมายเหตุ: การอภิปรายของลำดับความแตกต่างต่ำหลายมิติอื่น ๆ ก็ยินดีต้อนรับ

5
ทำไมมันถึงอ้างว่าตัวอย่างมักจะแม่นยำกว่าการสำรวจสำมะโนประชากร?
เมื่อเรียนรู้วิธีการสุ่มตัวอย่างฉันพบสองข้อความต่อไปนี้: 1) ข้อผิดพลาดการสุ่มตัวอย่างนำไปสู่ความแปรปรวนส่วนใหญ่ข้อผิดพลาดการสุ่มตัวอย่างจะทำให้เกิดอคติ 2) เนื่องจากข้อผิดพลาดที่ไม่ได้สุ่มตัวอย่างกลุ่มตัวอย่างจึงมักจะแม่นยำกว่า CENSUS ฉันไม่ทราบว่าจะเข้าใจข้อความทั้งสองนี้ได้อย่างไร ตรรกะพื้นฐานในการรับสองข้อความนี้คืออะไร?

4
ทำไมถึงต้องพิจารณาการสุ่มตัวอย่างโดยไม่ต้องแทนที่ในแอปพลิเคชันเชิงปฏิบัติ
การสุ่มตัวอย่างด้วยการเปลี่ยนมีสองข้อได้เปรียบกว่าการสุ่มตัวอย่างโดยไม่ต้องเปลี่ยนอย่างที่ฉันเห็น: 1) คุณไม่จำเป็นต้องกังวลเกี่ยวกับการแก้ไขประชากร จำกัด 2) มีโอกาสที่องค์ประกอบจากประชากรจะถูกดึงหลายครั้ง - จากนั้นคุณสามารถรีไซเคิลการวัดและประหยัดเวลา แน่นอนจากมุมมองทางวิชาการคนหนึ่งต้องตรวจสอบทั้งสองวิธี แต่จาก POV เชิงปฏิบัติฉันไม่เห็นว่าทำไมใครจะพิจารณาการสุ่มตัวอย่างโดยไม่มีการเปลี่ยนเนื่องจากข้อดีของการแทนที่ แต่ฉันเป็นผู้เริ่มต้นในสถิติดังนั้นอาจมีเหตุผลมากมายที่ทำไมการไม่มีการทดแทนอาจเป็นตัวเลือกที่ดีกว่า - อย่างน้อยสำหรับกรณีการใช้งานเฉพาะ ได้โปรดเถียงฉันด้วย!

3
ทำไมการทดสอบสมมติฐานทางพารามิเตอร์หลายอย่าง (ถ้าไม่ได้ทั้งหมด) จะเป็นการสุ่มตัวอย่างแบบสุ่ม?
การทดสอบอย่าง Z, t และอีกหลายคนคิดว่าข้อมูลนั้นมาจากการสุ่มตัวอย่าง ทำไม? สมมติว่าฉันกำลังทำวิจัยเชิงทดลองที่ฉันสนใจเรื่องความถูกต้องภายในมากกว่าสิ่งภายนอก ดังนั้นหากตัวอย่างของฉันอาจมีอคติเล็กน้อยโอเคอย่างที่ฉันยอมรับไม่ได้อนุมานสมมติฐานสำหรับประชากรทั้งหมด และการจัดกลุ่มจะยังคงเป็นแบบสุ่มนั่นคือฉันจะเลือกเพื่อความสะดวกของผู้เข้าร่วมตัวอย่าง แต่ฉันจะสุ่มให้กลุ่มต่าง ๆ ทำไมฉันถึงเพิกเฉยต่อสมมติฐานนี้ไม่ได้?

2
เราจะได้การแจกแจงแบบปกติเป็นอย่างไรถ้าช่วงของค่าของตัวแปรสุ่มของเราถูก จำกัด ขอบเขต
สมมติว่าเรามีตัวแปรสุ่มที่มีช่วงของค่าที่ล้อมรอบด้วยและโดยที่คือค่าต่ำสุดและคือค่าสูงสุดaaabbbaaabbb ฉันบอกว่าเป็นโดยที่คือขนาดตัวอย่างของเราการกระจายตัวตัวอย่างของค่าเฉลี่ยตัวอย่างของเราคือการแจกแจงแบบปกติ นั่นคือการที่เราเพิ่มเราได้ใกล้ชิดและใกล้ชิดกับการกระจายปกติ แต่ขีด จำกัด ที่เกิดขึ้นจริงเป็นคือเท่ากับการกระจายปกติn→∞n→∞n \to \inftynnnnnnn→∞n→∞n \to \infty อย่างไรก็ตามไม่ได้เป็นส่วนหนึ่งของคำจำกัดความของการแจกแจงแบบปกติที่จะต้องขยายจากเป็น ?−∞−∞- \infty∞∞\infty ถ้าสูงสุดของช่วงของเราคือแล้วตัวอย่างค่าเฉลี่ยสูงสุด (โดยไม่คำนึงถึงขนาดของกลุ่มตัวอย่าง) เป็นไปได้เท่ากับและตัวอย่างขั้นต่ำเฉลี่ยเท่ากับbbbbbbaaa ดังนั้นจึงดูเหมือนว่าฉันว่าแม้ว่าเราจะใช้วงเงินเป็นแนวทางอินฟินิตี้จัดจำหน่ายของเราไม่ได้มีการกระจายปกติที่เกิดขึ้นจริงเพราะมันมีขอบเขตโดยและขnnnaaabbb ฉันกำลังคิดถึงอะไร

3
ตรวจสอบว่ากระบวนการกระจายแบบเทลด์หนักได้รับการปรับปรุงอย่างมีนัยสำคัญหรือไม่
ฉันสังเกตเวลาประมวลผลของกระบวนการก่อนและหลังการเปลี่ยนแปลงเพื่อค้นหาหากกระบวนการได้รับการปรับปรุงโดยการเปลี่ยนแปลง กระบวนการได้รับการปรับปรุงหากเวลาในการประมวลผลลดลง การกระจายเวลาของการประมวลผลเป็นแบบเทลด์ไขมันดังนั้นการเปรียบเทียบตามค่าเฉลี่ยจึงไม่สมเหตุสมผล แต่ฉันอยากทราบว่าความน่าจะเป็นในการสังเกตเวลาประมวลผลที่ลดลงหลังจากการเปลี่ยนแปลงนั้นสูงกว่า 50% หรือไม่ ให้เป็นตัวแปรสุ่มสำหรับเวลาการประมวลผลหลังจากการเปลี่ยนแปลงและYเป็นหนึ่งก่อน ถ้าP ( X &lt; Y )สูงกว่า0.5อย่างมีนัยสำคัญฉันจะบอกว่ากระบวนการได้รับการปรับปรุงXXXYYYP( X&lt; Y)P(X&lt;Y)P(X < Y)0.50.50.5 ตอนนี้ฉันมีสังเกตx ฉันของXและเมตรสังเกตY ญของY สังเกตน่าจะเป็นของP ( X &lt; Y )คือP = 1nnnxผมxix_iXXXม.mmYJyjy_jYYYP( X&lt; Y)P(X&lt;Y)P(X < Y)Jพี^= 1ไม่มΣผมΣJ1xผม&lt; yJp^=1nm∑i∑j1xi&lt;yj\hat p = \frac{1}{n m} \sum_i \sum_j 1_{x_i < y_j} ฉันจะพูดอะไรเกี่ยวกับได้จากการสังเกตการณ์x iและy j ?P( X&lt; Y)P(X&lt;Y)P(X < …

1
ความแตกต่างระหว่าง PROC Mixed และ lme / lmer ใน R - degree of freedom
หมายเหตุ: คำถามนี้เป็นคำถามใหม่เนื่องจากต้องลบคำถามก่อนหน้านี้ด้วยเหตุผลทางกฎหมาย ในขณะที่เปรียบเทียบ PROC MIXED จาก SAS กับฟังก์ชันlmeจากnlmeแพ็คเกจใน R ฉันพบความแตกต่างที่ค่อนข้างสับสน โดยเฉพาะอย่างยิ่งองศาอิสระในการทดสอบที่แตกต่างกันระหว่างPROC MIXEDและlmeและฉันสงสัยว่าทำไม เริ่มจากชุดข้อมูลต่อไปนี้ (รหัส R ระบุด้านล่าง): ind: ปัจจัยบ่งชี้บุคคลที่จะทำการวัด fac: อวัยวะที่ใช้ทำการวัด trt: ปัจจัยบ่งชี้การรักษา y: ตัวแปรตอบสนองต่อเนื่องบางอย่าง ความคิดคือการสร้างแบบจำลองง่ายๆดังต่อไปนี้: y ~ trt + (ind): indเป็นปัจจัยสุ่ม y ~ trt + (fac(ind)): facซ้อนกันindเป็นปัจจัยสุ่ม โปรดทราบว่ารุ่นสุดท้ายที่ควรทำให้เกิดเอกเป็นมีเพียง 1 ค่าของyสำหรับการรวมกันของทุกและindfac แบบจำลองแรก ใน SAS ฉันสร้างโมเดลต่อไปนี้: PROC MIXED data=Data; CLASS ind fac …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

2
วิธีตัวอย่าง X อย่างรวดเร็วถ้า exp (X) ~ Gamma
ฉันมีปัญหาในการสุ่มตัวอย่างอย่างง่ายโดยที่วงในของฉันดูเหมือน: v = sample_gamma(k, a) โดยที่sample_gammaตัวอย่างจากการแจกแจงแกมม่าเป็นตัวอย่าง Dirichlet มันใช้งานได้ดี แต่สำหรับค่าบางส่วนของ k / a การคำนวณ downstream underflows บางส่วน ฉันปรับมันเพื่อใช้ตัวแปรพื้นที่บันทึก: v = log(sample_gamma(k, a)) หลังจากปรับโปรแกรมที่เหลือทั้งหมดมันทำงานได้อย่างถูกต้อง (อย่างน้อยมันก็ให้ผลลัพธ์ที่แน่นอนเหมือนกันในกรณีทดสอบ) อย่างไรก็ตามมันช้ากว่าเดิม มีวิธีการโดยตรงตัวอย่างโดยไม่ใช้ฟังก์ชั่นช้าเช่นlog ( ) ? ฉันลอง googling สำหรับสิ่งนี้ แต่ฉันไม่รู้ด้วยซ้ำว่าการกระจายนี้มีชื่อสามัญ (log-gamma?)X, ประสบการณ์( X) ∼ GammaX,exp⁡(X)∼GammaX, \exp(X) \sim \text{Gamma}เข้าสู่ระบบ( )log⁡()\log()

1
ทำไมทฤษฎีบทขีด จำกัด กลางทำงานกับตัวอย่างเดี่ยว
ฉันได้รับการสอนเสมอว่า CLT ทำงานได้เมื่อคุณสุ่มตัวอย่างซ้ำโดยแต่ละตัวอย่างมีขนาดใหญ่พอ ตัวอย่างเช่นสมมติว่าฉันมีประเทศที่มีประชากร 1,000,000 คน ความเข้าใจของฉันเกี่ยวกับ CLT คือแม้ว่าการแจกแจงความสูงของพวกเขาไม่ปกติถ้าฉันเอาตัวอย่าง 1,000 คนจาก 50 คน (เช่นทำการสำรวจ 1,000 คนจาก 50 คนต่อคน) จากนั้นคำนวณความสูงเฉลี่ยของพวกเขาสำหรับตัวอย่างแต่ละตัวอย่าง หมายถึงจะเป็นเรื่องปกติ อย่างไรก็ตามฉันไม่เคยเห็นกรณีโลกแห่งความจริงที่นักวิจัยได้ทำการสุ่มตัวอย่างซ้ำ แต่พวกเขาใช้ตัวอย่างใหญ่หนึ่งตัวอย่าง (เช่นสำรวจประชากร 50,000 คนเกี่ยวกับความสูงของพวกเขา) และทำงานจากนั้น เพราะเหตุใดหนังสือสถิติสอนการสุ่มตัวอย่างซ้ำ ๆ และในนักวิจัยในโลกแห่งความเป็นจริงจึงทำการสุ่มตัวอย่างเพียงครั้งเดียว แก้ไข: กรณีโลกแห่งความจริงที่ฉันกำลังคิดจะทำสถิติในชุดข้อมูลของผู้ใช้ twitter 50,000 คน ชุดข้อมูลนั้นไม่ได้เป็นตัวอย่างซ้ำ ๆ แต่เป็นเพียงตัวอย่างใหญ่หนึ่ง 50,000

2
วิธีการ MCMC - ตัวอย่างการเผาไหม้?
ในMCMCวิธีผมให้อ่านเกี่ยวกับเวลาหรือจำนวนตัวอย่างที่จะburn-in "burn"มันคืออะไรกันแน่และทำไมมันถึงต้องการ? ปรับปรุง: เมื่อ MCMC ทรงตัวแล้วมันจะยังคงเสถียรหรือไม่? แนวคิดเรื่องburn-inเวลาเกี่ยวข้องกับเวลาในการผสมอย่างไร?
12 sampling  mcmc 

1
ตัวอย่างที่ใช้งานง่ายของการสุ่มตัวอย่างที่สำคัญ
พื้นหลังของฉันคือวิทยาศาสตร์คอมพิวเตอร์ ฉันค่อนข้างใหม่สำหรับวิธีการสุ่มตัวอย่าง monte carlo และแม้ว่าฉันจะเข้าใจคณิตศาสตร์ฉันมีเวลายากลำบากในการหาตัวอย่างที่ใช้งานง่ายสำหรับการสุ่มตัวอย่างที่สำคัญ แม่นยำยิ่งขึ้นใครบางคนสามารถให้ตัวอย่างของ: การแจกแจงเริ่มต้นหนึ่งไม่สามารถสุ่มตัวอย่างได้ แต่สามารถประมาณได้ การแจกแจงที่สำคัญซึ่งสามารถสุ่มตัวอย่างและเพียงพอสำหรับการแจกแจงเริ่มต้นนี้

3
วิธีการสุ่มตัวอย่างใหม่ใน R โดยไม่ต้องเปลี่ยนลำดับซ้ำ?
ใน R ถ้าฉัน set.seed () จากนั้นใช้ฟังก์ชั่นตัวอย่างเพื่อสุ่มรายการฉันสามารถรับประกันได้ว่าฉันจะไม่สร้างการเปลี่ยนแปลงแบบเดียวกันหรือไม่? เช่น ... set.seed(25) limit &lt;- 3 myindex &lt;- seq(0,limit) for (x in seq(1,factorial(limit))) { permutations &lt;- sample(myindex) print(permutations) } สิ่งนี้ผลิต [1] 1 2 0 3 [1] 0 2 1 3 [1] 0 3 2 1 [1] 3 1 2 0 [1] 2 3 0 …

1
การสุ่มตัวอย่างจากการแจกแจงร่อแร่โดยใช้การแจกแจงแบบมีเงื่อนไข?
ฉันต้องการตัวอย่างจากความหนาแน่นของ univariate ฉXฉXf_Xแต่ฉันรู้เพียงความสัมพันธ์: ฉX( x ) = ∫ฉX| Y(x | y)fY( y) dY.ฉX(x)=∫ฉX|Y(x|Y)ฉY(Y)dY.f_X(x) = \int f_{X\vert Y}(x\vert y)f_Y(y) dy. ฉันต้องการหลีกเลี่ยงการใช้ MCMC (โดยตรงกับการแทนค่าอินทิกรัล) และเนื่องจากและเป็นตัวอย่างที่ง่ายฉันจึงคิดที่จะใช้ตัวอย่างต่อไปนี้ :f Y ( y )ฉX| Y( x | y)ฉX|Y(x|Y)f_{X\vert Y}(x\vert y)ฉY( y)ฉY(Y)f_Y(y) สำหรับNj = 1 , … , NJ=1,...,ยังไม่มีข้อความj=1,\dots, N ตัวอย่างf_YYJ∼ fYYJ~ฉYy_j \sim f_Y ตัวอย่างy_j)xJ∼ fX| Y( …

5
จะสร้างลำดับด้วยค่าเฉลี่ยอย่างไร
ฉันรู้วิธีการสร้างลำดับที่มีค่าเฉลี่ย0ตัวอย่างเช่นใน Matlab ถ้าฉันต้องการสร้างลำดับของความยาวมันคือ:± 1±1\pm 1000± 1±1\pm 1100001000010000 2*(rand(1, 10000, 1)&lt;=.5)-1 อย่างไรก็ตามวิธีการสร้างลำดับมีค่าเฉลี่ยคือโดยที่เป็นที่ต้องการเล็กน้อย± 1±1\pm 10.050.050.05111

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.