คำถามติดแท็ก random-generation

การกระทำของการสร้างลำดับของตัวเลขหรือสัญลักษณ์แบบสุ่มหรือ (เกือบตลอด) หลอกแบบสุ่ม; เช่นไม่มีการคาดการณ์หรือรูปแบบใด ๆ

4
ผู้คนในลอตเตอรี่เลือกตัวเลขใดน่าจะเป็นอย่างน้อย
ล้านล้านมากกว่า $ 500 ล้านวันนี้ ฉันจำการอ่านกระดาษ JSTOR เกี่ยวกับตัวเลขบางตัวที่ไม่น่าจะเลือกได้มากที่สุด ตัวอย่างเช่นผู้คนจำนวนมากเลือก 7 เพราะเป็นเลขนำโชคของพวกเขาและฉันต้องการตรงกันข้าม อย่างไรก็ตามการเป็นสมาชิก JSTOR ของฉันหมดลงแล้ว ตัวเลขใดที่ผู้คนเลือกลอตเตอรี่เป็นอย่างน้อยในการเลือกลอตเตอรี่จากตัวเลขระหว่าง 1 ถึง 80 หมายเหตุ:แต่ละหมายเลขมีโอกาสเท่ากันในการเลือก ฉันต้องการเลือกหมายเลขที่ไม่มีใครทำดังนั้นฉันไม่ต้องแบ่งปันรางวัลกับใครถ้าฉันชนะ

4
วิธีการสร้างเมทริกซ์สหสัมพันธ์แบบสุ่มที่มีการแจกแจงแบบเส้นทแยงมุมประมาณปกติโดยมีค่าเบี่ยงเบนมาตรฐานที่กำหนด
ฉันต้องการสร้างเมทริกซ์สหสัมพันธ์แบบสุ่มเพื่อให้การกระจายตัวขององค์ประกอบนอกแนวทแยงดูเหมือนประมาณปกติ ฉันจะทำมันได้อย่างไร แรงจูงใจคือสิ่งนี้ สำหรับชุดข้อมูลอนุกรมเวลาการแจกแจงความสัมพันธ์มักจะใกล้เคียงกับปกติ ฉันต้องการสร้างเมทริกซ์สหสัมพันธ์ "ปกติ" จำนวนมากเพื่อเป็นตัวแทนของสถานการณ์ทั่วไปและใช้เพื่อคำนวณจำนวนความเสี่ยงnnn ฉันรู้วิธีการหนึ่ง แต่ส่วนเบี่ยงเบนมาตรฐานที่เกิดขึ้น (จากการกระจายตัวขององค์ประกอบนอกแนวทแยงมุม) มีขนาดเล็กเกินไปสำหรับจุดประสงค์ของฉัน: สร้างแถวสม่ำเสมอหรือแบบสุ่มปกติของเมทริกซ์มาตรฐานแถว (ลบค่าเฉลี่ย หารด้วยค่าเบี่ยงเบนมาตรฐาน) จากนั้นเมทริกซ์สหสัมพันธ์ตัวอย่างมีการแจกแจงรายการแบบทแยงมุมตามปกติ [ อัปเดตหลังจากความคิดเห็น: ส่วนเบี่ยงเบนมาตรฐานจะเป็น ]X 1nnnXX\mathbf X1n - 1X X⊤1n−1XX⊤\frac{1}{n-1}\mathbf X \mathbf X^\top∼ n- 1 / 2∼n−1/2\sim n^{-1/2} ทุกคนสามารถแนะนำวิธีที่ดีกว่าที่ฉันสามารถควบคุมค่าเบี่ยงเบนมาตรฐานได้หรือไม่?

3
วิธีการสร้างคะแนนการกระจายอย่างสม่ำเสมอในลูกบอลหน่วย 3 มิติ?
ฉันได้โพสต์คำถามก่อนหน้านี้มีความเกี่ยวข้อง แต่ฉันคิดว่ามันจะดีกว่าที่จะเริ่มหัวข้ออื่น เวลานี้ฉันสงสัยว่าจะสร้างจุดกระจายอย่างสม่ำเสมอภายใน 3 มิติหน่วยทรงกลมได้อย่างไรและจะตรวจสอบการกระจายตัวด้วยสายตาและสถิติได้อย่างไร ฉันไม่เห็นกลยุทธ์ที่โพสต์มีการโอนโดยตรงกับสถานการณ์นี้

2
วิธีการจำลองข้อมูลเซ็นเซอร์
ฉันสงสัยว่าฉันจะจำลองตัวอย่างของอายุการใช้งานการแจกจ่าย Weibull ได้อย่างไรซึ่งรวมถึงการสังเกตการณ์ที่ถูกตรวจสอบด้วย Type I ตัวอย่างเช่นให้มี n = 3, รูปร่าง = 3, มาตราส่วน = 1 และอัตราการเซ็นเซอร์ = .15, และเวลาการเซ็นเซอร์ = .88 ฉันรู้วิธีสร้างตัวอย่าง Weibull แต่ฉันไม่ทราบวิธีการสร้างข้อมูลเซ็นเซอร์ที่มีการเซ็นเซอร์ประเภทขวาฉันใน R T = rweibull(3, shape=.5, scale=1)

1
การอ้างอิงและแนวปฏิบัติที่ดีที่สุดสำหรับการตั้งค่าเมล็ดพันธุ์ในการสร้างหมายเลขหลอกเทียม
ในเอกสารนี้เกี่ยวข้องกับคำสั่ง "set seed" คน Stata พูดถึงปัญหาที่เกี่ยวข้องกับการตั้งค่าของเมล็ดเมื่อสร้างตัวเลขสุ่มหลอก สิ่งที่น่าสังเกตคือ"ไม่"คือ "อย่าใช้ลำดับของตัวเลขธรรมชาติเป็นเมล็ดเนื่องจากลำดับนี้มีรูปแบบและเป็นอันตรายต่อการสุ่มหลอก" "do" ที่น่าสนใจเพียงหนึ่งในสี่คือการตั้งค่าเพียงหนึ่งเมล็ดในช่วงชีวิตของคุณแล้วบันทึก "สถานะ" ของกระบวนการที่สร้างขึ้นในตอนท้ายของการทดสอบแต่ละครั้งเพื่อให้การทดสอบครั้งต่อไปจะดำเนินต่อไปที่จุด ที่กระบวนการหยุดทำงาน เห็นได้ชัดว่าคำแนะนำข้างต้นขึ้นอยู่กับจำนวนที่คาดหวังของการสุ่มหลอกจำนวนหนึ่งที่จะสร้างในเวลาชีวิตการวิจัยของเขา บางทีTwers Mersenneอาจครอบคลุมความต้องการตลอดชีวิตของนักวิจัยหลายคน ... ตอนนี้ฉันไม่มีประสบการณ์อย่างมากเกี่ยวกับ PRNG ในทางทฤษฎีหรือในทางปฏิบัติดังนั้นฉันจึงไม่สามารถโต้แย้งเกี่ยวกับคำแนะนำเหล่านี้ได้ - พวกเขาควรได้รับการพิสูจน์ว่าใช้ได้จริงหรือไม่ถูกต้องบนพื้นฐานทางทฤษฎีและสถิติทางคณิตศาสตร์ ดังนั้นคำถามของฉันคือ 1) คุณสามารถช่วยอธิบายหรือยกเลิกคำแนะนำที่ให้ไว้ข้างต้นหรือชี้ไปที่การอ้างอิงที่เกี่ยวข้องกับปัญหาดังกล่าวได้หรือไม่? 2) คุณสามารถให้การอ้างอิงที่เสนอ "แนวปฏิบัติที่ดีที่สุด" ในการตั้งค่าเมล็ดพันธุ์ได้หรือไม่? 3) คุณทำงานเกี่ยวกับเรื่องนี้อย่างไรและทำไม? เป็นตัวอย่างสำหรับคำถาม 3) สมมติว่าสำหรับการศึกษา Monte Carlo, คุณต้องการสร้างตัวอย่างแต่ละขนาดและที่คุณมีระยะเวลาเพียงพอที่มีขนาดใหญ่กว่าล้านคุณจะสร้างตัวเลขสุ่มหลอกทั้งหมดด้วยหนึ่งเมล็ดหรือคุณมีนิสัยเปลี่ยนเมล็ดพูดตัวอย่างต่อ (แต่เป็นเพียงภาพประกอบเท่านั้น - ฉันเชื่อว่าคำตอบทั่วไปมีค่ามากกว่าที่นี่) ม.ม.mnnnPRNGPRNG\text{PRNG}มnม.nmnมnม.nmn เธรดที่เกี่ยวข้อง (แม้ว่าจะเน้นมากขึ้น) คือการ ตั้งค่า seed ก่อนแต่ละบล็อคโค้ดหรือหนึ่งครั้งต่อโปรเจ็กต์? ฉันมีความรู้สึกว่านี่น่าจะเป็นวิกิของชุมชนผู้ดัดแปลงโปรดตัดสินใจด้วยสิ่งนั้น

1
Log-Cauchy การสร้างตัวเลขสุ่ม
ฉันต้องการวาดตัวเลขสุ่มจากการแจกแจงล็อก - โคชีซึ่งมีความหนาแน่น: ใครช่วยฉันหรือชี้ให้ฉันเห็นหนังสือ / กระดาษที่สามารถแสดงให้ฉันได้อย่างไรฉ( x ; μ , σ) = 1x πσ[ 1 + ( l n ( x ) - μσ)2].ฉ(x;μ,σ)=1xπσ[1+(ล.n(x)-μσ)2].f(x;\mu,\sigma)=\frac{1}{x\pi\sigma\left[1+\left(\frac{ln(x)-\mu}{\sigma}\right)^2\right]}.

2
สุ่มตัวอย่างการกระจายเบต้าที่มีประสิทธิภาพอย่างมีประสิทธิภาพ
ฉันจะสุ่มตัวอย่างอย่างมีประสิทธิภาพจากการกระจายต่อไปนี้ได้อย่างไร? x ∼ B ( α , β) , x > k x∼B(α,β), x>k x \sim B(\alpha, \beta),\space x > k หากไม่ใหญ่เกินไปการสุ่มตัวอย่างการปฏิเสธอาจเป็นวิธีที่ดีที่สุด แต่ฉันไม่แน่ใจว่าจะดำเนินการอย่างไรเมื่อkมีขนาดใหญ่ อาจจะมีการประมาณแบบเชิงเส้นกำกับบางอย่างที่สามารถใช้ได้?kkkkkk

4
ถูกต้องหรือไม่ (การสร้าง Truncated-norm-multivariate-Gaussian)
ถ้า นั่นคือ X∈Rn, X∼N(0–,σ2I)X∈Rn, X∼N(0_,σ2I)X\in\mathbb{R}^n,~X\sim \mathcal{N}(\underline{0},\sigma^2\mathbf{I})fX(x)=1(2πσ2)n/2exp(−||x||22σ2)fX(x)=1(2πσ2)n/2exp⁡(−||x||22σ2) f_X(x) = \frac{1}{{(2\pi\sigma^2)}^{n/2}} \exp\left(-\frac{||x||^2}{2\sigma^2}\right) ฉันต้องการการแจกแจงแบบปกติที่ถูกตัดทอนในกรณีแบบหลายตัวแปร แม่นยำมากขึ้นฉันต้องการสร้างเกณฑ์ปกติ (ค่า ) หลายตัวแปร Gaussianเซนต์ โดยที่≥a≥a\geq aYYYfY(y)={c.fX(y), if ||y||≥a0, otherwise .fY(y)={c.fX(y), if ||y||≥a0, otherwise . f_Y(y) = \begin{cases} c.f_X(y), \text{ if } ||y||\geq a \\[2mm] 0, \text{ otherwise }. \end{cases} c=1Prob{||X||≥a}c=1Prob{||X||≥a}c=\frac{1}{Prob\big\{||X||\geq a\big\}} ตอนนี้ฉันสังเกตต่อไปนี้: หาก ,x=(x1,x2,…,xn)x=(x1,x2,…,xn)x=(x_1,x_2,\ldots,x_n)||x||≥a||x||≥a||x||\geq a ⟹|xn|≥T≜max(0,(a2−∑n−11x2i))−−−−−−−−−−−−−−−−−−−−√⟹|xn|≥T≜max(0,(a2−∑1n−1xi2))\implies |x_n|\geq T\triangleq …

3
ให้เหรียญที่มีอคติไม่เป็นที่รู้จักสร้างความแตกต่างจากเหรียญที่ยุติธรรมได้อย่างมีประสิทธิภาพ
ได้รับเหรียญที่มีอคติที่ไม่รู้จักว่าฉันสามารถสร้าง variates - อย่างมีประสิทธิภาพเป็นไปได้ - ที่ Bernoulli กระจายกับความน่าจะเป็น 0.5? นั่นคือใช้จำนวนขั้นต่ำของการพลิกต่อการเปลี่ยนแปลงที่สร้างขึ้นppp

1
ทำไม Anova () และ drop1 () จึงให้คำตอบที่แตกต่างกันสำหรับ GLMM
ฉันมีแบบฟอร์ม GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) เมื่อฉันใช้drop1(model, test="Chi")ฉันได้รับผลลัพธ์ที่แตกต่างกว่าถ้าผมใช้จากแพคเกจรถหรือAnova(model, type="III") summary(model)สองหลังนี้ให้คำตอบเดียวกัน จากการใช้ข้อมูลที่ประดิษฐ์ขึ้นมาฉันพบว่าทั้งสองวิธีปกติไม่แตกต่างกัน พวกเขาให้คำตอบเดียวกันสำหรับแบบจำลองเชิงเส้นที่มีความสมดุลแบบจำลองเชิงเส้นที่ไม่สมดุล (ซึ่งไม่เท่ากันในกลุ่มต่าง ๆ ) และสำหรับแบบจำลองเชิงเส้นที่สมดุลแบบทั่วไป ดังนั้นจึงปรากฏว่าเฉพาะในกรณีที่มีการรวมปัจจัยแบบสุ่มเข้าด้วยกัน ทำไมจึงมีความคลาดเคลื่อนระหว่างสองวิธีนี้? เมื่อใช้ GLMM ควรAnova()หรือdrop1()จะใช้งานอย่างไร ความแตกต่างระหว่างสองสิ่งนี้ค่อนข้างเล็กน้อยอย่างน้อยสำหรับข้อมูลของฉัน มันมีความสำคัญต่อการใช้งานหรือไม่?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
การสร้างเวกเตอร์สุ่มด้วยข้อ จำกัด
ฉันจำเป็นต้องสร้างเวกเตอร์สุ่มของจำนวนจริง a_i ที่ปฏิบัติตามข้อ จำกัด ดังต่อไปนี้: abs(a_i) < c_i; sum(a_i)< A; # sum of elements smaller than A sum(b_i * a_i) < B; # weighted sum is smaller than B aT*A*a < D # quadratic multiplication with A smaller than D where c_i, b_i, A, B, D are constants. อะไรคืออัลกอริทึมทั่วไปในการสร้างเวกเตอร์ชนิดนี้อย่างมีประสิทธิภาพ

2
RNG, R, mclapply และคลัสเตอร์คอมพิวเตอร์
ฉันใช้การจำลองใน R และคลัสเตอร์คอมพิวเตอร์และมีปัญหาดังต่อไปนี้ ฉันใช้งานคอมพิวเตอร์ X แต่ละเครื่อง: fxT2 <- function(i) runif(10) nessay <- 100 c(mclapply(1:nessay, fxT2), recursive=TRUE) มีคอมพิวเตอร์ 32 เครื่องแต่ละเครื่องมี 16 คอร์ อย่างไรก็ตามประมาณ 2% ของตัวเลขสุ่มนั้นเหมือนกัน คุณจะใช้กลยุทธ์อะไรเพื่อหลีกเลี่ยงปัญหานี้? ฉันสามารถหลีกเลี่ยงปัญหานี้สำหรับ fxT2 โดยการตั้งเวลาแฝง (เช่นการหน่วงเวลาวินาทีที่แต่ละงานถูกส่งไปยังคอมพิวเตอร์ X แต่ละเครื่อง) แต่ดูเหมือนว่าจะเป็นโฆษณาสำหรับ fxt2 ปัญหาคือว่าในความเป็นจริง fxT2 เป็นงานที่ยาวนานที่เกี่ยวข้องกับการสุ่มตัวเลขหลอก ในตอนท้ายของกระบวนการฉันคาดว่าจะได้รับการทำสำเนา X * nessay จากการทดลองทางสถิติแบบเดียวกันไม่ใช่การทำซ้ำแบบ nessay วิธีการตรวจสอบให้แน่ใจว่าเป็นกรณีนี้และมีวิธีการตรวจสอบนี้หรือไม่?

4
จากที่อยู่อีเมลไปยังหมายเลขกึ่งสุ่ม [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน2 ปีที่ผ่านมา จุดมุ่งหมายของฉัน: ฉันต้องการที่จะมีฟังก์ชั่นที่ใช้ที่อยู่อีเมลและส่งออกจำนวนกึ่งสุ่มแบบ 1, 2, 3 หรือ 4 รายละเอียดเล็กน้อย: จากตัวเลขสุ่มฉันหมายถึงการให้ประชากรโดยทั่วไปของที่อยู่อีเมลความน่าจะเป็นที่จะได้รับค่า 1, 2, 3 หรือ 4 มีค่าเท่ากันโดยประมาณและคุณสมบัติระบบที่ชัดเจนของที่อยู่อีเมลเช่นชื่อโดเมน ไม่ส่งผลกระทบต่อความน่าจะเป็นในการรับค่า 1, 2, 3 หรือ 4 พื้นหลังเล็กน้อย: ฉันมีการทดสอบออนไลน์ที่เขียนขึ้นโดยการสอบสวนที่ผู้เข้าร่วมลงชื่อเข้าใช้สองครั้ง ฉันต้องการสุ่มมอบหมายให้ผู้เข้าร่วมหนึ่งในสี่กลุ่ม ขณะนี้ทำได้ง่ายสำหรับหนึ่งเซสชัน (ฉันสามารถใช้ตัวสร้างตัวเลขสุ่ม) ได้ฉันต้องการวิธีการจดจำการจัดสรรข้ามเซสชัน ดังนั้นฉันคิดว่าฉันสามารถแยกการจัดสรรกลุ่มแบบกึ่งสุ่มจากอีเมลของผู้เข้าร่วมได้ ฉันยังมีข้อ จำกัด ในชุดฟังก์ชั่นที่ฉันมีให้ด้วย ( ดูที่นี่เพื่อดูรายการทั้งหมด ) ฟังก์ชั่นสตริงคือ: tolower toupper ประโยชน์ของการค้นหา concat concall มี startswith endswith …

4
วิธีที่ดีที่สุดในการหว่าน N ตัวสร้างตัวเลขสุ่มแบบอิสระจาก 1 ค่า
ในโปรแกรมของฉันฉันต้องรัน N แยกเธรดแต่ละตัวด้วย RNG ของตัวเองซึ่งใช้เพื่อสุ่มตัวอย่างชุดข้อมูลขนาดใหญ่ ฉันต้องสามารถหว่านกระบวนการทั้งหมดนี้ด้วยค่าเดียวดังนั้นฉันจึงสามารถทำซ้ำผลลัพธ์ได้ มันเพียงพอแล้วหรือไม่ที่จะเพิ่มเมล็ดตามลำดับสำหรับแต่ละดัชนี? ขณะนี้ฉันใช้numpyของRandomStateซึ่งใช้ตัวสร้างตัวเลขสุ่มหลอก Mersenne Twister ตัวอย่างโค้ดด้านล่าง: # If a random number generator seed exists if self.random_generator_seed: # Create a new random number generator for this instance based on its # own index self.random_generator_seed += instance_index self.random_number_generator = RandomState(self.random_generator_seed) โดยพื้นฐานแล้วฉันเริ่มต้นด้วยเมล็ดที่ผู้ใช้ป้อน (ถ้ามี) และสำหรับแต่ละอินสแตนซ์ / เธรดฉันตามลำดับเพิ่มดัชนี (0 ถึง …

4
รูปแบบประวัติเหตุการณ์แบบไม่ต่อเนื่อง (การอยู่รอด) ใน R
ฉันกำลังพยายามปรับโมเดลที่ไม่ต่อเนื่องใน R แต่ฉันไม่แน่ใจว่าจะทำอย่างไร ฉันได้อ่านแล้วว่าคุณสามารถจัดระเบียบตัวแปรตามในแถวต่างกันหนึ่งตัวสำหรับแต่ละการสังเกตเวลาและการใช้glmฟังก์ชั่นที่มีลิงค์ logit หรือ cloglog ในแง่นี้ฉันมีสามคอลัมน์: ID, Event(1 หรือ 0 ในแต่ละช่วงเวลา) และTime Elapsed(ตั้งแต่จุดเริ่มต้นของการสังเกต) รวมทั้ง covariates อื่น ๆ ฉันจะเขียนรหัสเพื่อให้พอดีกับรุ่นได้อย่างไร ตัวแปรตามคืออะไร ฉันเดาว่าฉันสามารถใช้Eventเป็นตัวแปรตามและรวมTime Elapsedอยู่ใน covariates แต่สิ่งที่เกิดขึ้นกับID? ฉันต้องการมันไหม ขอบคุณ
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.