คำถามติดแท็ก sampling

การสร้างตัวอย่างจากประชากรที่ระบุอย่างดีโดยใช้วิธีความน่าจะเป็นและ / หรือการสร้างตัวเลขสุ่มจากการแจกแจงที่ระบุ เนื่องจากแท็กนี้ไม่ชัดเจนโปรดพิจารณา [การสำรวจตัวอย่าง] สำหรับอดีตและ [monte-carlo] หรือ [จำลอง] สำหรับหลัง สำหรับคำถามเกี่ยวกับการสร้างตัวอย่างแบบสุ่มจากการแจกแจงที่รู้จักโปรดพิจารณาใช้แท็ก [การสร้างแบบสุ่ม]

2
Latin Hypercube Sampling Asymptotics
ฉันกำลังพยายามสร้างหลักฐานสำหรับปัญหาที่ฉันกำลังทำอยู่และหนึ่งในข้อสมมติที่ฉันทำคือชุดของจุดที่ฉันสุ่มตัวอย่างจากนั้นหนาแน่นทั่วทั้งพื้นที่ ในทางปฏิบัติฉันใช้การสุ่มตัวอย่าง hypercube แบบละตินเพื่อให้ได้คะแนนจากพื้นที่ตัวอย่างทั้งหมด สิ่งที่ฉันอยากรู้คือถ้าตัวอย่าง hypercube ละตินมีความหนาแน่นมากกว่าพื้นที่ทั้งหมดถ้าคุณปล่อยให้ขนาดตัวอย่างของคุณมีแนวโน้มที่จะ ? ถ้าเป็นเช่นนั้นการอ้างอิงสำหรับความจริงนี้จะได้รับการชื่นชมอย่างมาก∞∞\infty

1
วิธีการรับตัวอย่างกิ๊บส์?
ที่จริงฉันลังเลที่จะถามเรื่องนี้เพราะฉันกลัวว่าฉันจะถูกส่งต่อไปยังคำถามอื่นหรือวิกิพีเดียในการสุ่มตัวอย่างของกิ๊บส์ แต่ฉันไม่มีความรู้สึกว่าพวกเขาอธิบายสิ่งที่อยู่ในมือ รับความน่าจะเป็นแบบมีเงื่อนไข : p ( x | y ) y = y 0 y = y 1 x = x 0 1p ( x | y)p(x|y)p(x|y)p ( x | y)x = x0x = x1Y= y01434Y= y12646p(x|y)y=y0y=y1x=x01426x=x13446 \begin{array}{c|c|c} p(x|y) & y = y_0 & y = y_1 \\ \hline x …
11 sampling  mcmc  gibbs 

1
เกิดอะไรขึ้นถ้าความน่าจะเป็นไม่เท่ากันใน“ .632 กฎ”
คำถามนี้ได้มาจากคำถามนี้เกี่ยวกับ".632 Rule" ฉันกำลังเขียนโดยมีการอ้างอิงโดยเฉพาะกับคำตอบ / สัญกรณ์ของ user603 เท่าที่มันง่ายขึ้นเรื่อง คำตอบที่ขึ้นต้นด้วยตัวอย่างที่มีขนาดด้วยการเปลี่ยนจากรายการที่แตกต่างกันในคอลเลกชัน (โทร) มัน N. ความน่าจะเป็นว่าตัวอย่างจะแตกต่างจากองค์ประกอบเฉพาะของ N คือแล้วn ,n,n,nnnผมt hithi^{th}sผมsis_iม.mm( 1 - 1 / n )(1−1/n).(1 - 1/n). ในคำตอบนั้นองค์ประกอบทั้งหมดของ N มีโอกาสเท่าเทียมกันในการถูกสุ่มจับ คำถามของฉันคือ: สมมติว่าในคำถามข้างต้นรายการที่จะวาดนั้นเป็นสิ่งที่พวกเขามีการกระจายตามปกติ นั่นคือเราแบ่งเส้นโค้งปกติมาตรฐานจากถึงเป็น (พูด) 100 ช่วงเวลาที่มีความยาวเท่ากัน แต่ละรายการ 100 ใน N มีความน่าจะเป็นที่จะถูกดึงที่เท่ากับพื้นที่ subtended โดยเส้นโค้งในช่วงเวลาที่เกี่ยวข้องZ= - 4Z=−4Z = -4Z= 4Z=4Z = 4 ความคิดของฉันเป็นดังนี้: การให้เหตุผลมีความคล้ายคลึงกับคำตอบที่ฉันคิดไว้ ความน่าจะเป็นที่โดยที่เป็นองค์ประกอบของ …

1
การสุ่มตัวอย่างกิ๊บส์สำหรับโมเดลไอซิง
คำถามการบ้าน: พิจารณาโมเดลไอซิ่ง 1-d ให้x_d) คือ -1 หรือ +1x=(x1,...xd)x=(x1,...xd)x = (x_1,...x_d)xixix_i π(x)∝e∑39i=1xixi+1π(x)∝e∑i=139xixi+1\pi(x) \propto e^{\sum_{i=1}^{39}x_ix_{i+1}} ออกแบบกิ๊บส์เป็นตัวอย่างขั้นตอนวิธีการในการสร้างตัวอย่างประมาณจากการกระจายเป้าหมาย(x)π(x)π(x)\pi(x) ความพยายามของฉัน: สุ่มเลือกค่า (ทั้ง -1 หรือ 1) เพื่อเติมเต็มเวกเตอร์{40}) ดังนั้นบางที1) ดังนั้นนี่คือ 0x=(x1,...x40)x=(x1,...x40)x = (x_1,...x_{40})x=(−1,−1,1,1,1,−1,1,1,...,1)x=(−1,−1,1,1,1,−1,1,1,...,1)x = (-1, -1, 1, 1, 1, -1, 1, 1,...,1)x0x0x^0 ดังนั้นตอนนี้เราต้องดำเนินการต่อและทำซ้ำครั้งแรก เราต้องวาด 40 x ที่แตกต่างกันสำหรับแยกกัน ดังนั้น...x1x1x^1 วาดจากx11x11x_1^1π(x1|x02,...,x040)π(x1|x20,...,x400)\pi(x_1 | x_2^0,...,x_{40}^0) วาดจากx12x21x_2^1π(x2|x11,x03,...,x040)π(x2|x11,x30,...,x400)\pi(x_2 | x_1^1, x_3^0,...,x_{40}^0) วาดจากx13x31x_3^1π(x3|x11,x12,x04,...,x040)π(x3|x11,x21,x40,...,x400)\pi(x_3 | …

1
การกระจายตัวตัวอย่างของสัมประสิทธิ์การถดถอย
ก่อนหน้านี้ฉันได้เรียนรู้เกี่ยวกับการสุ่มตัวอย่างการแจกแจงที่ให้ผลลัพธ์ซึ่งมีไว้สำหรับตัวประมาณในแง่ของพารามิเตอร์ที่ไม่รู้จัก ตัวอย่างเช่นสำหรับการแจกแจงตัวอย่างของและในโมเดลการถดถอยเชิงเส้น β 1Yฉัน=βo+β1Xฉัน+εฉันβ^0β^0\hat\beta_0β^1β^1\hat\beta_1Yผม= βโอ+ β1Xผม+ εผมYผม=βโอ+β1Xผม+εผมY_i = \beta_o + \beta_1 X_i + \varepsilon_i β^0∼ N( β0, σ 2( 1)n+ x¯2Sx x) )β^0~ยังไม่มีข้อความ(β0, σ2(1n+x¯2Sxx)) \hat{\beta}_0 \sim \mathcal N \left(\beta_0,~\sigma^2\left(\frac{1}{n}+\frac{\bar{x}^2}{S_{xx}}\right)\right) และ β^1∼ N( β1, σ 2Sx x)β^1~ยังไม่มีข้อความ(β1, σ2Sxx) \hat{\beta}_1 \sim \mathcal N \left(\beta_1,~\frac{\sigma^2}{S_{xx}}\right) โดยที่Sx x= ∑ni = 1( x2ผม)−nx¯2Sxx=∑i=1n(xi2)-nx¯2S_{xx} = \sum_{i=1}^n …

2
การสุ่มตัวอย่างด้วยการแทนที่ด้วย R randomForest
การใช้งาน RandomForest ไม่อนุญาตให้มีการสุ่มตัวอย่างเกินจำนวนการสังเกตแม้ว่าจะสุ่มตัวอย่างด้วยการเปลี่ยน ทำไมนี้ ทำงานได้ดี: rf <- randomForest(Species ~ ., iris, sampsize=c(1, 1, 1), replace=TRUE) rf <- randomForest(Species ~ ., iris, sampsize=3, replace=TRUE) สิ่งที่ฉันต้องการจะทำ: rf <- randomForest(Species ~ ., iris, sampsize=c(51, 1, 1), replace=TRUE) Error in randomForest.default(m, y, ...) : sampsize can not be larger than class frequency ข้อผิดพลาดที่คล้ายกันโดยไม่มีตัวอย่างแบ่งชั้น: rf …

1
การแปลง r เป็นฟิชเชอร์ซีมีประโยชน์ต่อการวิเคราะห์อภิมานหรือไม่?
โดยปกติจะถูกแปลงเป็น Fisher zเพื่อทดสอบความแตกต่างระหว่างค่าrสองค่า แต่เมื่อต้องทำการวิเคราะห์เมตาดาต้าทำไมเราควรทำตามขั้นตอนดังกล่าว มันถูกต้องสำหรับข้อผิดพลาดในการวัดหรือข้อผิดพลาดที่ไม่ใช่การสุ่มตัวอย่างและทำไมเราควรสันนิษฐานว่าrเป็นการประมาณค่าที่ไม่สมบูรณ์ของสหสัมพันธ์ของประชากรrrrzzzrrrrrr

5
ฉันสามารถใช้“ ตาซ้าย” และ“ ตาขวา” ในตัวอย่างของฉันเป็นวิชาที่แตกต่างกันได้หรือไม่?
ข้อมูลของฉันมีดังนี้ ฉันมีผู้ป่วยสองกลุ่ม ผู้ป่วยในแต่ละกลุ่มมีการผ่าตัดตาที่แตกต่างกัน วัดตัวแปร 5 ตัวสำหรับผู้ป่วยในแต่ละกลุ่ม ฉันต้องการเปรียบเทียบตัวแปรเหล่านั้นระหว่างสองกลุ่มโดยใช้การทดสอบการเปลี่ยนรูปหรือ MANOVA ตาที่ใช้ทำการผ่าตัดนั้นไม่สำคัญในการวิเคราะห์ อย่างไรก็ตามผู้ป่วย 2 ในกลุ่ม A มีการผ่าตัดที่ตาทั้งสองข้างดังนั้นจึงมีตัวแปร 5 ตัวที่วัดสองครั้งหนึ่งครั้งต่อตา ฉันสามารถพิจารณาผู้ป่วย 2 ด้านซ้ายและผู้ป่วย 2 ได้เช่นกัน เหมือนกันสำหรับผู้ป่วย 31 ในกลุ่ม B อดทน122.วันที่ 31วันที่ 3132.ประเภทการผ่าตัดAAA.BBB.ด้านซ้ายซ้ายขวา.ซ้ายขวาขวา.V1918790908891.....................V5221923171924PatientSurgery typeSideV1…V51ALeft91…222ALeft87…192ARight90…23...31BLeft90…1731BRight88…1932BRight91…24... \begin{array} \hline \text{Patient} & \text{Surgery type} & \text{Side} & \text{V1}& \ldots & V5\\ 1 & \text{A} & \text{Left} & 91 & …
11 sampling 

2
เหตุใดจึงเป็นที่พึงปรารถนาที่จะมีความสัมพันธ์แบบอัตโนมัติต่ำใน MCMC
ฉันอ่านต่อเกี่ยวกับความจำเป็นในการตรวจสอบความสัมพันธ์อัตโนมัติใน MCMC ทำไมจึงเป็นสิ่งสำคัญที่ autocorrelation ต่ำ? มันวัดอะไรในบริบทของ MCMC?

4
ฉันจะดึงค่าแบบสุ่มจากการประมาณความหนาแน่นของเคอร์เนลได้อย่างไร
ฉันมีข้อสังเกตบางอย่างและฉันต้องการจำลองการสุ่มตัวอย่างตามข้อสังเกตเหล่านี้ ที่นี่ฉันพิจารณารูปแบบที่ไม่ใช่พารามิเตอร์โดยเฉพาะฉันใช้เคอร์เนลที่ราบเรียบเพื่อประเมิน CDF จากการสังเกตที่ จำกัด จากนั้นฉันวาดค่าที่สุ่มจาก CDF ที่ได้รับต่อไปนี้เป็นรหัสของฉัน (ความคิดคือการสุ่มสะสม ความน่าจะเป็นโดยใช้การแจกแจงแบบสม่ำเสมอและหาค่าผกผันของ CDF เทียบกับค่าความน่าจะเป็น) x = [randn(100, 1); rand(100, 1)+4; rand(100, 1)+8]; [f, xi] = ksdensity(x, 'Function', 'cdf', 'NUmPoints', 300); cdf = [xi', f']; nbsamp = 100; rndval = zeros(nbsamp, 1); for i = 1:nbsamp p = rand; [~, idx] = sort(abs(cdf(:, …

2
พิสูจน์ง่ายของ
ให้เป็นตัวแปรสุ่มมาตรฐานแบบอิสระที่เป็นอิสระ มีหลักฐานมากมาย (ยาว) ออกมาแสดงว่าZ1,⋯,ZnZ1,⋯,ZnZ_1,\cdots,Z_n ∑i=1n(Zi−1n∑j=1nZj)2∼χ2n−1∑i=1n(Zi−1n∑j=1nZj)2∼χn−12 \sum_{i=1}^n \left(Z_i - \frac{1}{n}\sum_{j=1}^n Z_j \right)^2 \sim \chi^2_{n-1} หลักฐานจำนวนมากค่อนข้างยาวและบางส่วนใช้การเหนี่ยวนำ (เช่นการอนุมานเชิงสถิติของ Casella) ฉันสงสัยว่ามีข้อพิสูจน์เรื่องผลการทดลองนี้หรือไม่

3
เปรียบเทียบ 0/10 ถึง 0/20
เมื่อพูดถึงอัตราความสำเร็จของงานมีวิธีใดที่จะแสดงให้เห็นว่า 0 จาก 20 ครั้งคือ "แย่ลง" มากกว่า 0 จาก 10 ครั้ง?

2
การแจกแจงเหนือรายการที่เรียงลำดับ
สมมติว่าเรามีรายการสั่งซื้อ [a, b, c, ... x, y, z, ...] ฉันกำลังมองหาตระกูลของการกระจายด้วยการสนับสนุนในรายการข้างต้นปกครองโดยพารามิเตอร์อัลฟาบางอย่างเพื่อที่: สำหรับ alpha = 0 จะกำหนดความน่าจะเป็น1ให้กับรายการแรกด้านบนและ 0 สำหรับส่วนที่เหลือ aนั่นคือถ้าเราลิ้มลองจากรายการนี้ด้วยการเปลี่ยนเรามักจะได้รับ เมื่ออัลฟาเพิ่มขึ้นเราจะกำหนดความน่าจะเป็นที่สูงขึ้นและสูงขึ้นให้กับส่วนที่เหลือของรายการโดยคำนึงถึงลำดับของรายการหลังจากการสลายตัวแบบเอ็กซ์โปเนนเชียล เมื่อ alpha = 1 เรากำหนดความน่าจะเป็นที่เท่ากันให้กับทุกรายการในรายการดังนั้นการสุ่มตัวอย่างจากรายการนั้นคล้ายกับการละเว้นการสั่งซื้อ นี่คล้ายกับการกระจายทางเรขาคณิต แต่มีความแตกต่างที่น่าสังเกต: การกระจายตัวทางเรขาคณิตถูกกำหนดเหนือจำนวนธรรมชาติทั้งหมด ในกรณีของฉันด้านบนรายการมีขนาดคงที่ การแจกแจงเชิงเรขาคณิตไม่ได้ถูกกำหนดไว้สำหรับ alpha = 0

2
ตัวอย่างของตัวแปรสุ่มคืออะไร?
ตัวแปรสุ่มถูกกำหนดให้เป็นฟังก์ชั่นที่สามารถวัดได้จากที่หนึ่งσพีชคณิต( Ω 1 , F 1 )ที่มีพื้นฐานการวัดPไปยังอีกσพีชคณิต( Ω 2 , F 2 )XXXσσ\sigma(Ω1,F1)(Ω1,F1)(\Omega_1, \mathcal F_1)PPPσσ\sigma(Ω2,F2)(Ω2,F2)(\Omega_2, \mathcal F_2) เราจะพูดถึงตัวอย่างของตัวแปรสุ่มนี้ได้อย่างไร เราปฏิบัติต่อมันเป็นองค์ประกอบจากΩ 2หรือไม่? หรือเป็นฟังก์ชั่นที่วัดเช่นเดียวกับX ?XnXnX^nΩ2Ω2\Omega_2XXX ฉันจะอ่านเพิ่มเติมเกี่ยวกับเรื่องนี้ได้ที่ไหน ตัวอย่าง: ในการประมาณค่า Monte Carlo เราพิสูจน์ความเป็นกลางของตัวประมาณโดยพิจารณาจากตัวอย่างเพื่อใช้เป็นฟังก์ชัน หากความคาดหวังของตัวแปรสุ่มXถูกกำหนดเป็น(Xn)Nn=1(Xn)n=1N(X^n)_{n = 1}^NXXX E[X]=∫Ω1X(ω1)dP(ω1)E[X]=∫Ω1X(ω1)dP(ω1)\begin{align} \mathbb E[X] = \int_{\Omega_1} X(\omega_1) \,\mathrm dP(\omega_1) \end{align} และสมมติว่าเป็นฟังก์ชันและX n = Xเราสามารถดำเนินการดังนี้:XnXnX^nXn=XXn=XX^n = X E[1N∑n=1Nf(Xn)]=1N∑n=1NE[f(Xn)]=1N∑n=1NE[f(X)]=E[f(X)].E[1N∑n=1Nf(Xn)]=1N∑n=1NE[f(Xn)]=1N∑n=1NE[f(X)]=E[f(X)].\begin{align} \mathbb E\left[\frac{1}{N} \sum_{n …

2
จะเลือกการฝึกอบรมการตรวจสอบข้ามและขนาดชุดการทดสอบสำหรับข้อมูลตัวอย่างขนาดเล็กได้อย่างไร
สมมติว่าฉันมีตัวอย่างขนาดเล็กเช่น N = 100 และสองชั้น ฉันจะเลือกการฝึกอบรมการตรวจสอบข้ามและขนาดชุดการทดสอบสำหรับการเรียนรู้ของเครื่องได้อย่างไร ฉันจะเลือกอย่างสังหรณ์ใจ ขนาดชุดฝึกอบรมเท่ากับ 50 ขนาดชุดการตรวจสอบความถูกต้องแบบไขว้และ ขนาดทดสอบ 25 แต่อาจทำให้รู้สึกมากหรือน้อย ฉันจะตัดสินใจค่าเหล่านี้ได้อย่างไร ฉันขอลองตัวเลือกที่แตกต่างกัน (แม้ว่าฉันเดาว่ามันจะไม่เป็นที่นิยม ... เพิ่มความเป็นไปได้ในการเรียนรู้มากกว่า)? ถ้าฉันมีมากกว่าสองคลาส

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.