คำถามติดแท็ก sampling

การสร้างตัวอย่างจากประชากรที่ระบุอย่างดีโดยใช้วิธีความน่าจะเป็นและ / หรือการสร้างตัวเลขสุ่มจากการแจกแจงที่ระบุ เนื่องจากแท็กนี้ไม่ชัดเจนโปรดพิจารณา [การสำรวจตัวอย่าง] สำหรับอดีตและ [monte-carlo] หรือ [จำลอง] สำหรับหลัง สำหรับคำถามเกี่ยวกับการสร้างตัวอย่างแบบสุ่มจากการแจกแจงที่รู้จักโปรดพิจารณาใช้แท็ก [การสร้างแบบสุ่ม]

8
วิธีประมาณจำนวนคนที่เข้าร่วมกิจกรรม (พูดการชุมนุมทางการเมือง)?
นักเรียนคนหนึ่งถามฉันในวันนี้ "พวกเขารู้ได้อย่างไรว่ามีผู้คนมากมายที่เข้าร่วมกิจกรรมกลุ่มใหญ่เช่น Stewart / Colbert 'Rally to Restore Sanity' ในวอชิงตัน ดี.ซี. " สำนักข่าวรายงานการประมาณการเป็นหมื่น แต่วิธีการใดที่ใช้ในการรับการประมาณการเหล่านั้นและเชื่อถือได้อย่างไร เห็นได้ชัดว่ามีบทความหนึ่งเรื่องการประเมินใบอนุญาตจอดรถของพวกเขา ... แต่เรามีเทคนิคอะไรอีกบ้าง โปรดทราบว่าฉันไม่ได้พูดถึงการทดลองจับภาพ / เอาคืนหรืออะไรทำนองนั้น ฉันไม่มีความคิดใด ๆ ฉันคาดเดาล่วงหน้าว่าไม่มีวิธีการเฉพาะสำหรับสิ่งนี้และสิ่งใดที่มีอยู่มาก (เช่นจำนวนใบอนุญาตจอดรถที่ถูกขาย) มันเป็นเรื่องจริงเหรอ? สำหรับวัตถุประสงค์ของความมั่นคงแห่งชาติ - แน่นอนว่ามันเป็นไปได้ที่จะให้นักวิเคราะห์นั่งลงพร้อมภาพถ่ายดาวเทียมและนับจำนวนผู้คนที่นั่นด้วย ฉันสงสัยว่าวิธีนี้ใช้บ่อยมาก

2
การวาดภาพจากการกระจาย Dirichlet
สมมติว่าเรามีการกระจาย Dirichlet กับมิติเวกเตอร์พารามิเตอร์alpha_K] ฉันจะวาดตัวอย่าง ( เวกเตอร์ Dimensional) จากการแจกแจงนี้ได้อย่างไร? ฉันต้องการคำอธิบายง่ายๆ→การα = [ α 1 , α 2 , . . , α K ] KKKKα⃗ = [ α1, α2, . . . , αK]α→=[α1,α2,...,αK]\vec\alpha = [\alpha_1, \alpha_2,...,\alpha_K]KKK

1
คำอธิบายของปัจจัยการแก้ไข จำกัด
ฉันเข้าใจว่าเมื่อการสุ่มตัวอย่างจากประชากร จำกัด และขนาดตัวอย่างของเรามากกว่า 5% ของประชากรเราจำเป็นต้องแก้ไขค่าเฉลี่ยและข้อผิดพลาดมาตรฐานของตัวอย่างโดยใช้สูตรนี้: FPC= N- nยังไม่มีข้อความ- 1----√FPC=ยังไม่มีข้อความ-nยังไม่มีข้อความ-1\hspace{10mm} FPC=\sqrt{\frac{N-n}{N-1}} โดยที่คือขนาดประชากรและคือขนาดตัวอย่างยังไม่มีข้อความยังไม่มีข้อความNnnn ฉันมีคำถาม 3 ข้อเกี่ยวกับสูตรนี้: ทำไมเกณฑ์ถูกตั้งไว้ที่ 5% สูตรได้มาอย่างไร มีแหล่งข้อมูลออนไลน์อื่น ๆ ที่อธิบายสูตรนี้นอกเหนือจากเอกสารนี้หรือไม่

1
การคำนวณความเป็นไปได้ที่จะเกิดจากกลุ่มตัวอย่าง MCMC
นี่เป็นคำถามที่เกิดขึ้น (ดูโพสต์นี้ , โพสต์นี้และโพสต์นี้ ) แต่ฉันมีสปินที่แตกต่างกัน สมมติว่าฉันมีกลุ่มตัวอย่างจากตัวอย่าง MCMC ทั่วไป สำหรับแต่ละตัวอย่างθθ\thetaฉันรู้ค่าของการบันทึกความเป็นไปได้เข้าสู่ระบบฉ( x | θ )เข้าสู่ระบบ⁡ฉ(x|θ)\log f(\textbf{x} | \theta)และเข้าสู่ระบบก่อนเข้าสู่ระบบฉ( θ )เข้าสู่ระบบ⁡ฉ(θ)\log f(\theta) ) ถ้ามันช่วยได้ฉันก็รู้ค่าของความน่าจะเป็นของการบันทึกต่อจุดข้อมูล, เข้าสู่ระบบฉ( xผม| θ)เข้าสู่ระบบ⁡ฉ(xผม|θ)\log f(x_i | \theta) (ข้อมูลนี้ช่วยในวิธีการบางอย่างเช่น WAIC และ PSIS-LOO) ฉันต้องการที่จะได้รับ (น้ำมันดิบ) ประมาณการของโอกาสร่อแร่เพียงกับกลุ่มตัวอย่างที่ฉันมีและอาจจะไม่กี่การประเมินผลการทำงานอื่น ๆ ( แต่ไม่ rerunning เฉพาะกิจ MCMC) ก่อนอื่นมาล้างตารางกันก่อน เราทุกคนรู้ว่าตัวประมาณค่าฮาร์มอนิกเป็นตัวประมาณที่แย่ที่สุดที่เคยมีมา ไปกันเถอะ หากคุณกำลังทำตัวอย่างกิ๊บส์กับนักบวชและผู้โพสต์ในรูปแบบปิดคุณสามารถใช้วิธีการของ Chib ; แต่ฉันไม่แน่ใจว่าจะพูดคุยกันนอกเรื่องเหล่านี้ได้อย่างไร นอกจากนี้ยังมีวิธีการที่ต้องการให้คุณปรับเปลี่ยนขั้นตอนการสุ่มตัวอย่าง (เช่นผ่านทางโปสเตอร์ที่มีอารมณ์ …

2
ความขัดแย้งของข้อมูล iid (อย่างน้อยสำหรับฉัน)
เท่าที่รวมของฉัน (และหายาก) ความรู้เกี่ยวกับใบอนุญาตสถิติผมเข้าใจว่าถ้าX1,X2,...,XnX1,X2,...,XnX_1, X_2,..., X_nเป็นตัวแปรสุ่มของ iid จากนั้นเมื่อคำเหล่านี้แสดงถึงความเป็นอิสระและการกระจายตัวที่เหมือนกัน ความกังวลของฉันที่นี่เป็นทรัพย์สินเดิมของตัวอย่าง iid ซึ่งอ่าน: p(Xn|Xi1,Xi2,...,Xik)=p(Xn),พี(Xn|Xผม1,Xผม2,...,Xผมk)=พี(Xn),p(X_{n}|X_{i_1},X_{i_2},...,X_{i_k}) = p(X_{n}), สำหรับคอลเลกชันใด ๆ ที่แตกต่างกัน 's เซนต์&lt;nijiji_j1≤ij&lt;n1≤ij&lt;n1 \leq i_j < n อย่างไรก็ตามมีใครรู้ว่าการรวมกลุ่มตัวอย่างอิสระของการแจกแจงแบบเดียวกันให้ข้อมูลเกี่ยวกับโครงสร้างการกระจายและเป็นผลเกี่ยวกับในกรณีข้างต้นดังนั้นจึงไม่ควรเป็นกรณีที่: XnXnX_np(Xn|Xi1,Xi2,...,Xik)=p(Xn).p(Xn|Xi1,Xi2,...,Xik)=p(Xn).p(X_{n}|X_{i_1},X_{i_2},...,X_{i_k}) = p(X_{n}). ฉันรู้ว่าฉันตกเป็นเหยื่อของการเข้าใจผิด แต่ฉันไม่รู้ว่าทำไม โปรดช่วยฉันออกจากนี้

3
ตัวอย่างที่ไม่สุ่มสามารถวิเคราะห์โดยใช้การทดสอบทางสถิติมาตรฐานได้หรือไม่
การศึกษาทางคลินิกจำนวนมากขึ้นอยู่กับตัวอย่างที่ไม่สุ่ม อย่างไรก็ตามการทดสอบมาตรฐานส่วนใหญ่ (เช่นการทดสอบ t, ANOVA, การถดถอยเชิงเส้น, การถดถอยโลจิสติก) ขึ้นอยู่กับสมมติฐานที่ตัวอย่างมี "สุ่มหมายเลข" ผลลัพธ์จะถูกต้องหรือไม่หากตัวอย่างที่ไม่ได้สุ่มเหล่านี้ได้รับการวิเคราะห์โดยการทดสอบมาตรฐาน? ขอขอบคุณ.

1
การสุ่มตัวอย่างสำหรับการถดถอยโลจิสติกควรสะท้อนอัตราส่วนที่แท้จริงของ 1 และ 0 หรือไม่?
สมมติว่าฉันต้องการสร้างแบบจำลองการถดถอยโลจิสติกซึ่งสามารถประมาณความน่าจะเป็นของการเกิดสัตว์บางชนิดที่อาศัยอยู่บนต้นไม้ตามลักษณะของต้นไม้ (ความสูง fe) เช่นเคยเวลาและเงินของฉันมี จำกัด ดังนั้นฉันสามารถรวบรวมตัวอย่างขนาด จำกัด ได้เท่านั้น ฉันมีคำถามต่อไปนี้: อัตราส่วนของ 1 และ 0 ในตัวอย่างของฉันควรสะท้อนอัตราส่วนจริงของ 1 และ 0 หรือไม่? (อย่างน้อยโดยประมาณ)ฉันสังเกตเห็นว่ามันเป็นวิธีปฏิบัติทั่วไปในการดำเนินการแบบจำลองการถดถอยโลจิสติกที่มีตัวอย่างที่สมดุล (จำนวนเท่ากับ 1 และ 0) - แต่โมเดลดังกล่าวให้ความน่าจะเป็นที่สูงเกินจริง มีบทความ / ตำราเรียนใดบ้างที่ฉันสามารถใช้เป็น ** สนับสนุนความคิดได้ว่าแบบจำลองที่ไม่สะท้อนอัตราส่วนที่แท้จริงของ 1 และ 0 เป็น " ผิด " หรือไม่? ** และในที่สุด: เป็นไปได้หรือไม่ที่จะทำการสุ่มตัวอย่างแบบ 1: 1 แล้วแก้ไขโมเดลด้วยtauตาม Imai et al 2007 Kosuke Imai, …

2
การสร้างข้อมูลด้วยเมทริกซ์ความแปรปรวนร่วมตัวอย่างที่กำหนด
ได้รับเมทริกซ์ความแปรปรวนร่วมΣsΣs\boldsymbol \Sigma_sวิธีสร้างข้อมูลเช่นนั้นจะมีเมทริกซ์ความแปรปรวนร่วมตัวอย่างΣ^=ΣsΣ^=Σs\hat{\boldsymbol \Sigma} = \boldsymbol \Sigma_s ? โดยทั่วไปเรามักจะมีความสนใจในข้อมูลที่สร้างจากความหนาแน่นของf(x|θ)f(x|θ) f(x \vert \boldsymbol\theta) กับข้อมูลxxxให้บางพารามิเตอร์เวกเตอร์\θθ\boldsymbol\thetaผลลัพธ์นี้เป็นตัวอย่างซึ่งเราอาจประมาณค่าθ^θ^\boldsymbol{\hat\theta}อีกครั้ง สิ่งที่ฉันสนใจคือปัญหาย้อนกลับ: เกิดอะไรขึ้นถ้าเราได้รับชุดพารามิเตอร์θsθs\boldsymbol\theta_{s}และเราต้องการสร้างตัวอย่างxxxเช่นนั้นθ^= θsθ^=θs \boldsymbol{\hat\theta} = \boldsymbol\theta_{s}{s} นี่เป็นปัญหาที่ทราบหรือไม่? วิธีการดังกล่าวมีประโยชน์หรือไม่? มีอัลกอริทึมหรือไม่

1
ทำไมการกระจายตัวตัวอย่างของความแปรปรวนเป็นการแจกแจงแบบไคสแควร์
คำสั่ง การแจกแจงตัวอย่างของความแปรปรวนตัวอย่างคือการแจกแจงแบบไคสแควร์ที่มีระดับความเป็นอิสระเท่ากับโดยที่คือขนาดตัวอย่าง (เนื่องจากตัวแปรสุ่มที่น่าสนใจกระจายอยู่ตามปกติ)n−1n−1n-1nnn แหล่ง สัญชาตญาณของฉัน มันค่อนข้างสมเหตุสมผลกับฉัน 1) เพราะการทดสอบไคสแควร์ดูเหมือนผลรวมของสแควร์และ 2) เพราะการแจกแจงแบบไคสแควร์เป็นเพียงผลรวมของการแจกแจงแบบปกติกำลังสอง แต่ถึงกระนั้นฉันไม่เข้าใจมัน คำถาม คำพูดนั้นเป็นจริงหรือไม่? ทำไม?

5
การสุ่มตัวอย่างสำหรับข้อมูลที่ไม่สมดุลในการถดถอย
มีคำถามที่ดีเกี่ยวกับการจัดการข้อมูลที่ไม่สมดุลในบริบทการจัดประเภทแต่ฉันสงสัยว่าคนทำเพื่อตัวอย่างสำหรับการถดถอย สมมติว่าโดเมนปัญหามีความไวต่อสัญญาณมาก แต่ค่อนข้างอ่อนไหวต่อขนาดของเป้าหมาย อย่างไรก็ตามขนาดมีความสำคัญพอที่ตัวแบบควรจะถดถอย (เป้าหมายต่อเนื่อง) ไม่ใช่การจำแนกประเภท (คลาสบวกกับคลาสลบ) และพูดในโดเมนปัญหานี้ว่าชุดข้อมูลการฝึกอบรมใด ๆ จะมีค่าลบมากกว่าเป้าหมายเชิงบวก 10 เท่า ในสถานการณ์นี้ฉันอาจสุ่มตัวอย่างตัวอย่างเป้าหมายเชิงบวกเพื่อให้ตรงกับจำนวนตัวอย่างเป้าหมายเชิงลบและจากนั้นฝึกโมเดลเพื่อแยกความแตกต่างระหว่างสองกรณี เห็นได้ชัดว่าวิธีการฝึกอบรมนั้นมีข้อมูลที่ไม่สมดุลดังนั้นฉันต้องทำการสุ่มตัวอย่างบางอย่าง อะไรจะเป็นวิธีที่ดีในการ "ยกเลิก" การสุ่มตัวอย่างนี้เมื่อทำการคาดการณ์ บางทีแปลโดย (ลบ) ค่าเฉลี่ยหรือค่ามัธยฐานของเป้าหมายของข้อมูลการฝึกอบรมตามธรรมชาติ?

7
บางคนสามารถช่วยอธิบายความแตกต่างระหว่างอิสระกับการสุ่มได้ไหม
ในสถิติอิสระและการสุ่มอธิบายลักษณะที่เหมือนกันหรือไม่ ความแตกต่างระหว่างพวกเขาคืออะไร เรามักจะเจอคำอธิบายเช่น "ตัวแปรสุ่มอิสระสองตัว" หรือ "สุ่มตัวอย่างแบบสุ่ม" ฉันสงสัยว่าอะไรคือความแตกต่างที่แน่นอนระหว่างพวกเขา ใครสามารถอธิบายสิ่งนี้และยกตัวอย่างได้บ้าง เช่นกระบวนการไม่อิสระ แต่สุ่ม

1
Bootstrapping เทียบกับ Bayesian
ฉันมีปัญหาในการทำความเข้าใจว่ากระบวนการบูตสเตปแบบเบย์คืออะไรและสิ่งนั้นแตกต่างจากการบูตสแตรปปกติของคุณอย่างไร และถ้ามีใครบางคนสามารถนำเสนอการทบทวนและการเปรียบเทียบทั้งสองอย่างง่าย ลองยกตัวอย่าง สมมติว่าเรามีชุดข้อมูล X นั่นคือ [1,2,5,7,3] หากเราสุ่มตัวอย่างด้วยการแทนที่หลาย ๆ ครั้งเพื่อสร้างขนาดตัวอย่างเท่ากับขนาดของ X (ดังนั้น [7,7,2,5,7], [3,5,2,2,7] ฯลฯ ) จากนั้นเรา คำนวณค่าเฉลี่ยของแต่ละวิธีนั่นคือการกระจาย bootstrap ของค่าเฉลี่ยตัวอย่างหรือไม่ อะไรคือการกระจาย bootstrap แบบเบส์ของสิ่งนั้น? และการกระจาย bootstrap แบบเบย์ของพารามิเตอร์อื่น ๆ (ความแปรปรวน ฯลฯ ) ทำในวิธีเดียวกันได้อย่างไร?

1
ฉันเพิ่งคิดค้นวิธี Bayesian สำหรับการวิเคราะห์ ROC curves หรือไม่
คำนำ นี่คือการโพสต์ยาว หากคุณกำลังอ่านสิ่งนี้อีกครั้งโปรดทราบว่าฉันได้แก้ไขส่วนคำถามแล้วแม้ว่าเนื้อหาพื้นหลังจะยังคงเหมือนเดิม นอกจากนี้ฉันเชื่อว่าฉันได้คิดวิธีแก้ปัญหา โซลูชันนั้นจะปรากฏที่ด้านล่างของโพสต์ ขอบคุณ CliffAB ที่ชี้ให้เห็นว่าโซลูชันดั้งเดิมของฉัน (แก้ไขจากโพสต์นี้ดูประวัติการแก้ไขสำหรับโซลูชันนั้น) จำเป็นต้องสร้างการประเมินแบบเอนเอียง ปัญหา ในการจำแนกปัญหาการเรียนรู้ของเครื่องวิธีหนึ่งในการประเมินประสิทธิภาพของแบบจำลองคือการเปรียบเทียบ ROC curves หรือพื้นที่ภายใต้ ROC curve (AUC) อย่างไรก็ตามฉันสังเกตว่ามีการพูดคุยกันเล็กน้อยเกี่ยวกับความแปรปรวนของเส้นโค้ง ROC หรือค่าประมาณของ AUC นั่นคือพวกเขากำลังสถิติจากข้อมูลและมีข้อผิดพลาดบางอย่างที่เกี่ยวข้องกับพวกเขา การหาข้อผิดพลาดในการประมาณค่าเหล่านี้จะช่วยจำแนกลักษณะตัวอย่างเช่นว่าตัวจําแนกตัวหนึ่งเป็นจริงหรือดีกว่าตัวอื่น ฉันได้พัฒนาวิธีการต่อไปนี้ซึ่งฉันเรียกการวิเคราะห์แบบเบย์ของเส้นโค้ง ROC เพื่อแก้ไขปัญหานี้ การสังเกตของฉันมีสองข้อสังเกตสำคัญเกี่ยวกับปัญหา: เส้นโค้ง ROC ประกอบด้วยปริมาณที่ประมาณจากข้อมูลและสามารถแก้ไขการวิเคราะห์แบบเบย์ เส้นโค้ง ROC ประกอบด้วยการวางแผนอัตราบวกจริงTPR(θ)TPR(θ)TPR(\theta)เทียบกับอัตราบวกปลอมFPR(θ)FPR(θ)FPR(\theta)ซึ่งแต่ละตัวนั้นประมาณจากข้อมูล ฉันพิจารณาฟังก์ชันTPRTPRTPRและFPRFPRFPRของθθ\thetaเกณฑ์การตัดสินใจใช้เพื่อจัดเรียงคลาส A จาก B (โหวตต้นไม้ในป่าสุ่มระยะห่างจากไฮเปอร์เพลนใน SVM คาดการณ์ความน่าจะเป็นในการถดถอยโลจิสติกส์เป็นต้น) การเปลี่ยนแปลงค่าของเกณฑ์การตัดสินใจθθ\thetaจะส่งกลับค่าประมาณที่แตกต่างกันของTPRTPRTPRและ R ยิ่งกว่านั้นเราสามารถพิจารณาT P R ( θ )เป็นค่าประมาณความน่าจะเป็นที่จะประสบความสำเร็จในลำดับการทดลองของ Bernoulli …

4
วิธีการฉายเวกเตอร์ใหม่บนพื้นที่ PCA?
หลังจากทำการวิเคราะห์องค์ประกอบหลัก (PCA) ฉันต้องการฉายเวกเตอร์ใหม่ลงบนพื้นที่ PCA (เช่นค้นหาพิกัดในระบบพิกัด PCA) ผมได้คำนวณ PCA ในภาษา R prcompโดยใช้ ตอนนี้ฉันควรคูณเวกเตอร์ของฉันด้วยเมทริกซ์การหมุน PCA ควรจัดองค์ประกอบหลักในเมทริกซ์นี้เป็นแถวหรือคอลัมน์?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

1
ข้อผิดพลาดมาตรฐานของค่าเบี่ยงเบนมาตรฐานตัวอย่างคืออะไร
ผมอ่านจากที่นั่นว่าข้อผิดพลาดมาตรฐานความแปรปรวนของกลุ่มตัวอย่างคือ SEs2=2σ4N−1−−−−−−√SEs2=2σ4N−1SE_{s^2} = \sqrt{\frac{2 \sigma^4}{N-1}} ข้อผิดพลาดมาตรฐานของค่าเบี่ยงเบนมาตรฐานตัวอย่างคืออะไร ฉันจะถูกล่อลวงให้เดาและพูดว่าแต่ผมไม่แน่ใจว่าSEs=SEs2−−−−√SEs=SEs2SE_{s} = \sqrt{SE_{s^2}}

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.