คำถามติดแท็ก sample-size

แท็กนี้คลุมเครือมาก ใช้เมื่อคำถามเกี่ยวกับขนาดตัวอย่างและไม่มีดังต่อไปนี้มีความเหมาะสมมากกว่า: [ตัวอย่างเล็ก], [ข้อมูลขนาดใหญ่], [การวิเคราะห์พลังงาน], [พลังงาน], [underdetermined] หรือ [ไม่สมดุลคลาส]

1
การเปรียบเทียบสองตัวอย่างของสัดส่วนการประมาณขนาดตัวอย่าง: R กับ Stata
การเปรียบเทียบสองตัวอย่างของสัดส่วนการประมาณขนาดตัวอย่าง: R กับ Stata ฉันได้ผลลัพธ์ที่แตกต่างกันสำหรับขนาดตัวอย่างดังนี้: ในอาร์ power.prop.test(p1 = 0.70, p2 = 0.85, power = 0.90, sig.level = 0.05) ผลลัพธ์: (ดังนั้น 161) สำหรับแต่ละกลุ่มn = 160.7777n=160.7777n = 160.7777 ในStata sampsi 0.70 0.85, power(0.90) alpha(0.05) ผลลัพธ์:สำหรับแต่ละกลุ่มn = 174n=174n = 174 ทำไมถึงแตกต่าง ขอบคุณ BTW ฉันรันการคำนวณขนาดตัวอย่างเดียวกันในSAS JMPผลลัพธ์: (เกือบจะเหมือนกับผลลัพธ์ R)n = 160n=160n = 160

4
รูปแบบประวัติเหตุการณ์แบบไม่ต่อเนื่อง (การอยู่รอด) ใน R
ฉันกำลังพยายามปรับโมเดลที่ไม่ต่อเนื่องใน R แต่ฉันไม่แน่ใจว่าจะทำอย่างไร ฉันได้อ่านแล้วว่าคุณสามารถจัดระเบียบตัวแปรตามในแถวต่างกันหนึ่งตัวสำหรับแต่ละการสังเกตเวลาและการใช้glmฟังก์ชั่นที่มีลิงค์ logit หรือ cloglog ในแง่นี้ฉันมีสามคอลัมน์: ID, Event(1 หรือ 0 ในแต่ละช่วงเวลา) และTime Elapsed(ตั้งแต่จุดเริ่มต้นของการสังเกต) รวมทั้ง covariates อื่น ๆ ฉันจะเขียนรหัสเพื่อให้พอดีกับรุ่นได้อย่างไร ตัวแปรตามคืออะไร ฉันเดาว่าฉันสามารถใช้Eventเป็นตัวแปรตามและรวมTime Elapsedอยู่ใน covariates แต่สิ่งที่เกิดขึ้นกับID? ฉันต้องการมันไหม ขอบคุณ
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

2
ขนาดตัวอย่างที่เล็กและไม่สมดุลสำหรับสองกลุ่ม - จะทำอย่างไร?
ฉันมีข้อมูลสำหรับสองกลุ่ม (ตัวอย่างเช่น) ฉันต้องการเปรียบเทียบ แต่ขนาดตัวอย่างทั้งหมดมีขนาดเล็ก (n = 29) และไม่สมดุลอย่างยิ่ง (n = 22 vs n = 7) ข้อมูลเหล่านี้ยากต่อการรวบรวมและมีราคาแพงดังนั้นในขณะที่ 'รวบรวมข้อมูลเพิ่มเติม' เนื่องจากวิธีการแก้ปัญหาที่ชัดเจนนั้นไม่มีประโยชน์ในกรณีนี้ มีการวัดตัวแปรที่แตกต่างกันจำนวนหนึ่ง (วันที่ออกเดินทางวันที่เดินทางมาถึงระยะเวลาของการย้ายถิ่นเป็นต้น) ดังนั้นจึงมีการทดสอบหลายรายการซึ่งบางส่วนของผลต่างนั้นแตกต่างกันมาก (ตัวอย่างขนาดเล็กที่มีความแปรปรวนสูงกว่า) ในขั้นต้นเพื่อนร่วมงานได้ทำการทดสอบแบบ t บนข้อมูลเหล่านี้และบางรายการมีนัยสำคัญทางสถิติกับ P <0.001 และอีกอันไม่สำคัญกับ P = 0.069 ตัวอย่างบางส่วนถูกแจกจ่ายตามปกติ แต่บางกลุ่มก็ไม่ได้ การทดสอบบางอย่างเกี่ยวข้องกับการออกเดินทางครั้งใหญ่จากความแปรปรวน 'เท่ากัน' ฉันมีคำถามหลายข้อ: การทดสอบ t เหมาะสมที่นี่ ถ้าไม่ทำไม สิ่งนี้ใช้เฉพาะกับการทดสอบที่สมมติฐานของความปกติและความเสมอภาคของผลต่างมีความพึงพอใจหรือไม่ ทางเลือกที่เหมาะสมคืออะไร บางทีการทดสอบการเปลี่ยนรูป? ความแปรปรวนไม่เท่ากันทำให้เกิดข้อผิดพลาด Type I ได้อย่างไร แต่อย่างไร และขนาดตัวอย่างที่เล็กและไม่สมดุลนั้นมีผลกระทบอย่างไรกับข้อผิดพลาด Type …

2
วิธีสร้างตัวอย่างตัวแทนจากชุดข้อมูลขนาดใหญ่โดยรวม
เทคนิคทางสถิติในการสร้างชุดตัวอย่างซึ่งเป็นตัวแทนของประชากรทั้งหมด (ด้วยระดับความเชื่อมั่นที่รู้จักกัน) คืออะไร? นอกจากนี้ วิธีการตรวจสอบถ้าตัวอย่างที่ตรงกับชุดข้อมูลโดยรวม? เป็นไปได้หรือไม่หากไม่แยกชุดข้อมูลทั้งหมด (ซึ่งอาจเป็นหลายพันล้านรายการ)

2
หากฉันต้องการมีโอกาส 95% ที่วัตถุน้อยกว่า 1% ผิดฉันต้องมีตัวอย่างจำนวนเท่าใด
ฉันต้องแน่ใจว่าแผนผังเว็บไซต์ XML ของฉันมีขยะน้อยกว่า (ลิงก์เสีย) รายการ URL นั้นอยู่ในหลักแสนและแม้ว่าจะเป็นไปได้ที่จะทดสอบพวกเขาทั้งหมด 1 ต่อ 1 ฉันไม่ต้องการด้วยเหตุผลหลายประการ:1 %1%1\% 1 - Saved bandwidth 2 - Faster traffic for real clients 3 - Less noise in visitor statistics (because my test would count as a visit) 5 - I could go on... ดังนั้นฉันคิดว่าการสุ่มเซตย่อยเพียงพอแล้วปัญหาคือฉันไม่รู้ความน่าจะเป็น มีฟังก์ชั่นง่าย ๆ ที่ฉันสามารถใช้ได้หรือไม่? หากช่วยได้เราสามารถสมมติให้มีข้อมูลเบื้องต้นเกี่ยวกับความน่าจะเป็นของลิงก์ที่จะใช้งานไม่ได้ สมมติว่าข้ามการรันจะมีค่าสำหรับการเชื่อมโยงที่กำหนดใด …

1
โอกาสที่ตัวอย่าง bootstrap นั้นเหมือนกับตัวอย่างดั้งเดิม
แค่ต้องการตรวจสอบเหตุผลบางอย่าง หากตัวอย่างดั้งเดิมของฉันมีขนาดและฉันบูตมันแล้วกระบวนการคิดของฉันเป็นดังนี้:nnn 1n1n\frac{1}{n}เป็นโอกาสของการสังเกตใด ๆ ที่ดึงมาจากตัวอย่างดั้งเดิม เพื่อให้แน่ใจว่าการวาดต่อไปคือไม่ได้สังเกตตัวอย่างก่อนหน้านี้เรา จำกัด ขนาดของกลุ่มตัวอย่างที่จะn-1ดังนั้นเราจึงได้รูปแบบนี้:n - 1n-1n-1 1n⋅1n - 1⋅1n - 2⋯1n - ( n - 1 )=1n !.1n⋅1n-1⋅1n-2⋯1n-(n-1)=1n!. \frac{1}{n} \cdot \frac{1}{n-1} \cdot \frac{1}{n-2} \cdots \frac{1}{n-(n-1)} = \frac{1}{n!}. ถูกต้องหรือไม่ ฉันสะดุดที่สาเหตุที่ไม่สามารถแทน(1n)n(1n)n(\frac{1}{n})^n

4
วิธีสุ่มตัวอย่างเมื่อคุณไม่รู้การกระจาย
ฉันค่อนข้างใหม่กับสถิติ (หยิบของหลักสูตร Uni ระดับเริ่มต้น) และสงสัยเกี่ยวกับการสุ่มตัวอย่างจากการแจกแจงที่ไม่รู้จัก โดยเฉพาะถ้าคุณไม่มีความคิดเกี่ยวกับการแจกแจงพื้นฐานมีวิธีใดที่จะ "รับประกัน" ว่าคุณได้รับตัวอย่างตัวแทนหรือไม่? ตัวอย่างเพื่ออธิบาย: สมมติว่าคุณพยายามเข้าใจการกระจายความมั่งคั่งทั่วโลก สำหรับบุคคลใดก็ตามคุณสามารถค้นหาความมั่งคั่งที่แน่นอนของพวกเขา; แต่คุณไม่สามารถ "ตัวอย่าง" ทุกคนบนโลกนี้ได้ สมมุติว่าคุณสุ่มตัวอย่าง n = 1,000 คนโดยการสุ่ม หากตัวอย่างของคุณไม่รวม Bill Gates คุณอาจคิดว่าไม่มีเศรษฐีพันล้านคน หากคุณมีตัวอย่างรวมถึง Bill Gates คุณอาจคิดว่าเศรษฐีมีเงินมากกว่าที่เป็นอยู่จริง ไม่ว่าในกรณีใดคุณไม่สามารถบอกได้ว่าเศรษฐีทั่วไปหรือหายากเป็นอย่างไร คุณอาจไม่สามารถบอกได้ว่ามีอยู่จริงหรือไม่ มีกลไกการสุ่มตัวอย่างที่ดีกว่าสำหรับกรณีเช่นนี้หรือไม่? คุณจะบอกขั้นตอนเบื้องต้นในการใช้ตัวอย่าง (และจำเป็นต้องมีตัวอย่างจำนวนเท่าใด) ฉันคิดว่าคุณอาจจะต้อง "สุ่มตัวอย่าง" เปอร์เซ็นต์ของประชากรจำนวนมากที่จะรู้ว่ามีอะไรเข้าใกล้ความเชื่อมั่นที่สมเหตุสมผลว่าเศรษฐีทั่วไปหรือหายากอยู่บนโลกและสิ่งนี้เกิดจากการกระจายตัวของพื้นฐานค่อนข้างยาก ที่จะทำงานกับ

3
ช่วงความเชื่อมั่นกับขนาดตัวอย่าง?
ฉันยังใหม่กับสถิติและช่วงเวลาของความมั่นใจ ดังนั้นนี่อาจเป็นเรื่องเล็กน้อยหรือแม้แต่เสียงโง่ ฉันจะขอบคุณถ้าคุณสามารถช่วยฉันเข้าใจหรือชี้แนะฉันไปที่วรรณกรรม / ข้อความ / บล็อกที่อธิบายสิ่งนี้ดีกว่า ฉันเห็นในเว็บไซต์ข่าวต่าง ๆ เช่น CNN, Fox News, Politico ฯลฯ เกี่ยวกับการสำรวจของพวกเขาเกี่ยวกับการแข่งขันชิงตำแหน่งประธานาธิบดีสหรัฐอเมริกา 2012 แต่ละหน่วยงานดำเนินการสำรวจและรายงานสถิติบางส่วนของแบบฟอร์ม: ซีเอ็นเอ็น: ความนิยมของโอบามาคือ X% โดยมี margin ของ error +/- x1% ขนาดตัวอย่าง 600 FOX: ความนิยมของโอบามาคือ Y% โดยมีระยะขอบของข้อผิดพลาด +/- y1% ขนาดตัวอย่าง 800 XYZ: ความนิยมของโอบามาคือ Z% โดยมีระยะห่างของข้อผิดพลาด +/- z1% ขนาดตัวอย่าง 300 นี่คือข้อสงสัยของฉัน: ฉันจะตัดสินใจเลือกที่จะเชื่อถือได้อย่างไร มันควรจะขึ้นอยู่กับช่วงความมั่นใจหรือฉันควรสมมติว่าเนื่องจาก Fox มีขนาดตัวอย่างที่ใหญ่กว่าการประมาณการจึงน่าเชื่อถือมากขึ้น …

3
วิธีตรวจสอบอัตราความผิดพลาดต่ำมาก
ฉันเผชิญกับการพยายามสาธิตผ่านการทดสอบอัตราความผิดพลาดต่ำมากสำหรับเซ็นเซอร์ (ไม่เกิน 1 ข้อผิดพลาดใน 1,000,000 ครั้ง) เรามีเวลา จำกัด ในการดำเนินการทดสอบดังนั้นเราคาดว่าจะไม่สามารถได้รับมากกว่า 4,000 ครั้ง ฉันเห็นว่าไม่มีปัญหาในการแสดงเซ็นเซอร์ไม่เป็นไปตามข้อกำหนดเนื่องจากแม้แต่ข้อผิดพลาดเพียงครั้งเดียวในความพยายาม 4,000 ครั้งจะให้ช่วงความมั่นใจ 95% สำหรับอัตราข้อผิดพลาดที่มีขีด จำกัด ล่างมากกว่า 0.000001 แสดงว่ามันเป็นไปตามข้อกำหนด แต่เป็นปัญหาเนื่องจากแม้แต่ 0 ข้อผิดพลาดในความพยายาม 4,000 ครั้งยังคงส่งผลให้ขอบเขตล่างมากกว่า 0.000001 ข้อเสนอแนะใด ๆ ที่จะได้รับการชื่นชมอย่างมาก.

1
ขนาดตัวอย่างสำหรับสัดส่วนในการวัดซ้ำ
ฉันพยายามช่วยนักวิทยาศาสตร์ในการออกแบบการศึกษาสำหรับการเกิดขึ้นของเชื้อจุลินทรีย์เชื้อ Salmonella เขาต้องการเปรียบเทียบสูตรยาต้านจุลชีพที่ทดลองกับคลอรีน (สารฟอกขาว) ที่ฟาร์มสัตว์ปีก เนื่องจากอัตราพื้นหลังของเชื้อซัลโมเนลล่าแตกต่างกันไปตามกาลเวลาเขาจึงวางแผนที่จะวัด% สัตว์ปีกด้วยซัลโมเนลลาก่อนการรักษาและหลังการรักษา ดังนั้นการวัดจะเป็นความแตกต่างของ% salmonella ก่อน / หลังสำหรับสูตรการทดลองกับคลอรีน ใครสามารถให้คำแนะนำเกี่ยวกับวิธีการประเมินขนาดตัวอย่างที่จำเป็น? สมมุติว่าอัตราพื้นหลัง 50%; หลังจากฟอกสีเป็น 20%; และเราต้องการตรวจสอบว่าสูตรการทดลองเปลี่ยนอัตรา +/- 10% หรือไม่ ขอบคุณ แก้ไข: สิ่งที่ฉันกำลังดิ้นรนกับวิธีการรวมอัตราพื้นหลัง ลองเรียกพวกเขาว่า p3 และ p4 ซึ่งเป็นอัตรา "ก่อนหน้า" สำหรับเชื้อฟอกขาวและตัวอย่างทดลองตามลำดับ ดังนั้นสถิติที่จะประมาณคือความแตกต่างของความแตกต่าง: การทดลอง (หลัง - ก่อน) - Bleach (หลัง - ก่อน) = (p0-p2) - (p3-p1) หากต้องการพิจารณารูปแบบการสุ่มตัวอย่างทั้งหมดของ "ก่อน" อัตรา p2 และ …

2
การคำนวณแบบไดนามิกของจำนวนตัวอย่างที่จำเป็นในการประมาณค่าเฉลี่ย
ฉันพยายามประเมินค่าเฉลี่ยของการกระจายแบบเกาส์มากขึ้นหรือน้อยลงผ่านการสุ่มตัวอย่าง ฉันไม่มีความรู้มาก่อนเกี่ยวกับค่าเฉลี่ยหรือความแปรปรวน แต่ละตัวอย่างมีราคาแพงที่จะได้รับ ฉันจะตัดสินใจได้อย่างไรว่าจะต้องสุ่มตัวอย่างจำนวนเท่าไรเพื่อให้ได้ระดับความเชื่อมั่น / ความแม่นยำที่แน่นอน อีกวิธีหนึ่งฉันจะรู้ได้อย่างไรว่าฉันจะหยุดรับตัวอย่างเมื่อไหร่? คำตอบสำหรับคำถามเช่นนี้ทั้งหมดที่ฉันสามารถหาได้ดูเหมือนจะเข้าใจความรู้เกี่ยวกับความแปรปรวนบางอย่าง แต่ฉันต้องค้นพบสิ่งนั้นตลอดทาง คนอื่นมุ่งไปที่การลงคะแนนและมันไม่ชัดเจนสำหรับฉัน (เริ่มต้นว่าฉัน) วิธีการที่ generalizes - ค่าเฉลี่ยของฉันไม่ w / ใน [0,1] ฯลฯ ฉันคิดว่านี่อาจเป็นคำถามง่ายๆที่มีคำตอบที่รู้จักกันดี แต่ Google-fu ของฉันกำลังทำให้ฉันล้มเหลว แม้เพียงแค่บอกฉันว่าการค้นหาจะเป็นประโยชน์
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.