คำถามติดแท็ก sample-size

แท็กนี้คลุมเครือมาก ใช้เมื่อคำถามเกี่ยวกับขนาดตัวอย่างและไม่มีดังต่อไปนี้มีความเหมาะสมมากกว่า: [ตัวอย่างเล็ก], [ข้อมูลขนาดใหญ่], [การวิเคราะห์พลังงาน], [พลังงาน], [underdetermined] หรือ [ไม่สมดุลคลาส]

1
ทำไมการกระจายตัวตัวอย่างของความแปรปรวนเป็นการแจกแจงแบบไคสแควร์
คำสั่ง การแจกแจงตัวอย่างของความแปรปรวนตัวอย่างคือการแจกแจงแบบไคสแควร์ที่มีระดับความเป็นอิสระเท่ากับโดยที่คือขนาดตัวอย่าง (เนื่องจากตัวแปรสุ่มที่น่าสนใจกระจายอยู่ตามปกติ)n−1n−1n-1nnn แหล่ง สัญชาตญาณของฉัน มันค่อนข้างสมเหตุสมผลกับฉัน 1) เพราะการทดสอบไคสแควร์ดูเหมือนผลรวมของสแควร์และ 2) เพราะการแจกแจงแบบไคสแควร์เป็นเพียงผลรวมของการแจกแจงแบบปกติกำลังสอง แต่ถึงกระนั้นฉันไม่เข้าใจมัน คำถาม คำพูดนั้นเป็นจริงหรือไม่? ทำไม?

1
แสดงให้เห็นว่าการวัด 100 ครั้งสำหรับ 5 วัตถุให้ข้อมูลน้อยกว่าการวัด 5 ครั้งสำหรับ 100 วัตถุ
ในการประชุมฉันได้ยินคำสั่งต่อไปนี้: การวัด 100 ครั้งสำหรับ 5 วิชาให้ข้อมูลน้อยกว่าการวัด 5 รายการสำหรับ 100 วิชา เห็นได้ชัดว่ามันเป็นเรื่องจริง แต่ฉันสงสัยว่าจะพิสูจน์ได้ในเชิงคณิตศาสตร์อย่างไร ... ฉันคิดว่าแบบจำลองเชิงเส้นผสมสามารถใช้งานได้ อย่างไรก็ตามฉันไม่รู้อะไรมากเกี่ยวกับคณิตศาสตร์ที่ใช้ในการประมาณค่า (ฉันเพิ่งเรียกใช้lmer4สำหรับ LMM และbmrsสำหรับ GLMMs) คุณช่วยแสดงตัวอย่างของสิ่งที่เป็นจริงได้ไหม ฉันต้องการคำตอบกับสูตรบางอย่างมากกว่าแค่บางโค้ดใน R. รู้สึกอิสระที่จะตั้งค่าอย่างง่ายเช่นตัวแบบผสมแบบเชิงเส้นที่มีการสกัดแบบสุ่มและการลาดชันแบบกระจายตามปกติ ป.ล. คำตอบทางคณิตศาสตร์ที่ไม่เกี่ยวข้องกับ LMM ก็ถือว่าใช้ได้เช่นกัน ฉันคิดถึง LMM เพราะพวกเขาดูเหมือนจะเป็นเครื่องมือตามธรรมชาติที่จะอธิบายว่าทำไมการวัดน้อยลงจากวิชาเพิ่มเติมนั้นดีกว่าการวัดเพิ่มเติมจากบางวิชา แต่ฉันอาจผิด

4
วิธีการฉายเวกเตอร์ใหม่บนพื้นที่ PCA?
หลังจากทำการวิเคราะห์องค์ประกอบหลัก (PCA) ฉันต้องการฉายเวกเตอร์ใหม่ลงบนพื้นที่ PCA (เช่นค้นหาพิกัดในระบบพิกัด PCA) ผมได้คำนวณ PCA ในภาษา R prcompโดยใช้ ตอนนี้ฉันควรคูณเวกเตอร์ของฉันด้วยเมทริกซ์การหมุน PCA ควรจัดองค์ประกอบหลักในเมทริกซ์นี้เป็นแถวหรือคอลัมน์?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

3
ตัวอย่างการแจกแจงที่จำเป็นต้องใช้ขนาดตัวอย่างขนาดใหญ่สำหรับทฤษฎีบทขีด จำกัด กลาง
หนังสือบางเล่มระบุขนาดของกลุ่มตัวอย่างที่มีขนาด 30 หรือสูงกว่าเป็นสิ่งที่จำเป็นสำหรับเซ็นทรัล จำกัด ทฤษฎีบทที่จะให้ประมาณการที่ดีสำหรับ{X} X¯X¯\bar{X} ฉันรู้ว่านี่ไม่เพียงพอสำหรับการแจกแจงทั้งหมด ฉันต้องการเห็นตัวอย่างของการแจกแจงที่ถึงแม้จะมีขนาดตัวอย่างขนาดใหญ่ (อาจเป็น 100 หรือ 1,000 หรือสูงกว่า) การกระจายตัวของค่าเฉลี่ยตัวอย่างก็ยังค่อนข้างเบ้ ฉันรู้ว่าฉันเคยเห็นตัวอย่างเหล่านี้มาก่อน แต่ฉันจำไม่ได้ว่าอยู่ที่ไหนและหาไม่พบ

1
มีการทดสอบทางสถิติเพื่อเปรียบเทียบสองตัวอย่างขนาด 1 และ 3 หรือไม่
สำหรับโครงการด้านนิเวศวิทยากลุ่มห้องปฏิบัติการของฉันได้เพิ่มน้ำส้มสายชูลงในถังที่บรรจุน้ำปริมาณ 4 บ่อเท่ากัน 1 ชุดควบคุมโดยไม่มีอีโลเดีย (พืชน้ำ) และ 3 กรรมวิธีที่มีอีโลเดียในปริมาณเท่ากัน วัตถุประสงค์ของการเพิ่มน้ำส้มสายชูคือการลดค่าความเป็นกรดด่าง สมมติฐานคือถังที่มีอีลาเดียจะกลับไปเป็นค่า pH ปกติที่เร็วขึ้น กรณีนี้เป็นจริง เราวัดค่า pH ของแต่ละถังเป็นเวลาประมาณสองสัปดาห์ ในที่สุดรถถังทั้งหมดก็กลับสู่ค่า pH ตามธรรมชาติของพวกเขา แต่ระยะเวลาที่ใช้ในการนี้นั้นสั้นกว่ามากสำหรับรถถังที่มีอีโลเดีย เมื่อเราบอกอาจารย์เกี่ยวกับการออกแบบการทดลองของเราเขากล่าวว่าไม่มีการทดสอบทางสถิติที่สามารถดำเนินการกับข้อมูลเพื่อเปรียบเทียบการควบคุมกับการรักษา นั่นเป็นเพราะไม่มีการจำลองแบบสำหรับการควบคุม (เราใช้ถังควบคุมเพียงตัวเดียว) เราไม่สามารถคำนวณความแปรปรวนได้ดังนั้นเราจึงไม่สามารถเปรียบเทียบค่าเฉลี่ยตัวอย่างของการควบคุมและการรักษา ดังนั้นคำถามของฉันคือจริงหรือไม่ ฉันเข้าใจความหมายของเขา ตัวอย่างเช่นหากคุณเพิ่มความสูงของชายคนหนึ่งและผู้หญิงหนึ่งคนคุณจะไม่สามารถสรุปได้เกี่ยวกับประชากรของพวกเขา แต่เราทำการรักษา 3 ครั้งและความแปรปรวนมีน้อย ดูเหมือนว่ามีเหตุผลที่จะสมมติว่าความแปรปรวนจะคล้ายกันในการควบคุม? ปรับปรุง: ขอบคุณสำหรับคำตอบที่ยอดเยี่ยม เราได้รับน้ำมากขึ้นและอีโลเดียจากพื้นที่ชุ่มน้ำและตัดสินใจว่าเราจะทำการทดลองอีกครั้งด้วยรถถังขนาดเล็ก แต่คราวนี้มี 5 การควบคุมและ 5 การบำบัด เรากำลังจะรวมสิ่งนี้กับข้อมูลดั้งเดิมของเรา แต่ค่าเริ่มต้นของรถถังนั้นแตกต่างกันมากจนดูเหมือนจะไม่ถูกต้องที่จะพิจารณาการทดลองใหม่ที่จะสุ่มตัวอย่างจากประชากรเดียวกันกับการทดลองดั้งเดิม เราพิจารณาการเพิ่มอีโลเดียในปริมาณที่แตกต่างกันและพยายามเชื่อมโยงความเร็วของการฟื้นฟูพีเอช (วัดเมื่อเวลาผ่านไปจนกระทั่งพีเอชกลับสู่ค่าดั้งเดิม) ด้วยอีโลเดีย แต่เราตัดสินใจว่าไม่จำเป็น วัตถุประสงค์ของเราเพียงเพื่อแสดงให้เห็นว่าอีโลเดียสร้างความแตกต่างในเชิงบวกไม่ใช่เพื่อสร้างแบบจำลองการทำนายบางอย่างสำหรับค่าพีเอชตอบสนองต่ออีลาเดียในปริมาณที่แตกต่างกันอย่างแท้จริง มันน่าสนใจที่จะกำหนดปริมาณที่เหมาะสมของอีโลเดีย แต่นั่นอาจเป็นแค่จำนวนสูงสุดที่สามารถอยู่รอดได้ การพยายามปรับเส้นโค้งการถดถอยให้เหมาะสมกับข้อมูลจะไม่ได้รับความกระจ่างเป็นพิเศษเนื่องจากการเปลี่ยนแปลงที่ซับซ้อนต่าง …

1
การทำให้ขนาดตัวอย่างเป็นตัวแปรสุ่มหมายความว่าอย่างไร
แฟรงก์ฮาร์เรลได้เริ่มต้นบล็อก ( สถิติการคิด) ในโพสต์ชั้นนำของเขาเขาแสดงคุณสมบัติที่สำคัญบางอย่างของปรัชญาทางสถิติของเขา ในรายการอื่น ๆ มันรวมถึง: ทำให้ขนาดตัวอย่างเป็นตัวแปรสุ่มเมื่อทำได้ การทำให้ขนาดตัวอย่างเป็นตัวแปรสุ่มหมายความว่าอย่างไร อะไรคือข้อดีของการทำเช่นนี้? ทำไมถึงเป็นที่นิยมมากกว่า?

6
ฉันสามารถเชื่อถือผลลัพธ์สำคัญของการทดสอบ t ได้ไหมถ้าขนาดตัวอย่างเล็ก?
หากผลการทดสอบการทดสอบด้านเดียวของฉันมีความสำคัญ แต่ขนาดตัวอย่างมีขนาดเล็ก (เช่นต่ำกว่า 20 หรือมากกว่านั้น) ฉันจะยังเชื่อถือได้หรือไม่ ถ้าไม่ฉันจะจัดการและ / หรือตีความผลลัพธ์นี้อย่างไร


4
กำลังคำนวณขนาดตัวอย่างที่ต้องการความแม่นยำของการประมาณค่าความแปรปรวน?
พื้นหลัง ฉันมีตัวแปรที่มีการแจกแจงที่ไม่รู้จัก ฉันมีตัวอย่าง 500 ตัวอย่าง แต่ฉันต้องการแสดงความแม่นยำที่ฉันสามารถคำนวณความแปรปรวนได้เช่นเพื่อยืนยันว่าขนาดตัวอย่าง 500 เพียงพอ ฉันสนใจยังอยู่ในรู้ขนาดของกลุ่มตัวอย่างขั้นต่ำที่จะต้องประเมินความแปรปรวนที่มีความแม่นยำของ\%X%X%X\% คำถาม ฉันจะคำนวณได้อย่างไร ความแม่นยำของการประมาณค่าความแปรปรวนของฉันมีขนาดตัวอย่างเป็นหรือไม่ ของ ?n=500n=500n=500n=Nn=Nn=N ฉันจะคำนวณจำนวนตัวอย่างขั้นต่ำที่จำเป็นในการประมาณค่าความแปรปรวนด้วยความแม่นยำอย่างไรXXX ตัวอย่าง รูปที่ 1 การประมาณความหนาแน่นของพารามิเตอร์อ้างอิงจาก 500 ตัวอย่าง รูปที่ 2นี่คือพล็อตของขนาดตัวอย่างบนแกน x เทียบกับค่าประมาณความแปรปรวนบนแกน y ที่ฉันคำนวณโดยใช้ชุดย่อยจากตัวอย่าง 500 ความคิดคือการประมาณจะมาบรรจบกับความแปรปรวนจริงเมื่อ n เพิ่มขึ้น . อย่างไรก็ตามการประมาณการไม่ถูกต้องเนื่องจากตัวอย่างที่ใช้ในการประมาณความแปรปรวนสำหรับไม่ได้เป็นอิสระจากกันหรือตัวอย่างที่ใช้ในการคำนวณความแปรปรวนที่n ∈ [ 20 , 40 , 80 ]n∈[10,125,250,500]n∈[10,125,250,500]n \in [10,125,250,500]n∈[20,40,80]n∈[20,40,80]n\in [20,40,80]

8
ขนาดตัวอย่างขั้นต่ำสำหรับการทดสอบทีไม่มีคู่
มี "กฎ" เพื่อกำหนดขนาดตัวอย่างขั้นต่ำที่จำเป็นสำหรับการทดสอบ t- ถูกต้องหรือไม่ ตัวอย่างเช่นการเปรียบเทียบจะต้องดำเนินการระหว่างค่าเฉลี่ยของ 2 ประชากร มี 7 จุดข้อมูลจากประชากรหนึ่งและเพียง 2 จุดข้อมูลจากที่อื่น น่าเสียดายที่การทดสอบมีราคาแพงมากและใช้เวลานานและการได้รับข้อมูลเพิ่มเติมนั้นไม่สามารถทำได้ สามารถใช้การทดสอบ t ได้ไหม? ทำไมหรือทำไมไม่? โปรดระบุรายละเอียด (ไม่ทราบความแปรปรวนของประชากรและการกระจาย) หากไม่สามารถใช้การทดสอบ t ได้จะสามารถใช้การทดสอบแบบไม่มีพารามิเตอร์ (Mann Whitney) ได้หรือไม่? ทำไมหรือทำไมไม่?

2
จะเลือกระดับนัยสำคัญสำหรับชุดข้อมูลขนาดใหญ่ได้อย่างไร
ฉันทำงานกับชุดข้อมูลโดยมี N ประมาณ 200,000 ในการถดถอยฉันเห็นค่านัยสำคัญน้อยมาก << 0.001 ที่เกี่ยวข้องกับขนาดเอฟเฟกต์ที่เล็กมากเช่น r = 0.028 สิ่งที่ฉันอยากรู้คือมีวิธีหลักการในการตัดสินใจเลือกขีด จำกัด นัยสำคัญที่เหมาะสมเมื่อเทียบกับขนาดตัวอย่างหรือไม่ มีข้อควรพิจารณาอื่น ๆ ที่สำคัญเกี่ยวกับการตีความขนาดของเอฟเฟกต์กับตัวอย่างขนาดใหญ่เช่นนี้หรือไม่?

3
คุณจะตัดสินใจขนาดตัวอย่างอย่างไรเมื่อทำการสำรวจประชากรขนาดใหญ่
ขณะนี้ออสเตรเลียกำลังมีการเลือกตั้งและสื่อมวลชนรายงานผลการสำรวจความคิดเห็นทางการเมืองใหม่ทุกวัน ในประเทศที่มีประชากร 22 ล้านคนจะต้องมีการสุ่มตัวอย่างเปอร์เซ็นต์ใดเพื่อให้ได้ผลลัพธ์ที่ถูกต้องทางสถิติ เป็นไปได้หรือไม่ที่การใช้ตัวอย่างที่มีขนาดใหญ่เกินไปอาจส่งผลต่อผลลัพธ์หรือความถูกต้องทางสถิติเพิ่มขึ้นแบบ monotonically ด้วยขนาดตัวอย่าง

3
Bootstrap: ปัญหาการ overfitting
สมมติว่าหนึ่งดำเนินการ bootstrap ที่ไม่ใช่พารามิเตอร์โดยการวาดตัวอย่างของขนาดnแต่ละจากต้นฉบับnBBBnnnnnnสังเกตพร้อมการแทนที่ ฉันเชื่อว่ากระบวนการนี้เทียบเท่ากับการประมาณฟังก์ชันการแจกแจงสะสมโดย cdf เชิงประจักษ์: http://en.wikipedia.org/wiki/Empirical_distribution_function จากนั้นรับตัวอย่าง bootstrap โดยจำลองการสังเกตจาก cdf BโดยประมาณnnnBBBในแถว ถ้าฉันพูดถูกสิ่งนี้จะต้องจัดการกับปัญหาเรื่องการล้นเพราะเอกสารเชิงประจักษ์มีพารามิเตอร์เกี่ยวกับ N แน่นอนว่ามันไม่แปรเปลี่ยนไปเป็นประชากร cdf แต่แล้วกลุ่มตัวอย่าง จำกัด ? เช่นถ้าฉันบอกคุณว่าฉันมีการสังเกต 100 ครั้งและฉันจะประมาณ cdf เป็นด้วยสองพารามิเตอร์คุณจะไม่ตื่นตระหนก อย่างไรก็ตามหากจำนวนพารามิเตอร์สูงถึง 100 ดูเหมือนจะไม่สมเหตุสมผลเลยN(μ,σ2)N(μ,σ2)N(\mu, \sigma^2) ในทำนองเดียวกันเมื่อมีพนักงานหลายมาตรฐานการถดถอยเชิงเส้นการกระจายของระยะข้อผิดพลาดเป็นที่คาดกันว่าเป็น ) หากมีใครตัดสินใจที่จะเปลี่ยนเป็นการบูตสต็อกส่วนที่เหลือเขาต้องรู้ว่าตอนนี้มีประมาณnN(0,σ2)N(0,σ2)N(0, \sigma^2)nnnพารามิเตอร์ใช้เพื่อจัดการกับการแจกแจงข้อผิดพลาด คุณช่วยบอกทางฉันถึงแหล่งข้อมูลบางแห่งที่จัดการปัญหานี้อย่างชัดเจนหรือบอกสาเหตุที่ไม่ใช่ปัญหาถ้าคุณคิดว่าฉันทำผิด

2
ขนาดตัวอย่างที่ไม่เท่ากัน: เมื่อใดที่จะเรียกมันจะหยุดทำงาน
ฉันกำลังตรวจสอบบทความวารสารวิชาการและผู้เขียนได้เขียนสิ่งต่อไปนี้เป็นเหตุผลสำหรับการไม่รายงานสถิติเชิงอนุมาน (ฉันระบุลักษณะของทั้งสองกลุ่ม): รวม 25 แห่ง 2,349 (1.1%) ผู้ตอบแบบสอบถามรายงานX เรางดเว้นอย่างเหมาะสมจากการนำเสนอการวิเคราะห์ที่เปรียบเทียบกลุ่มXกับกลุ่มY (ผู้เข้าร่วมอื่น 2,324 คน) เนื่องจากผลลัพธ์เหล่านั้นอาจได้รับแรงผลักดันอย่างมากจากโอกาสด้วยผลลัพธ์ที่หายากนี้ คำถามของฉันคือผู้เขียนของการศึกษานี้เป็นธรรมในการขว้างปาในผ้าขนหนูที่เกี่ยวกับการเปรียบเทียบกลุ่ม? ถ้าไม่ฉันจะแนะนำอะไรให้พวกเขาบ้าง

7
อนุกรมเวลาสั้น ๆ มีค่าสำหรับการสร้างแบบจำลองหรือไม่?
นี่คือบริบทบางอย่าง ฉันสนใจที่จะพิจารณาว่าตัวแปรสภาพแวดล้อมสองตัว (อุณหภูมิระดับสารอาหาร) ส่งผลต่อค่าเฉลี่ยของตัวแปรตอบสนองในช่วง 11 ปีอย่างไร ภายในแต่ละปีมีข้อมูลจากที่ตั้งมากกว่า 100k แห่ง เป้าหมายคือเพื่อตรวจสอบว่าในช่วง 11 ปีที่ผ่านมาค่าเฉลี่ยของตัวแปรตอบสนองตอบสนองต่อการเปลี่ยนแปลงของตัวแปรสภาพแวดล้อม (เช่นอุณหภูมิที่อบอุ่น + สารอาหารมากกว่าจะ = การตอบสนองมากขึ้น) น่าเสียดายเนื่องจากการตอบสนองคือค่าเฉลี่ย (โดยไม่ได้ดูค่าเฉลี่ยการเปลี่ยนแปลงระหว่างปีปกติจะล้นสัญญาณ) การถดถอยจะเป็น 11 จุดข้อมูล (1 ค่าเฉลี่ยต่อปี) โดยมีตัวแปรอธิบาย 2 ตัว สำหรับฉันแม้แต่การถดถอยเชิงบวกเชิงเส้นก็ยากที่จะพิจารณาว่ามีความหมายเนื่องจากชุดข้อมูลนั้นมีขนาดเล็กมาก (ไม่ตรงกับคะแนน / ตัวแปร 40 คะแนนเว้นแต่ว่าความสัมพันธ์นั้นแข็งแกร่งมาก) ฉันถูกต้องที่จะทำให้สมมติฐานนี้หรือไม่? ใครช่วยเสนอความคิด / มุมมองอื่น ๆ ที่ฉันอาจหายไป? PS: บางประการ: ไม่มีวิธีรับข้อมูลเพิ่มเติมโดยไม่ต้องรอปีเพิ่มเติม ดังนั้นข้อมูลที่มีอยู่คือสิ่งที่เราต้องทำงานด้วย

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.