คำถามติดแท็ก small-sample

หมายถึงภาวะแทรกซ้อนทางสถิติหรือปัญหาเนื่องจากมีข้อมูลน้อย หากคำถามของคุณเกี่ยวกับตัวอย่างขนาดเล็กที่สัมพันธ์กับจำนวนตัวแปรโปรดใช้แท็ก [underdetermined] แทน

3
Bootstrap: ปัญหาการ overfitting
สมมติว่าหนึ่งดำเนินการ bootstrap ที่ไม่ใช่พารามิเตอร์โดยการวาดตัวอย่างของขนาดnแต่ละจากต้นฉบับnBBBnnnnnnสังเกตพร้อมการแทนที่ ฉันเชื่อว่ากระบวนการนี้เทียบเท่ากับการประมาณฟังก์ชันการแจกแจงสะสมโดย cdf เชิงประจักษ์: http://en.wikipedia.org/wiki/Empirical_distribution_function จากนั้นรับตัวอย่าง bootstrap โดยจำลองการสังเกตจาก cdf BโดยประมาณnnnBBBในแถว ถ้าฉันพูดถูกสิ่งนี้จะต้องจัดการกับปัญหาเรื่องการล้นเพราะเอกสารเชิงประจักษ์มีพารามิเตอร์เกี่ยวกับ N แน่นอนว่ามันไม่แปรเปลี่ยนไปเป็นประชากร cdf แต่แล้วกลุ่มตัวอย่าง จำกัด ? เช่นถ้าฉันบอกคุณว่าฉันมีการสังเกต 100 ครั้งและฉันจะประมาณ cdf เป็นด้วยสองพารามิเตอร์คุณจะไม่ตื่นตระหนก อย่างไรก็ตามหากจำนวนพารามิเตอร์สูงถึง 100 ดูเหมือนจะไม่สมเหตุสมผลเลยN(μ,σ2)N(μ,σ2)N(\mu, \sigma^2) ในทำนองเดียวกันเมื่อมีพนักงานหลายมาตรฐานการถดถอยเชิงเส้นการกระจายของระยะข้อผิดพลาดเป็นที่คาดกันว่าเป็น ) หากมีใครตัดสินใจที่จะเปลี่ยนเป็นการบูตสต็อกส่วนที่เหลือเขาต้องรู้ว่าตอนนี้มีประมาณnN(0,σ2)N(0,σ2)N(0, \sigma^2)nnnพารามิเตอร์ใช้เพื่อจัดการกับการแจกแจงข้อผิดพลาด คุณช่วยบอกทางฉันถึงแหล่งข้อมูลบางแห่งที่จัดการปัญหานี้อย่างชัดเจนหรือบอกสาเหตุที่ไม่ใช่ปัญหาถ้าคุณคิดว่าฉันทำผิด

7
อนุกรมเวลาสั้น ๆ มีค่าสำหรับการสร้างแบบจำลองหรือไม่?
นี่คือบริบทบางอย่าง ฉันสนใจที่จะพิจารณาว่าตัวแปรสภาพแวดล้อมสองตัว (อุณหภูมิระดับสารอาหาร) ส่งผลต่อค่าเฉลี่ยของตัวแปรตอบสนองในช่วง 11 ปีอย่างไร ภายในแต่ละปีมีข้อมูลจากที่ตั้งมากกว่า 100k แห่ง เป้าหมายคือเพื่อตรวจสอบว่าในช่วง 11 ปีที่ผ่านมาค่าเฉลี่ยของตัวแปรตอบสนองตอบสนองต่อการเปลี่ยนแปลงของตัวแปรสภาพแวดล้อม (เช่นอุณหภูมิที่อบอุ่น + สารอาหารมากกว่าจะ = การตอบสนองมากขึ้น) น่าเสียดายเนื่องจากการตอบสนองคือค่าเฉลี่ย (โดยไม่ได้ดูค่าเฉลี่ยการเปลี่ยนแปลงระหว่างปีปกติจะล้นสัญญาณ) การถดถอยจะเป็น 11 จุดข้อมูล (1 ค่าเฉลี่ยต่อปี) โดยมีตัวแปรอธิบาย 2 ตัว สำหรับฉันแม้แต่การถดถอยเชิงบวกเชิงเส้นก็ยากที่จะพิจารณาว่ามีความหมายเนื่องจากชุดข้อมูลนั้นมีขนาดเล็กมาก (ไม่ตรงกับคะแนน / ตัวแปร 40 คะแนนเว้นแต่ว่าความสัมพันธ์นั้นแข็งแกร่งมาก) ฉันถูกต้องที่จะทำให้สมมติฐานนี้หรือไม่? ใครช่วยเสนอความคิด / มุมมองอื่น ๆ ที่ฉันอาจหายไป? PS: บางประการ: ไม่มีวิธีรับข้อมูลเพิ่มเติมโดยไม่ต้องรอปีเพิ่มเติม ดังนั้นข้อมูลที่มีอยู่คือสิ่งที่เราต้องทำงานด้วย

4
สร้างกราฟตัวอย่างขนาดเล็ก
ฉันมีชุดข้อมูลขนาดเล็กจำนวน 14 ครั้งเพื่อให้งานเสร็จสมบูรณ์ อย่างไรก็ตามฉันมีปัญหาในการหากราฟที่เหมาะสมเพื่อใช้ในการทำกราฟข้อมูล หากตัวอย่างมีขนาดใหญ่กว่าฉันจะใช้พล็อตกล่องหรือฮิสโตแกรม แต่ไม่แน่ใจว่าควรใช้ในกรณีนี้เมื่อกลุ่มตัวอย่างมีขนาดเล็กหรือไม่ อัปเดต: เวลาคือ 5.2,3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.9,4.9,4.9,4.9,4.2

1
ลำดับ Halton เทียบกับลำดับ Sobol '?
จากคำตอบในคำถามก่อนหน้านี้ฉันถูกนำไปยังลำดับ Halton สำหรับการสร้างชุดของเวกเตอร์ที่ครอบคลุมพื้นที่ตัวอย่างสม่ำเสมอพอ ๆ กัน แต่หน้าวิกิพีเดียกล่าวว่าช่วงเวลาที่สูงขึ้นโดยเฉพาะอย่างยิ่งมักจะมีความสัมพันธ์สูงในช่วงต้นของซีรีส์ นี้ดูเหมือนว่าจะเป็นกรณีสำหรับคู่ใด ๆ ของช่วงเวลาที่สูงที่มีขนาดตัวอย่างที่ค่อนข้างสั้น - และแม้กระทั่งเมื่อตัวแปรไม่มีความสัมพันธ์พื้นที่ตัวอย่างที่ไม่ได้เก็บตัวอย่างสม่ำเสมอค่อนข้างมีวงดนตรีในแนวทแยงของความหนาแน่นของตัวอย่างสูงในพื้นที่ . เนื่องจากฉันใช้เวกเตอร์ที่มีความยาว 6 ขึ้นไปฉันจะต้องใช้บางช่วงเวลาซึ่งเป็นปัญหา (แม้ว่าจะไม่เลวร้ายอย่างในตัวอย่างที่ถูกกล่าวถึง) และตัวแปรบางตัวจะไม่ถูกสุ่มตัวอย่างเหมือนกัน ระนาบตัวอย่างของพวกมัน การใช้ลำดับ Sobol 'เพื่อสร้างชุดที่คล้ายกันดูเหมือนว่าฉัน (เพียงจากการดูกราฟ) เพื่อสร้างตัวอย่างระหว่างคู่ของตัวแปรที่มีการกระจายอย่างเท่าเทียมกันมากขึ้นแม้สำหรับตัวอย่างจำนวนค่อนข้างน้อย ดูเหมือนว่าจะมีประโยชน์มากกว่านี้และฉันก็สงสัยว่าเมื่อไรที่ลำดับ Halton จะมีประโยชน์มากกว่านี้ หรือว่าเป็นเพียงลำดับของ Halton ที่คำนวณได้ง่ายกว่า หมายเหตุ: การอภิปรายของลำดับความแตกต่างต่ำหลายมิติอื่น ๆ ก็ยินดีต้อนรับ

2
Random Forest เหมาะสมกับชุดข้อมูลที่มีขนาดเล็กมากหรือไม่?
ฉันมีชุดข้อมูลซึ่งประกอบด้วยข้อมูล 24 แถวทุกเดือน คุณลักษณะคือ GDP การมาถึงสนามบินรายเดือนและอื่น ๆ ตัวแปรตามคือจำนวนผู้เข้าชมปลายทางการท่องเที่ยวที่เป็นที่นิยม ป่าสุ่มจะเหมาะสำหรับปัญหานี้หรือไม่? ข้อมูลนั้นไม่ใช่ข้อมูลสาธารณะดังนั้นฉันจึงไม่สามารถโพสต์ตัวอย่างได้

1
ANOVA: การทดสอบสมมติฐานของภาวะปกติสำหรับหลาย ๆ กลุ่มที่มีตัวอย่างไม่กี่ตัวอย่างต่อกลุ่ม
สมมติว่าสถานการณ์ต่อไปนี้: เรามีจำนวนมาก (เช่น 20) กับกลุ่มขนาดเล็ก (เช่น n = 3) ฉันสังเกตเห็นว่าถ้าฉันสร้างค่าจากการกระจายแบบสม่ำเสมอส่วนที่เหลือจะดูปกติประมาณแม้ว่าการกระจายข้อผิดพลาดจะเหมือนกัน รหัส R ต่อไปนี้แสดงให้เห็นถึงพฤติกรรมนี้: n.group = 200 n.per.group = 3 x <- runif(n.group * n.per.group) gr <- as.factor(rep(1:n.group, each = n.per.group)) means <- tapply(x, gr, mean) x.res <- x - means[gr] hist(x.res) ถ้าฉันดูตัวอย่างที่เหลือในกลุ่มที่สามเหตุผลของพฤติกรรมชัดเจน: r1=x1−mean(x1,x2,x3)=x1−x1+x2+x33=23x1−x2−x3.r1=x1−mean(x1,x2,x3)=x1−x1+x2+x33=23x1−x2−x3. r_1 = x_1 - \text{mean}(x1, x2, x3) …

1
test vs -tests?
ฉันพยายามคิดให้ชัดเจนว่าอะไรคือความแตกต่างระหว่างการทดสอบและการทดสอบztttzzz เท่าที่ฉันสามารถบอกได้ว่าสำหรับการทดสอบทั้งสองคลาสเราใช้สถิติการทดสอบเดียวกันซึ่งเป็นรูปแบบบางอย่าง b^−Cseˆ(b^)b^−Cse^(b^)\frac{\hat{b} - C}{\widehat{\operatorname{se}}(\hat{b})} ที่เป็นตัวอย่างสถิติคือการอ้างอิงบางอย่าง (ที่ตั้ง) ค่าคงที่ (ซึ่งขึ้นอยู่กับรายการของการทดสอบ) และเป็นมาตรฐาน ข้อผิดพลาดของ{ข} C ^ SE (ข )ขb^b^\hat{b}CCCseˆ(b^)se^(b^)\widehat{\operatorname{se}}(\hat{b})b^b^\hat{b} แตกต่างเพียงแล้วระหว่างทั้งสองชั้นของการทดสอบก็คือว่าในกรณีของ -tests สถิติการทดสอบข้างต้นดังต่อไปนี้ -distribution (สำหรับตัวอย่างที่กำหนดบางองศาของเสรีภาพ ) ในขณะที่ในกรณีของ -tests, สถิติการทดสอบเดียวกันดังต่อไปนี้การกระจายมาตรฐานปกติ1) (นี่เป็นการชี้ให้เห็นว่าการเลือกของ -test หรือ -test นั้นควบคุมโดยตัวอย่างที่มีขนาดใหญ่พอหรือไม่)t d z N ( 0 , 1 ) z tttttttdddZZzยังไม่มีข้อความ( 0 , 1 )ยังไม่มีข้อความ(0,1)\mathcal{N}(0, 1)ZZzเสื้อเสื้อt ถูกต้องหรือไม่

2
การสุ่มมีความน่าเชื่อถือกับกลุ่มตัวอย่างขนาดเล็กหรือไม่
Jerome Cornfield ได้เขียน: หนึ่งในผลไม้ที่ดีที่สุดของการปฏิวัติของชาวประมงคือความคิดของการสุ่มและนักสถิติที่เห็นด้วยกับสิ่งอื่น ๆ น้อยได้เห็นด้วยอย่างน้อยในเรื่องนี้ แต่แม้จะมีข้อตกลงนี้และแม้จะมีการใช้ขั้นตอนการจัดสรรแบบสุ่มในทางคลินิกและในรูปแบบอื่น ๆ ของการทดลอง แต่สถานะทางตรรกะของมันก็คือฟังก์ชันที่แน่นอนที่มันทำนั้นยังคงคลุมเครือ ทุ่งนาเจอโรม (1976) "ผลงานล่าสุดกับระเบียบวิธีการทดลองทางคลินิก" วารสารระบาดวิทยาแห่งอเมริกา 104 (4): 408–421 ในเว็บไซต์นี้และในวรรณคดีที่หลากหลายฉันมักเห็นการอ้างสิทธิ์ที่มั่นใจเกี่ยวกับพลังของการสุ่ม คำศัพท์ที่แข็งแกร่งเช่น "มันกำจัดปัญหาของตัวแปรที่รบกวน" เป็นเรื่องปกติ ดูที่นี่ยกตัวอย่างเช่น อย่างไรก็ตามมีการทดลองหลายครั้งด้วยตัวอย่างเล็ก ๆ (3-10 ตัวอย่างต่อกลุ่ม) สำหรับเหตุผลเชิงปฏิบัติ / จริยธรรม นี่เป็นเรื่องธรรมดามากในการวิจัยพรีคลินิกโดยใช้สัตว์และเซลล์เพาะเลี้ยงและนักวิจัยมักรายงานค่า p เพื่อสนับสนุนข้อสรุปของพวกเขา สิ่งนี้ทำให้ฉันสงสัยว่าการสุ่มตัวอย่างทำได้ดีเพียงใดในการสร้างสมดุลให้กับขอบเขต สำหรับพล็อตนี้ฉันจำลองสถานการณ์เปรียบเทียบกลุ่มการรักษาและกลุ่มควบคุมด้วยความสับสนที่สามารถรับสองค่าด้วยโอกาส 50/50 (เช่น type1 / type2, ชาย / หญิง) มันแสดงให้เห็นการกระจายตัวของ "% ไม่สมดุล" (ความแตกต่างใน # ของ type1 ระหว่างการรักษาและตัวอย่างการควบคุมหารด้วยขนาดตัวอย่าง) …

3
จำกัด เพียงวิธีการรวมวงดนตรีที่ใช้ต้นไม้ในปัญหาเล็ก ๆ และปัญหาใหญ่ p?
วิธีการทั้งมวลของต้นไม้เช่น Random Forest และอนุพันธ์ถัดมา (เช่นป่าที่มีเงื่อนไข) ซึ่งล้วนเป็นประโยชน์ในสิ่งที่เรียกว่าปัญหา "small n , large p " เพื่อระบุความสำคัญของตัวแปรที่เกี่ยวข้อง ที่จริงเรื่องนี้ดูเหมือนจะเป็นจริง แต่คำถามของฉันคือความสามารถนี้จะนำไปได้ไกลแค่ไหน? เราสามารถมีข้อสังเกตได้ 30 ข้อและตัวแปร 100 ตัว? อะไรคือจุดแตกหักของวิธีการดังกล่าวและมีกฎที่เหมาะสมของหัวแม่มือที่มีอยู่? ฉันต้องการและจะยอมรับคำตอบที่ได้รับการสนับสนุนจากลิงก์ไปยังหลักฐานจริง (ไม่ใช่การคาดเดา) โดยใช้ชุดข้อมูลจำลองหรือชุดข้อมูลจริง ฉันไม่ได้พบมากในหลัง ( ที่นี่และที่นี่) ดังนั้นความคิด / คำแนะนำของคุณ / (ในหัวข้อ) คำแนะนำการอ้างอิงยินดีต้อนรับมากที่สุด!

1
การถดถอยด้วยขนาดตัวอย่างที่เล็กมาก
ฉันต้องการเรียกใช้การถดถอยด้วยตัวแปรอธิบาย 4 ถึง 5 แต่มีข้อสังเกตเพียง 15 ข้อ ไม่สามารถสันนิษฐานได้ว่าตัวแปรเหล่านี้มีการกระจายโดยทั่วไปมีวิธีการที่ไม่เป็นพารามิเตอร์หรือวิธีการถดถอยที่ถูกต้องอื่น ๆ หรือไม่?
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.