คำถามติดแท็ก bootstrap

bootstrap เป็นวิธี resampling เพื่อประเมินการกระจายตัวตัวอย่างของสถิติ

3
Bootstrap vs. การทดสอบสมมติฐานการเปลี่ยนลำดับ
มีเทคนิคการสุ่มตัวอย่างที่นิยมใช้กันหลายครั้งซึ่งมักใช้ในทางปฏิบัติเช่น bootstrapping, permutation test, jackknife เป็นต้นมีบทความและหนังสือจำนวนมากที่พูดถึงเทคนิคเหล่านี้เช่นPhilip I Good (2010) Permutation, Parametric และ Bootstrap Tests ของสมมติฐาน คำถามของฉันคือเทคนิคการสุ่มตัวอย่างแบบใดที่ได้รับความนิยมและง่ายต่อการใช้งานมากขึ้น การทดสอบการบูตหรือการเปลี่ยนรูป?

5
คุณสามารถ overfit โดยการฝึกอบรมอัลกอริทึมการเรียนรู้โดยใช้ CV / Bootstrap ได้หรือไม่?
คำถามนี้อาจเปิดกว้างเกินไปที่จะได้รับคำตอบที่ชัดเจน แต่หวังว่าจะไม่ อัลกอริทึมการเรียนรู้ของเครื่องเช่น SVM, GBM, Random Forest เป็นต้นโดยทั่วไปจะมีพารามิเตอร์อิสระบางอย่างที่นอกเหนือจากกฎของคำแนะนำนิ้วหัวแม่มือจำเป็นต้องปรับจูนให้กับแต่ละชุดข้อมูล โดยทั่วไปจะทำด้วยเทคนิคการสุ่มตัวอย่างใหม่ (bootstrap, CV ฯลฯ ) เพื่อให้พอดีกับชุดของพารามิเตอร์ที่ให้ข้อผิดพลาดในการวางนัยทั่วไปที่ดีที่สุด คำถามของฉันคือคุณไปไกลเกินไปไหม ผู้คนพูดคุยเกี่ยวกับการค้นหากริดตามที่กล่าวมา แต่ทำไมไม่เพียงแค่คิดว่านี่เป็นปัญหาการปรับให้เหมาะสมแล้วเจาะลึกไปที่ชุดของพารามิเตอร์ที่ดีที่สุด ฉันถามเกี่ยวกับกลไกบางอย่างของคำถามนี้แต่ก็ไม่ได้รับความสนใจมากนัก อาจเป็นคำถามที่ถามไม่ดี แต่บางทีคำถามนั้นแสดงถึงแนวทางที่ไม่ดีที่คนทั่วไปไม่ทำ สิ่งที่รบกวนจิตใจฉันคือขาดระเบียบ ฉันอาจค้นหาด้วยการสุ่มตัวอย่างอีกครั้งว่าจำนวนต้นไม้ที่ดีที่สุดที่จะเติบโตใน GBM สำหรับชุดข้อมูลนี้คือ 647 กับความลึกของการโต้ตอบที่ 4 แต่ฉันแน่ใจได้อย่างไรว่านี่จะเป็นจริงของข้อมูลใหม่ (สมมติว่าประชากรใหม่ เหมือนกับชุดฝึกอบรม) หรือไม่ ไม่มีค่าที่สมเหตุสมผลในการ 'ลดขนาด' เป็น (หรือถ้าคุณต้องการไม่มีข้อมูลก่อนหน้านี้) การสุ่มตัวอย่างใหม่ดูเหมือนว่าดีที่สุดที่เราสามารถทำได้ ฉันแค่ไม่ได้ยินคำพูดใด ๆ เกี่ยวกับเรื่องนี้ดังนั้นมันทำให้ฉันสงสัยว่ามีบางสิ่งที่ฉันขาดหายไป เห็นได้ชัดว่ามีค่าใช้จ่ายในการคำนวณจำนวนมากที่เกี่ยวข้องกับการทำซ้ำหลาย ๆ ครั้งเพื่อบีบพลังการคาดเดาสุดท้ายออกจากแบบจำลองดังนั้นชัดเจนว่านี่คือสิ่งที่คุณจะทำถ้าคุณมีเวลา / ไม่เต็มใจที่จะทำการปรับให้เหมาะสม ของการปรับปรุงประสิทธิภาพนั้นมีค่า

3
ป่าสุ่มไม่ไวต่อค่าผิดปกติอย่างไร
ฉันได้อ่านในแหล่งข้อมูลไม่กี่แห่งซึ่งรวมถึงอันนี้ว่าป่าสุ่มไม่ไวต่อค่าผิดปกติ (เช่นวิธีการที่ Logistic Regression และวิธีการ ML อื่น ๆ เป็นตัวอย่าง) อย่างไรก็ตามสัญชาตญาณสองชิ้นบอกฉันเป็นอย่างอื่น: เมื่อใดก็ตามที่ต้นไม้การตัดสินใจถูกสร้างขึ้นคะแนนทั้งหมดจะต้องจำแนก ซึ่งหมายความว่าแม้แต่ผู้ผิดกฎหมายก็จะถูกจัดประเภทและด้วยเหตุนี้จะส่งผลต่อต้นไม้การตัดสินใจที่พวกเขาได้รับเลือกในระหว่างการส่งเสริม Bootstrapping เป็นส่วนหนึ่งของการสุ่มตัวอย่างแบบสุ่มป่าไม้ การบูตสแตรปมีความอ่อนไหวต่อค่าผิดปกติ มีวิธีใดบ้างที่จะกระทบยอดปรีชาญาณของฉันเกี่ยวกับความอ่อนไหวต่อผู้ผิดกฎหมายกับแหล่งที่ไม่เห็นด้วยหรือไม่?

2
การกำหนดขนาดตัวอย่างที่จำเป็นสำหรับวิธี bootstrap / วิธีการเสนอ
ฉันรู้ว่านี่เป็นหัวข้อที่ค่อนข้างร้อนแรงซึ่งไม่มีใครสามารถให้คำตอบง่ายๆได้ อย่างไรก็ตามฉันสงสัยว่าวิธีการต่อไปนี้ไม่มีประโยชน์หรือไม่ วิธีบู๊ตสแตรปจะมีประโยชน์ก็ต่อเมื่อตัวอย่างของคุณติดตามการกระจายตัวมากหรือน้อยเช่นเดียวกับประชากรดั้งเดิม เพื่อให้แน่ใจว่าเป็นกรณีนี้คุณต้องทำให้ขนาดตัวอย่างของคุณมีขนาดใหญ่พอ แต่อะไรที่ใหญ่พอ? หากหลักฐานของฉันถูกต้องคุณมีปัญหาเดียวกันเมื่อใช้ทฤษฎีบทขีด จำกัด กลางเพื่อกำหนดค่าเฉลี่ยประชากร เฉพาะเมื่อขนาดตัวอย่างของคุณมีขนาดใหญ่พอคุณสามารถมั่นใจได้ว่าประชากรของค่าเฉลี่ยตัวอย่างของคุณมีการกระจายตามปกติ (รอบค่าเฉลี่ยประชากร) กล่าวอีกนัยหนึ่งตัวอย่างของคุณต้องแสดงถึงประชากรของคุณ (การกระจาย) ที่เพียงพอ แต่อีกครั้งสิ่งที่มีขนาดใหญ่พอ? ในกรณีของฉัน (กระบวนการบริหาร: เวลาที่ต้องการเพื่อให้เสร็จสิ้นความต้องการเทียบกับปริมาณความต้องการ) ฉันมีประชากรที่มีการกระจายแบบหลายคำกริยา (ความต้องการทั้งหมดที่เสร็จสิ้นในปี 2554) ซึ่งฉันมั่นใจ 99% ว่ามันน้อยลง กระจายตามปกติมากกว่าประชากร (ความต้องการทั้งหมดที่เสร็จสิ้นระหว่างวันที่ปัจจุบันและวันที่ผ่านมานึกคิดช่วงเวลานี้มีขนาดเล็กที่สุดเท่าที่เป็นไปได้) ฉันต้องการวิจัย ประชากร 2,011 ของฉันที่มีอยู่ออกมาจากหน่วยพอที่จะทำให้ตัวอย่างขนาดตัวอย่างnฉันเลือกค่า สมมติว่า ( ) ตอนนี้ฉันใช้การลองผิดลองถูกเพื่อกำหนดขนาดตัวอย่างที่ดี ฉันใช้และดูว่าประชากรเฉลี่ยตัวอย่างของฉันกระจายโดยใช้ Kolmogorov-Smirnov หรือไม่ ถ้าเป็นเช่นนั้นฉันจะทำซ้ำขั้นตอนเดียวกัน แต่มีขนาดตัวอย่างถ้าไม่ทำซ้ำด้วยขนาดตัวอย่าง (ฯลฯ )xxxnnnxxx101010x = 10x=10x=10n = 50n=50n=50404040606060 หลังจากที่ในขณะที่ฉันสรุปว่าเป็นขนาดตัวอย่างขั้นต่ำที่แน่นอนเพื่อให้ได้เป็นตัวแทนที่ดีของประชากร 2011 ของฉัน เนื่องจากฉันรู้ว่าประชากรที่ฉันสนใจ (ความต้องการทั้งหมดที่ดำเนินการเสร็จระหว่างวันปัจจุบันและวันหนึ่งในอดีต) มีความแปรปรวนน้อยกว่าฉันจึงสามารถใช้ขนาดตัวอย่างที่เพื่อ …

2
คุณจะทำการ bootstrapping ด้วยข้อมูลอนุกรมเวลาได้อย่างไร
ฉันเพิ่งเรียนรู้เกี่ยวกับการใช้เทคนิคการบูตสต็อกเพื่อคำนวณข้อผิดพลาดมาตรฐานและช่วงความมั่นใจสำหรับผู้ประมาณค่า สิ่งที่ฉันเรียนรู้คือถ้าข้อมูลเป็น IID คุณสามารถปฏิบัติต่อข้อมูลตัวอย่างเป็นประชากรและทำการสุ่มตัวอย่างด้วยการแทนที่และสิ่งนี้จะช่วยให้คุณได้รับการจำลองสถิติการทดสอบหลายครั้ง ในกรณีของอนุกรมเวลาคุณไม่สามารถทำสิ่งนี้ได้อย่างชัดเจนเพราะมีความสัมพันธ์แบบอัตโนมัติ ฉันมีอนุกรมเวลาและต้องการคำนวณค่าเฉลี่ยของข้อมูลก่อนและหลังวันที่กำหนด มีวิธีที่ถูกต้องในการใช้ bootstrapping รุ่นที่แก้ไขหรือไม่

4
เป็นความจริงหรือไม่ที่ไม่ควรใช้ bootstrap เปอร์เซ็นไทล์?
ใน MIT OpenCourseWare บันทึกสำหรับ 18.05 ความน่าจะเป็นและสถิติเบื้องต้นฤดูใบไม้ผลิ 2014 (ปัจจุบันมีให้บริการที่นี่ ) ระบุว่า: วิธีบูตสแตรปเปอร์เซ็นไทล์น่าดึงดูดเนื่องจากความเรียบง่าย แต่มันขึ้นอยู่กับการกระจายของบูตอยู่บนพื้นฐานโดยเฉพาะอย่างยิ่งกลุ่มตัวอย่างเป็นประมาณการที่ดีการกระจายที่แท้จริงของ{x} ข้าวกล่าวว่าจากวิธีเปอร์เซ็นต์ "แม้ว่านี้สมโดยตรงของ quantiles ของการกระจายบูตสุ่มตัวอย่างกับข้อ จำกัด ของความเชื่อมั่นอาจจะดูเหมือนเป็นครั้งแรกที่น่าสนใจของมันเหตุผลค่อนข้างปิดบัง." [2] ในระยะสั้นไม่ได้ใช้บูตเปอร์เซ็นต์วิธีการ ใช้ bootstrap เชิงประจักษ์แทน (เราได้อธิบายทั้งสองด้วยความหวังว่าคุณจะไม่สับสน bootstrap เชิงประจักษ์สำหรับ bootstrap เปอร์เซ็นไทล์) ˉ xx¯* * * *x¯∗\bar{x}^{*}x¯x¯\bar{x} [2] John Rice สถิติคณิตศาสตร์และการวิเคราะห์ข้อมูลรุ่นที่ 2 หน้า 272 หลังจากค้นหาออนไลน์นิดหน่อยนี่เป็นคำพูดเดียวที่ฉันได้พบว่ารัฐไหนที่ไม่ควรใช้ bootstrap เปอร์เซ็นไทล์ สิ่งที่ฉันจำได้จากการอ่านข้อความหลักการและทฤษฎีสำหรับการทำเหมืองข้อมูลและการเรียนรู้ของเครื่องโดย Clarke et al. นั่นคือเหตุผลหลักสำหรับ bootstrapping คือข้อเท็จจริงที่ว่า …

4
การประมาณ bootstrap ของอคตินั้นถูกต้องเมื่อใด
มันมักจะอ้างว่า bootstrapping สามารถให้ค่าประมาณของอคติในตัวประมาณ ถ้าเป็นค่าประมาณสำหรับสถิติและเป็น bootstrap replicas (ที่มี ) ดังนั้นประมาณการ bootstrap ของ bias คือ ซึ่งดูง่ายและทรงพลังอย่างมากจนถึงจุดที่ไม่มั่นคง ~ Tฉันเสื้อ^t^\hat tเสื้อ~ผมt~i\tilde t_iขฉันs T ≈ 1ฉัน∈ { 1 , ⋯ , N}i∈{1,⋯,N}i\in\{1,\cdots,N\}ขฉันsเสื้อ≈ 1ยังไม่มีข้อความΣผมเสื้อ~ผม- t^biast≈1N∑it~i−t^\begin{equation} \mathrm{bias}_t \approx \frac{1}{N}\sum_i \tilde{t}_i-\hat t \end{equation} ฉันไม่เข้าใจเลยว่าเรื่องนี้เป็นไปได้อย่างไรหากไม่มีตัวประมาณค่าทางสถิติที่เป็นกลาง ตัวอย่างเช่นถ้าตัวประมาณของฉันคืนค่าคงที่ที่เป็นอิสระจากการสังเกตค่าประมาณของความเอนเอียงข้างต้นนั้นไม่ถูกต้องอย่างชัดเจน แม้ว่าตัวอย่างนี้เป็นพยาธิวิทยา แต่ฉันไม่สามารถเห็นสิ่งที่เป็นข้อสันนิษฐานที่สมเหตุสมผลเกี่ยวกับตัวประมาณและการแจกแจงที่จะรับประกันได้ว่าการประมาณ bootstrap นั้นสมเหตุสมผล ฉันพยายามอ่านการอ้างอิงอย่างเป็นทางการ แต่ฉันไม่ใช่นักสถิติหรือนักคณิตศาสตร์ดังนั้นจึงไม่มีอะไรชัดเจน ทุกคนสามารถให้ข้อมูลสรุประดับสูงว่าการคาดการณ์สามารถใช้งานได้เมื่อใด หากคุณรู้ว่ามีการอ้างอิงที่ดีในเรื่องที่จะดี แก้ไข: ความนุ่มนวลของตัวประมาณค่ามักถูกอ้างถึงเป็นข้อกำหนดสำหรับ bootstrap ในการทำงาน เป็นไปได้ไหมที่เราจะต้องมีการแปลงกลับบางส่วนในท้องถิ่น? …
31 bootstrap  bias 

2
มีช่วงความเชื่อมั่นที่ไม่ใช่พารามิเตอร์ที่เชื่อถือได้สำหรับค่าเฉลี่ยของการแจกแจงแบบเบ้หรือไม่?
การแจกแจงแบบเบ้อย่างมากเช่นบันทึกปกติไม่ส่งผลให้ช่วงความมั่นใจในการบูตที่ถูกต้องแม่นยำ นี่คือตัวอย่างที่แสดงว่าบริเวณหางด้านซ้ายและขวาอยู่ห่างจากอุดมคติในอุดมคติ 0.025 ไม่ว่าคุณจะลองใช้วิธีบูตสแตรปแบบใดใน R: require(boot) n <- 25 B <- 1000 nsim <- 1000 set.seed(1) which <- c('basic', 'perc', 'norm', 'bca', 'stud') mul <- 0; sdl <- 1.65 # on log scale dist <- c('normal', 'lognormal')[2] switch(dist, normal = {g <- function(x) x; mu <- mul}, lognormal = {g …

3
คำแนะนำสำหรับวารสารโอเพนซอร์ซที่ผ่านการตรวจสอบโดยเพื่อน
ฉันมีต้นฉบับบนวิธีบูตสแตรปสำหรับทดสอบสมมุติฐานของค่าเฉลี่ยเดียวและฉันต้องการส่งเพื่อเผยแพร่ แต่ฉันมีปัญหาทางศีลธรรม ฉันได้ลงนามในการประท้วงต่อต้าน Elsevier สำหรับการดำเนินธุรกิจที่ผิดจรรยาบรรณของพวกเขาและการอ่านในประเด็นทั้งหมดทำให้ฉันถามจริยธรรมของวารสารวิชาการที่แสวงหาผลกำไรอื่น ๆ ดังนั้นฉันจึงต้องการที่จะตีพิมพ์ในวารสารที่ไม่แสวงหาผลกำไรโดยเฉพาะโอเพนซอร์สแม้ว่าฉันจะเข้าใจว่าวารสารดังกล่าวยังไม่ได้รับการพิจารณาเทียบเท่ากับวารสารที่เป็นที่ยอมรับมากกว่าเท่าที่มีชื่อเสียง โชคดีที่ฉันมีตำแหน่งนานแล้วนั่นไม่ใช่เรื่องสำคัญสำหรับฉัน ฉันขอขอบคุณคำแนะนำใด ๆ

3
ทำไมไม่รายงานค่าเฉลี่ยของการกระจาย bootstrap?
เมื่อหนึ่ง bootstraps พารามิเตอร์เพื่อรับข้อผิดพลาดมาตรฐานที่เราได้รับการกระจายของพารามิเตอร์ ทำไมเราไม่ใช้ค่าเฉลี่ยของการแจกแจงนั้นเป็นผลลัพธ์หรือค่าประมาณสำหรับพารามิเตอร์ที่เราพยายามหา การกระจายไม่ควรประมาณค่าจริงหรือไม่ ดังนั้นเราจะได้ค่าประมาณที่ดี "ที่แท้จริง"? แต่เรารายงานพารามิเตอร์ดั้งเดิมที่เราได้รับจากตัวอย่างของเรา ทำไมถึงเป็นอย่างนั้น? ขอบคุณ

2
การบูตสแตรปปิ้งประมาณการกระจายตัวตัวอย่างของตัวประมาณได้ดีเพียงใด
หลังจากศึกษา bootstrap มาฉันมีคำถามแนวความคิดที่ยังคงไขปริศนาฉันอยู่: คุณมีประชากรและคุณต้องการทราบแอตทริบิวต์ของประชากรนั่นคือซึ่งฉันใช้เพื่อเป็นตัวแทนของประชากร นี้อาจจะหมายถึงประชากรตัวอย่างเช่น โดยปกติแล้วคุณไม่สามารถรับข้อมูลทั้งหมดจากประชากร คุณวาดตัวอย่างขนาดจากประชากร สมมติว่าคุณมีตัวอย่าง iid เพื่อความง่าย แล้วคุณจะได้รับการประมาณการของคุณ(X) คุณต้องการที่จะใช้ที่จะทำให้การหาข้อสรุปเกี่ยวกับดังนั้นคุณอยากจะรู้ว่าความแปรปรวนของ theta}θ=g(P)θ=g(P)\theta=g(P)PPPθθ\thetaXXXNNNθ^=g(X)θ^=g(X)\hat{\theta}=g(X)θ^θ^\hat{\theta}θθ\thetaθ^θ^\hat{\theta} ครั้งแรกมีความเป็นจริงการกระจายตัวอย่างของtheta} ตามแนวคิดคุณสามารถวาดตัวอย่างจำนวนมาก (แต่ละอันมีขนาด ) จากประชากร ในแต่ละครั้งที่คุณมีการรับรู้ตั้งแต่แต่ละครั้งคุณจะมีตัวอย่างที่แตกต่างกัน จากนั้นในท้ายที่สุดแล้วคุณจะสามารถที่จะกู้จริงการกระจายของtheta} ตกลงนี้อย่างน้อยเป็นมาตรฐานแนวคิดสำหรับการประมาณค่าการกระจายของtheta} ผมขอย้ำว่ามัน: เป้าหมายสูงสุดคือการใช้วิธีการต่างๆในการประมาณการหรือใกล้เคียงกับความจริงการกระจายของtheta}θ^θ^\hat{\theta}NNNθ^=g(X)θ^=g(X)\hat{\theta}=g(X)θ^θ^\hat{\theta}θ^θ^\hat{\theta}θ^θ^\hat{\theta} ตอนนี้ที่นี่คำถามมา โดยปกติคุณจะมีหนึ่งตัวอย่างที่มีจุดข้อมูลแล้วคุณ resample จากนี้ตัวอย่างหลายครั้งและคุณจะเกิดขึ้นกับการกระจายของบูตtheta} คำถามของฉันคือการกระจาย bootstrap นี้ใกล้กับการแจกแจงตัวอย่างที่แท้จริงของแค่ไหน มีวิธีหาปริมาณหรือไม่XXXNNNθ^θ^\hat{\theta}θ^θ^\hat{\theta}

5
เหตุใดช่วงเวลาบูตของฉันจึงมีความครอบคลุมที่แย่มาก
ฉันต้องการทำการสาธิตคลาสที่ฉันเปรียบเทียบช่วงเวลา t กับช่วง bootstrap และคำนวณความน่าจะเป็นที่ครอบคลุมของทั้งคู่ ฉันต้องการข้อมูลที่มาจากการแจกแจงแบบเบ้ดังนั้นฉันเลือกที่จะสร้างข้อมูลเป็นexp(rnorm(10, 0, 2)) + 1ตัวอย่างขนาด 10 จาก lognormal ที่เปลี่ยนไป ฉันเขียนสคริปต์เพื่อวาดตัวอย่าง 1,000 รายการและสำหรับแต่ละตัวอย่างให้คำนวณทั้งช่วงเวลา 95% t และช่วงเวลาบูตเปอร์เซ็นต์ไทล์ 95% จากการจำลองซ้ำ 1,000 ครั้ง เมื่อฉันเรียกใช้สคริปต์วิธีการทั้งสองให้ช่วงเวลาที่คล้ายกันมากและทั้งสองมีโอกาสครอบคลุม 50-60% ฉันประหลาดใจเพราะฉันคิดว่าช่วงบูทสแตรปจะดีกว่า คำถามของฉันคือฉันมี ทำผิดพลาดในรหัส? ทำผิดพลาดในการคำนวณช่วงเวลาหรือไม่? ทำผิดพลาดโดยคาดหวังว่าช่วงเวลา bootstrap จะมีคุณสมบัติครอบคลุมที่ดีขึ้นหรือไม่ นอกจากนี้ยังมีวิธีการสร้าง CI ที่น่าเชื่อถือมากขึ้นในสถานการณ์นี้หรือไม่? tCI.total <- 0 bootCI.total <- 0 m <- 10 # sample size true.mean <- …

1
Bootstrap ช่วงการทำนาย
มีเทคนิค bootstrap ใดบ้างในการคำนวณช่วงการทำนายสำหรับการทำนายจุดที่ได้รับเช่นจากการถดถอยเชิงเส้นหรือวิธีการถดถอยอื่น ๆ (เพื่อนบ้านที่ใกล้ที่สุด k-tree ที่ถดถอยเป็นต้น) ยังไงก็เถอะฉันรู้สึกว่าบางครั้งวิธีที่เสนอให้เพียงแค่ดึงรองเท้าทำนายจุด (ดูเช่นช่วงเวลาการทำนายสำหรับการถดถอย kNN ) ไม่ได้ให้ช่วงการทำนาย แต่เป็นช่วงความมั่นใจ ตัวอย่างใน R # STEP 1: GENERATE DATA set.seed(34345) n <- 100 x <- runif(n) y <- 1 + 0.2*x + rnorm(n) data <- data.frame(x, y) # STEP 2: COMPUTE CLASSIC 95%-PREDICTION INTERVAL fit <- lm(y ~ x) …

3
การคำนวณค่า p โดยใช้ bootstrap ด้วย R
ฉันใช้แพคเกจ "boot" เพื่อคำนวณค่าp-value bootstrapped แบบสองด้านโดยประมาณแต่ผลลัพธ์นั้นอยู่ห่างจาก p-value ของการใช้ t.test มากเกินไป ฉันไม่สามารถหาสิ่งที่ฉันทำผิดในรหัส R ของฉัน ใครช่วยได้โปรดให้คำแนะนำสำหรับเรื่องนี้กับฉัน time = c(14,18,11,13,18,17,21,9,16,17,14,15, 12,12,14,13,6,18,14,16,10,7,15,10) group=c(rep(1:2, each=12)) sleep = data.frame(time, group) require(boot) diff = function(d1,i){ d = d1[i,] Mean= tapply(X=d$time, INDEX=d$group, mean) Diff = Mean[1]-Mean[2] Diff } set.seed(1234) b3 = boot(data = sleep, statistic = diff, R = …

1
องศาอิสระเป็นหมายเลขที่ไม่ใช่จำนวนเต็มหรือไม่
เมื่อฉันใช้ GAM มันให้ DF ที่เหลือกับฉันคือ (บรรทัดสุดท้ายในรหัส) นั่นหมายความว่าอย่างไร? นอกเหนือไปจากตัวอย่างของ GAM โดยทั่วไปแล้วจำนวนองศาความเป็นอิสระจะเป็นจำนวนที่ไม่ใช่จำนวนเต็มหรือไม่26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.