คำถามติดแท็ก cross-validation

หัก ณ ที่จ่ายซ้ำชุดย่อยของข้อมูลในระหว่างการปรับแบบจำลองเพื่อวัดประสิทธิภาพของแบบจำลองในชุดย่อยข้อมูลที่ถูกระงับ

3
ROC curve สำหรับตัวแยกประเภทอย่างต่อเนื่องเช่น SVM: ทำไมเราถึงเรียกมันว่า“ เส้นโค้ง”, ไม่ใช่แค่“ จุด” หรือไม่?
ในการอภิปราย: วิธีสร้างเส้นโค้ง roc สำหรับการจำแนกเลขฐานสองฉันคิดว่าความสับสนคือ "ตัวจําแนกแบบไบนารี" (ซึ่งเป็นลักษณนามใด ๆ ที่แยก 2 คลาส) สำหรับหยางสิ่งที่เรียกว่า "ตัวจําแนกแบบแยก" (ซึ่งผลิต ผลลัพธ์ที่ไม่ต่อเนื่อง 0/1 เหมือน SVM) และไม่ใช่เอาต์พุตต่อเนื่องเช่นตัวแยกประเภท ANN หรือ Bayes ... ฯลฯ ดังนั้นการอภิปรายเกี่ยวกับวิธีการที่ ROC ถูกพล็อตสำหรับ "ตัวแยกประเภทไบนารีต่อเนื่อง" และคำตอบก็คือเรียงลำดับผลลัพธ์ ด้วยคะแนนของพวกเขาเนื่องจากผลลัพธ์เป็นแบบต่อเนื่องและมีการใช้เกณฑ์เพื่อสร้างจุดแต่ละจุดบนกราฟ ROC คำถามของฉันสำหรับ "ตัวแยกประเภทไบนารีไม่ต่อเนื่อง" เช่น SVM ค่าเอาต์พุตเป็น 0 หรือ 1 ดังนั้น ROC จะสร้างเพียงจุดเดียวและไม่ใช่เส้นโค้ง ฉันงงว่าทำไมเราถึงเรียกมันว่าเป็นเส้นโค้ง !! เรายังพูดถึงเกณฑ์ได้หรือไม่? หนึ่งสามารถใช้ thresholds ใน SVM โดยเฉพาะได้อย่างไร คนเราสามารถคำนวณ …

1
การตรวจสอบความถูกต้องของการลาออกใช้งานไม่ได้อย่างไร วิธีการเลือกรุ่นสุดท้ายจากรุ่นที่แตกต่างกันอย่างไร
ฉันมีข้อมูลบางส่วนและฉันต้องการสร้างแบบจำลอง (พูดแบบจำลองการถดถอยเชิงเส้น) จากข้อมูลนี้ ในขั้นตอนถัดไปฉันต้องการใช้การตรวจสอบความถูกต้องแบบข้ามใบ (LOOCV) กับโมเดลเพื่อดูว่ามันทำงานได้ดีเพียงใด ถ้าฉันเข้าใจ LOOCV ถูกต้องฉันจะสร้างแบบจำลองใหม่สำหรับตัวอย่างแต่ละชุด (ชุดทดสอบ) โดยใช้ทุกตัวอย่างยกเว้นตัวอย่างนี้ (ชุดฝึกอบรม) แล้วฉันจะใช้รูปแบบในการทำนายชุดทดสอบและคำนวณข้อผิดพลาด{จริง})( ทำนาย- จริง)(ที่คาดการณ์ไว้-ที่จริง)(\text{predicted} - \text{actual}) ในขั้นตอนต่อไปฉันรวมข้อผิดพลาดทั้งหมดที่สร้างขึ้นโดยใช้ฟังก์ชั่นที่เลือกตัวอย่างเช่นหมายถึงข้อผิดพลาดกำลังสอง ฉันสามารถใช้ค่าเหล่านี้เพื่อตัดสินคุณภาพ (หรือความเหมาะสมของแบบ) ของโมเดล คำถาม:แบบจำลองใดเป็นแบบจำลองคุณภาพค่าเหล่านี้ใช้สำหรับแบบใดฉันควรเลือกแบบใดหากฉันพบว่าตัวชี้วัดที่สร้างจาก LOOCV เหมาะสมกับกรณีของฉัน LOOCV ดูที่รุ่นที่แตกต่างกัน (โดยที่คือขนาดตัวอย่าง); ฉันควรเลือกรุ่นใดnnnnnn มันเป็นรุ่นที่ใช้ตัวอย่างทั้งหมดหรือไม่ แบบจำลองนี้ไม่เคยคำนวณในระหว่างกระบวนการ LOOCV! เป็นรุ่นที่มีข้อผิดพลาดน้อยที่สุดหรือไม่

2
การตรวจสอบความถูกต้องไขว้ 10 เท่าเทียบกับการตรวจสอบความถูกต้องข้ามแบบครั้งเดียว
ฉันกำลังทำการตรวจสอบข้ามแบบซ้อนกัน ฉันได้อ่านแล้วว่าการตรวจสอบไขว้แบบลาออกหนึ่งครั้งสามารถมีอคติได้ (จำไม่ได้ว่าทำไม) จะเป็นการดีกว่าหรือไม่ที่จะใช้การตรวจสอบความถูกต้องไขว้ 10 เท่าหรือการตรวจสอบความถูกต้องแบบ cross-one-out นอกเหนือจากการรันไทม์ที่นานขึ้นสำหรับการตรวจสอบความถูกต้องแบบ cross-one-out?

3
การตรวจสอบข้ามระบบหรือการบูตสแตรปเพื่อประเมินประสิทธิภาพการจัดหมวดหมู่?
วิธีการสุ่มตัวอย่างที่เหมาะสมที่สุดในการประเมินประสิทธิภาพของตัวจําแนกในชุดข้อมูลเฉพาะและเปรียบเทียบกับตัวจําแนกอื่น ๆ คืออะไร? การตรวจสอบความถูกต้องไขว้นั้นดูเหมือนจะเป็นแบบมาตรฐาน แต่ฉันได้อ่านวิธีการเช่น. 632 bootstrap เป็นตัวเลือกที่ดีกว่า การติดตามผล: การเลือกตัวชี้วัดประสิทธิภาพส่งผลกระทบต่อคำตอบหรือไม่ (ถ้าฉันใช้ AUC แทนความแม่นยำ) เป้าหมายสูงสุดของฉันคือสามารถพูดด้วยความมั่นใจว่าวิธีการเรียนรู้ของเครื่องวิธีหนึ่งดีกว่าอีกชุดหนึ่งสำหรับชุดข้อมูลเฉพาะ

1
ใครเป็นผู้คิดค้นการตรวจสอบข้ามแบบ K-fold?
ฉันกำลังมองหาเอกสารอ้างอิงที่แนะนำการตรวจสอบความถูกต้องไขว้ของ k-fold (ไม่ใช่แค่การอ้างอิงทางวิชาการที่ดีสำหรับวิชา) บางทีมันอาจจะย้อนกลับไปในช่วงเวลาที่ไกลเกินกว่าที่จะระบุกระดาษแผ่นแรกได้อย่างไม่น่าสงสัยดังนั้นกระดาษแรก ๆ ที่ใช้แนวคิดนี้จะเป็นที่สนใจ เร็วที่สุดที่ฉันรู้คือ PA Lachenbruch และ MR Mickey "การประมาณอัตราความผิดพลาดในการวิเคราะห์จำแนก" Technometrics, vol. หมายเลข 10 1, pp. 1–12, กุมภาพันธ์ 1968 และ A. Luntz และ V. Brailovsky“ ในการประมาณค่าตัวอักษรที่ได้รับในกระบวนการทางสถิติของการรับรู้ (ในรัสเซีย),” Techicheskaya Kibernetica, vol. 3, 1969 แต่เท่าที่ฉันสามารถบอกได้ว่าพวกเขาครอบคลุมการตรวจสอบความถูกต้องแบบข้ามครั้งเดียว (ภาษารัสเซียด้านเทคนิคของฉันไม่ใช่ทั้งหมดที่จะเป็นได้; o)

1
การตรวจสอบความถูกต้องข้าม (CV) และสถิติการตรวจสอบความถูกต้องข้ามทั่วไป (GCV)
ฉันได้พบอาจจะขัดแย้งกันคำจำกัดความของการตรวจสอบ (CV) สถิติข้ามและสำหรับการตรวจสอบข้ามทั่วไป (GCV) สถิติที่เกี่ยวข้องกับโมเดลเชิงเส้นตรงY=Xβ+εY=Xβ+εY = X\boldsymbol\beta + \boldsymbol\varepsilon (กับปกติเวกเตอร์ข้อผิดพลาด homoscedastic εε\boldsymbol\varepsilon ) ในอีกด้านหนึ่ง Golub, Heath & Wahba กำหนด GCV ประมาณการλ^λ^\hat{\lambda}เป็น (หน้า 216) ตัวย่อของV(λ)V(λ)V\left(\lambda\right)โดย V(λ)=1n∥(I−A(λ))y∥2(1ntr(I−A(λ)))2V(λ)=1n‖(I−A(λ))y‖2(1ntr(I−A(λ)))2 V\left(\lambda\right) = \frac{\frac{1}{n} \left\|\left(I - A\left(\lambda\right)\right)y\right\|^2}{\left(\frac{1}{n} \mathrm{tr}\left(I - A\left(\lambda\right)\right)\right)^2} โดยที่A(λ)=X(XTX+nλI)−1XTA(λ)=X(XTX+nλI)−1XTA\left(\lambda\right) = X\left(X^T X + n\lambda I\right)^{-1} X^T ในทางตรงกันข้าม Efron กำหนดแนวความคิดเดียวกับV(0)V(0)V\left(0\right) (หน้า 24) แต่เขาแนะนำคุณลักษณะของแนวคิดนี้เพื่อ Craven & …

3
แบบจำลองการพยากรณ์แบบใดที่สามารถมองเห็นเป็นกรณีพิเศษของแบบจำลอง ARIMA
เช้านี้ฉันตื่นขึ้นมาด้วยความสงสัย (อาจเป็นเพราะข้อเท็จจริงที่ว่าเมื่อคืนฉันไม่ได้นอนมาก): เนื่องจากการตรวจสอบข้ามดูเหมือนจะเป็นรากฐานที่สำคัญของการพยากรณ์อนุกรมเวลาที่เหมาะสมแบบจำลองที่ฉันควรจะเป็น "ปกติ "ตรวจสอบข้ามกับ? ฉันมากับคนไม่กี่คน (ง่าย ๆ ) แต่ในไม่ช้าฉันก็รู้ว่าพวกเขาทั้งหมด แต่เป็นกรณีพิเศษของรุ่น ARIMA ดังนั้นตอนนี้ฉันก็สงสัยและนี่คือคำถามที่เกิดขึ้นจริงรูปแบบการพยากรณ์แบบใดที่ Box-Jenknins ได้รวมเข้าด้วยแล้ว ขอผมใช้วิธีนี้: Mean = ARIMA (0,0,0) ที่มีค่าคงที่ ไร้เดียงสา = ARIMA (0,1,0) Drift = ARIMA (0,1,0) ที่มีค่าคงที่ การยกกำลังอย่างง่ายแบบง่าย = ARIMA (0,1,1) การยกกำลังแบบเอ็กซ์โปเนนเชียลของโฮลท์ = ARIMA (0,2,2) Damped Holt's = ARIMA (0,1,2) สารเติมแต่งโฮลท์ - วินเทอร์: SARIMA (0,1, m + …

3
AIC กับการตรวจสอบความถูกต้องข้ามในอนุกรมเวลา: กรณีตัวอย่างขนาดเล็ก
ฉันสนใจในการเลือกรูปแบบในการตั้งค่าอนุกรมเวลา เพื่อความเป็นรูปธรรมสมมติว่าฉันต้องการเลือกรุ่น ARMA จากกลุ่มของรุ่น ARMA ที่มีคำสั่งซื้อล่าช้าต่างกัน สุดยอดความตั้งใจคือการคาดการณ์ การเลือกรุ่นสามารถทำได้โดย การตรวจสอบข้าม การใช้เกณฑ์ข้อมูล (AIC, BIC) ท่ามกลางวิธีอื่น ๆ ร็อบเจ Hyndman มีวิธีการทำการตรวจสอบข้ามอนุกรมเวลา สำหรับตัวอย่างที่มีขนาดค่อนข้างเล็กขนาดของตัวอย่างที่ใช้ในการตรวจสอบความถูกต้องไขว้อาจมีคุณภาพแตกต่างจากขนาดตัวอย่างดั้งเดิม ตัวอย่างเช่นหากขนาดตัวอย่างดั้งเดิมคือ 200 การสังเกตดังนั้นใครจะคิดว่าจะเริ่มการตรวจสอบข้ามโดยการสังเกต 101 ครั้งแรกและขยายหน้าต่างเป็น 102, 103, ... , 200 การสังเกตเพื่อให้ได้ 100 ผลการตรวจสอบข้าม เห็นได้ชัดว่าแบบจำลองที่มีเหตุผลพอสมควรสำหรับการสังเกต 200 ครั้งอาจใหญ่เกินไปสำหรับการสังเกต 100 ครั้งดังนั้นข้อผิดพลาดในการตรวจสอบจะมีขนาดใหญ่ ดังนั้นการตรวจสอบข้ามจึงมีแนวโน้มที่จะสนับสนุนรูปแบบที่ไม่สุภาพ นี่คือผลกระทบที่ไม่พึงประสงค์เกิดจากการไม่ตรงกันในขนาดตัวอย่าง ทางเลือกอื่นในการตรวจสอบข้ามคือการใช้เกณฑ์ข้อมูลสำหรับการเลือกแบบจำลอง เนื่องจากฉันสนใจเกี่ยวกับการคาดการณ์ฉันจะใช้ AIC ถึงแม้ว่า AIC นั้นจะเทียบเท่ากับ asymptotically ในการลดการคาดการณ์ MSE แบบขั้นตอนเดียวให้น้อยที่สุดสำหรับแบบจำลองอนุกรมเวลา (อ้างอิงจาก Rob …

4
เหตุใดนักวิจัยจึงใช้การตรวจสอบความถูกต้องไขว้ 10 เท่าแทนที่จะทดสอบกับชุดการตรวจสอบ
ฉันได้อ่านรายงานวิจัยจำนวนมากเกี่ยวกับการจำแนกความเชื่อมั่นและหัวข้อที่เกี่ยวข้อง ส่วนใหญ่ใช้การตรวจสอบความถูกต้องไขว้ 10 เท่าเพื่อฝึกฝนและทดสอบตัวจําแนก นั่นหมายความว่าจะไม่ทำการทดสอบ / ตรวจสอบแยกต่างหาก ทำไมถึงเป็นอย่างนั้น? อะไรคือข้อดี / ข้อเสียของวิธีการนี้โดยเฉพาะอย่างยิ่งสำหรับผู้ที่ทำวิจัย?

2
ทำไมแลมบ์ดา“ ภายในข้อผิดพลาดมาตรฐานเดียวจากค่าต่ำสุด” จึงเป็นค่าที่แนะนำสำหรับแลมบ์ดาในการถดถอยแบบตาข่ายแบบยืดหยุ่น?
ฉันเข้าใจว่าแลมบ์ดามีบทบาทอย่างไรในการถดถอยแบบยืดหยุ่น และฉันสามารถเข้าใจได้ว่าเหตุใดจึงเลือก lambda.min ค่าของ lambda ที่ลดข้อผิดพลาดที่ตรวจสอบข้ามได้ คำถามของฉันอยู่ที่ไหนในวรรณคดีสถิติมันแนะนำให้ใช้ lambda.1se นั่นคือค่าของแลมบ์ดาที่ผิดพลาดลดขนาด CV บวกข้อผิดพลาดมาตรฐานหนึ่ง ? ฉันดูเหมือนจะไม่พบการอ้างอิงที่เป็นทางการหรือแม้แต่เหตุผลว่าทำไมสิ่งนี้จึงมักมีคุณค่าอย่างมาก ฉันเข้าใจว่ามันเป็นกฎเกณฑ์ที่เข้มงวดยิ่งขึ้นและจะทำให้พารามิเตอร์หดตัวลงสู่ศูนย์ แต่ฉันไม่แน่ใจว่าเงื่อนไขใดที่ lambda.1se เป็นตัวเลือกที่ดีกว่า lambda.min มีคนช่วยอธิบายได้ไหม

3
แบบจำลองเสถียรภาพเมื่อจัดการกับขนาดใหญ่ปัญหาเล็ก
บทนำ: ฉันมีชุดข้อมูลที่มีคลาสสิก "ปัญหาใหญ่, ปัญหาเล็ก" จำนวนตัวอย่างที่มีอยู่n = 150 ในขณะที่จำนวนผู้ทำนายที่เป็นไปได้p = 400 ผลลัพธ์เป็นตัวแปรต่อเนื่อง ฉันต้องการค้นหาคำอธิบาย "สำคัญ" ที่สุดนั่นคือผู้ที่ดีที่สุดในการอธิบายผลลัพธ์และช่วยสร้างทฤษฎี หลังจากการวิจัยในหัวข้อนี้ฉันพบว่า LASSO และ Elastic Net มักใช้ในกรณีของ p ขนาดใหญ่, n ขนาดเล็ก บางส่วนของการพยากรณ์ของฉันมีความสัมพันธ์และฉันต้องการที่จะรักษาการจัดกลุ่มของพวกเขาในการประเมินความสำคัญดังนั้นฉันเลือกใช้สำหรับยืดหยุ่นสุทธิ ฉันคิดว่าฉันสามารถใช้ค่าสัมบูรณ์ของสัมประสิทธิ์การถดถอยเป็นตัวชี้วัดสำคัญ (โปรดแก้ไขให้ฉันถ้าฉันผิดชุดข้อมูลของฉันเป็นมาตรฐาน) ปัญหา: เนื่องจากตัวอย่างจำนวนน้อยของฉันฉันจะสร้างแบบจำลองที่เสถียรได้อย่างไร แนวทางปัจจุบันของฉันคือค้นหาพารามิเตอร์การปรับแต่งที่ดีที่สุด (แลมบ์ดาและอัลฟ่า) ในการค้นหากริดบน 90% ของชุดข้อมูลที่มีการตรวจสอบความถูกต้องข้าม 10 เท่าโดยเฉลี่ยคะแนน MSE จากนั้นฉันจะฝึกโมเดลด้วยพารามิเตอร์การปรับที่ดีที่สุดทั้งชุดข้อมูล 90% ฉันสามารถประเมินโมเดลของฉันโดยใช้ R กำลังสองในส่วนของ 10% ของชุดข้อมูล (ซึ่งบัญชีตัวอย่างเพียง 15 ตัวอย่าง) เมื่อเรียกใช้โพรซีเดอร์นี้ซ้ำ ๆ ฉันพบความแปรปรวนจำนวนมากในการประเมิน …

2
ควรเปรียบเทียบแบบจำลองเอฟเฟกต์ผสมและหรือตรวจสอบความถูกต้องอย่างไร
รุ่นเอฟเฟกต์ผสม (เชิงเส้น) เป็นอย่างไรเมื่อเปรียบเทียบกับแบบอื่น ฉันรู้ว่าสามารถใช้การทดสอบอัตราส่วนความน่าจะเป็นได้ แต่วิธีนี้ไม่ได้ผลหากแบบจำลองหนึ่งไม่ใช่ 'ส่วนย่อย' ของแบบจำลองอื่นที่ถูกต้องหรือไม่ การประมาณของตัวแบบ df นั้นตรงไปตรงมาเสมอหรือไม่? จำนวนผลกระทบคงที่ + จำนวนองค์ประกอบความแปรปรวนโดยประมาณ? เราเพิกเฉยต่อการประมาณผลกระทบแบบสุ่มหรือไม่? สิ่งที่เกี่ยวกับการตรวจสอบ? ความคิดแรกของฉันคือการตรวจสอบข้าม แต่การพับแบบสุ่มอาจไม่ทำงานเนื่องจากโครงสร้างของข้อมูล วิธีการของ 'ปล่อยให้หนึ่งวิชา / กลุ่มออก' เหมาะสมหรือไม่? สิ่งที่เกี่ยวกับการออกจากการสังเกตหนึ่ง Mallows Cp สามารถตีความได้ว่าเป็นการประมาณการข้อผิดพลาดในการทำนายแบบจำลอง การเลือกแบบจำลองผ่าน AIC พยายามลดข้อผิดพลาดในการคาดการณ์ให้น้อยที่สุด (ดังนั้น Cp และ AIC ควรเลือกแบบจำลองเดียวกันหากข้อผิดพลาดคือ Gaussian ฉันเชื่อ) นี่หมายความว่า AIC หรือ Cp สามารถใช้เพื่อเลือกโมเดลเอฟเฟกต์เชิงเส้น 'ที่ดีที่สุด' จากการรวบรวมโมเดลที่ไม่ซ้อนกันบางส่วนในแง่ของการคาดการณ์ข้อผิดพลาดหรือไม่? (หากพวกเขาสอดคล้องกับข้อมูลเดียวกัน) BIC ยังคงมีแนวโน้มที่จะเลือกรูปแบบ 'ของจริง' ในบรรดาผู้สมัครหรือไม่? ฉันยังอยู่ภายใต้ความประทับใจว่าเมื่อเปรียบเทียบโมเดลเอฟเฟกต์ผสมผ่าน AIC …

2
วิธีที่ดีที่สุดสำหรับการเลือกแบบจำลองแบบเบส์หรือการตรวจสอบข้าม
เมื่อพยายามเลือกระหว่างรุ่นต่าง ๆ หรือจำนวนฟีเจอร์ที่ต้องระบุให้บอกคำทำนายว่าฉันสามารถคิดถึงสองวิธี แบ่งข้อมูลออกเป็นชุดฝึกอบรมและทดสอบ ยังดีกว่าใช้ bootstrapping หรือตรวจสอบข้าม k-fold ฝึกอบรมชุดฝึกอบรมในแต่ละครั้งและคำนวณข้อผิดพลาดเหนือชุดทดสอบ ข้อผิดพลาดการทดสอบพล็อตเทียบกับจำนวนพารามิเตอร์ โดยปกติคุณจะได้รับสิ่งนี้: คำนวณความน่าจะเป็นของโมเดลโดยรวมค่าพารามิเตอร์ต่างๆ คือการคำนวณและพล็อตนี้กับจำนวนพารามิเตอร์ จากนั้นเราจะได้รับสิ่งนี้:∫θP( D | θ ) P( θ ) dθ∫θP(D|θ)P(θ)dθ\int_\theta P(D|\theta)P(\theta)d \theta ดังนั้นคำถามของฉันคือ: แนวทางเหล่านี้เหมาะสมสำหรับการแก้ปัญหานี้หรือไม่ (ตัดสินใจว่าจะรวมพารามิเตอร์จำนวนเท่าใดในโมเดลของคุณหรือเลือกระหว่างรุ่นจำนวนหนึ่ง) พวกมันเท่ากันหรือเปล่า อาจจะไม่. พวกเขาจะให้แบบจำลองที่ดีที่สุดแบบเดียวกันภายใต้สมมติฐานหรือในทางปฏิบัติหรือไม่? นอกเหนือจากความแตกต่างทางปรัชญาตามปกติของการระบุความรู้เดิมในแบบจำลองเบย์ ฯลฯ ข้อดีและข้อเสียของแต่ละวิธีคืออะไร คุณจะเลือกอันไหน อัปเดต: ฉันพบคำถามที่เกี่ยวข้องกับการเปรียบเทียบ AIC และ BIC ด้วย ดูเหมือนว่าวิธีที่ 1 ของฉันเทียบเท่ากับ AIC และวิธีที่ 2 นั้นเกี่ยวข้องกับ BIC แต่ฉันก็อ่านว่า BIC …

5
วิธีแบ่งชุดข้อมูลสำหรับการทำนายอนุกรมเวลา
ฉันมีข้อมูลการขายในอดีตจากร้านเบเกอรี่ (ทุกวันมากกว่า 3 ปี) ตอนนี้ฉันต้องการสร้างแบบจำลองเพื่อทำนายยอดขายในอนาคต (โดยใช้คุณสมบัติเช่นวันทำงานตัวแปรสภาพอากาศ ฯลฯ ) ฉันจะแยกชุดข้อมูลเพื่อปรับและประเมินโมเดลได้อย่างไร มันจำเป็นต้องเป็นรถไฟตามลำดับเวลา / การตรวจสอบ / แยกทดสอบหรือไม่? จากนั้นฉันจะทำการปรับพารามิเตอร์ไฮเปอร์พารามิเตอร์กับชุดรถไฟและการตรวจสอบความถูกต้องหรือไม่? การตรวจสอบข้าม (ซ้อนกัน) เป็นกลยุทธ์ที่ไม่ดีสำหรับปัญหาอนุกรมเวลาหรือไม่ แก้ไข นี่คือลิงค์ที่ฉันเจอหลังจากติดตาม URL ที่แนะนำโดย @ ene100: Rob Hyndman อธิบาย "ต้นกำเนิดการพยากรณ์แบบหมุน" ในทางทฤษฎีและในทางปฏิบัติ (พร้อมรหัส R) คำศัพท์อื่น ๆ สำหรับต้นกำเนิดการคาดการณ์แบบหมุนคือ "การเพิ่มประสิทธิภาพการเดินไปข้างหน้า" ( ที่นี่หรือที่นี่ ), "ขอบฟ้าที่กลิ้ง" หรือ "ต้นกำเนิดที่กำลังเคลื่อนที่" ดูเหมือนว่าเทคนิคเหล่านี้จะไม่ถูกรวมเข้ากับ scikit เรียนรู้ในอนาคตอันใกล้เพราะ "ความต้องการและความหมายของเทคนิคเหล่านี้ไม่ชัดเจน" (ระบุไว้ที่นี่ ) และนี่คือข้อเสนอแนะอื่นสำหรับการตรวจสอบความถูกต้องข้ามอนุกรมเวลา

2
การเลือกอัลฟาที่ดีที่สุดในการถดถอยโลจิสติกเน็ตแบบยืดหยุ่น
ฉันกำลังทำการถดถอยโลจิสติกส์แบบยืดหยุ่นบนชุดข้อมูลด้านการดูแลสุขภาพโดยใช้glmnetแพ็คเกจใน R โดยเลือกค่าแลมบ์ดาในตารางของจาก 0 ถึง 1 รหัสย่อของฉันอยู่ด้านล่าง:αα\alpha alphalist <- seq(0,1,by=0.1) elasticnet <- lapply(alphalist, function(a){ cv.glmnet(x, y, alpha=a, family="binomial", lambda.min.ratio=.001) }) for (i in 1:11) {print(min(elasticnet[[i]]$cvm))} ซึ่งส่งออกข้อผิดพลาดการตรวจสอบความถูกต้องข้ามเฉลี่ยสำหรับแต่ละค่าของอัลฟาจากถึงโดยเพิ่มขึ้น :1.0 0.10.00.00.01.01.01.00.10.10.1 [1] 0.2080167 [1] 0.1947478 [1] 0.1949832 [1] 0.1946211 [1] 0.1947906 [1] 0.1953286 [1] 0.194827 [1] 0.1944735 [1] 0.1942612 [1] 0.1944079 [1] 0.1948874 …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.