สถิติและข้อมูลขนาดใหญ่ machine-learning

3

เป็นไปได้อย่างไรที่จะได้แบบจำลองการถดถอยเชิงเส้นที่ดีเมื่อไม่มีความสัมพันธ์อย่างมากระหว่างผลลัพธ์กับตัวทำนาย

ฉันได้ฝึกแบบจำลองการถดถอยเชิงเส้นโดยใช้ชุดของตัวแปร / คุณสมบัติ และตัวแบบมีประสิทธิภาพที่ดี อย่างไรก็ตามฉันได้ตระหนักว่าไม่มีตัวแปรใดที่มีความสัมพันธ์ที่ดีกับตัวแปรที่ทำนายไว้ มันเป็นไปได้ยังไงกัน?

17 regression machine-learning correlation multiple-regression linear-model

1

คำถาม: บอกตัวจําแนกตามขอบเขตการตัดสินใจ

รับเป็น 6 ขอบเขตการตัดสินใจด้านล่าง ขอบเขตการตัดสินใจเป็นเส้นสีม่วง จุดและกากบาทเป็นชุดข้อมูลที่แตกต่างกันสองชุด เราต้องตัดสินใจว่าอันไหนคือ: Linear SVM เคอร์เนล SVM (เคอร์เนลโพลิโนเมียลของคำสั่ง 2) Perceptron การถดถอยโลจิสติก Neural Network (1 เลเยอร์ที่ซ่อนอยู่พร้อมหน่วยเชิงเส้น 10 หน่วยแก้ไข) Neural Network (1 เลเยอร์ที่ซ่อนอยู่มี 10 ตัน) ฉันต้องการคำตอบ แต่ที่สำคัญกว่านั้นเข้าใจความแตกต่าง เช่นฉันจะบอกว่า c) เป็น SVM เชิงเส้น ขอบเขตการตัดสินใจเป็นแบบเส้นตรง แต่เรายังสามารถเชื่อมโยงขอบเขตการตัดสินใจ SVM เชิงเส้นเข้าด้วยกันได้ d) Kernelized SVM เนื่องจากเป็นคำสั่งพหุนาม 2. f) แก้ไขโครงข่ายประสาทเนื่องจากขอบ "หยาบ" อาจจะ) การถดถอยโลจิสติก: มันยังเป็นลักษณนามเชิงเส้น แต่ขึ้นอยู่กับความน่าจะเป็น

17 machine-learning self-study classification neural-networks svm

5

การทำความเข้าใจว่าคุณลักษณะใดสำคัญที่สุดสำหรับการถดถอยโลจิสติก

ฉันได้สร้างลักษณนามการถดถอยโลจิสติกที่มีความแม่นยำมากกับข้อมูลของฉัน ตอนนี้ฉันต้องการเข้าใจที่ดีขึ้นว่าทำไมมันถึงทำงานได้ดี โดยเฉพาะฉันต้องการจัดอันดับว่าคุณลักษณะใดที่ทำให้เกิดผลงานมากที่สุด (ซึ่งฟีเจอร์ใดมีความสำคัญมากที่สุด) และในเชิงปริมาณการกำหนดว่าแต่ละฟีเจอร์มีส่วนสนับสนุนความแม่นยำของโมเดลโดยรวมอย่างไร (หรือบางอย่างในเส้นเลือดนี้) ฉันจะทำสิ่งนี้ได้อย่างไร ความคิดแรกของฉันคือการจัดอันดับพวกเขาตามค่าสัมประสิทธิ์ของพวกเขา แต่ฉันคิดว่ามันไม่ถูกต้อง หากฉันมีคุณสมบัติสองอย่างที่มีประโยชน์เท่าเทียมกัน แต่การแพร่กระจายของรายการแรกมีขนาดใหญ่เป็นสิบเท่าของอันดับที่สองดังนั้นฉันคาดว่ารายการแรกจะได้รับค่าสัมประสิทธิ์ต่ำกว่าครั้งที่สอง มีวิธีที่เหมาะสมกว่าในการประเมินความสำคัญของคุณลักษณะหรือไม่ โปรดทราบว่าฉันไม่ได้พยายามที่จะเข้าใจว่าการเปลี่ยนแปลงเล็ก ๆ น้อย ๆ ในคุณลักษณะส่งผลกระทบต่อความน่าจะเป็นของผลลัพธ์ ค่อนข้างฉันพยายามที่จะเข้าใจว่าแต่ละคุณสมบัติมีคุณค่าในแง่ของการทำให้ลักษณนามถูกต้อง นอกจากนี้เป้าหมายของฉันไม่มากนักที่จะทำการเลือกคุณสมบัติหรือสร้างแบบจำลองที่มีคุณสมบัติน้อยลง แต่พยายามที่จะให้ "ความสามารถอธิบายได้" สำหรับแบบจำลองที่เรียนรู้ดังนั้นตัวแยกประเภทไม่ได้เป็นเพียงกล่องดำทึบ

17 machine-learning logistic feature-selection importance

1

อะไรรับประกันทางทฤษฎีของการบรรจุถุง

ฉันได้ยิน (โดยประมาณ) ว่า: การห่อเป็นเทคนิคที่ช่วยลดความแปรปรวนของอัลกอริทึมตัวทำนาย / ตัวประมาณ / การเรียนรู้ อย่างไรก็ตามฉันไม่เคยเห็นหลักฐานทางคณิตศาสตร์อย่างเป็นทางการของข้อความนี้ ไม่มีใครรู้ว่าทำไมสิ่งนี้ถึงเป็นจริงในเชิงคณิตศาสตร์? ดูเหมือนว่าจะเป็นความจริงที่เป็นที่ยอมรับ / เป็นที่รู้จักอย่างกว้างขวางซึ่งฉันคาดหวังว่าจะมีการอ้างอิงโดยตรงกับสิ่งนี้ ฉันจะแปลกใจถ้าไม่มี นอกจากนี้ไม่มีใครรู้ว่าสิ่งนี้มีผลกระทบต่อความลำเอียง? มีการรับรองทางทฤษฎีอื่น ๆ เกี่ยวกับวิธีการบรรจุถุงที่ทุกคนรู้และคิดว่ามีความสำคัญและต้องการแบ่งปันหรือไม่

17 machine-learning mathematical-statistics bagging

3

ทำไมเราถึงหารด้วยค่าเบี่ยงเบนมาตรฐานและไม่ใช่ปัจจัยมาตรฐานอื่น ๆ ก่อนทำ PCA

ฉันกำลังอ่านเหตุผลต่อไปนี้ (จากบันทึกหลักสูตร cs229) ว่าทำไมเราแบ่งข้อมูลดิบด้วยค่าเบี่ยงเบนมาตรฐาน: แม้ว่าฉันจะเข้าใจสิ่งที่คำอธิบายพูด แต่ก็ไม่ชัดเจนสำหรับฉันว่าทำไมการหารด้วยค่าเบี่ยงเบนมาตรฐานจะบรรลุเป้าหมายดังกล่าว มันบอกว่าเพื่อให้ทุกคนอยู่ใน "ระดับ" มากกว่าเดิม อย่างไรก็ตามมันไม่ชัดเจนเลยว่าทำไมการหารด้วยค่าเบี่ยงเบนมาตรฐานจึงทำได้ ชอบมีอะไรผิดปกติกับการหารด้วยความแปรปรวน? ทำไมไม่ลองปริมาณอื่นล่ะ ชอบ ... ผลรวมของค่าสัมบูรณ์? หรือบรรทัดฐานอื่น ๆ ... มีเหตุผลทางคณิตศาสตร์ในการเลือก STD หรือไม่? การอ้างสิทธิ์ในสารสกัดนี้เป็นข้อความเชิงทฤษฎีที่สามารถได้มา / พิสูจน์ผ่านทางคณิตศาสตร์ (และ / หรือสถิติ) หรือเป็นอีกหนึ่งประโยคที่เราทำเพราะดูเหมือนจะทำงานใน "ฝึกหัด" หรือไม่? โดยพื้นฐานแล้วเราสามารถให้คำอธิบายทางคณิตศาสตร์อย่างเข้มงวดว่าทำไมสัญชาตญาณนั้นเป็นความจริง หรือถ้าเป็นเพียงการสังเกตเชิงประจักษ์ทำไมเราคิดว่ามันใช้งานได้ทั่วไปก่อนทำ PCA นอกจากนี้ในบริบทของ PCA นี่คือกระบวนการของการทำให้เป็นมาตรฐานหรือทำให้เป็นมาตรฐานหรือไม่ ความคิดอื่น ๆ ที่ฉันมีที่อาจ "อธิบาย" ทำไม STD: เนื่องจาก PCA สามารถหาได้จากการเพิ่มความแปรปรวนให้มากที่สุดฉันเดาว่าการหารด้วยปริมาณที่เกี่ยวข้องเช่น STD อาจเป็นหนึ่งในเหตุผลที่เราหารด้วย STD แต่ฉันก็คิดว่าบางทีถ้าเรานิยาม "ความแปรปรวน" …

17 machine-learning pca mathematical-statistics

1

ค่า R-squared เหมาะสมสำหรับการเปรียบเทียบแบบจำลองหรือไม่?

ฉันพยายามระบุโมเดลที่ดีที่สุดเพื่อทำนายราคารถยนต์โดยใช้ราคาและคุณสมบัติที่มีอยู่ในเว็บไซต์โฆษณาที่จัดประเภทรถยนต์ สำหรับเรื่องนี้ฉันใช้โมเดลสองรุ่นจากห้องสมุด scikit-Learn และโมเดลโครงข่ายประสาทจาก pybrain และ neurolab วิธีที่ฉันใช้จนถึงตอนนี้คือการเรียกใช้ข้อมูลจำนวนคงที่ผ่านบางรุ่น (อัลกอริทึมการเรียนรู้ของเครื่อง) และเปรียบเทียบค่าR2R2R^2ที่คำนวณด้วยโมดูลตัวชี้วัดการเรียนรู้แบบ Scikit คือR2R2R^2วิธีการที่ดีเพื่อเปรียบเทียบประสิทธิภาพของรูปแบบที่แตกต่างกันหรือไม่? แม้ว่าฉันจะได้ผลลัพธ์ที่น่าพอใจสำหรับแบบจำลองเช่น Elastic net และ Random forest ฉันได้รับค่าแย่มากR2R2R^2สำหรับแบบจำลองโครงข่ายประสาทเทียมดังนั้นR2R2R^2เป็นวิธีที่เหมาะสมสำหรับการประเมินเครือข่ายประสาท (หรือวิธีที่ไม่ใช่เชิงเส้น)

17 machine-learning neural-networks random-forest r-squared elastic-net

1

Naive Bayes ทำงานได้ดีกว่า SVM เมื่อใด

ในปัญหาการจัดหมวดหมู่ข้อความเล็ก ๆ ที่ฉันกำลังดู Naive Bayes แสดงผลงานที่คล้ายหรือมากกว่า SVM และฉันสับสนมาก ฉันสงสัยว่าปัจจัยใดเป็นตัวตัดสินชัยชนะของอัลกอริทึมหนึ่งเหนืออีกอัน มีสถานการณ์ที่ไม่มีจุดในการใช้ Naive Bayes เหนือ SVM หรือไม่? ใครบางคนสามารถให้แสงสว่างกับเรื่องนี้ได้หรือไม่?

17 machine-learning classification svm naive-bayes

4

“ ระดับอิสรภาพ” หมายถึงอะไรในเครือข่ายประสาทเทียม

ในหนังสือของบิชอป "การจำแนกรูปแบบและการเรียนรู้ของเครื่อง" ในหนังสือของบิชอปมันอธิบายถึงเทคนิคสำหรับการทำให้เป็นมาตรฐานในบริบทของเครือข่ายประสาท อย่างไรก็ตามฉันไม่เข้าใจย่อหน้าที่อธิบายว่าในระหว่างกระบวนการฝึกอบรมจำนวนองศาอิสระเพิ่มขึ้นพร้อมกับความซับซ้อนของแบบจำลอง คำพูดที่เกี่ยวข้องมีดังต่อไปนี้: ทางเลือกในการทำให้เป็นมาตรฐานในฐานะวิธีการควบคุมความซับซ้อนที่มีประสิทธิภาพของเครือข่ายคือขั้นตอนการหยุดก่อน การฝึกอบรมรูปแบบเครือข่ายที่ไม่เชิงเส้นนั้นสอดคล้องกับการลดฟังก์ชั่นข้อผิดพลาดซ้ำ ๆ ที่กำหนดตามส่วนของชุดข้อมูลการฝึกอบรม สำหรับอัลกอริธึมการปรับให้เหมาะสมจำนวนมากที่ใช้สำหรับการฝึกอบรมเครือข่ายเช่นการไล่ระดับสีแบบคอนจูเกตข้อผิดพลาดเป็นฟังก์ชันที่ไม่เพิ่มขึ้นของดัชนีการวนซ้ำ อย่างไรก็ตามข้อผิดพลาดที่วัดได้ด้วยความเคารพต่อข้อมูลอิสระโดยทั่วไปเรียกว่าชุดการตรวจสอบความถูกต้องมักจะแสดงการลดลงในตอนแรกตามด้วยการเพิ่มขึ้นเมื่อเครือข่ายเริ่มทำงานมากเกินไป การฝึกอบรมสามารถหยุดได้ที่จุดที่มีข้อผิดพลาดน้อยที่สุดในส่วนของชุดข้อมูลการตรวจสอบความถูกต้องตามที่ระบุในรูปที่ 5.12 เพื่อให้เครือข่ายมีประสิทธิภาพการทำงานที่ดีพฤติกรรมของเครือข่ายในกรณีนี้บางครั้งมีการอธิบายเชิงคุณภาพในแง่ของจำนวนองศาความมีประสิทธิภาพในเครือข่ายซึ่งจำนวนนี้เริ่มจากเล็กและเติบโตในระหว่างกระบวนการฝึกอบรมซึ่งสอดคล้องกับการเพิ่มขึ้นอย่างต่อเนื่องในประสิทธิภาพ ความซับซ้อนของรูปแบบ นอกจากนี้ยังกล่าวว่าจำนวนพารามิเตอร์เพิ่มขึ้นในระหว่างการฝึกอบรม ฉันสันนิษฐานว่าโดย "พารามิเตอร์" มันหมายถึงจำนวนน้ำหนักที่ควบคุมโดยหน่วยที่ซ่อนอยู่ของเครือข่าย บางทีฉันผิดเพราะน้ำหนักถูกป้องกันเพื่อเพิ่มขนาดโดยกระบวนการ normalization แต่พวกเขาไม่เปลี่ยนจำนวน มันอาจหมายถึงกระบวนการค้นหาหน่วยที่ซ่อนอยู่จำนวนมากหรือไม่? เสรีภาพในเครือข่ายประสาทคืออะไร พารามิเตอร์ใดเพิ่มขึ้นในระหว่างการฝึก?

17 machine-learning neural-networks regularization degrees-of-freedom

1

ฉันต้องการสร้างดัชนีอาชญากรรมและดัชนีความไม่มั่นคงทางการเมืองตามข่าว

ฉันมีโครงการด้านนี้ที่ฉันรวบรวมข้อมูลเว็บไซต์ข่าวท้องถิ่นในประเทศของฉันและต้องการสร้างดัชนีอาชญากรรมและดัชนีความไม่มั่นคงทางการเมือง ฉันได้ครอบคลุมส่วนการดึงข้อมูลของโครงการแล้ว แผนของฉันคือการทำ: การแยกหัวข้อที่ไม่ได้รับอนุญาต ใกล้การตรวจจับรายการที่ซ้ำกัน การจำแนกประเภทและระดับเหตุการณ์ภายใต้การดูแล (อาชญากรรม / การเมือง - สูง / ปานกลาง / ต่ำ) ฉันจะใช้ python และ sklearn และได้ทำการวิจัยขั้นตอนวิธีที่ฉันสามารถใช้สำหรับงานเหล่านั้นแล้ว ฉันคิดว่า 2. สามารถให้ความเกี่ยวข้องกับเรื่องเล่าแก่ฉันได้: ยิ่งมีกระดาษข่าวจำนวนมากเผยแพร่เกี่ยวกับเรื่องราวหรือหัวข้อที่เกี่ยวข้องมากขึ้นสำหรับวันนั้น ขั้นตอนต่อไปของฉันคือการสร้างดัชนีรายเดือนรายสัปดาห์และรายวัน (ทั่วประเทศและต่อเมือง) ตามคุณลักษณะที่ฉันมีและฉันหลงทางเล็กน้อยเพราะ "ความไวต่อความไม่เสถียร" อาจเพิ่มขึ้นตามเวลา ฉันหมายถึงดัชนีจากเหตุการณ์ความไม่มั่นคงที่สำคัญของปีที่แล้วอาจน้อยกว่าดัชนีสำหรับปีนี้ นอกจากนี้หากใช้ระดับคงที่ 0-100 หรือไม่ ต่อมาฉันต้องการที่จะสามารถทำนายเหตุการณ์ที่เกิดขึ้นตามสิ่งนี้เช่นว่าการสืบทอดเหตุการณ์ในสัปดาห์ที่ผ่านมาจะนำไปสู่เหตุการณ์ที่สำคัญหรือไม่ แต่ตอนนี้ฉันจะมีความสุขกับการแบ่งประเภทการทำงานและสร้างแบบจำลองดัชนี ฉันขอขอบคุณตัวชี้ไปที่กระดาษการอ่านหรือความคิดที่เกี่ยวข้อง ขอบคุณ PD: ขออภัยหากคำถามไม่ได้อยู่ที่นี่ อัปเดต : ฉันยังไม่ได้ "สร้าง" แต่เมื่อเร็ว ๆ นี้มีข่าวเกี่ยวกับกลุ่มนักวิทยาศาสตร์ที่ทำงานในระบบเพื่อทำนายเหตุการณ์โดยใช้คลังข่าวและเผยแพร่กระดาษที่เกี่ยวข้องการทำเหมืองเว็บเพื่อทำนายเหตุการณ์ในอนาคต (PDF )

17 machine-learning classification text-mining

2

ใช้เครือข่ายประสาทเทียมสำหรับการซื้อขายในตลาดหลักทรัพย์

ฉันดำดิ่งสู่สนามของเครือข่ายประสาทและฉันก็ติดใจกับพวกเขา ในที่สุดฉันก็ได้พัฒนากรอบแอปพลิเคชันสำหรับการทดสอบระบบการค้าในตลาดหุ้นและตอนนี้ฉันจะใช้โครงข่ายประสาทเทียมแรกของฉัน ง่ายมากและดั้งเดิมไม่ได้มีไว้สำหรับการซื้อขายจริงเพียงเพื่อเริ่ม ฉันแค่อยากรู้ว่าวิธีการของฉันเป็นวิธีการที่ดีหรือไม่ และถ้าคุณเห็นว่าฉันพลาดอะไรบางอย่าง (หรือฉันผิดไปจากบางอย่าง) หรือคุณมีความคิดว่าอะไรที่สามารถช่วยนักต้มตุ๋นในสาขาเครือข่ายประสาทในการซื้อขายในตลาดนั่นจะทำให้ฉันมีความสุขมาก :) ฉันมี 40 อินพุตมูลค่าตลาดจากตลาดหลักทรัพย์ (S&P e-mini แต่นั่นไม่สำคัญ) สำหรับอินพุต 40 อันนี้ฉันรู้ 2 ตัวเลข ฉันจะได้รับเงินเท่าไหร่หรือมียอดสั่งซื้อลดลง ฉันจะได้รับรายได้เท่าไหร่หรือมียอดขายลดลง เนื่องจากวิธีการแลกเปลี่ยนตลาดหุ้นตัวเลขทั้งสองสามารถเป็นลบ / บวกแสดงว่าฉันสามารถสูญเสีย / รับเงินสำหรับการซื้อและขาย (เนื่องจากการค้าสามารถแนบคำสั่ง "การ จำกัด การสูญเสีย" หรือ "การกำหนดเป้าหมาย" เช่น STOP, LIMIT ฯลฯ ซึ่งทำงานแตกต่างกัน) แต่ถ้าเป็นเช่นนั้นมันเป็นข้อบ่งชี้ว่าฉันไม่ควรสั่งซื้อเลยแม้ว่าคำสั่งซื้อและขายจะให้ตัวเลขเป็นบวก ฉันคิดว่าฟังก์ชั่นการเปิดใช้งานที่ดีที่สุดที่จะใช้คือ ... สิ่ง sigmoid แต่มีช่วงตั้งแต่ -1 ถึง 1 (ฉันพบว่ามันมีชื่อเรียกหลายชื่อบนอินเทอร์เน็ต ... bipolar sigmoid, …

17 machine-learning neural-networks

3

การเปรียบเทียบผลลัพธ์ความแม่นยำของลักษณนามสองตัวสำหรับนัยสำคัญทางสถิติกับการทดสอบ t

ฉันต้องการเปรียบเทียบความแม่นยำของตัวแยกประเภทสองตัวสำหรับนัยสำคัญทางสถิติ ตัวแยกประเภททั้งสองทำงานในชุดข้อมูลเดียวกัน นำไปสู่การนี้ผมที่จะเชื่อว่าฉันควรจะใช้ตัวอย่างหนึ่ง t-test จากสิ่งที่ฉันได้รับการอ่าน ตัวอย่างเช่น: Classifier 1: 51% accuracy Classifier 2: 64% accuracy Dataset size: 78,000 นี่เป็นการทดสอบที่ถูกต้องที่จะใช้หรือไม่? ถ้าเป็นเช่นนั้นฉันจะคำนวณได้อย่างไรว่าความแตกต่างของความแม่นยำระหว่างลักษณนามมีความสำคัญ หรือฉันควรใช้การทดสอบอื่น?

17 machine-learning statistical-significance classification t-test

1

พารามิเตอร์อินพุตสำหรับการใช้การจัดสรร Dirichlet แฝง

เมื่อใช้การสร้างหัวข้อ (Latent Dirichlet Allocation) จำนวนหัวข้อคือพารามิเตอร์อินพุตที่ผู้ใช้ต้องระบุ ฉันคิดว่าเราควรจะมีชุดหัวข้อผู้สมัครที่กระบวนการ Dirichlet มีตัวอย่าง ความเข้าใจของฉันถูกต้องหรือไม่ ในทางปฏิบัติจะตั้งค่าหัวข้อผู้สมัครประเภทนี้ได้อย่างไร

17 machine-learning bayesian clustering text-mining dirichlet-distribution

12

หนังสือที่ดีที่สุดสำหรับการแนะนำการวิเคราะห์ข้อมูลทางสถิติ?

ล็อคแล้ว คำถามและคำตอบของคำถามนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ฉันซื้อหนังสือเล่มนี้: วิธีการวัดสิ่งใด: การค้นหาคุณค่าของสิ่งที่จับต้องไม่ได้ในธุรกิจ และ หัวหน้าการวิเคราะห์ข้อมูลครั้งแรก: คู่มือสำหรับผู้เรียนเกี่ยวกับตัวเลขขนาดใหญ่สถิติและการตัดสินใจที่ดี หนังสืออื่น ๆ ที่คุณอยากแนะนำคืออะไร?

17 machine-learning bayesian references

3

ขั้นตอนวิธีใดที่จำเป็นต้องมีการปรับขนาดคุณลักษณะนอกเหนือจาก SVM

ฉันทำงานกับอัลกอริทึมมากมาย: RandomForest, DecisionTrees, NaiveBayes, SVM (เคอร์เนล = เชิงเส้นและ rbf), KNN, LDA และ XGBoost ทุกคนนั้นค่อนข้างเร็วยกเว้น SVM นั่นคือเมื่อฉันได้รู้ว่ามันต้องมีคุณสมบัติการปรับขนาดเพื่อให้ทำงานได้เร็วขึ้น จากนั้นฉันเริ่มสงสัยว่าฉันควรทำแบบเดียวกันกับอัลกอริทึมอื่นหรือไม่

17 machine-learning svm random-forest naive-bayes xgboost

1

วิธีสร้างโมเดลสุดท้ายและปรับเกณฑ์ความน่าจะเป็นหลังจากการตรวจสอบข้ามแบบซ้อน

ประการแรกขอโทษสำหรับการโพสต์คำถามที่ได้รับการกล่าวถึงในที่มีความยาวที่นี่ , ที่นี่ , ที่นี่ , ที่นี่ , ที่นี่และสำหรับอุ่นหัวข้อเก่า ฉันรู้ว่า @DikranMarsupial เขียนเกี่ยวกับหัวข้อนี้ในโพสต์และบทความในวารสาร แต่ฉันยังสับสนและตัดสินจากจำนวนโพสต์ที่คล้ายกันที่นี่มันยังคงเป็นสิ่งที่ผู้อื่นพยายามเข้าใจ ฉันควรระบุว่าฉันได้รับความขัดแย้งในหัวข้อนี้ซึ่งเพิ่มความสับสนของฉัน คุณควรรู้ด้วยว่าตอนแรกฉันเป็นนักฟิสิกส์และไม่ใช่นักสถิติดังนั้นความเชี่ยวชาญด้านโดเมนของฉันที่นี่จึงค่อนข้าง จำกัด ฉันกำลังเขียนรายงานประจำวันที่ฉันต้องการใช้ CV ที่ซ้อนกันเพื่อประเมินประสิทธิภาพที่ฉันคาดหวังจากแบบจำลองสุดท้ายของฉัน ในโดเมนของฉันนี่เป็นครั้งแรก (เราแทบไม่เคยใช้เลยรูปแบบของ CV ที่มีประสิทธิภาพในสาขาของฉัน แต่อัดฉีดเอกสารด้วยผลลัพธ์จากการศึกษาโดยใช้อวนประสาทและต้นไม้ตัดสินใจเพิ่มขึ้น!) ดังนั้นมันสำคัญมากที่ฉันมีความเข้าใจอย่างละเอียดและชัดเจนเพื่อที่ฉันจะไม่พลาดและเผยแพร่ เป็นขั้นตอนที่ผิดพลาดในชุมชนของฉัน ขอบคุณ! ไปกับคำถาม ... ฉันจะสร้างรุ่นสุดท้ายได้อย่างไรหลังจากการตรวจสอบความถูกต้องข้ามแบบซ้อน ฉันกำลังฝึกอบรมโมเดล glmnet อย่างง่ายด้วยการทำให้เป็นมาตรฐาน L1 และ L2 มันรวดเร็วง่ายและตีความได้ ฉันทำการเปลี่ยนคุณลักษณะกึ่งกลางปรับขนาดและแปลงบ็อกซ์ค็อกซ์เพื่อให้เห็นว่าการกระจายคุณลักษณะนั้นมีค่าเฉลี่ยอยู่ที่มาตรฐานและเป็นแบบเกาส์เซียน ฉันทำขั้นตอนนี้ภายในการตรวจสอบข้ามเพื่อป้องกันการรั่วไหลของข้อมูล อย่างแท้จริงเพราะฮาร์ดแวร์ของฉันช้าอย่างไม่น่าเชื่อและฉันไม่สามารถเข้าถึงกล้ามเนื้อ CPU ได้มากขึ้นฉันจึงทำการเลือกคุณสมบัติตัวกรองที่รวดเร็วภายใน CV หลังจากการประมวลผลคุณลักษณะล่วงหน้า ฉันใช้การค้นหากริดแบบสุ่มเพื่อเลือกพารามิเตอร์อัลฟาและแลมบ์ดา ฉันเข้าใจว่าฉันไม่ควรCV loop เพื่อรับค่าประมาณนี้ ฉันเข้าใจว่าวง CV …

17 machine-learning cross-validation model-selection glmnet hyperparameter

คำถามติดแท็ก machine-learning