ฉันไม่ทราบว่าสิ่งนี้มีคุณสมบัติเป็นความคิดเห็นหรือเป็นคำตอบ ฉันใส่ที่นี่เพราะมันรู้สึกเหมือนคำตอบ
ในการตรวจสอบข้าม k-fold คุณกำลังแบ่งพาร์ติชันข้อมูลของคุณออกเป็นกลุ่ม k หากคุณครอบคลุมแม้แต่ "พื้นฐาน" คุณจะสุ่มเลือกสมาชิกสำหรับถัง k แต่ละชุดอย่างสม่ำเสมอ
เมื่อฉันพูดถึงข้อมูลฉันคิดว่าแต่ละแถวเป็นตัวอย่างและแต่ละคอลัมน์เป็นมิติข้อมูล ฉันเคยใช้วิธีการต่าง ๆ เพื่อกำหนดความสำคัญของตัวแปรความสำคัญของคอลัมน์
ถ้าคุณเป็นแบบฝึกหัดที่คิดแล้วคุณจะออกไปจาก "ตำราเรียน" แบบสุ่มและกำหนดว่าแถวไหนสำคัญ? บางทีพวกเขาอาจแจ้งตัวแปรเดียวในแต่ละครั้ง แต่พวกเขาอาจแจ้งให้ทราบเพิ่มเติม มีบางแถวที่มีความสำคัญน้อยกว่าแถวอื่น ๆ หรือไม่? อาจมีหลายจุดที่ให้ข้อมูลบางทีอาจมีน้อย
รู้ถึงความสำคัญของตัวแปรบางทีคุณอาจเลือกถังขยะด้วยความสำคัญ บางทีคุณอาจสร้าง bin เดียวด้วยตัวอย่างที่สำคัญที่สุด สิ่งนี้สามารถกำหนดขนาดของ "k" ของคุณ ด้วยวิธีนี้คุณจะสามารถกำหนด kth "ที่ให้ข้อมูลมากที่สุด" และเปรียบเทียบกับที่อื่น ๆ และเทียบกับที่เก็บข้อมูลที่น้อยที่สุด
สิ่งนี้จะทำให้คุณทราบถึงความแปรปรวนสูงสุดของพารามิเตอร์โมเดลของคุณ มันเป็นเพียงรูปแบบเดียว
วิธีที่สองในการแยกถัง kth คือขนาดและทิศทางของอิทธิพล ดังนั้นคุณสามารถใส่ตัวอย่างที่แกว่งพารามิเตอร์หรือพารามิเตอร์ในทิศทางเดียวลงในที่เก็บข้อมูลเดียวและใส่ตัวอย่างที่แกว่งพารามิเตอร์หรือพารามิเตอร์เดียวกันในทิศทางตรงกันข้ามลงในที่เก็บข้อมูลที่แตกต่างกัน
การแปรผันของพารามิเตอร์ในแบบฟอร์มนี้อาจให้การกวาดล้างตัวแปรได้กว้างขึ้นโดยไม่ขึ้นกับความหนาแน่นของข้อมูล แต่เป็นการรวบรวมข้อมูล
ขอให้โชคดี