การสั่งซื้อชุดเวลาสำหรับการเรียนรู้ของเครื่อง


14

หลังจากอ่านหนึ่งใน "เคล็ดลับการวิจัย"ของ RJ Hyndman เกี่ยวกับการตรวจสอบความถูกต้องและช่วงเวลาฉันกลับมาที่คำถามเก่า ๆ ของฉันที่ฉันจะพยายามกำหนดที่นี่ แนวคิดก็คือในการจำแนกปัญหาหรือการถดถอยการเรียงลำดับข้อมูลไม่สำคัญและด้วยเหตุนี้kสามารถใช้การตรวจสอบความถูกต้องข้าม -fold ได้ ในทางกลับกันในอนุกรมเวลาการเรียงลำดับข้อมูลมีความสำคัญอย่างยิ่ง

แต่เมื่อใช้เครื่องการเรียนรู้รูปแบบให้กับชุดเวลาคาดการณ์กลยุทธ์ร่วมกันคือการก่อร่างใหม่ชุดเป็นชุดของ "พาหะนำเข้าส่งออก" ซึ่งเป็นเวลาทีมีรูปแบบ( Y T - n + 1 , . . . , Y T - 1 , Y เสื้อ ; Y T + 1 ){Y1,...,YT}เสื้อ(Yเสื้อ-n+1,...,Yเสื้อ-1,Yเสื้อ;Yเสื้อ+1)

ทีนี้เมื่อมีการเปลี่ยนรูปแบบใหม่แล้วเราจะพิจารณาได้ไหมว่าไม่จำเป็นต้องสั่งชุดผลลัพธ์ของ "เวกเตอร์อินพุต - เอาท์พุต"? ถ้าเราใช้ตัวอย่างเช่นเครือข่ายประสาทส่งต่อที่มีอินพุต n เพื่อ "เรียนรู้" ข้อมูลเหล่านี้เราจะได้ผลลัพธ์เดียวกันโดยไม่คำนึงถึงลำดับที่เราแสดงเวกเตอร์ให้กับโมเดล ดังนั้นเราสามารถใช้การตรวจสอบความถูกต้องไขว้กันของ k-fold ด้วยวิธีมาตรฐานได้โดยไม่จำเป็นต้องปรับโมเดลใหม่ทุกครั้งหรือไม่?

คำตอบ:


2

คำตอบสำหรับคำถามนี้คือสิ่งนี้จะทำงานได้ดีตราบใดที่ใบสั่งของแบบจำลองของคุณถูกระบุอย่างถูกต้องแล้วข้อผิดพลาดจากแบบจำลองของคุณจะเป็นอิสระ

กระดาษนี้นี่แสดงให้เห็นว่าถ้ารูปแบบที่มีการตรวจสอบข้ามไม่ดีจะประมาทวิธีการที่ไม่ดีมันเป็นจริง ในกรณีอื่น ๆ ทั้งหมดการตรวจสอบความถูกต้องข้ามจะทำงานได้ดีโดยเฉพาะอย่างยิ่งงานที่ดีกว่าการประเมินแบบไม่อยู่ในกลุ่มตัวอย่างมักจะใช้ในบริบทอนุกรมเวลา


6

คำถามที่น่าสนใจ!

วิธีการที่คุณอธิบายนั้นใช้กันอย่างแพร่หลายมากโดยผู้ใช้วิธี ML มาตรฐานที่ต้องการเวกเตอร์คุณลักษณะความยาวคงที่ของแอตทริบิวต์เพื่อวิเคราะห์ข้อมูลอนุกรมเวลา

ในโพสต์ที่คุณลิงก์ไป Hyndman ชี้ให้เห็นว่ามีความสัมพันธ์กันระหว่างเวกเตอร์ข้อมูลที่มีการจัดรูปแบบใหม่ (ตัวอย่าง) นี่อาจเป็นปัญหาได้เนื่องจาก k-CV (หรือวิธีการประเมินอื่น ๆ ที่แบ่งข้อมูลโดยการสุ่มเป็นชุดฝึกอบรมและทดสอบ) ถือว่าตัวอย่างทั้งหมดเป็นอิสระ อย่างไรก็ตามฉันไม่คิดว่าข้อกังวลนี้เกี่ยวข้องกับกรณีของวิธีการมาตรฐาน ML ที่ใช้กับแอตทริบิวต์แยกกัน

สำหรับคำอธิบายให้ฉันทำให้สัญกรณ์ของคุณง่ายขึ้นโดยสมมติว่า n=3ดังนั้นเวกเตอร์ข้อมูลสองสามตัวแรก (ที่มีชื่อตามตัวอักษร) จะเป็น:

A:(Y1,Y2,Y3;Y4)B:(Y2,Y3,Y4;Y5):(Y3,Y4,Y5;Y6)

เห็นได้ชัดว่า A และ B มีข้อกำหนดเช่น Y2ในการร่วมกัน. แต่สำหรับ A นี่คือค่าของคุณสมบัติที่สองในขณะที่สำหรับ B นี่คือค่าของคุณสมบัติแรกของมัน


1
ฉันเห็นด้วยกับคุณว่าอัลกอริธึม ML บางอย่างอาจยกเว้นปัญหาของกลุ่มตัวอย่างที่มีความสัมพันธ์กันสูง แต่อัลกอริธึมเหล่านั้นก็ไม่ค่อยดีนักสำหรับอนุกรมเวลา อัลกอริธึม ML ที่มีแนวโน้มสำหรับอนุกรมเวลาจะต้องสามารถสังเกตได้ว่าแอตทริบิวต์ # 1 และแอตทริบิวต์ # 2 นั้นค่อนข้างคล้ายคลึงกันไม่เช่นนั้นจะไม่ดีที่การทำนาย (การคาดคะเนจะคล้ายกันเมื่อคุณเปลี่ยนเวลาโดย 1) อัลกอริธึมเหล่านั้นอาจได้รับผลกระทบจากปัญหาที่ Hyndman กล่าวถึงด้วย
สูงสุด
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.