การแปรปรวนเวลาแบบไดนามิกและการทำให้เป็นมาตรฐาน


9

ฉันใช้ Dynamic Time Warping เพื่อจับคู่ "เคียวรี" และเส้นโค้ง "เทมเพลต" และประสบความสำเร็จอย่างสมเหตุสมผล แต่ฉันมีคำถามพื้นฐาน:

  1. ฉันกำลังประเมิน "การจับคู่" โดยการประเมินว่าผลลัพธ์ DTW น้อยกว่าค่าเกณฑ์ที่ฉันคิดขึ้นเองหรือไม่ นี่เป็นวิธีทั่วไปในการพิจารณา "จับคู่" โดยใช้ DTW หรือไม่ ถ้าไม่ได้โปรดอธิบาย ...

    สมมติว่าคำตอบของ (1) คือ "ใช่" จากนั้นฉันสับสนเนื่องจากผลของ DTW ค่อนข้างอ่อนไหวต่อ a) ความแตกต่างของแอมพลิจูดของเส้นโค้งและ b) ความยาวของเวกเตอร์เคียวรีและความยาวของ " แม่แบบ "เวกเตอร์

    ฉันใช้ฟังก์ชันขั้นตอนสมมาตรดังนั้นสำหรับ (b) ฉันกำลังทำให้ผลลัพธ์ DTW ของฉันเป็นปกติด้วยการหารด้วย M + N (ความกว้าง + ความสูงของเมทริกซ์ DTW) สิ่งนี้ดูเหมือนว่าจะค่อนข้างมีประสิทธิภาพ แต่ดูเหมือนว่ามันจะลงโทษการแข่งขัน DTW ที่อยู่ไกลจากเส้นทแยงมุม (เช่นซึ่งมีเส้นทางที่ยาวกว่าผ่านเมทริกซ์ DTW) ซึ่งดูเหมือนว่าโดยพลการสำหรับวิธี "มาตรฐาน" การหารด้วยจำนวนขั้นตอนผ่านเมทริกซ์ดูเหมือนว่าจะสมเหตุสมผล แต่ก็ไม่ได้เป็นไปตามที่กำหนดไว้ในวรรณคดี

  2. ดังนั้นจะมีวิธีที่ดีกว่าในการปรับผลลัพธ์ DTW สำหรับขนาดของแบบสอบถามและเวกเตอร์แม่แบบหรือไม่

  3. ในที่สุดฉันจะทำให้ผลลัพธ์ของ DTW เป็นปกติสำหรับความแตกต่างของแอมพลิจูดระหว่างเคียวรีและเท็มเพลตเทมเพลตได้อย่างไร

ตามที่ได้รับเนื่องจากการขาดเทคนิคการทำให้เป็นมาตรฐานที่เชื่อถือได้ (หรือขาดความเข้าใจ) ดูเหมือนว่าจะมีความพยายามทำด้วยตนเองจำนวนมากที่เกี่ยวข้องกับการทำงานกับข้อมูลตัวอย่างเพื่อระบุระดับเกณฑ์ที่ดีที่สุดสำหรับการกำหนด "การแข่งขัน" ฉันพลาดอะไรไปรึเปล่า?

คำตอบ:


8

อย่างน้อยความรู้ของฉันก็ไม่มี "วิธีการทั่วไป" สำหรับเรื่องนี้ นอกจากนี้คุณกำลังพยายามลดการวัดระยะทางให้น้อยที่สุดอยู่ดี ตัวอย่างเช่นในเอกสารของ DTW Sakoe & Chiba (1978)ใช้เป็นการวัดความแตกต่างระหว่างเวกเตอร์คุณลักษณะสองตัว||aibi||

ในขณะที่คุณระบุอย่างถูกต้องคุณจะต้องมีจำนวนคะแนนเท่ากัน (โดยปกติ) เพื่อให้การทำงานนอกกรอบ ฉันจะเสนอให้ใช้ lowess () เรียบเนียน / interpolator บนเส้นโค้งของคุณเพื่อให้มีขนาดเท่ากันก่อน มันเป็นเรื่องมาตรฐานสำหรับ "สถิติโค้ง" คุณสามารถดูตัวอย่างแอปพลิเคชันในChiou et al (2003) ; ผู้เขียนไม่สนใจ DTW เช่นนี้ในงานนี้ แต่เป็นแบบอย่างที่ดีว่าจะจัดการกับการอ่านที่มีขนาดไม่เท่ากันได้อย่างไร

นอกจากนี้ในขณะที่คุณพูดว่า "แอมพลิจูด" เป็นปัญหา นี่เป็นบิตที่เปิดกว้างมากขึ้นที่จะซื่อสัตย์ คุณสามารถลองใช้วิธี Area-Under-the-Curve เช่นเดียวกับที่เสนอโดยZhang and Mueller (2011)เพื่อดูแลสิ่งนี้ แต่จริงๆแล้วสำหรับวัตถุประสงค์ของการแปรปรวนเวลาแม้กระทั่งบรรทัดฐานเหนือธรรมชาติ (เช่นแทนที่ด้วยสามารถทำได้เช่นเดียวกับในบทความนี้โดยTang and Mueller (2009)ฉันจะทำตามที่สอง แต่ในกรณีใดก็ตามที่คุณสังเกตเห็นการทำให้ปกติของตัวอย่างเป็น ความจำเป็นf(x)f(x)supy|f(x)|

คุณสามารถค้นหาเอกสารเฉพาะแอปพลิเคชันเพิ่มเติมได้ขึ้นอยู่กับลักษณะของข้อมูลของคุณ ผมเองพบว่าวิธีการของการลดด้วยความเคารพไปยังคู่เป้าหมายแปรปรวนฟังก์ชันใช้งานง่ายที่สุดของทั้งหมด ดังนั้นฟังก์ชั่นเป้าหมายที่จะย่อขนาดคือ: ซึ่งสิ่งที่ทั้งแม้มัน uncanniness เป็นจริงค่อนข้างตรงไปตรงมา: คุณพยายามที่จะค้นหาเพื่อหาสิ่งที่ฟังก์ชั่นการแปรปรวนที่ช่วยลดผลรวมที่คาดว่าจะไม่ตรงกันของเส้นโค้งแบบสอบถามเหยเกไปที่ เส้นโค้งอ้างอิง (คำgCλ(Yi,Yk,g)=E{T(Yi(g(t))Yk(t))2+λ(g(t)t)2dt|Yi,Yk}gYi(g(t))Yk(t)Yi(g(t))Yk(t)) ขึ้นอยู่กับการทำให้เป็นปกติของการบิดเบือนเวลาที่คุณกำหนดโดยการแปรปรวน (คำ ) นี่คือสิ่งที่แพคเกจ MATLAB PACEคือการใช้ ฉันรู้ว่ามีแพ็กเกจRDAอยู่แล้วโดย JO Ramsay และคณะ ที่อาจช่วยได้ แต่ฉันไม่ได้ใช้มันเป็นการส่วนตัว (เล็กน้อยน่ารำคาญอ้างอิงมาตรฐานสำหรับวิธีการของแพคเกจที่ในหลายกรณีหนังสือยอดเยี่ยมของ Ramsay และ Silverman การวิเคราะห์ข้อมูลการทำงาน (2006) 2nd ed.และคุณต้องกลั้ว หนังสือขนาด 400 หน้าเพื่อให้ได้สิ่งที่คุณต้องการอย่างน้อยก็อ่านได้ดี)g(t)t

ปัญหาที่คุณกำลังอธิบายในวรรณคดีสถิติเป็นที่รู้จักกันอย่างกว้างขวางว่า "การลงทะเบียนแบบโค้ง " (ตัวอย่างเช่นดูGasser และ Kneip (1995)สำหรับการรักษาปัญหาเบื้องต้น ) และอยู่ภายใต้การควบคุมทั่วไปของเทคนิคการวิเคราะห์ข้อมูลการทำงาน

(ในกรณีที่ฉันสามารถหากระดาษต้นฉบับที่มีอยู่ออนไลน์ลิงค์ตรงนั้นมิฉะนั้นลิงค์นำไปสู่ห้องสมุดดิจิตอลทั่วไปเกือบทั้งหมดเอกสารที่กล่าวถึงสามารถพบได้ในร่างฉบับฟรีฉันลบความคิดเห็นเดิมของฉันเพราะมันเป็น แทนที่โดยโพสต์นี้)


นี่เป็นคำตอบที่ยอดเยี่ยมและเป็นประโยชน์มาก การอ้างอิงมีประโยชน์อย่างยิ่ง
Mikko

คุณจะรู้อ้างอิงที่เหมาะสมสำหรับการระบุว่า "ความกว้างเป็นปัญหา" ใน dtw? นี่อาจเห็นได้ชัดว่าฉันกำลังพยายามหาข้อมูลอ้างอิงซึ่งพูดถึงเกี่ยวกับเรื่องนี้อย่างชัดเจน
Mikko

ฉันดีใจที่คุณชอบมัน. ดังที่ฉันกล่าวว่าการรักษาแอมพลิจูด "เป็นบิตที่เปิดกว้างมากขึ้น" และฉันไม่คิดว่าคุณจะพบการอ้างอิงเดียวที่กล่าวถึงมันเว้นแต่จะเกี่ยวข้องกับแอปพลิเคชันหรือวิธีการที่เป็นปัญหา (ตัวอย่างเช่นในงานของ 09) การปรับสภาพเป็นสิ่งจำเป็นเมื่อคุณมีข้อมูลที่วัดได้ในหน่วยต่าง ๆ อะไรคือสิ่งที่มักจะสำคัญคือบรรทัดฐานของเงินต้นที่ทำงาน / ที่ยอมรับ / what_have_you ส่วนประกอบดังนั้นพวกเขาจึงเป็นพื้นฐานใน 2 L2
usεr11852

จากแหล่งข้อมูลที่กล่าวถึงแล้วอาจเป็นทางออกที่ดีที่สุดของคุณอาจเป็นหนังสือ FDA โดย Ramsay & Silverman, Chapt 7 ใน "การลงทะเบียนและการแสดงข้อมูลการทำงาน" แหล่งข้อมูลที่ดีมากก็คือหนังสือ: "การอนุมานข้อมูลเชิงหน้าที่กับแอปพลิเคชัน" โดยHorváthและ Kokoszka; ส่วนที่สาม "ข้อมูลการทำงานที่พึ่งพา" สัมผัสกับปัญหาของการทำให้ปกติส่วนใหญ่เป็นเพราะคนที่ใส่ใจเกี่ยวกับการตรวจจับจุดเปลี่ยน
usεr11852
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.