การหาปริมาณความคล้ายคลึงกันระหว่างชุดข้อมูลสองชุด


12

สรุป : การพยายามค้นหาวิธีที่ดีที่สุดสรุปความคล้ายคลึงกันระหว่างชุดข้อมูลสองชุดโดยใช้ค่าเดียว

รายละเอียด :

คำถามของฉันอธิบายได้ดีที่สุดด้วยแผนภาพ กราฟด้านล่างแสดงสองชุดข้อมูลที่แตกต่างกันแต่ละคนมีค่าที่มีป้ายกำกับและnf nrจุดตามแกน x เป็นตัวแทนของการวัดและค่าบนแกน y เป็นค่าที่วัดได้

สำหรับกราฟแต่ละอันฉันต้องการตัวเลขเดียวเพื่อสรุปความคล้ายคลึงกันnfและnrค่าของแต่ละจุดการวัด ในตัวอย่างนี้เห็นได้อย่างชัดเจนว่าผลลัพธ์ในกราฟแรกนั้นน้อยกว่าผลลัพธ์ในกราฟที่สอง แต่ฉันมีข้อมูลอื่นมากมายที่ความแตกต่างนั้นชัดเจนน้อยกว่าดังนั้นการจัดอันดับปริมาณนี้จะเป็นประโยชน์

ฉันคิดว่าอาจมีเทคนิคมาตรฐานที่ใช้โดยทั่วไป การค้นหาความคล้ายคลึงกันทางสถิติให้ผลลัพธ์ที่แตกต่างกันมากมาย แต่ฉันไม่แน่ใจว่าสิ่งที่ดีที่สุดที่จะเลือกหรือถ้าสิ่งที่ฉันพร้อมนำไปใช้กับปัญหาของฉัน ดังนั้นฉันคิดว่าคำถามนี้อาจคุ้มค่าที่จะถามที่นี่ในกรณีที่มีคำตอบง่ายๆ

ป้อนคำอธิบายรูปภาพที่นี่


1
คุณอาจต้องการดูบทความนี้ซึ่งมีมาตรการมากมายที่ระบุไว้ ( users.uom.gr/~kouiruki/sung.pdf ) หากลิงก์ไม่ทำงานเรียกว่า "การสำรวจที่ครอบคลุมเกี่ยวกับการวัดระยะทาง / ความคล้ายคลึงกันระหว่างฟังก์ชันความหนาแน่นของความน่าจะเป็น" โดย Sung-Hyuk Cha ในวารสารระหว่างประเทศของแบบจำลองคณิตศาสตร์และวิธีการ ในวิทยาศาสตร์ประยุกต์ซึ่งแสดงความคิดเห็นต่อมาตรการที่คล้ายคลึงกันมากมาย
arie64

การแปรปรวนเวลาแบบไดนามิกใช้สำหรับวัดความคล้ายคลึงกันระหว่างอนุกรมเวลาสองชุด เทคนิคนี้สามารถทำงานได้ที่นี่ ตรวจสอบลิงค์นี้: en.wikipedia.org/wiki/Dynamic_time_warping
Aman Anand

คำตอบ:


6

พื้นที่ระหว่าง 2 เส้นโค้งอาจทำให้คุณแตกต่าง ดังนั้นผลรวม (nr-nf) (ผลรวมของความแตกต่างทั้งหมด) จะเป็นการประมาณพื้นที่ระหว่าง 2 เส้นโค้ง หากคุณต้องการทำให้สัมพันธ์สามารถใช้ผลรวม (nr-nf) / sum (nf) สิ่งเหล่านี้จะให้ค่าเดียวที่บ่งบอกความคล้ายคลึงกันระหว่าง 2 กราฟสำหรับแต่ละกราฟ

แก้ไข: วิธีการผลรวมของความแตกต่างด้านบนจะมีประโยชน์แม้ว่าสิ่งเหล่านี้จะเป็นจุดแยกหรือการสังเกตและไม่ใช่เส้นหรือเส้นโค้งที่เชื่อมต่อ แต่ในกรณีนั้นความหมายของความแตกต่างอาจเป็นตัวบ่งชี้และอาจดีกว่า จำนวนการสังเกต


1
ฉันจะลองและดูว่ามันทำงานอย่างไร ฉันยังคงหวังว่าจะสามารถเชื่อมโยงกับเทคนิคที่เป็นทางการมากขึ้น ฉันได้อ่านเกี่ยวกับ Euclidean Distance และดูเหมือนว่ามันคล้ายกับเทคนิคที่นี่ นอกจากนี้เป็นบันทึกเพิ่มเติมแม้ว่ากราฟของฉันมีเส้นเชื่อมต่อฉันสนใจเฉพาะจุดแต่ละจุดเท่านั้น ฉันไม่ได้เปรียบเทียบเส้นโค้งจริงๆแค่ค่าที่วัดได้ ฉันไม่รู้ว่าคำถามของฉันชัดเจนหรือไม่
Gabriel Southern

มันควรจะทำงานแม้ว่าจุดจะไม่ได้เชื่อมต่อ
rnso

1

คุณต้องกำหนดความหมายของ 'ความคล้ายคลึงกัน' ให้มากขึ้น ขนาดมีความสำคัญหรือไม่ หรือรูปร่างเท่านั้น

หากรูปร่างมีความสำคัญคุณจะต้องทำให้ปกติทั้งสองอนุกรมเวลามีค่าสูงสุด (ดังนั้นจึงมีค่าตั้งแต่ 0 ถึง 1)

หากคุณกำลังมองหาความสัมพันธ์แบบเส้นตรงความสัมพันธ์แบบเพียร์สันแบบง่ายๆจะใช้ได้ดี - ซึ่งวัดความแปรปรวนร่วมเป็นหลัก

มีเทคนิคอื่น ๆ เช่นที่สามารถปรับให้พอดีกับเส้นหรือพหุนามกับอนุกรมเวลา (เป็นหลักทำให้เรียบ) และเปรียบเทียบพหุนามอย่างราบรื่น

หากคุณกำลังมองหาความคล้ายคลึงกันเป็นระยะ (เช่นอนุกรมเวลามีองค์ประกอบไซนัสหรือองค์ประกอบตามฤดูกาล) พิจารณาใช้การสลายตัวอนุกรมเวลาลงในแนวโน้มและองค์ประกอบฤดูกาลก่อน หรือใช้บางอย่างเช่น FFT เพื่อเปรียบเทียบข้อมูลในโดเมนความถี่

ที่เกี่ยวกับสิ่งที่ฉันรู้โดยไม่ต้องนิยามเพิ่มเติมของสิ่งที่ 'คล้ายกัน' ควรจะเป็น หวังว่ามันจะช่วย


0

คุณสามารถใช้ (nr-nf) สำหรับทุกจุดการวัดจำนวนที่น้อยกว่า (ค่าสัมบูรณ์) ยิ่งค่าใกล้เคียงกัน ไม่ใช่วิธีการทางวิทยาศาสตร์ที่แท้จริงโปรดยกโทษให้ฉันฉันไม่มีการฝึกอบรมอย่างเป็นทางการในสิ่งนี้ หากคุณเป็นเพียงการมองหาการแสดงภาพตัวเลขที่ควรจะทำ


1
ขอบคุณสำหรับคำแนะนำของคุณ ฉันคิดเกี่ยวกับเรื่องนี้เช่นกัน แต่ปัญหาคือความแตกต่างแบบสัมบูรณ์โดยน้ำหนักมากกว่าความแตกต่างสัมพัทธ์ ในตัวอย่างที่ฉันรวมชุดข้อมูลที่คล้ายกันมากขึ้นก็มีค่าสัมบูรณ์น้อยลง แต่ถ้าสถานการณ์กลับด้านคุณอาจได้รับการตีความที่ไม่ถูกต้องโดยใช้เทคนิคนี้ ฉันต้องสรุปความเหมือน / ความแตกต่างสัมพัทธ์มากกว่าความแตกต่างแบบสัมบูรณ์
Gabriel Southern

จะ (nr-nf) / nf ทำงานหรือไม่ ที่จะให้คุณได้ญาติ ฉันสนใจที่จะเห็นคำตอบจริง ๆ ตั้งแต่ฉันรับมือกับสถานการณ์แบบเดียวกันด้วยตัวเอง
Mike G

หากพวกเขาทั้งหมดในระดับที่เทียบเคียงได้ความจริงที่ว่าสิ่งที่คล้ายกันของคุณนั้นต่ำกว่านั้นไม่เกี่ยวกับค่าสัมพัทธ์มันเกี่ยวกับการตีความความเหมือนกัน หากค่าในกราฟที่สองอยู่ในช่วง 101-104 มันจะเปลี่ยนการตีความของความคล้ายคลึงกันหรือไม่? ถ้าเป็นเช่นนั้นคุณต้องอธิบายให้เข้าใจ รายละเอียดเพิ่มเติมเกี่ยวกับความจำเป็นของตัวแปร y
John

@ จอห์นนั่นเป็นจุดที่ดี ฉันเดาว่าฉันต้องคิดมากกว่านี้ ค่าใน y คือค่าการเร่งความเร็วสำหรับการเปรียบเทียบและฉันพยายามเปรียบเทียบความคล้ายคลึงกันระหว่างการกำหนดค่าที่แตกต่างหลากหลาย ดังนั้นฉันเดาว่าคำแนะนำในคำตอบนี้สามารถใช้งานได้ฉันอาจลองเพื่อดูว่าตัวเลขมีลักษณะอย่างไร ฉันยังคงต้องการใช้เทคนิคทางสถิติที่เป็นที่ยอมรับอย่างเป็นทางการมากกว่า (หากมีปัญหาสำหรับฉัน)
Gabriel Southern
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.