วัดความสม่ำเสมอของการแจกแจงในวันธรรมดา


11

ฉันมีปัญหาคล้ายกับคำถามที่ถามที่นี่:

เราวัดความไม่สม่ำเสมอของการแจกแจงได้อย่างไร

ฉันมีชุดการแจกแจงความน่าจะเป็นในแต่ละวันของสัปดาห์ ฉันต้องการวัดว่าการกระจายแต่ละครั้งนั้นใกล้กับเท่าไหร่ (1 / 7,1 / 7, ... , 1/7)

ตอนนี้ฉันใช้คำตอบจากคำถามข้างต้น L2-Norm ซึ่งมีค่า 1 เมื่อการแจกแจงมีมวล 1 เป็นเวลาหนึ่งวันและจะลดลงสำหรับ (1 / 7,1 / 7, 7, ... , 1/7) ฉันกำลังขยายขนาดเชิงเส้นนี้อยู่ระหว่าง 0 ถึง 1 จากนั้นจึงพลิกมัน 0 หมายความว่าไม่สม่ำเสมออย่างสมบูรณ์และ 1 หมายถึงชุดที่สมบูรณ์แบบ

มันใช้งานได้ดี แต่ฉันมีปัญหาหนึ่งเรื่อง มันปฏิบัติต่อทุก ๆ วันทำงานอย่างเท่าเทียมกันเป็นมิติหนึ่งในพื้นที่ 7-Dim ดังนั้นจึงไม่ได้คำนึงถึงความใกล้ชิดของวัน กล่าวอีกนัยหนึ่งก็ให้คะแนนเดียวกันกับ (1 / 2,1 / 2,0,0,0,0,0) และ (1 / 2,0,0,1 / 2,0,0,0) แม้ว่าในบางแง่หลังยิ่ง "กระจาย" และเครื่องแบบและควรได้รับคะแนนสูงกว่า เห็นได้ชัดว่ามีความซับซ้อนเพิ่มที่เรียงลำดับของวันเป็นวงกลม

ฉันจะเปลี่ยนฮิวริสติกนี้เพื่ออธิบายความใกล้เคียงของวันได้อย่างไร


1
ตัวอย่างของ (1 / 2,1 / 2,0,0,0,0,0) และ (1 / 2,0,0,1 / 2,0,0,0) ของคุณไม่เหมือนกันในลักษณะเดียวกัน ดังนั้นจึงไม่สำคัญว่าคุณสนใจในการทดสอบความไม่สม่ำเสมอเท่านั้น ดังนั้นคุณอาจต้องการทดสอบบางอย่างเพิ่มเติมที่ไม่ได้ระบุไว้อย่างชัดเจนในคำถามของคุณ? Btw เอนโทรปีเป็นเครื่องวัดความสม่ำเสมอ
ทิม

ขอบคุณทิมฉันได้ลองใช้ Entropy แต่ฉันพบว่าฮิวริสติกที่กล่าวถึงข้างต้นทำงานได้ดีขึ้นสำหรับวัตถุประสงค์ของฉัน ฉันไม่แน่ใจว่าจะเรียกคุณสมบัติของการแจกแจงความน่าจะเป็นในช่วงวันธรรมดาที่ฉันสนใจยกเว้นว่าควรสรุป "ความเป็นไปได้" ของความน่าจะเป็นตลอดทั้งสัปดาห์
EBartrum

คำตอบ:


15

ระยะแผ่นดินเสนอญัตติยังเป็นที่รู้จักในฐานะ Wasserstein เมตริกขนาดระยะห่างระหว่างสอง histograms โดยพื้นฐานแล้วมันจะพิจารณาฮิสโตแกรมหนึ่งอันเป็นจำนวนกองสิ่งสกปรกและประเมินว่าสิ่งใดที่สิ่งสกปรกต้องการเคลื่อนที่และไกลแค่ไหน (!) เพื่อเปลี่ยนฮิสโตแกรมนี้ให้เป็นอีกอันหนึ่ง คุณจะวัดระยะห่างระหว่างการแจกแจงของคุณกับระยะห่างเท่ากันตลอดวัน

หลักสูตรนี้มีระยะเวลาใกล้เคียงกับวัน - ง่ายต่อการย้าย "ดิน" จากวันจันทร์ถึงวันอังคารมากกว่าวันจันทร์ถึงวันพฤหัสบดีดังนั้น (1 / 2,0,0,1 / 2,0,0,0) จะมี โลกที่อยู่ต่ำกว่าระยะทางจากการกระจายที่สม่ำเสมอกว่าฮิสโตแกรมที่มีความเข้มข้นในวันจันทร์และวันอังคาร

สิ่งนี้ไม่ได้ทำคือพิจารณา "เวียน" ของสัปดาห์กล่าวคือว่าวันเสาร์และวันอาทิตย์อยู่ใกล้กันเหมือนวันอาทิตย์และวันจันทร์ เพื่อที่คุณจะต้องมองหาระยะทางโลกผู้เสนอญัตติกำหนดไว้ในวงกลมกระจายมวลความน่าจะเป็น สิ่งนี้ควรทำได้โดยใช้วิธีการเพิ่มประสิทธิภาพที่เหมาะสม


แก้ไข: ใน R emdแพคเกจจะคำนวณระยะทาง mover Earth ระหว่างฮิสโตแกรม

คุณสามารถแก้ไขปัญหา "การเวียน" ในวิธีที่ค่อนข้างง่าย (แม้ว่าจะเป็นแบบเฉพาะกิจ)

  • d1
  • d2
  • d3
  • ...
  • d1,...,d7

สิ่งนี้จะดูแลเวียนที่ค่าใช้จ่ายของการคำนวณเพิ่มเติมสองสาม

dผม

อย่างไรก็ตามฉันยังคงคิดว่านี่เป็นวิธีที่มีประโยชน์อย่างน้อยในการพิจารณาการวนเวียนในบางลักษณะ - แน่นอนว่าดีกว่าการใช้ฮิสโตแกรมเดียวและกำหนดสัปดาห์เป็นไปตั้งแต่วันอาทิตย์ถึงวันเสาร์หรือตามอำเภอใจอื่น ๆ ยิ่งไปกว่านั้นในขณะที่บางลิงค์ด้านบนทำให้เกิดการใช้งานสำหรับระยะทางผู้เสนอญัตติ Earth วงกลมฉันไม่รู้จักหนึ่งสำหรับ R ซึ่งอาจเป็นภาษาที่ใช้มากที่สุดที่นี่


3
d1,...,d7dผม

@JiK: จุดดีและสิ่งที่เกิดขึ้นกับฉันหลังจากที่ฉันสูญเสียการเชื่อมต่อเมื่อวานนี้ ฉันชี้แจงคำตอบของฉันเพื่อเน้นว่านี่คือการแฮ็กไม่ใช่ระยะทางจากโลกกลมจริง
Stephan Kolassa

1
ขอบคุณมากจริง ๆ แล้วฉันจัดการเพื่อสร้างระยะทาง Earth mover ระยะทางใน R กับแพ็คเกจ emd และฟังก์ชัน emd2d โดยกำหนดฟังก์ชันระยะทางของฉันเองดังนั้นไม่จำเป็นต้องใช้แฮ็คที่คุณกล่าวถึง นี่คือสิ่งที่ฉันกำลังมองหา! เรื่องเล็ก ๆ น้อย ๆ อีกเรื่องหนึ่ง: ฉันควรเรียกมันว่าอะไร? ดังที่ทิมกล่าวไว้ข้างต้นฉันไม่ควรเรียกความสม่ำเสมอนี้ว่า ชื่อที่เหมาะสมสำหรับฮิวริสติกนี้คืออะไร?
EBartrum

1
L2
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.