ไม่มีจำนวนถังขยะที่ดีที่สุดในการประมาณข้อมูลร่วมกัน (MI) ด้วยฮิสโตแกรม วิธีที่ดีที่สุดคือการเลือกผ่านการตรวจสอบข้ามหากคุณสามารถหรือใช้กฎง่ายๆ นี่คือเหตุผลที่มีการเสนอตัวประมาณอื่น ๆ ของ MI ซึ่งไม่ได้อยู่บนฮิสโตแกรม
จำนวนถังขยะจะขึ้นอยู่กับจำนวนของจุดข้อมูลnคุณควรพยายามหลีกเลี่ยงถังขยะมากเกินไปเพื่อหลีกเลี่ยงข้อผิดพลาดในการประมาณค่าสำหรับการแจกแจงร่วมระหว่างตัวแปรทั้งสอง คุณควรหลีกเลี่ยงถังขยะน้อยเกินไปที่จะสามารถจับความสัมพันธ์ระหว่างตัวแปรทั้งสองได้ กำหนดว่าสร้างฮิสโตแกรม 2 มิติที่มีความกว้างเท่ากันสำหรับทั้งคู่และฉันจะเลือกเอง:
ในกรณีนี้โดยเฉลี่ยสำหรับตัวแปรสุ่มที่กระจายกันสองชุดคุณจะมีอย่างน้อยคะแนนสำหรับ แต่ละเซลล์ของฮิสโตแกรม:
nnp.histogram2d(x, y, D)
D
x
y
D = ⌊ไม่มี/ 5---√⌋
5nDXDY≥ 5 ⇒nD2≥ 5 ⇒D2≤ n / 5 ⇒ D = ⌊ไม่มี/ 5---√⌋
นี่คือทางเลือกที่เป็นไปได้หนึ่งที่เลียนแบบวิธีการแบ่งพาร์ทิชันการปรับตัวที่นำเสนอใน
(Cellucci 2005) แนวทางหลังมักจะถูกใช้ในการประเมินเพื่อสรุป MI เครือข่ายทางพันธุกรรม: เช่นในMider
หากคุณมีจำนวนของจุดข้อมูลและไม่มีค่าที่ขาดหายไปคุณไม่ควรกังวลมากเกินไปเกี่ยวกับการหาจำนวนที่ดีที่สุดของถังขยะ; เช่นถ้า100,000 หากไม่ใช่กรณีนี้คุณอาจพิจารณาแก้ไข MI สำหรับตัวอย่าง จำกัด (Steuer et al., 2002)กล่าวถึงการแก้ไขบางอย่างสำหรับ MI สำหรับงานของการอนุมานเครือข่ายทางพันธุกรรมnn = 100 , 000
การประมาณจำนวนช่องเก็บของฮิสโตแกรมเป็นปัญหาเก่า คุณอาจสนใจพูดคุยนี้โดย Lauritz Dieckman เกี่ยวกับการประเมินจำนวนถังขยะสำหรับ MI การพูดคุยนี้อ้างอิงจากบทในหนังสือของ Mike X Cohen เกี่ยวกับอนุกรมเวลาของระบบประสาท
คุณอาจเลือกและอย่างอิสระและใช้กฎของหัวแม่มือที่ใช้สำหรับการประเมินจำนวนของถังขยะใน 1D ฮิสโทแกรมDXDY
กฎของฟรีดดิเนียส (ไม่มีข้อสันนิษฐานเกี่ยวกับการแจกแจง):
โดยที่คือความแตกต่างระหว่าง 75-quantile และ 25-quantile ดูคำถามที่เกี่ยวข้องในทางทิศตะวันออก
DX= ⌈สูงสุดX- ขั้นต่ำX2 ⋅ IQR ⋅n- 1 / 3⌉
IQR
กฎของสกอตต์ (สมมุติฐาน ):
โดยที่เป็นค่าเบี่ยงเบนมาตรฐาน สำหรับX
DX= ⌈สูงสุดX- ขั้นต่ำX3.5 ⋅sX⋅n- 1 / 3⌉
sXX
กฎของ Sturges (อาจประมาทจำนวนของถังขยะ แต่ดีสำหรับใหญ่):
n
DX= ⌈ 1 +เข้าสู่ระบบ2n ⌉
เป็นการยากที่จะประมาณค่า MI ด้วยฮิสโทแกรม จากนั้นคุณอาจเลือกตัวประมาณอื่น:
- ตัวประมาณ NN ของ Kraskov ซึ่งค่อนข้างอ่อนไหวต่อการเลือกพารามิเตอร์:หรือเพื่อนบ้านที่ใกล้เคียงที่สุดมักจะถูกใช้เป็นค่าเริ่มต้น กระดาษ: (Kraskov, 2003)kk = 4k = 6
- การประมาณค่า MI กับเมล็ด(ดวงจันทร์, 1995)
มีแพคเกจมากมายสำหรับการประเมิน MI:
- กล่องเครื่องมือการประมาณค่าเอนโทรปีแบบไม่มีพารามิเตอร์สำหรับ Python สถาน
- ชุดเครื่องมือการเปลี่ยนแปลงสารสนเทศใน Java แต่ยังมีให้สำหรับ Python สถาน
- กล่องเครื่องมือ ITE ใน Matlab สถาน