การวิเคราะห์แบบดั้งเดิมของตัวกรอง Bloom ผิดหรือไม่


17

บทความนี้อ้างว่าการวิเคราะห์แบบดั้งเดิมของอัตราความผิดพลาดในตัวกรอง Bloom นั้นไม่ถูกต้องจากนั้นให้การวิเคราะห์อัตราความผิดพลาดที่เกิดขึ้นจริงเป็นระยะเวลานานและไม่เกิดขึ้นจริง บทความที่เชื่อมโยงได้รับการตีพิมพ์ในปี 2010 แต่ฉันได้เห็นการวิเคราะห์แบบดั้งเดิมของตัวกรอง Bloom อย่างต่อเนื่องที่จะสอนในขั้นตอนวิธีและโครงสร้างข้อมูลต่างๆ

การวิเคราะห์แบบดั้งเดิมของตัวกรอง Bloom ถูกต้องหรือไม่?

ขอบคุณ!

คำตอบ:


36

การวิเคราะห์แบบดั้งเดิมนั้นดี การวิเคราะห์ "ดั้งเดิม" คือถ้ามันถูกอธิบายอย่างถูกต้องเป็นการประมาณ มันขึ้นอยู่กับการคำนวณจำนวนเซลล์ที่คาดหวังที่เป็น 0/1 เมื่อคุณแฮชคีย์ลงในตัวกรองแล้วทำการวิเคราะห์ราวกับว่าเป็นจำนวนจริง ประเด็นก็คือจำนวนเซลล์ที่เป็น 0 (หรือ 1) มีความเข้มข้นอย่างแน่นหนารอบความคาดหวังของพวกเขาดังนั้นจึงเป็นการประมาณที่ดี นี่เป็นที่รู้จักกันดีและสามารถพบได้ฉันคิดว่าแม้ในบทความสำรวจของฉันกับ Andrei Broder

กระดาษนี้บอกว่าประสิทธิภาพของตัวกรอง Bloom เป็นตัวแปรสุ่ม (ตรงกับส่วนที่แท้จริงของ 0/1 รายการ) และถ้าคุณต้องการคำนวณประสิทธิภาพนั้นอย่างแน่นอนด้วยเหตุผลบางอย่างคุณต้องทำ combinatorics สำหรับตัวกรองขนาดเล็กคุณจะเห็นความแตกต่างที่ไม่น่าสนใจ

ฉันได้พูดคุยกับผู้เขียนบทความนี้ การวิเคราะห์ของพวกเขานั้นดีและดี (แม้ว่าฉันจะเถียงว่ามันไม่ได้ลึกหรือใหม่); แรงจูงใจของพวกเขาที่ว่า "การวิเคราะห์แบบดั้งเดิมผิด" ฉันคิดว่าเกินจริง


15
ตอนนี้คำสั่งซื้อคืนสู่จักรวาลแล้ว :) และยินดีต้อนรับสู่ไมเคิล
Suresh Venkat

12

ให้ฉันเพิ่มคำตอบของไมเคิลว่าสำหรับตัวกรองแยกของ Bloom ซึ่งฟังก์ชันแฮชมีช่วงแยกจากกันการวิเคราะห์แบบดั้งเดิมนั้นถูกต้องแน่นอนโดยไม่มีการประมาณหรือขอบเขตความเข้มข้นใด ๆ นี่เป็นเพราะความน่าจะเป็นข้อผิดพลาดของฟังก์ชันแฮชที่แตกต่างกันนั้นมีความเป็นอิสระมากกว่าความสัมพันธ์ การแลกเปลี่ยนพื้นที่ / ข้อผิดพลาดสำหรับฟิลเตอร์แยกแบบแยกส่วนนั้นเหมือนกับตัวกรองบลูมแบบดั้งเดิมดังนั้นฉันคิดว่านี่เป็นตัวแปรที่ดีสำหรับการสอน


2
ดูเหมือนว่าความคิดเดียวกันกับร่างการนับนาทียกเว้นด้วยตัวกรองของ Bloom
templatetypedef
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.