มีใครรู้บ้างเกี่ยวกับซอฟต์แวร์ลบข้อมูลระบุตัวตนที่ดี? หรืออาจเป็นแพ็คเกจสำหรับ R ที่ทำให้ข้อมูลไม่ระบุตัวตน เห็นได้ชัดว่าไม่คาดหวังว่าจะมีการปกปิดตัวตนที่ไม่สามารถติดตามได้ - เพียงต้องการทำให้ยาก
มีใครรู้บ้างเกี่ยวกับซอฟต์แวร์ลบข้อมูลระบุตัวตนที่ดี? หรืออาจเป็นแพ็คเกจสำหรับ R ที่ทำให้ข้อมูลไม่ระบุตัวตน เห็นได้ชัดว่าไม่คาดหวังว่าจะมีการปกปิดตัวตนที่ไม่สามารถติดตามได้ - เพียงต้องการทำให้ยาก
คำตอบ:
TookitการระบุตัวตนแบบCornellเป็นโอเพนซอร์ส หน้าการวิจัยของพวกเขามีลิงค์ไปยังสิ่งตีพิมพ์ที่เกี่ยวข้อง
คำเตือน: ระวังว่ามันอาจเป็นเรื่องยากมากในการลบข้อมูลในลักษณะที่ป้องกันการระบุตัวตนซ้ำ (การลบข้อมูลระบุตัวตน) โดยไม่สูญเสียคุณค่าของข้อมูลมากนัก นี่ไม่ใช่สถานการณ์ที่คุณสามารถโยนซอฟต์แวร์ลงไปได้โดยไม่ต้องคิด การปกป้องความไม่เปิดเผยตัวของผู้คนจำเป็นต้องมีความคิด ดูเช่นกระดาษนี้สำหรับการอธิบายอย่างละเอียดมากขึ้นว่าทำไมเรื่องนี้จึงไม่สำคัญ
ตัวอย่างของเรื่องเตือนคือความท้าทายของ Netflix ซึ่งชุดข้อมูลที่ไม่ระบุชื่อที่ดูเหมือนจะถูกเชื่อมโยงกลับไปยังตัวตนของผู้ใช้ Netflix - หรือการเปิดตัวของบันทึกการค้นหา AOL ที่ไม่เปิดเผยชื่อซึ่งหลายคน (นักวิจัยค้นพบ) บุคคลผ่านการวิเคราะห์ที่ซับซ้อนมากขึ้น อีกตัวอย่างหนึ่งคือจากรัฐแมสซาชูเซตส์ซึ่งคณะกรรมการประกันสุขภาพเผยแพร่ข้อมูลเกี่ยวกับพนักงานของรัฐทุกคนหลังจากลบชื่อโดยการลบชื่อที่อยู่ SSNs ฯลฯ อย่างไรก็ตามนักวิจัยด้านความเป็นส่วนตัวค้นพบว่ายังคงเป็นไปได้ที่จะระบุตัวบุคคลอีกครั้งและในการสาธิตแสดงวิธีการระบุบันทึกสุขภาพของผู้ว่าราชการ ตัวอย่างเช่นภายหลังเธอแสดงให้เห็นว่าคนส่วนใหญ่สามารถระบุได้โดยไม่ซ้ำกันจากรหัสไปรษณีย์ (หรือระบบการสำรวจสำมะโนประชากร) วันเกิดและเพศ เรื่องราวเหล่านี้เป็นเรื่องราวของคนที่ไม่เปิดเผยข้อมูล พวกเขาคิดว่าพวกเขาทำงานได้ดีโดยไม่เปิดเผยชื่อและไม่ทราบว่าปัญหานี้เป็นอย่างไร เรื่องราวเตือนเหล่านี้ควรหยุดให้คุณ
ด้วยเหตุผลเหล่านี้ฉันขอแนะนำให้คุณไม่พยายามเปิดเผยชุดข้อมูลของคุณด้วยตัวคุณเองหากคุณไม่เคยมีประสบการณ์ในด้านนี้มาก่อน
สิ่งสำคัญ: เทคนิคที่จำเป็นในการลบข้อมูลอาจจะขึ้นอยู่กับประเภทของข้อมูลที่คุณมีและโดเมนแอปพลิเคชันที่คุณทำงาน แต่น่าเสียดายที่คุณไม่ได้ให้ข้อมูลนี้ ดังนั้นจึงแทบจะเป็นไปไม่ได้ที่จะให้คำแนะนำที่ดีเกี่ยวกับวิธีการลบล้างชุดข้อมูลของคุณ
ฉันคิดว่าอาจดึงดูดให้ดูคำตอบนี้ว่าไม่ช่วยเหลือเพราะแทนที่จะพูดว่า "มีความสุขไม่ต้องกังวลเพียงแค่โยนซอฟต์แวร์ชิ้นนี้ลงบนข้อมูลของคุณและคุณไม่ต้องคิด" ฉันกำลังพูด " เดี๋ยวก่อนนี่มันช่างซับซ้อนกว่าที่จะปรากฏในแวบแรกระวังตัว " ฉันรู้ว่าข้อความนี้อาจไม่ได้รับความนิยมมาก แต่ฉันคิดว่านี่เป็นข้อความที่คนทั่วไปต้องได้ยิน
วิธีหนึ่งคือใช้ตัวกรองของ Bloom ตรวจสอบเว็บไซต์โครงการSAFELINKสำหรับโปรแกรมใน Java และ Python วิธีการอธิบายกระดาษเป็นที่นี่
นอกจากนี้ยังมีวิธีการที่น่าสนใจที่จะ anaonymization ของสตริงในบริบทของการบันทึกการเชื่อมโยงโดยใช้ n-กรัมพัฒนาโดยอนุวงศ์กลุ่มการทำเหมืองข้อมูล กระดาษที่มีรหัสรายละเอียดและตัวอย่างหลามสามารถใช้ได้ที่นี่