มีเครื่องมืออะไรในการปิดบังข้อมูล (MySQL, Linux) [ปิด]


14

ฉันกำลังมองหาเครื่องมือปิดบังข้อมูล (ฟรีอย่างดีโอเพนซอร์ส) มีอยู่จริงไหม?

หมายเหตุ: คำถามที่เกี่ยวข้องนี้เกี่ยวข้องกับเครื่องมือในการสร้างข้อมูลทดสอบ แต่ในคำถามนี้ฉันสนใจที่จะเริ่มต้นด้วยข้อมูลจริงและปิดบังเพื่อใช้ในการทดสอบโดยไม่สูญเสียความสัมพันธ์พิเศษใด ๆ ที่ทำให้น่าสนใจสำหรับวัตถุประสงค์ในการทดสอบ ข้อมูลที่สร้างขึ้นนั้นใช้ได้สำหรับการทดสอบบางอย่าง แต่ข้อมูลในโลกแห่งความเป็นจริงจะทำให้เกิดปัญหาที่คุณไม่เคยคาดคิดมาก่อน เครื่องมือในการสร้างชุดข้อมูลขนาดใหญ่ของข้อมูลการทดสอบ

คำตอบ:


9

ฉันจะแปลกใจมากถ้ามีเครื่องมือทั่วไปสำหรับสิ่งนี้ - จะ "รู้" ได้อย่างไรว่าข้อมูลที่ละเอียดอ่อนคืออะไรและไม่มีอะไร ตัวอย่างเช่นจะต้องตรวจสอบข้อมูลทั้งหมดของคุณและรับรู้รูปแบบที่เป็นไปได้ทั้งหมดของหมายเลขบัตรเครดิตหมายเลขโทรศัพท์รหัสไปรษณีย์ที่อยู่อีเมลและข้อมูลอื่น ๆ ที่พิจารณาว่าละเอียดอ่อน นอกจากนี้ยังต้องมีความฉลาดเกี่ยวกับสคีมาของคุณเช่นควรเขียนที่อยู่อีเมลลูกค้าทั้งหมดไปที่ "nobody@company.com" หรือทำส่วนใดส่วนหนึ่งของฐานข้อมูลแอปพลิเคชันเครื่องมืออื่น ๆ ของคุณสันนิษฐานว่าที่อยู่อีเมลของลูกค้า (หรือ SSN หรือ อะไรก็ตาม) มีเอกลักษณ์? หรือคุณมีแอปพลิเคชั่นบางส่วนที่ตรวจสอบหมายเลขบัตรเครดิตซึ่งจะแตกถ้าคุณรีเซ็ตเป็น 0000 0000 0000 0000 หรือระบบโทรศัพท์ของคุณคิดว่าลูกค้า '

โดยพื้นฐานแล้วการกำหนดค่าเครื่องมือใด ๆ ที่จะทำมันจะทำงานได้มากหรือมากกว่านั้นเพียงแค่เขียนสคริปต์ของคุณเองโดยใช้ความรู้เกี่ยวกับแอปพลิเคชันของคุณ ที่ไซต์ของฉันเราเพียงกำหนดนโยบายให้ทุกคนที่เพิ่มคอลัมน์ด้วยข้อมูลดังกล่าวในการอัปเดตสคริปต์เพื่อไม่ระบุตัวตนในเวลาเดียวกันหลังจากการตรวจสอบเบื้องต้นเพื่อค้นหาคอลัมน์เหล่านั้นทั้งหมดและเขียนเวอร์ชัน 1


1
ฉันรู้ว่ามีเครื่องมือทางการค้าเช่นเดียวกับในที่ทำงานก่อนหน้านี้มีความคิดริเริ่ม (ล้มเหลว) ในการใช้เครื่องมือหนึ่งเดียวสำหรับฐานข้อมูล Oracle ของเรา (ฉันไม่ได้เกี่ยวข้องกับโครงการนั้นดังนั้นฉันจึงไม่ทราบสาเหตุของความล้มเหลวฉันสงสัยว่าการตั้งค่าเครื่องมือกำบังข้อมูลสำหรับฐานข้อมูลแบบดั้งเดิมนั้นจะเป็นงานที่น่าเบื่อมากตามที่คุณแนะนำ)
testerab

3
โอ้ฉันคาดหวังว่าจะมีคนขายคุณบางอย่างที่อ้างว่าเป็นสิ่งนี้ แต่อย่างที่ฉันบอกว่าการกำหนดค่าจะทำงานได้ดีกว่าการเขียน SQL ของคุณเองเพราะคุณจะต้องเรียนรู้ DSL hokey ของพวกเขาก่อน!
ออกุสตุส

5

หากฐานข้อมูลของคุณมีขนาดเล็กให้มีตัวแบบข้อมูลที่เรียบง่ายและเป็นที่เข้าใจกันดีในปัจจุบันของ DBA - การเขียนสคริปต์“ อาจ” เป็นคำตอบ อย่างไรก็ตามความพยายาม (และค่าใช้จ่าย) ในการวิเคราะห์และปิดบังฐานข้อมูลทั่วไปด้วยตนเองสามารถทำได้อย่างรวดเร็วเมื่อมีการเปลี่ยนแปลงความต้องการฟังก์ชั่นถูกเพิ่มเข้ามาและนักพัฒนา / DBA ก็เข้ามา

ในขณะที่ฉันไม่ได้ตระหนักถึงผลิตภัณฑ์ที่ปิดบังข้อมูลโอเพนซอร์ส แต่ก็มีข้อเสนอเชิงพาณิชย์ที่มีความครอบคลุมสมเหตุสมผลใช้งานง่ายและอาจมีราคาที่สมเหตุสมผลอย่างน่าประหลาดใจ หลายคนรวมถึงความสามารถในการค้นพบนอกกรอบเพื่อระบุและจำแนกข้อมูลที่สำคัญ (SSN, บัตรเครดิต, หมายเลขโทรศัพท์) รวมถึงฟังก์ชั่นการบำรุงรักษา checksums, การจัดรูปแบบที่อยู่อีเมล, การจัดกลุ่มข้อมูล ฯลฯ ดูและรู้สึกเหมือนจริง

แต่คุณไม่จำเป็นต้องใช้คำพูดของฉัน ถามนักวิเคราะห์อุตสาหกรรมเช่นการ์ตเนอร์หรือฟอร์เรสเตอร์ที่มีรายงานที่เป็นกลางเกี่ยวกับการหลอกลวงซึ่งอาจช่วยได้

หวังว่าความคิดเห็นเหล่านี้จะสนับสนุนให้คุณพิจารณาสำรวจผลิตภัณฑ์เชิงพาณิชย์รวมถึงการพัฒนาสคริปต์ภายใน ในตอนท้ายของวันสิ่งที่สำคัญที่สุดคือการปกป้องข้อมูลที่สำคัญที่เราหลายคนเห็นทั้งในและนอกเวลาที่เราไม่จำเป็นต้องไปดูงานของเรา - ทำให้เราและคนที่มีความเป็นส่วนตัว ข้อมูลที่เรามีความเสี่ยง

Kevin Hillier, ผู้เชี่ยวชาญด้านการรวมระบบขั้นสูง, Camouflage Software Inc.


1
ฉันรู้ว่าคุณไม่ต้องการเจอการขายผลิตภัณฑ์ของคุณเอง แต่มันจะมีประโยชน์หากคุณสามารถตั้งชื่อผลิตภัณฑ์เชิงพาณิชย์สองสามรายการหรือชี้ไปที่คำแนะนำเฉพาะ
testerab

1
ฉันเข้าใจว่าคุณทำงานให้กับ บริษัท นี้และคุณอาจต้องการแนะนำผลิตภัณฑ์ของคุณเองและไม่ขัดกับเรื่องนั้น แต่เพราะดูเหมือนว่าโฆษณาแบบอินไลน์ที่หรูหรามากกว่า "ฉันรู้ว่าฉันกำลังพูดถึงอะไร เพราะมันเป็นสิ่งที่ฉันทำ "... ฉันเชื่อว่า" ใช้ blah blah blah (การเปิดเผยอย่างเต็มรูปแบบ: ฉันทำงานกับผลิตภัณฑ์นี้) เพราะ blah blah blah "และอย่าใส่ชื่อของคุณในตอนท้าย หากเราต้องการรายละเอียดส่วนบุคคลของคุณเราสามารถคลิกที่ profee ของคุณและอ่านsig นั้นและคลิกที่ลิงค์นั้น
jcolebrand

5

ไม่เคยเห็นรายการดังกล่าว แต่เมื่อทำงานกับชุดข้อมูลที่ละเอียดอ่อนสองสามอย่างในเวลาของฉันสิ่งสำคัญที่ต้องมีสัญญาณรบกวนคือตัวตนของผู้คนหรือข้อมูลที่ระบุตัวตน สิ่งนี้ควรทำให้ปรากฏในไม่กี่แห่งในฐานข้อมูล

การปิดบังของคุณควรเก็บรักษาคุณสมบัติทางสถิติและความสัมพันธ์ของข้อมูลและอาจต้องเก็บรหัสอ้างอิงจริง (หรือกลไกการแปลที่ควบคุมอย่างน้อยบางประเภท) เพื่อให้คุณสามารถปรับให้เข้ากับข้อมูลจริง

การเรียงลำดับของสิ่งนี้สามารถทำได้โดยรับรายชื่อที่แตกต่างกันในฟิลด์และแทนที่ด้วยชื่อ FirstNameXXXX (โดย XXXX เป็นหมายเลขลำดับหนึ่งสำหรับแต่ละค่าที่แตกต่างกัน) หมายเลขบัตรเครดิตและข้อมูลที่คล้ายกันซึ่งสามารถนำมาใช้ในการขโมยข้อมูลประจำตัวได้ค่อนข้างน่าจะเป็นสิ่งที่ไม่ต้องทำในสภาพแวดล้อมการพัฒนา แต่คุณต้องการเพียงของจริงถ้าคุณกำลังทดสอบระบบประมวลผลการชำระเงิน สำหรับบัญชีจำลอง

ไม่ใช่เรื่องยากโดยเฉพาะอย่างยิ่งในการเขียนขั้นตอนการไม่เปิดเผยชื่อของการจัดเรียงนี้ แต่คุณจะต้องยอมรับสิ่งที่จำเป็นต้องมีการไม่เปิดเผยชื่อกับธุรกิจ หากจำเป็นให้ไปที่ฟิลด์ฐานข้อมูลตามฟิลด์ การถามว่าใช่ / ไม่ใช่จะให้ผลบวกปลอมที่คุณไม่ต้องการ ขอให้ตัวแทนธุรกิจอธิบายสาเหตุหรือผลที่ตามมาหรือผลกระทบด้านกฎระเบียบของการไม่เปิดเผยข้อมูลโดยเฉพาะ


3

ฉันมีงานเดิมเมื่อไม่กี่สัปดาห์ที่ผ่านมา เราประเมินระบบซอฟต์แวร์บางส่วน แต่ส่วนใหญ่เป็นเพียงฐานข้อมูลประเภทเดียวเช่น oracle และพวกเขามักจะซับซ้อนมากในการใช้ ... ดังนั้น uhm ไม่มีสิ่งที่ดีที่สุดในการประเมินสิ่งนี้ เราใช้เวลาหลายสัปดาห์

เราตัดสินใจซื้อ data masking suite รุ่นมืออาชีพเพราะเป็นรุ่นที่ง่ายที่สุด นอกจากนี้ยังมีความเป็นไปได้ที่ยอดเยี่ยมในการปิดบังข้อมูลเช่นคุณสามารถเปลี่ยนที่อยู่อีเมลเป็นที่อยู่จริงเช่น ... @ siemens.com เป็น mike.miller@seimsen.com

คุณสามารถทดลองใช้ฟรีสำหรับบันทึกประมาณ 500 (?) เท่าที่ฉันจำได้

นี่คือลิงค์http://www.data-masking-tool.com/


1
เพียงแค่จุดข้อมูล: จากการเขียนนี้เครื่องมือกำบังข้อมูลทำงานเพียง $ 1,000
Michael Teper

2

วิธีการทำของฉัน:

  1. สร้างฐานข้อมูลใหม่ด้วยสิทธิ์การดูและเลือกเฉพาะสำหรับผู้ใช้
  2. ทำมุมมองไปยังตารางที่ควรดูได้ในฐานข้อมูลอื่น
  3. คอลัมน์มาส์กที่ต้องปิดบังโดย: ทำซ้ำ ('*', char_length ( column to be masked))

2

ครั้งแรกที่ฉันระบุเส้นทางนี้เป็นเวลาหลายปีที่ผ่านมาและตั้งแต่ได้สร้างที่ปรึกษาตามแนวปฏิบัตินี้

ฉันสมมติว่าวัตถุประสงค์คือเพื่อสร้างข้อมูลทดสอบสำหรับใช้ในสภาพแวดล้อมการทดสอบที่บุคลากรเข้าถึงข้อมูลไม่ได้รับสิทธิ์ในการดูข้อมูลการผลิต

สิ่งแรกที่ต้องสร้างคือสิ่งที่องค์ประกอบข้อมูลที่คุณต้องการปิดบังและการทำสิ่งที่ดีที่สุดคือเริ่มต้นด้วยเครื่องมือค้นหาข้อมูลเช่น Schema Spy (โอเพ่นซอร์ส) และคุณจะต้องใช้ไดรเวอร์ jdbc ที่เกี่ยวข้องสำหรับงานนี้ เป็นขั้นตอนที่มีประโยชน์มากในกระบวนการ

Talend Open Studio เป็นหนึ่งในเครื่องมือที่ดีที่สุดที่ฉันเคยใช้ในช่วงไม่กี่ปีที่ผ่านมาเพื่อทำหน้าที่บางอย่างของ ETL และคุณจะสามารถฝึกการกำบังเบื้องต้นโดยการแทนที่ค่าด้วยการสุ่มหรือ ค้นหา / แทนที่ - เพื่อรักษาความมั่นคง - การใช้องค์ประกอบแผนที่

แต่หากคุณกำลังมองหาเครื่องมือกำบังข้อมูลจริงฉันไม่พบเครื่องมือโอเพนซอร์สที่เหมาะสม หากคุณมีงบประมาณในระดับปานกลางสำหรับเครื่องมือฉันขอแนะนำ Data Masker แต่คุณจะต้องทำการนำเข้าและส่งออกผ่าน MS SQL หรือ Oracle เนื่องจากเชื่อมต่อผ่านโปรโตคอลเหล่านั้นเท่านั้น

ลองดูที่http://www.datakitchen.com.au/2012-08-14-15-04-20/data-masking/data-masker-toolset สำหรับข้อมูลเกี่ยวกับการปิดบังข้อมูลวิธีการปิดบังข้อมูลการค้นพบข้อมูลและข้อมูลการทดสอบ การจัดการ นอกจากนี้ยังมีบล็อกที่มีประโยชน์ที่http://www.dataobfuscation.com.au


1

มีเครื่องมือที่มีอยู่ในตลาดจาก Informatica ซึ่งเรียกว่า Informatica ILM (TDM) สิ่งนี้ใช้ PowerCenter เป็น backone สำหรับ ETL และข้อมูลหน้ากากที่มีตัวเลือกการปิดบังที่แตกต่างกัน คุณต้องมีนักวิเคราะห์ข้อมูลหรือ SME ที่สามารถเข้าใจได้ว่าข้อมูลควรถูกปกปิดอย่างไร เครื่องมือไม่ได้ให้ข้อมูลว่าควรจะปิดบังฟิลด์ใดอย่างไรก็ตามมีอัลกอริธึมภายในหรือขั้นตอนหรือกระบวนการในการระบุฟิลด์ข้อมูลที่คงที่เช่นชื่อคอลัมน์ ID ที่มีหมายเลขบัตรเครดิตหมายเลข SSN หมายเลขบัญชี ฯลฯ


นอกจากนี้ Informatica ILM TDM ยังช่วยให้สามารถสร้างข้อมูลย่อยได้อีกด้วย ดังนั้นคุณสามารถเซตย่อยข้อมูลและปิดบังข้อมูลหรือปิดบังข้อมูลทั้งหมดจากนั้นเซ็ตย่อยตามความต้องการทางธุรกิจ
Awadhesh Yona

1

ปีนี้ฉันมีโอกาสได้ทำงานร่วมกับ IBM Optimize ที่อ้างว่าทำสิ่งที่ขอ ไม่ฟรี แต่ใช้งานได้ดี


1

สิ่งที่ฉันชอบที่สุดคือ IRI FieldShield ( https://www.iri.com/products/fieldshield ) ในแง่ของความเก่งกาจ (ฟังก์ชั่นการปิดบังข้อมูลส่วนใหญ่) ความเร็ว (CoSort engine สำหรับการเคลื่อนย้ายข้อมูลภายใน) และการยศาสตร์ (งาน 4GL ธรรมดา สนับสนุนใน Eclipse GUI ด้วยฐานข้อมูลและการเชื่อมต่อไฟล์จำนวนมาก) ราคาที่ถูกต้องเป็นเรื่องของ IBM และ Informatica เพียงครึ่งเดียว แต่ยังมีอยู่ในชุดรวมข้อมูลขนาดใหญ่สำหรับการแปลงข้อมูล 'ใหญ่', การย้ายข้อมูลและ BI ด้วย ดังนั้นมันจึงไม่ฟรีเช่นกัน แต่ใช้โอเพ่นซอร์ส (IDE และสามารถใช้ OpenSSL และ GPG) และสคริปต์ทำงานบน Windows, Linux และ Unix อื่น ๆ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.