(ฉันไม่มีความคิดที่แท้จริงว่าจะติดแท็กสิ่งนี้กับอะไรเพราะฉันไม่ใช่นักสถิติและฉันไม่ทราบว่าฟิลด์นี้ตรงกับอะไรรู้สึกฟรีเพื่อเพิ่มแท็กที่เหมาะสมยิ่งขึ้น)
ฉันทำงานให้กับ บริษัท ที่ผลิตซอฟต์แวร์วิเคราะห์ข้อมูลและเราต้องการชุดข้อมูลที่เหมาะสมเพื่อทดสอบและสาธิตผลิตภัณฑ์ล่าสุดของเราด้วย เราไม่สามารถเติมเต็มฐานข้อมูลด้วยผลลัพธ์ของตัวสร้างตัวเลขสุ่มได้เนื่องจากผลลัพธ์ของโปรแกรมจะกลายเป็นเรื่องไร้สาระ วิธีที่ง่ายที่สุดวิธีหนึ่งในการรับข้อมูลดังกล่าวมาจากไคลเอนต์ เรามีข้อมูลจำนวนมากจากการทดลองที่เราวิ่ง ตอนนี้เห็นได้ชัดว่าเราไม่สามารถเผยแพร่ข้อมูลจริงของลูกค้าได้ดังนั้นเราจึงจำเป็นต้องแก้ไขข้อมูลเล็กน้อย แต่เรายังต้องการให้มันทำงานเหมือนข้อมูลจริง
จุดมุ่งหมายที่นี่คือการใช้ชุดข้อมูลของพวกเขาและใช้ "fuzz" กับมันเพื่อที่จะไม่สามารถจดจำได้ว่าเป็นของพวกเขาโดยเฉพาะ ความทรงจำเกี่ยวกับทฤษฎีทางสถิติของฉันนั้นค่อนข้างคลุมเครือดังนั้นฉันอยากจะเรียกใช้สิ่งนี้โดยพวกคุณ:
โดยพื้นฐานแล้วข้อมูลที่เรามี (จากลูกค้า) เป็นตัวอย่างของข้อมูลทั้งหมดที่มีอยู่ (ในประเทศหรือโลก) สิ่งที่ฉันอยากรู้คือประเภทของการดำเนินการที่สามารถนำมาใช้เพื่อทำให้ตัวอย่างไม่ได้เป็นตัวแทนของกลุ่มตัวอย่างของลูกค้าอีกต่อไปในขณะที่ยังคงเป็นตัวแทนของประชากรโลกอย่างคร่าวๆ
สำหรับการอ้างอิงเท่าที่เราทราบว่าข้อมูลที่เรามีติดตามการแจกแจงแบบคร่าวๆปกติ (เกาส์)
ชุดข้อมูลดั้งเดิมไม่สามารถใช้งานได้อย่างกว้างขวาง แต่อาจได้รับการยอมรับในทางทฤษฎีจากลักษณะเฉพาะบางภูมิภาค (เราไม่ทราบว่าคุณลักษณะเหล่านั้นคืออะไรและเป็นที่น่าสงสัยว่าใครก็ตามสามารถทำได้ในระดับที่เพียงพอ แต่เรารู้ว่า ไปยังสถานที่) อย่างไรก็ตามฉันสนใจทฤษฎีนี้มากกว่าการฝึกฝน - ฉันต้องการทราบว่าการดำเนินการทำให้เป็นไปไม่ได้ (หรืออย่างน้อยก็ยาก) เพื่อระบุชุดข้อมูลต้นฉบับโดยพารามิเตอร์ X ไม่ว่าใครจะมีหรือไม่สามารถทำงานได้ พารามิเตอร์ X ในสถานที่แรก
วิธีที่ฉันคิดขึ้นมาก็คือการแยกการอ่านออกเป็นประเภทต่าง ๆ (โดยไม่ให้มากไปสมมติว่ากลุ่มอาจเป็น "ความยาว" หรือ "เวลาที่ใช้ในการทำ X") สำหรับแต่ละคนคำนวณ ส่วนเบี่ยงเบนมาตรฐาน. จากนั้นให้เพิ่มค่าสุ่มระหว่างค่าบวกและลบของ (n * stddev) โดยที่ n คือเศษส่วนบางส่วนที่ฉันสามารถใช้เพื่อปรับผลลัพธ์จนกว่าข้อมูลจะ "fuzzed" เพียงพอ ฉันไม่ต้องการใช้ช่วงคงที่เพียงอย่างเดียว (พูดสุ่มระหว่าง 90% ถึง 110% ของค่าดั้งเดิม) เพราะค่าบางค่าแตกต่างกันมากหรือน้อยกว่าค่าอื่น ๆ - ในการวัดบางค่า 10% ในค่าเฉลี่ยนั้นแทบจะสังเกตไม่เห็น แต่ในคนอื่น ๆ มันทำให้คุณเป็นคนที่จริงจังมาก
มันเพียงพอที่จะปกปิดแหล่งที่มาของข้อมูลต้นฉบับหรือไม่? หากไม่ใช้การวัดทางสถิติข้อมูลก็ยังสามารถระบุตัวตนได้และฉันจะปกปิดข้อมูลเหล่านั้นอย่างไรในขณะที่ยังคงรักษาข้อมูลผลลัพธ์ที่เป็นจริงได้อย่างคลุมเครือ