คำที่ดีที่สุดสำหรับการสร้างข้อมูล?


23

ฉันกำลังเขียนตัวอย่างและสร้างข้อมูลขึ้นมา ฉันต้องการให้ผู้อ่านเข้าใจอย่างชัดเจนว่านี่ไม่ใช่ข้อมูลจริง แต่ฉันก็ไม่ต้องการที่จะแสดงความอาฆาตพยาบาทเพราะมันเป็นเพียงตัวอย่างเท่านั้น

ไม่มีองค์ประกอบแบบสุ่ม (หลอก) สำหรับข้อมูลนี้ดังนั้นฉันคิดว่า 'จำลอง' ไม่เหมาะสม ถ้าฉันเรียกมันว่าเป็นเรื่องโกหกหรือสิ่งประดิษฐ์สิ่งนั้นจะสร้างความประทับใจให้กับข้อมูลที่ฉ้อฉลหรือไม่? คำว่า 'สร้างขึ้น' เป็นคำที่เหมาะกับบริบททางวิทยาศาสตร์หรือไม่

คำศัพท์ในวรรณคดีเชิงสถิติสำหรับข้อมูลที่สร้างขึ้นแบบไม่จำลองคืออะไร


9
เพียงเพื่อเพิ่มความคิดเห็นที่แพร่กระจายในหลายคำตอบ: "สังเคราะห์" เป็นคำที่ดีสำหรับการสร้างข้อมูลซึ่งพยายามที่จะดูสมจริงที่สุดเท่าที่จะเป็นไปได้ในขณะที่ "จำลอง" เป็นคำแนะนำข้อมูลที่ถูกสร้างขึ้นมา ตัวอย่างเช่นข้อมูล "จำลอง" อาจมีค่าผิดปกติที่ไร้สาระเพียงเพื่อแสดงให้เห็นว่าการจัดการกับค่าผิดปกตินั้นสำคัญเพียงใด
Cort Ammon - Reinstate Monica

โดยส่วนตัวแล้วฉันชอบคำว่า "จำลอง" และพบมากที่สุดในวรรณคดีเชิงสถิติ (เช่น "เราทำการจำลองเพื่อเปรียบเทียบแบบจำลองของเรากับ X, Y, Z .... "
Samir Rachid Zaim

คำตอบ:


45

ฉันอาจจะเรียกข้อมูลนี้ว่า "สังเคราะห์" หรือ "เทียม" ถึงแม้ว่าฉันอาจเรียกว่า "จำลอง" (การจำลองนั้นง่ายมาก)


30
หนึ่งได้ยิน "ข้อมูลของเล่น" "ตัวอย่างของเล่น" และ "ข้อมูลจำลอง" นอกจากนี้ฉันยอมรับว่า "จำลอง" อาจจะพอดีแม้ในกรณีที่ไม่มีตัวเลขสุ่ม
rolando2

7
"ข้อมูลตัวอย่าง" หรือ "ตัวอย่างข้อมูล" อาจใช้ได้เช่นกัน
Henry

8
+1 ' ข้อมูลสังเคราะห์ ' และ ' ตัวอย่างของเล่น ' เป็นทั้งคำที่ฉันอาจใช้หากโอกาสเกิดขึ้นเช่นเดียวกับ 'ตัวอย่างที่สร้างขึ้น' บางครั้งฉันพูดว่า "ตัวอย่างที่เป็นตัวอย่าง" หรือสิ่งที่คล้ายกันโดยเฉพาะอย่างยิ่งเมื่อตัวอย่างถูกสร้างขึ้นอย่างชัดเจนเพื่อให้มีคุณสมบัติเฉพาะ (เช่นเมื่อออกแบบมาเป็นตัวอย่างที่ตอบโต้ต่อความคิดที่ผิดพลาดบางอย่าง)
Glen_b -Reinstate Monica

1
ฉันมักจะใช้ข้อมูลของเล่น (โดยไม่มีการเลียนแบบหรือจำลอง ) สำหรับชุดข้อมูลจริง (วัด) ที่ฉัน "ละเมิด" เพื่อสาธิตบางสิ่ง
cbeleites รองรับโมนิก้า

1
ขึ้นอยู่กับใบสมัครของคุณว่าอะไรจะดีที่สุด ตัวอย่างเช่นฉันกำลังทำโครงการด้วยข้อมูล "ปลอม" แต่อีกส่วนหนึ่งของโครงการเกี่ยวข้องกับการใช้แบบจำลองคอมพิวเตอร์ ดังนั้นมันอาจสร้างความสับสนให้ผู้อ่านในการอ้างถึงข้อมูลปลอมว่า "จำลอง" ซึ่งหมายความว่าข้อมูลมาจากการจำลองอย่างไม่ถูกต้อง ดังนั้นฉันจึงพึ่ง "ประดิษฐ์" และบางครั้งฉันก็อธิบายข้อมูลว่า "ผลิตแล้ว" โดยส่วนตัวแล้วฉันจะหลีกเลี่ยง "สังเคราะห์" สำหรับฉันในระยะนี้จะแปลว่าข้อมูลเป็นการรวมกันของแหล่งข้อมูลอื่น ๆ ("การสังเคราะห์" ของเช่นข้อมูล A และข้อมูล B)
Ceph

12

หากคุณต้องการที่จะอ้างถึงข้อมูลของคุณโกหกคุณต้องการจะอยู่ใน บริษัท ที่ดีเป็นที่คำว่าฟรานซิสอินส์ใช้เพื่ออธิบายตอนนี้มีชื่อเสียงของเขาสี่

จาก Anscombe, FJ (2516) " กราฟในการวิเคราะห์ทางสถิติ " สถิติ 27 (1):

บางจุดเหล่านี้แสดงโดยชุดข้อมูลสี่ชุดซึ่งแต่ละชุดประกอบด้วยคู่ที่สิบเอ็ด (x, y) ที่แสดงในตาราง

แต่ฉันคิดว่าข้อควรระวังของคุณอยู่ในอันดับที่ดีเนื่องจาก OED ของฉัน (v4) ดูเหมือนว่าจะบ่งบอกว่าการใช้งานเรื่องสมมตินี้ล้าสมัย

สมมติว่า

(fɪktɪʃəs)

[F L. fictīci-us (f. fing tore กับแฟชั่น, แกล้ง) + -ous: ดู -itious.]

1.1 † a.1.a ประดิษฐ์ซึ่งต่างกับธรรมชาติ (obs.) b.1.b ซอฟท์แวร์ปลอม 'เลียนแบบ' หลอกลวง; ของปลอม.


ในแง่ของการอ่านคำแนะนำแรก & ความคิดเห็นเป็นทางเลือกที่ดีกว่ามาก ไม่จำเป็นต้องใช้คำที่ซับซ้อนผิดปกติ
ทิม

1
@Tim: ฉันต้องการที่จะเห็นด้วย แต่ฉันไม่แน่ใจว่าสิ่งที่ฉันจะเห็นด้วยกับ คุณกำลังบอกว่าเรื่องโกหกจะเป็นทางเลือกที่ไม่ดีแม้ว่าจะเคยใช้ในบริบทที่คล้ายคลึงกันมาก่อน เพราะนั่นคือสิ่งที่ฉันพูด
AkselA

7

ในด้านไอทีเรามักจะเรียกมันว่าข้อมูลจำลองซึ่งสามารถนำเสนอผ่านการจำลอง (แอปพลิเคชัน)

ข้อมูล mockup ยังสามารถนำเสนอผ่านแอปพลิเคชันที่ทำงานได้อย่างสมบูรณ์ตัวอย่างเช่นเพื่อทดสอบการทำงานของแอปพลิเคชันในลักษณะที่ควบคุม


5
จุดดี แต่ฉันเชื่อว่าข้อมูลจำลองและข้อมูลจำลองไม่เหมือนกันทุกประการ เมื่อสร้างข้อมูลจำลองสำหรับการทดสอบหน่วยคุณต้องการเพียงเพื่อรักษาคุณสมบัติพื้นฐานบางอย่างของข้อมูลจริงในขณะที่เมื่อใช้ข้อมูลจำลองสำหรับการวิเคราะห์ทางสถิติคุณมักจะใช้ตัวอย่างข้อมูลที่ซับซ้อนมากขึ้น
ทิม

2
ฉันยังเชื่อว่า ErikE นั้นถูกต้อง แต่เมื่อคุณเขียนรหัสวิเคราะห์คุณอาจต้องการข้อมูลจริงหรือข้อมูลจำลอง ข้อมูลจำลองอาจมีขนาดใหญ่เท่าที่คุณต้องการให้เป็น IMO
Mathijs Segers

1
วิธีปฏิบัติอาจแตกต่างกันไปตามการใช้คำศัพท์ฉันเดา สำหรับการทดสอบและการวิเคราะห์ของเราหลายครั้งเราใช้ข้อมูลสดที่ "คลี่คลาย" เพื่อเหตุผลด้านความปลอดภัยและการไม่เปิดเผยชื่อ สำหรับคนอื่นเราสร้างข้อมูลกระดูกเปล่าเหมือนที่ Tim อธิบาย ฉันไม่มีความเห็นที่แข็งแกร่ง แต่เราใช้คำว่า mockup ค่อนข้างหลวม
ErikE

3

ฉันเห็นคำแนะนำซ้ำ ๆ สำหรับคำว่า "ข้อมูลสังเคราะห์" อย่างไรก็ตามคำนั้นมีการใช้อย่างกว้างขวางและมีความหมายแตกต่างจากสิ่งที่คุณต้องการแสดง: https://en.wikipedia.org/wiki/Synthetic_data

ฉันไม่แน่ใจว่ามีคำศัพท์ทางวิทยาศาสตร์ที่ยอมรับกันโดยทั่วไป แต่คำว่า "ข้อมูลตัวอย่าง" ดูเหมือนยากที่จะเข้าใจผิดใช่ไหม


1
บทความนั้นดูเหมือนสับสนเล็กน้อย - ความสัมพันธ์กับการไม่เปิดเผยชื่อนั้นค่อนข้างผอมบาง
Matt Krause

+1 แต่ฉันเห็นด้วยกับความคิดเห็นก่อนหน้า: นอกเหนือจากย่อหน้าที่สอง (บอกว่าข้อมูลสังเคราะห์เป็นประเภทของข้อมูลที่ไม่ระบุชื่อ) ส่วนที่เหลือของบทความ Wikipedia ดูเหมือนจะอธิบายสิ่งที่ผู้ถามต้องการ นั่นคือข้อมูลที่สร้างขึ้นจริง
Darren Cook

3

ฉันพบคำว่า 'ข้อมูลปลอม' ในจำนวนที่พอใช้ ฉันคิดว่ามันอาจมีความหมายเชิงลบบางอย่าง แต่ฉันได้ยินบ่อยครั้งพอที่มันไม่ได้ลงทะเบียนเชิงลบสำหรับฉัน

FWIW, Andrew Gelman ก็ใช้เช่นกัน:

https://statmodeling.stat.columbia.edu/2009/09/04/fake-data_simul/

https://statmodeling.stat.columbia.edu/2019/03/23/yes-i-really-really-really-like-fake-data-simulation-and-i-cant-stop-talking-about-it/

https://books.google.dk/books?id=lV3DIdV0F9AC&pg=PA155&lpg=PA155&dq=fake+data+simulation&source=bl&ots=6ljKB6StQ4&sig=ACfU3U17GLP_84q_HfIQB4u5O6wV0yA2Aw&hl=en&sa=X&ved=2ahUKEwiF2_eB0uvjAhWswcQBHSn5Cn04ChDoATAAegQICRAB#v=onepage&q=fake%20data%20simulation&f=false

การค้นหา google อย่างรวดเร็วสำหรับ 'ข้อมูลปลอม' จะแสดงผลลัพธ์จำนวนมากที่ดูเหมือนจะใช้คำนี้ในทำนองเดียวกัน:

https://scientistseessquirrel.wordpress.com/2016/03/10/good-uses-for-fake-data-part-1/

http://modernstatisticalworkflow.blogspot.com/2017/04/an-easy-way-to-simulate-fake-data-from.html

https://clayford.github.io/dwir/dwr_12_generating_data.html

และมีแม้กระทั่งfakeRแพคเกจซึ่งแสดงให้เห็นว่านี่เป็นเรื่องปกติ: https://cran.r-project.org/web/packages/fakeR/fakeR.pdf


2

ฉันใช้คำอื่นขึ้นอยู่กับลักษณะที่ฉันใช้ข้อมูล หากฉันพบชุดข้อมูลที่สร้างขึ้นมาแล้วและชี้ไปที่อัลกอริทึมของฉันในลักษณะที่ยืนยันแล้วคำว่า "สังเคราะห์" ก็ใช้ได้

อย่างไรก็ตามบ่อยครั้งที่ฉันใช้ข้อมูลประเภทนี้ฉันได้ประดิษฐ์ข้อมูลด้วยความตั้งใจเฉพาะในการแสดงความสามารถของอัลกอริทึมของฉัน กล่าวอีกนัยหนึ่งฉันคิดค้นข้อมูลเพื่อวัตถุประสงค์เฉพาะในการได้รับ "ผลลัพธ์ที่ดี" ในสถานการณ์เช่นนี้ฉันชอบคำว่า "วางแผน" พร้อมกับคำอธิบายของความคาดหวังของฉันสำหรับข้อมูล นี่เป็นเพราะฉันไม่ต้องการให้ใครทำผิดที่คิดว่าฉันชี้อัลกอริทึมของฉันไปที่ชุดข้อมูลสังเคราะห์โดยพลการบางอย่างที่ฉันพบว่าโกหกและมันก็ใช้งานได้ดีจริงๆ ถ้าฉันมีข้อมูลเชอร์รี่ที่เลือก (จนถึงจุดที่สร้างขึ้นจริง) โดยเฉพาะเพื่อให้อัลกอริทึมของฉันทำงานได้ดีฉันก็พูดเช่นนั้น เนื่องจากผลลัพธ์ดังกล่าวแสดงหลักฐานว่าอัลกอริทึมของฉันสามารถทำได้ผลงานออกมาได้ดี แต่มีหลักฐานเพียงอ่อนแอมากว่าหนึ่งอาจคาดหวังขั้นตอนวิธีการที่จะทำงานออกมาได้ดีโดยทั่วไป คำว่า "contrived" นั้นสรุปความจริงที่ว่าฉันได้เลือกข้อมูลที่มี "ผลลัพธ์ที่ดี" ในใจ

"นั่นให้ความประทับใจกับข้อมูลที่ฉ้อโกงหรือไม่"

ไม่ แต่สิ่งสำคัญคือต้องมีความชัดเจนเกี่ยวกับที่มาของชุดข้อมูลใด ๆ และความคาดหวังเบื้องต้นของคุณในฐานะผู้ทดสอบเมื่อรายงานผลลัพธ์ของคุณในชุดข้อมูลใด ๆ คำว่า"การหลอกลวง"อย่างชัดเจนรวมถึงแง่มุมของการปกปิดบางสิ่งบางอย่างหรือโกหกทันที วิธีที่ # 1 เพื่อหลีกเลี่ยงการทุจริตในวิทยาศาสตร์คือการซื่อสัตย์และตรงไปตรงมาเกี่ยวกับลักษณะของข้อมูลและความคาดหวังของคุณ กล่าวอีกนัยหนึ่งถ้าข้อมูลของคุณถูกประดิษฐ์ขึ้นมาและคุณไม่สามารถพูดได้มากและมีความคาดหวังว่าข้อมูลนั้นไม่ได้ถูกประดิษฐ์ขึ้นมาหรือแย่กว่านั้นคือคุณอ้างว่าข้อมูลถูกรวบรวมในรูปแบบที่ไม่ได้ประดิษฐ์ขึ้นมา แน่นอนแล้วนั่นคือ"การทุจริต" อย่าทำอย่างนั้น หากคุณต้องการใช้คำพ้องความหมายสำหรับคำว่า "ประดิษฐ์" ที่ "ฟังดูดีกว่า" เช่น "สังเคราะห์" ไม่มีใครจะผิดคุณ แต่ในเวลาเดียวกันฉันไม่คิดว่าใครจะสังเกตเห็นความแตกต่างยกเว้นคุณ

หมายเหตุด้าน:

ชัดเจนน้อยกว่าคือสถานการณ์ที่มีคนอ้างว่ามีความคาดหวังมาก่อนซึ่งจริง ๆ แล้วโพสต์คำอธิบายนี้ นี่เป็นการวิเคราะห์ข้อมูลที่หลอกลวงด้วย

มีอันตรายเมื่อเลือกข้อมูลโดยเฉพาะอย่างยิ่งด้วยความตั้งใจที่จะ "แสดง" ความสามารถของอัลกอริทึมซึ่งมักเป็นกรณีที่มีข้อมูลสังเคราะห์

DHHDD

HDHD

ไม่มีปัญหาในการทำเช่นนี้ตราบใดที่คุณซื่อสัตย์และตรงไปตรงมาเกี่ยวกับสิ่งที่คุณทำ หากคุณมีความเจ็บปวดในการสร้างชุดข้อมูลที่ให้ผลลัพธ์ที่ดีให้พูดเช่นนั้น ตราบใดที่คุณให้ผู้อ่านทราบขั้นตอนที่คุณได้ทำในการวิเคราะห์ข้อมูลพวกเขามีข้อมูลที่จำเป็นในการชั่งน้ำหนักหลักฐานอย่างมีประสิทธิภาพสำหรับหรือเทียบกับสมมติฐานของคุณ เมื่อคุณไม่ได้เที่ยงตรงหรือไม่ได้ตรงไปตรงมาแล้วนี้อาจจะให้ความรู้สึกว่าหลักฐานของคุณจะดีกว่ามันคือเรื่องจริง เมื่อคุณรู้น้อยกว่าความซื่อสัตย์และตรงไปตรงมาเพื่อทำให้หลักฐานของคุณดูแข็งแกร่งกว่าที่เป็นจริงนั่นคือการหลอกลวง.

ในกรณีใด ๆ นี่คือเหตุผลที่ฉันชอบคำว่า "contrived" สำหรับชุดข้อมูลดังกล่าวพร้อมกับคำอธิบายสั้น ๆ ว่าพวกเขาเป็นจริงเลือกด้วยสมมติฐานในใจ "Contrived" บ่งบอกถึงความรู้สึกที่ไม่เพียง แต่ฉันสร้างชุดข้อมูลสังเคราะห์ขึ้นมา แต่ฉันก็ทำเช่นนั้นด้วยความตั้งใจเฉพาะที่สะท้อนถึงความจริงที่ว่าสมมติฐานของฉันมีอยู่แล้วก่อนที่จะสร้างชุดข้อมูลของฉัน

ADx.y

TL; DR

ใช้คำใดก็ได้ที่คุณต้องการ "สังเคราะห์", "ประดิษฐ์", "ประดิษฐ์", "ปลอม" แต่คำที่คุณใช้คือไม่เพียงพอที่จะให้แน่ใจว่าผลลัพธ์ของคุณจะไม่ได้เข้าใจผิด ตรวจสอบให้แน่ใจว่าคุณมีความชัดเจนในรายงานของคุณเกี่ยวกับวิธีที่ข้อมูลมารวมถึงความคาดหวังของคุณสำหรับข้อมูลและสาเหตุที่คุณเลือกข้อมูลที่คุณเลือก


แม้ว่าคำตอบที่นี่จะทับซ้อนกันและเกือบทุกจุดให้คะแนนที่ดีฉันคิดว่าดีที่สุดบ่งบอกถึงจุดสำคัญที่ไม่มีคำเดียวที่จะสื่อให้ผู้อ่านทุกคนทราบถึงเจตนาที่อยู่เบื้องหลังการสร้างข้อมูล reaons สามารถอยู่ในช่วงจากไม่เพียง แต่เหมาะสม แต่จำเป็นสำหรับวัตถุประสงค์ผ่านความเกียจคร้าน (ตำราเบื้องต้นไม่ดี) จนถึงการโกงและการฉ้อโกง การอธิบายว่าทำไมคุณถึงทำอย่างนั้นอาจเป็นความคิดที่ดี
Nick Cox

... เหตุผล ...
Nick Cox

1

ก่อนอื่นไม่มีเหตุผลที่จะไม่เรียกมันว่า "ชุดข้อมูล" ไม่มีการตกลงกันอย่างกว้างขวางตามคำศัพท์สำหรับข้อมูล "ปลอม" กับ "จำลอง" เทียบกับ ... หากเป้าหมายนั้นชัดเจนชัดเจนดีที่สุดที่จะอุทิศประโยคแทนคำเพื่อให้มีคุณสมบัติว่าชุดข้อมูลนี้คืออะไร หลังจากนั้นคุณสามารถผ่อนคลายการกำหนดและเพียงอ้างถึงข้อมูลของคุณเป็นข้อมูล

"Synthetic", "Artificial" ไม่ได้แยกความแตกต่างจากชุดข้อมูล "จำลอง" MCMC ตัวอย่างอื่นในใจของฉัน การใช้ตัวสร้างตัวเลข quasirandom กับเมล็ดพืชคงที่ (ตามการฝึกอบรมที่เหมาะสมจะกำหนด) ยังสร้างชุดข้อมูลสังเคราะห์หรือเทียม

หากจุดของการสร้างชุดข้อมูลสำหรับภาพประกอบเฉพาะแทนที่จะสร้างอินสแตนซ์หรือการรับรู้จากโมเดลความน่าจะเป็นฉันคิดว่าการเรียกชุดข้อมูลนั้นเป็น " ชุดข้อมูลตัวอย่าง " ดีกว่า ข้อมูลเช่นนี้คล้ายกับสี่ของ Anscombe: เป็นนามธรรมและไม่น่าเชื่อถือ แต่มีจุดประสงค์เพื่อแสดงจุด


1

ในชีววิทยาการวิเคราะห์บางครั้งก็แสดงให้เห็นโดยใช้ชุดข้อมูลของสัตว์ในตำนาน การระบุว่าข้อมูลนั้นจำลองขึ้นอยู่กับผู้เขียน / ผู้ตรวจสอบหรือไม่

คู่มือนักนิเวศวิทยาเกี่ยวกับแบบจำลองสัตว์ปี 2009

บทเรียนเหล่านี้อธิบายชุดของการวิเคราะห์ทางพันธุกรรมเชิงปริมาณในประชากรของกริฟฟอน (สะท้อนให้เห็นถึงการประนีประนอมระหว่างอคตินกและสัตว์เลี้ยงลูกด้วยนมของผู้เขียน) ในขณะที่กริฟฟอนเป็นสัตว์ในตำนานข้อมูลที่ให้มาจึงจำเป็นต้องจำลอง

ความแปรปรวนของผลกระทบคงที่และการประมาณความสามารถในการทำซ้ำและมรดก: ปัญหาและวิธีแก้ปัญหา, 2017

เพื่อแสดงสิ่งนี้ให้เรากลับไปที่ชุดข้อมูลยูนิคอร์นของ Wilson (2008) มันเป็นความจริงที่รู้กันว่าในยูนิคอร์นความยาวของฮอร์นจะแตกต่างกันไปตามมวลร่างกายของแต่ละบุคคล (ความชัน: β = 0.403 สำหรับแบบจำลองเต็มรูปแบบรวมถึงอายุเพศและปฏิสัมพันธ์ของพวกเขา)


1
วิธีการที่น่าสนใจ! ฉันคิดว่านี่น่าจะดีสำหรับการสอนสถิตินักเรียนชีววิทยา เมื่อนำเสนอต่อสาธารณชนแม้ว่าฉันไม่แน่ใจว่าสิ่งนี้จะให้ความประทับใจที่ถูกต้องหรือไม่
Frans Rodenburg

0

โดยสังหรณ์ใจฉันจะไปที่คำว่า 'ข้อมูลจำลอง' ในแง่เดียวกันว่า "Lorem ipsum ... " เรียกว่า 'ข้อความจำลอง' คำว่า 'Dummy' นั้นค่อนข้างทั่วไปและเข้าใจง่ายสำหรับผู้คนที่มาจากภูมิหลังที่หลากหลายและมีแนวโน้มที่จะถูกตีความผิดโดยผู้อ่านที่มีภูมิหลังทางสถิติน้อยกว่า


2
หากอยู่ในบริบทการถดถอยฉันจะหลีกเลี่ยงการโหลด "จำลอง" มากเกินไปเพื่อมิให้คุณมีตัวแปรจำลองที่เข้ารหัสข้อมูลจำลอง
Matt Krause

ฉันเห็นด้วยฉันจะหลีกเลี่ยงเป็นการส่วนตัวเนื่องจาก "Dummy" มีความหมายแฝงอยู่แล้วในการถดถอย เนื่องจากมีข้อกำหนดมากมายที่มีอยู่จึงเป็นการดีที่สุดที่จะหลีกเลี่ยงข้อกำหนดเหล่านั้นซึ่งอาจหมายถึงสิ่งต่าง ๆ สำหรับคนอื่น
กลั้วราชิดซิม

0

ข้อมูลเป็นภาษาละตินสำหรับรับที่ใช้ในยุคปัจจุบันเป็นชวเลขสำหรับชุดที่กำหนดของข้อเท็จจริงที่บันทึกไว้ ดังนั้นในทางที่อ้างถึงการประดิษฐ์บันทึกเป็นข้อเท็จจริงบางอย่างที่ได้รับจะเป็นความขัดแย้งที่เปิดเผย

อย่างไรก็ตามเนื่องจากการใช้ข้อมูลที่เพิ่มขึ้นเพื่ออ้างถึงการบันทึกโดยไม่คำนึงถึงข้อสันนิษฐานดั้งเดิมของบันทึกที่เป็นข้อเท็จจริง - เราเข้าใจกันอย่างมีความสุขเมื่อพูดถึงการบันทึกที่อาจจะใช่หรือไม่จริง - ดังนั้นข้อมูลจริง / ปลอม

ฉันจะสรุปประสบการณ์ของฉันเกี่ยวกับวิธีแก้ไขการบันทึกที่ประดิษฐ์ขึ้นด้านล่าง ฉลากที่ใช้นั้นขึ้นอยู่กับว่ามีใครสมมติว่าเรากำลังพูดถึงข้อมูลในรูปแบบการบันทึกที่ประดิษฐ์ขึ้นมาซึ่งมีจุดประสงค์ที่จะดูสมจริงพอสมควรเพื่อเปิดใช้การวิเคราะห์เพิ่มเติมหรือข้อมูลเป็นภาระการคำนวณ

  • ในการวิเคราะห์ / วิทยาศาสตร์ / ข้อมูลเชิงกลยุทธ์วงการที่ปรึกษาคนที่อยู่บ่อยที่สุดชุดประดิษฐ์ของการบันทึกที่สร้างขึ้นภายใต้สมมติฐานที่สมจริงเป็นข้อมูลที่สังเคราะห์ - และบางครั้งข้อมูลที่จำลอง บันทึกประดิษฐ์สร้างขึ้นโดยใช้สมมติฐานราคาน้ำมันดิบจะเรียกว่าเป็นชุดของเล่น
  • ในหมู่วิศวกรซอฟต์แวร์ข้อมูลปลอม , ข้อมูลหุ่น , ข้อมูลทำขึ้นและข้อมูลที่จำลองขึ้นป้ายบ่อยครั้งที่ส่วนใหญ่เป็นคำแนะนำที่จะบันทึกไม่จำเป็นต้องหมายถึงการมีคุณสมบัติที่เหมือนจริง แต่มีคุณสมบัติขั้นพื้นฐานที่มีข้อมูลเดิม (ข้อมูลอายุอยู่เสมอตัวเลข ที่อยู่อีเมลจะมีสตริงที่มี“ @”) เสมอ
  • นักวิชาการนักวิจัยจะอ้างถึงชุดที่มีเหตุผลของการบันทึกประดิษฐ์หลอกข้อมูลหรือข้อมูลจำลอง ในวงการบางอย่างถ้าชุดประดิษฐ์ของการสังเกตเป็นผลมาจากการจำลอง Monte Carlo ก็อาจจะเรียกขานว่าMonte Carlo การบันทึกแบบกึ่งสมจริงนั้นมักใช้เพื่อวัตถุประสงค์ในการอธิบายหรือทดสอบสมมติฐานอื่นและเรียกว่าชุดข้อมูลของเล่น

2
"Monte Carlo" เป็นชื่อของวิธีการดังนั้นชื่อ "ภาษาพูด" จะทำให้เข้าใจผิดมาก
ทิม

@Tim แน่นอนมันอาจถูกมองว่าเป็นความเข้าใจผิด อย่างไรก็ตามภาษาเป็นเพียงเครื่องมือบนพื้นฐานของฉันทามติในชุมชนเป็นวิธีการอ้างอิงถึงบางสิ่งบางอย่าง มากจนเราอ้างถึงเว็บไซต์นี้เกี่ยวกับการบันทึกและการวัดตามที่กำหนด (ภาษาอังกฤษสำหรับข้อมูลละติน) ถ้าฉันจะยอมรับมุมมองของคุณฉันจะพบว่าการวัดที่จำลองเป็นของปลอมที่น่าสงสัยอย่างมาก
famargar

ฉันหวังว่าคุณจะเห็นตอนนี้ที่อ้างถึง "การจำลอง Monte Carlo" เพียงแค่ "Monte Carlo" เป็นเวอร์ชั่นที่ทันสมัยของการอ้างอิงถึง "การสังเกตที่กำหนด" เป็น "ที่ได้รับ" ฉันแก้ไขคำตอบของฉันเพื่อรวมสิ่งนี้เข้ากับการพิจารณาความหมายและการใช้คำว่า“ data” ที่มากกว่าเดิม
famargar

1
"นักวิจัยทางวิชาการจะอ้างถึงชุดของการบันทึกที่ประดิษฐ์ขึ้นจริงบ่อยที่สุดในฐานะข้อมูลหลอก": ฉันจำไม่ได้ว่าเคยเห็นเทอมนี้ในการวิจัยเชิงวิชาการมากกว่า 40 ปี "นักวิชาการโดยทั่วไปไม่มีประโยชน์สำหรับการบันทึกที่ไม่สมจริง": ขออภัย แต่การนัดหยุดงานค่อนข้างผิด นักวิชาการในหลาย ๆ สาขาใช้การจำลองสถานการณ์หลายแบบ แม้แต่การจำลองที่ไม่สมจริงก็มีประโยชน์เช่นความแปรปรวนของตัวอย่างปกติเป็นบริบทที่สำคัญสำหรับการประเมินความไม่เป็นมาตรฐาน
Nick Cox

@NickCox Pseudodata ใช้บ่อยในวิชาฟิสิกส์และฉันได้เห็นมันในชีววิทยาและสถิติ อยากรู้ว่าฟิลด์ของคุณคืออะไรและฟิลด์ของคุณอ้างถึงสถานการณ์จำลองอย่างไร สำหรับข้อมูลที่ไม่สมจริงฉันสร้างความแตกต่างระหว่างความไม่สมจริงและกึ่งจริง ฉันคิดถึงการใช้งานของคุณหรือไม่?
famargar
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.