โมเดลนั้นพอดีกับข้อมูลหรือเป็นข้อมูลที่ติดตั้งกับโมเดลหรือไม่?


20

มีความแตกต่างทางแนวคิดหรือขั้นตอนระหว่างการปรับโมเดลให้เป็นข้อมูลและการปรับข้อมูลให้พอดีกับโมเดลหรือไม่? ตัวอย่างของถ้อยคำแรกสามารถดูได้ในhttps://courses.washington.edu/matlab1/ModelFitting.htmlและที่สองในhttps://reference.wolfram.com/applications/eda/FittingDataToLinearModelsByLeast-SquaresTechniques.html .


7
+1 ฉันไม่ประทับใจกับลิงค์ที่สอง แต่ฉันได้รับความบันเทิง
Laconic

มีหลายรุ่นที่เหมาะกับข้อมูลปัจจุบัน แต่โดยทั่วไปแล้วข้อมูลจะเหมาะที่สุดกับรุ่นหนึ่ง
Agnius Vasiliauskas

คำตอบ:


35

สวยมากทุกแหล่งหรือบุคคลที่ผมเคยมีความสัมพันธ์ที่เคยมียกเว้นแหล่งวุลแฟรมคุณเชื่อมโยงหมายถึงกระบวนการที่เหมาะสมแบบจำลองข้อมูล สิ่งนี้สมเหตุสมผลเนื่องจากตัวแบบเป็นวัตถุแบบไดนามิกและข้อมูลเป็นแบบสแตติก (aka ถาวรและคงที่)

ในการพูดถึงเรื่องนี้ฉันชอบวิธีการของ Larry Wasserman ในเรื่องนี้ ในการบอกของเขาแบบจำลองทางสถิติคือชุดของการแจกแจง ตัวอย่างเช่นการรวบรวมการแจกแจงปกติทั้งหมด:

{Normal(μ,σ):μ,σR,σ>0}

หรือชุดการแจกแจงปัวซองทั้งหมด:

{Poisson(λ):λR,λ>0}

การกระจายข้อมูลไปยังข้อมูลที่เหมาะสมคืออัลกอริธึมใด ๆ ที่รวมโมเดลสถิติเข้ากับชุดข้อมูล (ข้อมูลได้รับการแก้ไข) และเลือกการกระจายอย่างใดอย่างหนึ่งจากแบบจำลองอย่างที่ดีที่สุดสะท้อนถึงข้อมูล

แบบจำลองเป็นสิ่งที่เปลี่ยนแปลง (เรียงลำดับ): เรากำลังยุบจากการรวบรวมความเป็นไปได้ทั้งหมดเป็นทางเลือกที่ดีที่สุด ข้อมูลเป็นเพียงข้อมูล ไม่มีอะไรเกิดขึ้นกับมันเลย


16

ในด้านการสร้างแบบจำลอง Rasch มันเป็นเรื่องธรรมดาที่จะใส่ข้อมูลให้เข้ากับแบบจำลอง แบบจำลองนั้นถูกต้องและเป็นหน้าที่ของนักวิเคราะห์ในการค้นหาข้อมูลที่สอดคล้องกับมัน บทความวิกิพีเดียใน Rasch มีรายละเอียดเพิ่มเติมเกี่ยวกับวิธีการและที่ว่าทำไม

แต่ฉันเห็นด้วยกับคนอื่น ๆ ว่าโดยทั่วไปแล้วสถิติเราเข้ากับแบบจำลองข้อมูลเพราะเราสามารถเปลี่ยนรูปแบบ แต่รู้สึกว่าเป็นรูปแบบที่ไม่ดีในการเลือกหรือแก้ไขข้อมูล


7

โดยปกติข้อมูลที่สังเกตได้รับการแก้ไขในขณะที่รูปแบบคือไม่แน่นอน (เช่นเพราะพารามิเตอร์ที่ประมาณ) ดังนั้นจึงเป็นรูปแบบที่ทำเพื่อให้พอดีกับข้อมูลที่ไม่ได้เป็นวิธีอื่น ๆ รอบ ๆ (โดยปกติผู้คนจะหมายถึงกรณีนี้เมื่อพวกเขาพูดการแสดงออก)

เมื่อมีคนบอกว่าพวกเขาพอดีข้อมูลกับแบบจำลองฉันพบว่าตัวเองกำลังพยายามคิดออกว่าพวกเขาทำอะไรกับข้อมูล .

[ตอนนี้ถ้าคุณแปลงข้อมูลนั่นจะเป็น 'การปรับข้อมูลให้เหมาะกับแบบจำลอง' แต่คนแทบจะไม่เคยพูดแบบนั้นในกรณีนี้]


5
การลบค่าผิดปกติอาจเป็น "การปรับข้อมูลให้เหมาะสมกับโมเดล"
Federico Poloni

1
การใช้ถ้อยคำอาจสมเหตุสมผลถ้าพวกเขาคิดว่ามันเป็น "เหมาะสม (ข้อมูลกับแบบจำลอง)" นั่นคือคุณกำลังทำกระบวนการของการปรับพอดีและกระบวนการของการกระชับนั้นเริ่มต้นจากข้อมูลและแปลงเป็นแบบจำลอง ฉันเห็นด้วยว่านั่นเป็นการตีความที่ผิดปกติน้อยกว่าเมื่อเทียบกับการแยกวิเคราะห์ "(fitting X) ถึง Y" แต่ฉันใช้มันเป็นเหตุผลว่าทำไมบางคนถึงพูดอย่างมีเหตุผล
RM

1
@FedericoPoloni Outliers โดยปกติแล้วจะมีการกำหนดแบบแยกต่างหากของโมเดลที่คุณต้องการใช้ในภายหลัง ดังนั้นแม้ว่าเราจะต้องการเรียกมันว่าข้อมูลที่เหมาะสมมันจะไม่เป็นแบบจำลอง แต่เป็นอย่างอื่น
BartoszKP

1
+1 มีเหตุผลที่เรียกว่า "ข้อมูล" - มันคือสิ่งที่ได้รับให้ดูที่มาของคำละติน: latindictionary.wikidot.com/verb:dare
Christoph Hanck

2

โดยปกติแล้วเราถือว่าข้อมูลของเราตรงกับ "โลกแห่งความจริง" และทำการแก้ไขใด ๆ หมายความว่าเรากำลังย้ายจากการสร้างแบบจำลอง "โลกแห่งความจริง" ตัวอย่างเช่นเราต้องระมัดระวังในการลบค่าผิดปกติแม้ว่าจะทำให้การคำนวณดีขึ้นค่าผิดปกติก็ยังคงเป็นส่วนหนึ่งของข้อมูลของเรา

เมื่อทำการทดสอบแบบจำลองหรือการประมาณค่าคุณสมบัติของตัวประมาณค่าโดยใช้ bootstrap หรือเทคนิคการสุ่มใหม่เราอาจจำลองข้อมูลใหม่โดยใช้แบบจำลองโดยประมาณและข้อมูลต้นฉบับของเรา สิ่งนี้ทำให้สมมติฐานว่าโมเดลถูกต้องและเราไม่ได้แก้ไขข้อมูลต้นฉบับของเรา

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.