เป็นไปได้หรือไม่ที่จะย่อยสลายส่วนตกค้างที่ติดตั้งให้เป็นอคติและความแปรปรวนหลังจากติดตั้งแบบจำลองเชิงเส้นแล้ว?


9

ฉันต้องการจัดประเภทจุดข้อมูลว่าต้องการโมเดลที่ซับซ้อนกว่าหรือไม่ต้องการโมเดลที่ซับซ้อนกว่านี้อีก ความคิดปัจจุบันของฉันคือการปรับข้อมูลทั้งหมดให้เป็นแบบจำลองเชิงเส้นอย่างง่ายและสังเกตขนาดของเศษเหลือเพื่อทำการจัดหมวดหมู่นี้ จากนั้นฉันก็อ่านเรื่องอคติและความแปรปรวนของข้อผิดพลาดและรู้ว่าถ้าฉันสามารถคำนวณอคติโดยตรงมันอาจเป็นการวัดที่ดีกว่าจากนั้นก็ทำงานกับข้อผิดพลาดทั้งหมด (ส่วนที่เหลือหรือส่วนที่เป็นมาตรฐาน)

เป็นไปได้หรือไม่ที่จะประเมินความลำเอียงโดยตรงกับตัวแบบเชิงเส้น? มีหรือไม่มีข้อมูลทดสอบหรือไม่ การตรวจสอบข้ามจะช่วยได้ไหม

ถ้าไม่เราสามารถใช้ bootstrapping ทั้งชุดแบบเส้นตรง (ฉันคิดว่ามันเรียกว่า bagging) เพื่อหาค่าอคติโดยประมาณได้หรือไม่?


1
บางทีสิ่งเหล่านี้อาจเทียบเท่า (ตกค้างเทียบกับอคติ) เพราะความแปรปรวนเป็นค่าคง
kmace

1
คุณช่วยอธิบายสิ่งที่คุณมีความหมายด้วยคำแถลงแรกของโพสต์ของคุณได้ไหม ในสิ่งที่คุณต้องการจำแนก "จุดข้อมูล" (การสังเกตแต่ละจุด) เป็น "ต้องการความซับซ้อนมากขึ้นหรือไม่ต้องการโมเดลที่ซับซ้อนมากขึ้น" ไม่ชัดเจนสำหรับฉันว่าสิ่งนี้มีความหมายอย่างไร (แม้ว่าจะฟังดูเหมือนการตรวจจับที่ผิดปกติหรือปัญหาประเภทอื่น ๆ ที่เหมาะสม) หรือความเกี่ยวข้องกับคำถามในภายหลังเกี่ยวกับการประเมินอคติ
Ryan Simmons

สิ่งที่ฉันหมายถึงคือมีกลุ่มย่อยของกลุ่มตัวอย่างที่มีฟังก์ชั่นเป้าหมายที่แตกต่างกัน f(x). ดังนั้นสมมติว่าสำหรับตัวอย่างส่วนใหญ่ฟังก์ชันเป้าหมายที่แท้จริงจะเป็นดังนี้:f1(x)=3x1+2x2 และสำหรับกลุ่มตัวอย่างน้อยฟังก์ชันเป้าหมายคือ: f2(x)=3x1+2x2+x1x2. ถ้าฉันไม่อนุญาตให้มีเงื่อนไขการโต้ตอบในแบบจำลองของฉัน (ชุดสมมติฐานของฉันไม่มีพวกเขา) แล้วฉันควรจะพอดีกับข้อมูลทั้งหมดและดูตัวอย่างที่มีข้อผิดพลาดขนาดใหญ่อาจมีฟังก์ชั่นเป้าหมายf2
kmace

2
ดังที่ไรอันได้ชี้ให้เห็นแล้วคำถามไม่ได้ระบุไว้อย่างชัดเจน ความคิดเห็นของคุณชี้ไปในทิศทางของ "คุณงามความดีพอดี" แต่มันเป็นไปไม่ได้ที่จะหันหลังกลับ คุณดูเหมือนจะมีแนวคิดก่อนในใจซึ่งทำให้เข้าใจผิด คุณสามารถคำนวณสิ่งต่าง ๆ มากมายถ้าคุณรวมโมเดลและข้อมูลบางอย่างและกำหนดพารามิเตอร์โมเดล แต่เนื่องจากคุณเริ่มต้นด้วยชุดข้อมูลที่ จำกัด ทางสถิติเสมอไม่มีความจริงที่คุณสามารถค้นพบได้โดยการขุดให้หนักขึ้นหรือใช้พลั่วมากขึ้น ไม่มีวิธีที่คุณใช้จะได้ผลจริง แต่มันอาจบ่งบอกว่าคุณผิด
เทวดา

คำตอบ:


12

โดยทั่วไปคุณจะไม่สามารถแยกข้อผิดพลาด (ส่วนที่เหลือ) ออกเป็นองค์ประกอบอคติและความแปรปรวน เหตุผลง่ายๆคือโดยทั่วไปคุณไม่ทราบว่าฟังก์ชั่นที่แท้จริง จำได้ว่าผมas(^(x))=E[^(x)-(x)], และนั่น (x) เป็นสิ่งที่ไม่ทราบที่คุณต้องการประเมิน

แล้วเรื่อง bootstrapping ล่ะ? มีความเป็นไปได้ที่จะประเมินความเอนเอียงของตัวประมาณค่าโดยการบูตสแตรป แต่มันไม่เกี่ยวกับโมเดลการห่อและฉันไม่เชื่อว่าจะมีวิธีการใช้ bootstrap เพื่อประเมินอคติใน^(x), เพราะการบูตสแตรปยังคงมีพื้นฐานอยู่บนแนวคิดของความจริงและไม่สามารถสร้างชื่อจากอะไรก็ได้ทั้งๆที่มีต้นกำเนิดของชื่อ

ในการชี้แจง: การประมาณ bootstrap ของความเอนเอียงในตัวประมาณ θ^ คือ

ผมas^B=θ^* * * *()-θ^,

กับ θ^* * * *() เป็นค่าเฉลี่ยของสถิติของคุณคำนวณ B ตัวอย่างบูต กระบวนการนี้เลียนแบบการสุ่มตัวอย่างจากประชากรบางกลุ่มและคำนวณปริมาณความสนใจของคุณ ใช้งานได้เฉพาะในกรณีที่θ^ในหลักการสามารถคำนวณได้โดยตรงจากประชากร การประมาณการบูตของอคติประเมินว่าการประมาณการแบบปลั๊กอินคือเพียงแค่ทำการคำนวณแบบเดียวกันกับตัวอย่างแทนที่จะเป็นแบบประชากร

หากคุณเพียงแค่ต้องการใช้ส่วนที่เหลือของคุณในการประเมินแบบจำลองที่เป็นไปได้ทั้งหมด ถ้าคุณพูดตามความคิดเห็นคุณต้องการเปรียบเทียบโมเดลที่ซ้อนกัน1(x)=3x1+2x2 และ 2(x)=3x1+2x2+x1x2คุณสามารถทำ ANOVA เพื่อตรวจสอบว่าแบบจำลองขนาดใหญ่ช่วยลดผลรวมของข้อผิดพลาดกำลังสองได้หรือไม่


8

สถานการณ์หนึ่งที่คุณจะได้รับการประเมินการสลายตัวคือถ้าคุณมีจุดจำลองแบบ (เช่นมีมากกว่าหนึ่งคำตอบสำหรับชุดค่าผสมต่าง ๆ ของตัวทำนาย)

สิ่งนี้ จำกัด เฉพาะสถานการณ์ที่คุณสามารถควบคุมตัวแปรอิสระ (เช่นในการทดลอง) หรือที่พวกมันไม่ต่อเนื่องทั้งหมด (เมื่อมีชุดค่าผสม x ไม่มากเกินไปและคุณสามารถนำตัวอย่างค่าขนาดใหญ่มารวมกันได้ รับหลายคะแนน)

คะแนนที่ทำซ้ำจะทำให้คุณมีวิธีการประมาณค่าแบบมีเงื่อนไข ในสถานการณ์เช่นนี้มีความเป็นไปได้ที่จะสลายตัวของผลรวมที่เหลือของกำลังสองเป็นข้อผิดพลาดที่บริสุทธิ์และขาดความพอดีแต่คุณยังมีการประเมินอคติโดยตรง


ฉันไม่คิดว่ามันจะใช้ได้ พิจารณากรณีที่คุณละเว้นตัวแปรอธิบายที่สำคัญจากแบบจำลองของคุณ หากตัวแปรอธิบายนี้เป็นมุมฉากของตัวแปรอธิบายอื่น ๆ ทั้งหมดฉันเชื่อว่าไม่สามารถตรวจพบผลของมัน (หรือขาดได้) ด้วยวิธีการนี้หรือวิธีการอื่น ๆ ที่แนะนำในคำตอบอื่น ๆ
Cagdas Ozgenc

2
@Cagdas มันไม่ทำงานในทุกสถานการณ์ มันตรวจจับความลำเอียงจากแบบจำลองที่ระบุไม่ถูกต้องไม่จำเป็นต้องหายไปจากการทำนาย
Glen_b

1

ในขอบเขตการกรองคาลมานที่ค่อนข้างซับซ้อนบางครั้งผู้คนทดสอบสารตกค้าง (การวัดที่สังเกตได้ลบการวัดที่คาดการณ์ไว้) เพื่อค้นหาการเปลี่ยนแปลงแบบจำลองหรือเงื่อนไขความผิดปกติ ในทางทฤษฎีถ้าแบบจำลองนั้นสมบูรณ์แบบและเสียงนั้นเป็นแบบเกาส์เซียนแล้วส่วนที่เหลือก็ควรจะเป็นแบบเกาส์ด้วยค่าเฉลี่ยศูนย์และยังสอดคล้องกับเมทริกซ์ความแปรปรวนร่วมที่ทำนายไว้ ผู้ใช้สามารถทดสอบค่าเฉลี่ยที่ไม่ใช่ศูนย์ด้วยการทดสอบตามลำดับเช่นการทดสอบอัตราส่วนความน่าจะเป็นต่อเนื่อง (SPRT) สถานการณ์ของคุณแตกต่างกันเนื่องจากคุณมีชุดข้อมูลคงที่แทนที่จะเป็นชุดข้อมูลใหม่ที่สม่ำเสมอ แต่แนวคิดพื้นฐานของการดูตัวอย่างการกระจายตัวของสารตกค้างอาจยังคงมีอยู่

คุณระบุว่ากระบวนการที่คุณกำลังจำลองอาจเปลี่ยนแปลงเป็นครั้งคราว จากนั้นเพื่อทำสิ่งต่างๆให้มากขึ้นกับข้อมูลที่คุณมีคุณอาจต้องระบุปัจจัยอื่น ๆ ที่ทำให้เกิดการเปลี่ยนแปลงนั้น พิจารณาความเป็นไปได้ 2 ข้อ: (1) บางทีคุณอาจต้องการแบบจำลองในท้องถิ่นมากกว่าแบบจำลองระดับโลกหนึ่งตัวอย่างเช่นเนื่องจากมีความไม่เชิงเส้นที่รุนแรงเฉพาะในบางพื้นที่ปฏิบัติการหรือ (2) อาจเป็นเพราะกระบวนการเปลี่ยนแปลงตลอดเวลา

หากนี่เป็นระบบทางกายภาพและตัวอย่างของคุณไม่ได้ถูกแยกออกจากกันเป็นระยะเวลานานอาจเป็นไปได้ว่ากระบวนการเหล่านี้จะยังคงมีการเปลี่ยนแปลงอยู่ตลอดช่วงเวลาที่สำคัญ นั่นคือพารามิเตอร์ของตัวแบบที่แท้จริงอาจมีการเปลี่ยนแปลงบางครั้งยังคงมีอยู่ในช่วงระยะเวลาหนึ่ง หากข้อมูลของคุณถูกประทับเวลาคุณอาจดูสิ่งตกค้างในช่วงเวลาหนึ่ง ตัวอย่างเช่นสมมติว่าคุณมีค่า y = Ax + b โดยใช้ข้อมูลทั้งหมดของคุณค้นหา A และ b จากนั้นย้อนกลับไปและทดสอบลำดับที่เหลือ r [k] = y [k] - Axe [k] - b โดยที่ k คือดัชนีที่สอดคล้องกับเวลาตามลำดับลำดับ ค้นหารูปแบบเมื่อเวลาผ่านไปเช่นจุดที่สถิติสรุปเช่น || r [k] || อยู่สูงกว่าปกติในบางครั้ง การทดสอบตามลำดับจะมีความไวมากที่สุดในการตรวจหาข้อผิดพลาดอคติชนิดต่าง ๆ เช่น SPRT หรือ CUSUM สำหรับดัชนีเวกเตอร์แต่ละรายการ


1

คำตอบคือไม่เพราะอคติและความแปรปรวนเป็นคุณลักษณะของพารามิเตอร์แบบจำลองมากกว่าข้อมูลที่ใช้ในการประเมินพวกเขา มีข้อยกเว้นบางส่วนสำหรับข้อความนั้นที่เกี่ยวกับความเอนเอียงและความแปรปรวนที่แปรปรวน (ฮ่า!) ผ่านพื้นที่ทำนาย เพิ่มเติมเกี่ยวกับที่ด้านล่าง โปรดทราบว่านี่ไม่มีส่วนเกี่ยวข้องกับการรู้ฟังก์ชัน "ตัวจริง" บางอย่างเกี่ยวกับตัวทำนายและตัวแปรตอบกลับ

พิจารณาการประมาณของ β ในการถดถอยเชิงเส้น β^=(XTX)-1XTYที่ไหน X เป็น ยังไม่มีข้อความ×P เมทริกซ์ของผู้ทำนาย β^ คือ P×1 เวกเตอร์ของการประมาณค่าพารามิเตอร์และ Y เป็น ยังไม่มีข้อความ×1เวกเตอร์ของคำตอบ สมมติว่าเราเห็นด้วยเหตุผลว่าเรามีประชากรที่ไม่มีที่สิ้นสุดในการดึงข้อมูล (นี่ไม่ใช่เรื่องไร้สาระโดยสิ้นเชิง - ถ้าเราบันทึกข้อมูลจากกระบวนการทางกายภาพบางอย่างเราสามารถบันทึกตัวทำนายและข้อมูลการตอบสนองในอัตราที่รวดเร็ว จึงเป็นไปตามสมมติฐานที่ตั้งไว้) ดังนั้นเราจึงวาดยังไม่มีข้อความ การสังเกตแต่ละค่าประกอบด้วยค่าการตอบกลับเดียวและค่าสำหรับแต่ละค่า Pพยากรณ์ จากนั้นเราคำนวณการประมาณβ^และบันทึกค่าต่างๆ ให้เราทำตามขั้นตอนทั้งหมดและทำซ้ำยังไม่มีข้อความผมเสื้ออีR แต่ละครั้งที่ทำ ยังไม่มีข้อความแยกอิสระจากประชากร เราจะสะสมยังไม่มีข้อความผมเสื้ออีR การประมาณของ β^ซึ่งเราสามารถคำนวณความแปรปรวนของแต่ละองค์ประกอบในเวกเตอร์พารามิเตอร์ โปรดทราบว่าความแปรปรวนของการประมาณพารามิเตอร์เหล่านี้แปรผันตามสัดส่วนยังไม่มีข้อความ และเป็นสัดส่วนกับ Pสมมติว่ามีมุมฉากของผู้ทำนาย

ความเอนเอียงของแต่ละพารามิเตอร์นั้นสามารถประมาณกันได้ แม้ว่าเราอาจไม่สามารถเข้าถึงฟังก์ชั่น "ของจริง" ได้ แต่สมมติว่าเราสามารถทำการสุ่มจำนวนมากจากประชากรเพื่อคำนวณβ^อีsเสื้อซึ่งจะทำหน้าที่เป็นพร็อกซีสำหรับค่าพารามิเตอร์ "จริง" เราจะสมมติว่านี่เป็นค่าประมาณที่ไม่เอนเอียง (กำลังสองน้อยที่สุดธรรมดา) และจำนวนการสังเกตที่ใช้มีขนาดใหญ่พอสมควรซึ่งความแปรปรวนของการประมาณนี้นั้นเล็กน้อย สำหรับแต่ละตัวP พารามิเตอร์เราคำนวณ β^อีsเสื้อJ-β^Jที่ไหน J ช่วงจาก 1 ถึง ยังไม่มีข้อความผมเสื้ออีR. เราใช้ค่าเฉลี่ยของความแตกต่างเหล่านี้เป็นค่าประมาณของอคติในพารามิเตอร์ที่เกี่ยวข้อง

มีวิธีการที่เกี่ยวข้องกับความลำเอียงและความแปรปรวนของข้อมูลเอง แต่สิ่งเหล่านี้ซับซ้อนกว่าเล็กน้อย อย่างที่คุณเห็นสามารถประมาณค่าความเบี่ยงเบนและความแปรปรวนสำหรับโมเดลเชิงเส้นได้ แต่คุณจะต้องใช้ข้อมูลที่ค่อนข้างล้าสมัย ปัญหาที่ร้ายกาจยิ่งกว่าก็คือความจริงที่ว่าเมื่อคุณเริ่มทำงานกับชุดข้อมูลคงที่การวิเคราะห์ของคุณจะถูกทำให้สกปรกโดยความแปรปรวนส่วนบุคคลของคุณซึ่งคุณจะเริ่มหลงทางในสวนเส้นทางการฟอร์กแล้ว จะทำซ้ำตัวอย่าง (เว้นแต่คุณเพิ่งสร้างโมเดลเดียวและรันการวิเคราะห์นี้และมุ่งมั่นที่จะทิ้งมันไว้ตามลำพังหลังจากนั้น)

เกี่ยวกับประเด็นของข้อมูลเองคำตอบที่ถูกต้องที่สุด (เล็กน้อย) คือถ้ามีความแตกต่างระหว่างกัน Y และ Y^คุณต้องมีรูปแบบที่ซับซ้อนมากขึ้น (สมมติว่าคุณสามารถระบุตัวทำนายที่เกี่ยวข้องทั้งหมดได้อย่างถูกต้องและคุณไม่สามารถทำได้) โดยไม่ต้องไปเป็นบทความที่น่าเบื่อในลักษณะทางปรัชญาของ "ข้อผิดพลาด" บรรทัดล่างคือมีสิ่งที่เกิดขึ้นที่ทำให้แบบจำลองของคุณพลาดเครื่องหมาย ปัญหาคือการเพิ่มความซับซ้อนเพิ่มความแปรปรวนซึ่งอาจทำให้พลาดเครื่องหมายในจุดข้อมูลอื่น ดังนั้นการกังวลเกี่ยวกับการระบุแหล่งที่มาของข้อผิดพลาดในระดับจุดข้อมูลแต่ละจุดจึงไม่น่าจะเป็นความพยายามที่เกิดผล ข้อยกเว้น (ที่กล่าวถึงในย่อหน้าแรก) เกิดจากข้อเท็จจริงที่ว่าอคติและความแปรปรวนเป็นหน้าที่ของผู้ทำนายเองดังนั้นคุณอาจมีอคติขนาดใหญ่ในส่วนของพื้นที่ของผู้ทำนายและอคติที่มีขนาดเล็กลงในอีกส่วนหนึ่ง คุณสามารถประเมินสิ่งนี้ได้โดยการคำนวณY-Y^ หลายครั้ง (ที่ไหน) Y^=Xβ^ และ β^ ไม่ได้ถูกประเมินตาม Y) และวางแผนอคติ (ค่าเฉลี่ย) และความแปรปรวนเป็นฟังก์ชันของค่าของ X. อย่างไรก็ตามฉันคิดว่านั่นเป็นเรื่องที่น่าสนใจเป็นพิเศษ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.