การอนุมานเชิงสถิติภายใต้การสะกดผิดโมเดล


9

ฉันมีคำถามเกี่ยวกับระเบียบวิธีทั่วไป อาจได้รับคำตอบก่อนหน้านี้ แต่ฉันไม่สามารถค้นหาเธรดที่เกี่ยวข้องได้ ฉันจะขอบคุณพอยน์เตอร์ถึงความซ้ำซ้อนที่เป็นไปได้

( นี่คืออันที่ยอดเยี่ยม แต่ไม่มีคำตอบนี่ก็คล้าย ๆ กับวิญญาณแม้จะมีคำตอบ แต่อันหลังนั้นเฉพาะเจาะจงมากเกินไปจากมุมมองของฉันนี่ยังปิดอยู่ค้นพบหลังจากโพสต์คำถาม)


รูปแบบที่มีวิธีการทำที่ถูกต้องอนุมานทางสถิติเมื่อรูปแบบสูตรก่อนที่จะเห็นข้อมูลไม่เพียงพอที่จะอธิบายขั้นตอนการสร้างข้อมูล คำถามทั่วไปมาก แต่ฉันจะเสนอตัวอย่างโดยเฉพาะเพื่ออธิบายประเด็น อย่างไรก็ตามฉันคาดหวังคำตอบที่จะมุ่งเน้นไปที่คำถามที่เกี่ยวกับระเบียบวิธีโดยทั่วไปมากกว่าที่จะพูดถึงเรื่องรายละเอียดของตัวอย่าง


ลองพิจารณาตัวอย่างคอนกรีต: ในการตั้งค่าอนุกรมเวลาผมถือว่ากระบวนการผลิตข้อมูลที่จะ กับ2) ผมมุ่งมั่นที่จะทดสอบสมมติฐานเรื่องเรื่องที่ 1 ฉันใช้สิ่งนี้ในแง่ของแบบจำลองเพื่อให้ได้สถิติเชิงสถิติที่เป็นไปได้ของสมมติฐานในเรื่องของฉันและนี่คือ จนถึงตอนนี้ดีมาก แต่เมื่อฉันสังเกตข้อมูลฉันค้นพบว่าตัวแบบไม่ได้อธิบายข้อมูลอย่างเพียงพอ ให้เราบอกว่ามีแนวโน้มเชิงเส้นดังนั้นกระบวนการสร้างข้อมูลจริงคือ ด้วย

(1)yt=β0+β1xt+ut
uti.i.N(0,σu2)dydx=1(1)
H0: β1=1.
(2)yt=γ0+γ1xt+γ2t+vt
vti.i.N(0,σv2).

ฉันจะใช้การอนุมานเชิงสถิติที่ถูกต้องกับสมมุติฐานที่เป็นสาระสำคัญอย่างไรdydx=1

  • ถ้าฉันใช้รูปแบบดั้งเดิมข้อสันนิษฐานของมันจะถูกละเมิดและตัวประมาณไม่มีการกระจายที่ดีอย่างอื่น ดังนั้นฉันไม่สามารถทดสอบสมมติฐานโดยใช้การทดสอบβ1t

  • ถ้าหากเห็นข้อมูลฉันจะเปลี่ยนจากแบบจำลองเป็นและเปลี่ยนสมมติฐานทางสถิติของฉันจากเป็นแบบจำลองมีความพึงพอใจและฉัน รับตัวประมาณมีความประพฤติดีและสามารถทดสอบโดยใช้ -test อย่างไรก็ตามสวิตช์จากถึง(1)(2)H0: β1=1H0: γ1=1γ1H0t
    (1)(2)ได้รับแจ้งจากชุดข้อมูลที่ฉันต้องการทดสอบสมมติฐาน สิ่งนี้ทำให้การกระจายตัวประมาณ (และยังอนุมาน) ตามเงื่อนไขในการเปลี่ยนแปลงในตัวแบบพื้นฐานซึ่งเกิดจากข้อมูลที่สังเกตได้ เห็นได้ชัดว่าการแนะนำของเครื่องดังกล่าวไม่เป็นที่น่าพอใจ

มีวิธีที่ดีออก? (หากไม่ใช่ผู้เล่นประจำอาจเป็นทางเลือกแบบเบย์บ้าง)


3
ความรู้สึกไม่สบายของคุณเป็นวิธีการแบบคลาสสิกในการมอบปริญญาเอก: การกำหนดสมมติฐานอย่างระมัดระวังตามด้วยการทดสอบเชิงประจักษ์และลงท้ายด้วยการอนุมานสาเหตุเชิงพรรณนา ในโลกนี้คำตอบสั้น ๆ คือ "ไม่" ไม่มีทางออก อย่างไรก็ตามโลกกำลังพัฒนาไปจากกระบวนทัศน์ที่เข้มงวดนั้น ตัวอย่างเช่นในรายงานของAERเมื่อปีที่แล้วที่ชื่อว่าปัญหานโยบายการทำนายโดย Kleinberg และคณะพวกเขาสร้างกรณีของการทำเหมืองข้อมูลและการทำนายว่าเป็นเครื่องมือที่มีประโยชน์ในการสร้างนโยบายเศรษฐกิจโดยอ้างถึงกรณีที่ "การอนุมานเชิงสาเหตุไม่ใช่ศูนย์กลาง จำเป็น." มันคุ้มค่าที่จะดู
Mike Hunter

2
ในมุมมองของฉันคำตอบโดยตรงจะต้องไม่มีทางออก มิฉะนั้นคุณจะต้องมีความผิดในการขุดข้อมูลที่เลวร้ายที่สุด - กำหนดสมมติฐานใหม่เพื่อให้พอดีกับข้อมูลซึ่งเป็นการกระทำผิดกฎหมายทุนในโลกที่เข้มงวดและขัดแย้ง
Mike Hunter

3
ถ้าฉันเข้าใจถูกต้องคุณกำลังรวบรวมข้อมูลจากนั้นเลือกแบบจำลองจากนั้นทำการทดสอบสมมติฐาน ฉันอาจจะผิด แต่สำหรับฉันแล้วดูเหมือนว่ากระบวนทัศน์การอนุมานแบบเลือกโดยเทย์เลอร์และทิบชิรานี (ในกลุ่มอื่น ๆ ) อาจเกี่ยวข้องกับปัญหาของคุณ มิฉะนั้นความคิดเห็นคำตอบและคำตอบที่เชื่อมโยง กับคำถามนี้อาจเป็นที่สนใจ
DeltaIV

3
@DeltaIV นั่นคือเมื่อทำการอนุมานฉันไม่ได้สนใจในพารามิเตอร์ที่ผิดพลาดน้อยที่สุดภายใต้ความสอดคล้อง P แต่ฉันค่อนข้างสนใจในตัวตนที่แท้จริง (อนุพันธ์บางส่วนที่แท้จริงของ wrt ) yx
Richard Hardy

3
@RichardHardy แน่นอนว่าแม้จะเป็นนักเรียนที่มีสถิติฉันไม่เชื่อในการอนุมานอีกต่อไป มันเป็นบ้านของไพ่ที่บอบบางมากจนไม่มีความชัดเจนว่ามันมีความหมายเลยยกเว้นในสถานการณ์ที่เข้มงวดและควบคุมได้มาก สิ่งที่ตลกคือทุกคนรู้เรื่องนี้ แต่ไม่มีใครใส่ใจ
hejseb

คำตอบ:


3

ทางออกคือแท้จริงจากการทดสอบตัวอย่างจริง ๆ ไม่ใช่ตัวอย่างที่คุณแบ่งตัวอย่างออกเป็นการฝึกอบรมและทำเหมือนใน crossvalidation แต่เป็นการทำนายที่แท้จริง มันทำงานได้ดีมากในวิทยาศาสตร์ธรรมชาติ ในความเป็นจริงมันเป็นวิธีเดียวที่ได้ผล คุณสร้างทฤษฎีเกี่ยวกับข้อมูลบางอย่างจากนั้นคุณคาดว่าจะมีการคาดการณ์ของสิ่งที่ยังไม่ได้สังเกต เห็นได้ชัดว่าสิ่งนี้ใช้ไม่ได้กับวิทยาศาสตร์ส่วนใหญ่ในสังคมเช่นเศรษฐศาสตร์

ในอุตสาหกรรมนี้ทำงานได้เหมือนในวิทยาศาสตร์ ตัวอย่างเช่นหากอัลกอริทึมการซื้อขายใช้งานไม่ได้คุณจะเสียเงินในที่สุดแล้วคุณก็ละทิ้งมัน การตรวจสอบความถูกต้องของข้อมูลและชุดการฝึกอบรมถูกนำมาใช้อย่างกว้างขวางในการพัฒนาและการตัดสินใจในการปรับใช้อัลกอริทึม ง่ายมากจากการทดสอบตัวอย่าง


นั่นช่วยประมาณไหม yx
Richard Hardy

@RichardHardy ใช่คุณทดสอบสมมติฐานเดียวกันกับข้อมูลใหม่ ถ้ามันถือคุณก็ดี หากแบบจำลองของคุณได้รับการผิดพลาดในที่สุดมันก็ควรจะล้มเหลวในที่สุดฉันหมายถึงการวินิจฉัยอื่น คุณควรเห็นว่าโมเดลไม่ทำงานกับข้อมูลใหม่
Aksakal

ตกลงจากนั้นดูเหมือนว่าใบสั่งเก่าที่ดีของการแยกตัวอย่างเป็นตัวอย่างย่อยสำหรับการสร้างแบบจำลองและอีกอันสำหรับการทดสอบสมมติฐาน ฉันควรจะรวมการพิจารณานั้นไว้ใน OP แล้ว ไม่ว่าในกรณีใดดูเหมือนว่าเป็นกลยุทธ์ที่ดี ตัวอย่างเช่นปัญหาเกี่ยวกับเศรษฐศาสตร์มหภาคอาจเป็นไปได้ว่ารูปแบบเดียวกันแทบจะไม่พอดีกับข้อมูลที่มองไม่เห็น (เนื่องจากกระบวนการสร้างข้อมูลกำลังเปลี่ยนแปลงตลอดเวลา) ดังนั้นปัญหาเดียวกันที่เราเริ่มต้นจะคงอยู่ แต่นั่นคือตัวอย่างที่โดยทั่วไปวิธีการใด ๆ ล้มเหลวดังนั้นจึงไม่ใช่การวิจารณ์ที่ยุติธรรม
Richard Hardy

ในขณะเดียวกันในด้านเศรษฐศาสตร์จุลภาคในการตั้งค่าข้อมูลแบบตัดขวางก็สามารถทำงานได้ +1 สำหรับตอนนี้ ในทางกลับกันเมื่อรูปแบบเหมาะสมกับข้อมูลที่มีอยู่ทั้งหมดแล้วโซลูชันนี้จะไม่ทำงาน ฉันเดาว่าเป็นสิ่งที่ฉันคิดเมื่อฉันเขียนคำถามและฉันกำลังมองหาคำตอบที่ตอบคำถามชื่อเรื่อง: การอนุมานจากรูปแบบที่ขาดหายไป
Richard Hardy

2
ฉันเห็นด้วยกับมุมมองของคุณ แต่เนื่องจากตัวอย่างที่แยกเป็น "เก่า" และ "ใหม่" นั้นเทียบเท่ากับการรวบรวมข้อมูลใหม่ฉันไม่เข้าใจว่าคุณเห็นความแตกต่างอย่างมากระหว่างทั้งสอง
Richard Hardy

1

คุณสามารถกำหนด "ขั้นตอนแบบรวม" และตรวจสอบคุณสมบัติของมัน สมมติว่าคุณเริ่มต้นจากโมเดลที่เรียบง่ายและอนุญาตให้ติดตั้งโมเดลที่ซับซ้อนมากขึ้นหนึ่งหรือสอง (หรือไม่ใช่พารามิเตอร์) ในกรณีที่โมเดลแบบง่ายไม่พอดี คุณต้องระบุกฎอย่างเป็นทางการตามที่คุณตัดสินใจว่าจะไม่พอดีกับแบบจำลองอย่างง่าย ๆ แต่อย่างใดอย่างหนึ่งของคนอื่น ๆ (และที่หนึ่ง) นอกจากนี้คุณยังต้องมีการทดสอบสำหรับสมมติฐานที่คุณสนใจที่จะใช้ภายใต้รูปแบบที่เกี่ยวข้องทั้งหมด (พารามิเตอร์หรือ nonparametric)

ด้วยการตั้งค่าเช่นนี้คุณสามารถจำลองลักษณะคือด้วยสมมติฐานเปอร์เซ็นต์ว่างของคุณที่ถูกปฏิเสธในที่สุดในกรณีที่มันเป็นจริงและในกรณีที่มีการเบี่ยงเบนความสนใจหลายอย่าง นอกจากนี้คุณสามารถจำลองจากแบบจำลองที่เกี่ยวข้องทั้งหมดและดูสิ่งต่าง ๆ เช่นระดับที่มีเงื่อนไขและพลังงานตามเงื่อนไขเนื่องจากข้อมูลมาจากแบบจำลอง X, Y หรือ Z หรือระบุว่าแบบจำลองการทดสอบการสะกดผิดรุ่นที่เลือกรุ่น X, Y หรือ Z

คุณอาจพบว่าการเลือกรูปแบบนั้นไม่ได้สร้างความเสียหายมากนักในแง่ที่ว่าระดับที่ได้รับนั้นยังคงใกล้เคียงกับระดับที่คุณเป็นมาและพลังนั้นก็โอเคถ้าไม่ได้ยอดเยี่ยม หรือคุณอาจพบว่าการเลือกรูปแบบขึ้นอยู่กับข้อมูลทำให้เกิดปัญหาขึ้น มันจะขึ้นอยู่กับรายละเอียด (หากขั้นตอนการเลือกรุ่นของคุณน่าเชื่อถือมากโอกาสอยู่ในระดับและกำลังจะไม่ได้รับผลกระทบมากนัก)

ตอนนี้มันไม่เหมือนกับการระบุรุ่นหนึ่งแล้วดูข้อมูลและตัดสินใจว่า "โอ้ฉันต้องการอีกรุ่นหนึ่ง" แต่มันอาจใกล้เคียงที่สุดเท่าที่คุณจะสามารถตรวจสอบว่าอะไรคือลักษณะของวิธีการดังกล่าว มันไม่สำคัญเพราะคุณต้องเลือกหลายอย่างเพื่อให้ได้สิ่งนี้

คำพูดทั่วไป: ฉันคิดว่ามันเป็นความเข้าใจผิดในการจำแนกวิธีการทางสถิติที่นำไปใช้ในแบบ "ไม่ถูกต้อง" และ "ไม่ถูกต้อง" ไม่มีสิ่งใดที่จะถูกต้องได้ 100% เพราะสมมติฐานของแบบจำลองไม่เคยมีความแม่นยำในทางปฏิบัติ ในทางกลับกันแม้ว่าคุณจะพบเหตุผลที่ถูกต้อง (!) สำหรับการเรียกบางอย่างว่า "ไม่ถูกต้อง" หากมีการตรวจสอบลักษณะของวิธีการที่ไม่ถูกต้องตามที่คาดคะเนในเชิงลึก แต่บางคนอาจพบว่ามันยังใช้งานได้ค่อนข้างดี


ฉันสงสัยว่านี่เป็นจริงในทางปฏิบัตินอกเหนือจากปัญหาที่ง่ายที่สุด ค่าใช้จ่ายในการจำลองการคำนวณจะเกินขีดความสามารถของเราอย่างรวดเร็วในกรณีส่วนใหญ่คุณไม่คิดอย่างนั้นหรือ ความคิดเห็นของคุณเกี่ยวกับความถูกต้องแน่นอนว่ามีเหตุผล อย่างไรก็ตามหากปราศจากความคิดที่เรียบง่าย แต่มีประโยชน์ (ในการช่วยให้เหตุผลของเรา) ความคิดเราจะยิ่งสูญเสียมากกว่าที่เราคิดไว้ - นั่นคือมุมมองของฉัน
Richard Hardy

ฉันไม่ได้บอกว่าควรทำทุกครั้งที่พบสถานการณ์เช่นนี้ในทางปฏิบัติ มันค่อนข้างเป็นโครงการวิจัย อย่างไรก็ตามมีข้อความนำออกไปคือว่าในความเห็นของฉันด้วยเหตุผลที่ได้รับการเลือกรูปแบบขึ้นอยู่กับข้อมูลไม่ได้อนุมานแน่นอนว่าจะถูกต้องเป็นอย่างอื่น ขั้นตอนแบบรวมดังกล่าวอาจทำงานได้ค่อนข้างดีในหลาย ๆ สถานการณ์แม้ว่าจะยังไม่ได้รับการตรวจสอบอย่างเหมาะสม
Lewian

ฉันเดาว่านี่เป็นไปได้มันจะถูกใช้งานแล้ว ปัญหาหลักอาจเป็นไปไม่ได้เนื่องจากตัวเลือกการสร้างแบบจำลองจำนวนมากขึ้นอยู่กับข้อมูล (กลับไปที่ความคิดเห็นแรกของฉัน) หรือคุณไม่เห็นปัญหาที่นั่น?
Richard Hardy

มีการจำลองแบบแปลก ๆ ในวรรณคดีที่สำรวจการทดสอบแบบผิดพลาด / การเลือกแบบจำลองก่อนแล้วจึงทำการอนุมานพารามิเตอร์ตามผลลัพธ์ของสิ่งนั้น ผลลัพธ์จะผสมกันเท่าที่ฉันรู้ ตัวอย่าง "คลาสสิค" อยู่ที่นี่: tandfonline.com/doi/abs/10.1080/…
Lewian

แต่คุณพูดถูก การสร้างแบบจำลองกระบวนการทั้งหมดด้วยตัวเลือกการสร้างแบบจำลองที่เป็นไปได้ทุกประเภทจะต้องมีตัวเลือกมากมาย ฉันยังคิดว่ามันจะเป็นโครงการที่คุ้มค่าแม้ว่าจะไม่ใช่สิ่งที่เราต้องการเมื่อใดก็ตามที่มีการเลือกรุ่นจากข้อมูลเดียวกันกับที่พวกเขาติดตั้ง Aris Spanos โดยวิธีการโต้แย้งกับความคิดที่ว่าการทดสอบการสะกดคำผิดหรือการตรวจสอบแบบจำลองในข้อมูลทำให้การอนุมานไม่ถูกต้อง onlinelibrary.wiley.com/doi/abs/10.1111/joes.12200
Lewian
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.