รวมถึงการมีปฏิสัมพันธ์ แต่ไม่ใช่ผลกระทบหลักในแบบจำลอง


85

มันเคยถูกต้องหรือไม่ที่จะรวมการโต้ตอบสองทางในแบบจำลองโดยไม่รวมถึงเอฟเฟกต์หลัก ๆ ? ถ้าสมมติฐานของคุณเกี่ยวกับการมีปฏิสัมพันธ์เพียงอย่างเดียวคุณยังจำเป็นต้องใส่เอฟเฟกต์หลัก ๆ หรือไม่?


3
ปรัชญาของฉันทำงานหลายรุ่นตรวจสอบการคาดการณ์เปรียบเทียบอธิบายรันโมเดลเพิ่มเติม
Michael Bishop

11
หากการโต้ตอบนั้นมีความสำคัญเฉพาะเมื่อเอฟเฟกต์หลักอยู่ในโมเดลอาจเป็นได้ว่าเอฟเฟกต์หลักนั้นสำคัญและการโต้ตอบไม่ได้ พิจารณาหนึ่งผลกระทบหลักที่มีความสำคัญสูงโดยมีความแปรปรวนตามลำดับที่ 100 และผลกระทบหลักอื่น ๆ ที่ไม่มีนัยสำคัญซึ่งค่าทั้งหมดจะอยู่ที่ประมาณหนึ่งที่มีความแปรปรวนต่ำมาก ปฏิสัมพันธ์ของพวกเขาไม่มีนัยสำคัญ แต่เอฟเฟกต์การโต้ตอบจะปรากฏขึ้นอย่างมีนัยสำคัญหากเอฟเฟกต์หลักถูกลบออกจากโมเดล
โทมัสเลวีน

4
@Thomas บรรทัดแรกของคุณควรอ่าน 'หากการโต้ตอบมีความสำคัญเฉพาะเมื่อเอฟเฟกต์หลักไม่ได้อยู่ในโมเดล ... '?
เกลน

2
โอ้ใช่แล้ว!
โทมัสเลวีน

คำตอบ:


55

จากประสบการณ์ของฉันไม่เพียง แต่จำเป็นต้องมีเอฟเฟกต์ลำดับต่ำทั้งหมดในโมเดลเมื่อพวกมันเชื่อมต่อกับเอฟเฟกต์คำสั่งที่สูงขึ้น แต่มันก็เป็นสิ่งสำคัญเช่นกัน ปัจจัยในการโต้ตอบของดอกเบี้ย นั่นเป็นเพราะการมีปฏิสัมพันธ์ระหว่างและสามารถยืน ins สำหรับผลกระทบหลักของและx_4ดูเหมือนว่าการโต้ตอบบางครั้งอาจจำเป็นต้องใช้เพราะพวกเขาเป็น collinear กับตัวแปรที่ถูกละเว้นหรือคำที่ไม่เชิงเส้น (เช่นเส้นโค้ง)x 2 x 3 x 4x1x2x3x4


1
ซึ่งหมายความว่าเราควรเริ่มต้นลบคำจาก y ~ x1 * x2 * x3 * x4 เริ่มลบคำสั่งที่มีลำดับสูงสุดเช่นวิธีการลบปกติใช่ไหม
อยากรู้อยากเห็น

9
ไม่แนะนำให้ลบคำศัพท์เว้นแต่ว่าคุณจะสามารถทดสอบคำศัพท์ทั้งชั้นว่าเป็น "กลุ่ม" ตัวอย่างเช่นอาจมีเหตุผลที่จะเก็บหรือลบคำตอบการโต้ตอบทั้งหมดหรือเพื่อให้หรือลบการโต้ตอบทั้งหมดที่เป็นลำดับที่ 3 หรือ 4
Frank Harrell

เกิดอะไรขึ้นกับการลบเฉพาะการโต้ตอบบางรายการในคำสั่งซื้อบางรายการ
user1205901

3
หากคุณมีคำสั่งที่ระบุไว้ล่วงหน้าอย่างสมบูรณ์ซึ่งไม่ได้พิจารณาจากการดูข้อมูลคุณอาจตกลงที่จะทำเช่นนั้น โดยทั่วไปคุณจะมีปัญหาร่วมเชิงเส้นตรงและหลายหลากเมื่อทำการตัดสินใจหลายครั้งโดยใช้ค่า P หลายค่า
Frank Harrell

2
ฉันรู้สึกว่าคำตอบนี้ไม่ชัดเจนและเพียงบางส่วนตอบคำถาม แน่นอนคำตอบนี้ระบุว่าจำเป็นต้องสร้างแบบจำลองเอฟเฟกต์หลัก แต่ไม่ตอบว่ามันถูกต้องหรือไม่ที่จะถอยหลังมันเพื่อมุ่งเน้นเฉพาะในการโต้ตอบซึ่งเป็นและใช้ในบางรุ่นเช่น gPPI (ดูคำตอบของฉัน ด้านล่าง)
gaborous

37

คุณถามว่ามันถูกต้องเคย ฉันขอยกตัวอย่างทั่วไปซึ่งคำชี้แจงอาจแนะนำวิธีการวิเคราะห์เพิ่มเติมสำหรับคุณ

ตัวอย่างที่ง่ายที่สุดของการทำงานร่วมกันคือแบบจำลองที่มีตัวแปรตามหนึ่งตัวและตัวแปรอิสระสองตัว ,ในรูปแบบX YZXY

Z=α+βX+γY+δXY+ε,

กับตัวแปรสุ่มระยะมีศูนย์ความคาดหวังและการใช้พารามิเตอร์และเดลต้า' มันมักจะคุ้มค่าที่จะตรวจสอบว่า approximatesหรือไม่เนื่องจากการแสดงออกทางพีชคณิตที่เทียบเท่าของโมเดลเดียวกันนั้นคืออัลฟ่า, β ' , γ ' , δ ' δ ' β ' γ 'εα,β,γ,δδβγ

Z=α(1+βX+γY+δXY)+ε

=α(1+βX)(1+γY)+α(δβγ)XY+ε

(โดยที่ฯลฯ )β=αβ

มาจากไหนถ้ามีเหตุผลที่จะสมมติว่าเราสามารถดูดซึมได้ในข้อผิดพลาดในระยะ\สิ่งนี้ไม่เพียงให้ "การปฏิสัมพันธ์ที่บริสุทธิ์" เท่านั้น แต่ยังทำได้โดยไม่มีเงื่อนไขที่แน่นอน ในทางกลับกันขอแนะนำอย่างยิ่งให้การลอการิทึม heteroscedasticity บางอย่างในสารตกค้าง - นั่นคือแนวโน้มของสารตกค้างที่เกี่ยวข้องกับค่าที่มากกว่าของที่จะใหญ่กว่าในค่าสัมบูรณ์มากกว่าค่าเฉลี่ย - ก็จะชี้ไปในทิศทางนี้ จากนั้นเราต้องการสำรวจสูตรทางเลือก(δβγ)0εZ

log(Z)=log(α)+log(1+βX)+log(1+γY)+τ

มีข้อผิดพลาด IID สุ่ม\นอกจากนี้หากเราคาดว่าและมีขนาดใหญ่เมื่อเทียบกับเราจะเสนอแบบจำลองแทนτβXγY1

log(Z)=(log(α)+log(β)+log(γ))+log(X)+log(Y)+τ

=η+log(X)+log(Y)+τ.

โมเดลใหม่นี้มีเพียงพารามิเตอร์เดียวแทนที่จะเป็นสี่พารามิเตอร์ ( ,ฯลฯ ) ซึ่งขึ้นอยู่กับความสัมพันธ์กำลังสอง ( ) ซึ่งทำให้เข้าใจง่ายมากηαβδ=βγ

ฉันไม่ได้บอกว่านี่เป็นสิ่งที่จำเป็นหรือแม้กระทั่งขั้นตอนเดียวที่จะต้องทำ แต่ฉันแนะนำว่าการจัดเรียงพีชคณิตแบบนี้เป็นแบบอย่างที่ควรค่าแก่การพิจารณาเมื่อปฏิสัมพันธ์เพียงอย่างเดียวมีความหมาย

บางวิธีที่ยอดเยี่ยมในการสำรวจรุ่นที่มีการทำงานร่วมกันโดยเฉพาะอย่างยิ่งที่มีเพียงสองและสามตัวแปรอิสระที่ปรากฏในบทที่ 10 - 13 ของของ Tukey EDA


คุณสามารถให้ตัวอย่างของเมื่อคุณจะสามารถสมมติจะเป็นศูนย์ประมาณ? มันยากสำหรับฉันที่จะคิดถึงคำเหล่านั้นที่เกี่ยวข้องกับคำศัพท์ดั้งเดิมและสิ่งที่พวกเขาจะหมายถึง δβγ
djhocking

@djhocking สถานการณ์ใด ๆ ที่การกำหนดทางเลือกเป็นตัวแบบที่ดีจะต้องมีความหมายว่าในรุ่นแรก กรณีพิเศษคือตัวแบบสุดท้ายซึ่งเป็นความสัมพันธ์เชิงเส้นอย่างง่ายระหว่างและบันทึกของและเท่ากับ tantamount กับความสัมพันธ์แบบทวีคูณในระดับเดิม ความสัมพันธ์ดังกล่าวอุดมสมบูรณ์ในธรรมชาติ - มันก็บอกว่าโดยตรงและแยกสัดส่วนกับทั้งและYα(δβγ)0log(Z)XYZXYZXY
whuber

30

ในขณะที่มีการกล่าวถึงบ่อยครั้งในตำราเรียนว่าไม่ควรมีปฏิสัมพันธ์ในแบบจำลองโดยไม่มีเอฟเฟกต์หลัก ๆ ที่เกี่ยวข้อง แต่มีตัวอย่างที่แน่นอนว่าสิ่งนี้จะสมเหตุสมผล ฉันจะให้คุณตัวอย่างที่ง่ายที่สุดที่ฉันสามารถจินตนาการ

สมมติว่าอาสาสมัครที่สุ่มให้กลุ่มสองกลุ่มถูกวัดสองครั้งหนึ่งครั้งที่พื้นฐาน (เช่นทันทีหลังจากการสุ่ม) และอีกครั้งหลังจากกลุ่ม T ได้รับการรักษาบางอย่างในขณะที่กลุ่ม C ไม่ได้ทำ จากนั้นแบบจำลองการวัดซ้ำสำหรับข้อมูลเหล่านี้จะรวมถึงเอฟเฟกต์หลักสำหรับโอกาสในการวัด (ตัวแปรจำลองที่เป็น 0 สำหรับพื้นฐานและ 1 สำหรับการติดตาม) และคำที่มีปฏิสัมพันธ์ระหว่างกลุ่มจำลอง (0 สำหรับ C, 1 สำหรับ T ) และเวลาที่หุ่น

รูปแบบการสกัดกั้นจะประเมินคะแนนเฉลี่ยของกลุ่มเป้าหมายที่พื้นฐาน (ไม่ว่าจะอยู่ในกลุ่มใดก็ตาม) ค่าสัมประสิทธิ์สำหรับโอกาสในการตรวจสอบแสดงว่ามีการเปลี่ยนแปลงในกลุ่มควบคุมระหว่างพื้นฐานและติดตาม และค่าสัมประสิทธิ์สำหรับคำว่าการโต้ตอบบ่งบอกว่าการเปลี่ยนแปลงนั้นมีขนาดใหญ่กว่าหรือเล็กลงเท่าใดในกลุ่มการรักษาเทียบกับกลุ่มควบคุม

ที่นี่ไม่จำเป็นต้องรวมเอฟเฟกต์หลักสำหรับกลุ่มเพราะที่พื้นฐานกลุ่มจะมีความหมายเทียบเท่ากันเนื่องจากการสุ่ม

แน่นอนว่าเราอาจโต้แย้งว่าผลกระทบหลักของกลุ่มยังควรรวมอยู่ด้วยดังนั้นในกรณีที่การสุ่มล้มเหลวการวิเคราะห์นี้จะถูกเปิดเผย อย่างไรก็ตามนั่นเทียบเท่ากับการทดสอบวิธีการพื้นฐานของทั้งสองกลุ่มต่อกัน และมีผู้คนจำนวนมากที่ขมวดคิ้วเมื่อทดสอบความแตกต่างพื้นฐานในการศึกษาแบบสุ่ม (แน่นอนยังมีคนจำนวนมากที่พบว่ามีประโยชน์ แต่นี่เป็นอีกประเด็นหนึ่ง)


4
ปัญหาเกิดขึ้นเมื่อใช้การวัดเวลาศูนย์ (พื้นฐาน) เป็นตัวแปรตอบกลับแรก พื้นฐานมักจะใช้เป็นเกณฑ์รายการสำหรับการศึกษา ตัวอย่างเช่นการศึกษาอาจลงทะเบียนผู้ป่วยที่มีความดันโลหิตซิสโตลิก (bp)> 140 จากนั้นสุ่มการรักษา 2 bp และติดตามการ bps เริ่มแรก bp มีการแจกแจงที่ถูกตัดทอนและการวัดในภายหลังจะมีความสมมาตรมากกว่า มันยุ่งกับแบบจำลองรูปร่างการกระจาย 2 ในแบบเดียวกัน มีเหตุผลอีกมากมายที่จะใช้เป็นพื้นฐานของการแปรปรวนร่วม
Frank Harrell

3
นั่นเป็นประเด็นที่ดี แต่การศึกษาเมื่อเร็ว ๆ นี้ชี้ให้เห็นว่านี่ไม่ใช่ปัญหา ในความเป็นจริงดูเหมือนว่ามีข้อเสียมากกว่าในการใช้คะแนนพื้นฐานเป็น covariate ดู: Liu, GF, และคณะ (2009) พื้นฐานควรเป็นตัวแปรร่วมหรือตัวแปรตามในการวิเคราะห์การเปลี่ยนแปลงจากพื้นฐานในการทดลองทางคลินิกหรือไม่? สถิติทางการแพทย์, 28, 2509-2530
Wolfgang

3
ฉันอ่านกระดาษนั้นแล้ว มันไม่น่าเชื่อและ Liu ยังไม่ได้ศึกษาสถานการณ์การทดลองทางคลินิกหลายอย่างที่ฉันอธิบาย ข้อโต้แย้งเพิ่มเติมอยู่ที่biostat.mc.vanderbilt.edu/wiki/pub/Main/RmS/course2.pdfในบทที่เกี่ยวกับการวิเคราะห์ข้อมูลอนุกรม (ยาว)
Frank Harrell

1
ขอบคุณสำหรับลิงค์ ฉันถือว่าคุณกำลังอ้างถึงการสนทนาภายใต้ 8.2.3 นั่นเป็นประเด็นที่น่าสนใจ แต่ฉันไม่คิดว่านี่จะเป็นคำตอบที่ชัดเจน ฉันแน่ใจว่ารายงานของ Liu et al. ไม่ใช่คำตอบขั้นสุดท้ายเช่นกัน แต่แนะนำให้ยกตัวอย่างเช่นการไม่ปฏิบัติตามเกณฑ์ปกติของค่านิยมพื้นฐานไม่ใช่ประเด็นสำคัญ บางทีนี่อาจเป็นสิ่งสำหรับรายการสนทนาแยกต่างหากเนื่องจากไม่เกี่ยวข้องโดยตรงกับคำถามของ OP
Wolfgang

2
ใช่มันขึ้นอยู่กับปริมาณของการไม่ปกติ ทำไมต้องอาศัยโชคดีในการกำหนดโมเดล นอกจากนี้ยังมีเหตุผลทางปรัชญามากมายที่จะรักษาเวลาการวัดค่าศูนย์เป็นวัดพื้นฐาน (ดูเครื่องหมายคำพูดจาก Senn และ Rochon ในบันทึกย่อของฉัน)
Frank Harrell

19

เหตุผลที่ทำให้ผลกระทบที่สำคัญในรูปแบบคือการระบุตัว ดังนั้นหากวัตถุประสงค์คือการอนุมานเชิงสถิติเกี่ยวกับผลกระทบแต่ละอย่างคุณควรรักษาผลหลักไว้ในแบบจำลอง อย่างไรก็ตามหากวัตถุประสงค์ในการสร้างแบบจำลองของคุณมีไว้เพื่อคาดการณ์ค่าใหม่เพียงอย่างเดียวมันเป็นสิ่งที่ถูกต้องตามกฎหมายที่จะรวมเฉพาะการโต้ตอบหากปรับปรุงความแม่นยำในการทำนาย


5
คุณช่วยกรุณาอธิบายเพิ่มเติมเล็กน้อยเกี่ยวกับปัญหาการระบุตัวตนได้ไหม?
ocram

6
ฉันไม่เชื่อว่าแบบจำลองที่ละเว้นเอฟเฟ็กต์หลัก ๆ นั้นไม่จำเป็นต้องมีการระบุ บางทีคุณอาจจะหมายถึง "interpretability" มากกว่า "identifiability" (ซึ่งเป็นระยะทางเทคนิคที่มีความละเอียดแม่นยำ)
JMS

6
@ JMS: ใช่มันฆ่าการตีความได้ อย่างไรก็ตามคำว่า "ความสามารถในการระบุตัวตน" นั้นถูกนำมาใช้อย่างแตกต่างกันโดยนักสถิติและนักสังคมศาสตร์ ฉันหมายถึงอันหลังซึ่งคุณต้องการระบุพารามิเตอร์ทางสถิติด้วยการสร้าง ด้วยการปล่อยเอฟเฟกต์หลักคุณจะไม่สามารถจับคู่พารามิเตอร์สร้างกับพารามิเตอร์ได้อีกต่อไป
Galit Shmueli

13

นี่เป็นนัยในคำตอบหลายคำตอบที่คนอื่นให้ แต่ประเด็นง่ายๆคือโมเดลที่มีคำศัพท์ผลิตภัณฑ์ แต่ w / & w / o ผู้ดูแลและตัวทำนายนั้นเป็นแบบจำลองที่แตกต่างกัน คิดออกว่าแต่ละวิธีที่ได้รับกระบวนการที่คุณกำลังสร้างแบบจำลองและไม่ว่าจะเป็นรูปแบบโดยไม่มีผู้ดูแล & ทำนายที่เหมาะสมกว่าทฤษฎีหรือสมมติฐานของคุณ การสังเกตว่าคำของผลิตภัณฑ์นั้นมีความสำคัญ แต่เมื่อไม่มีผู้ดูแล & ผู้ทำนายไม่ได้บอกอะไรเลย (ยกเว้นว่าคุณกำลังตกปลาด้วย "ความสำคัญ") ด้วยคำอธิบายที่ตรงประเด็นว่าทำไมจึงเหมาะสมที่จะละไว้ .


ฉันมาที่นี่เพื่อตรวจสอบการตีความของเอฟเฟกต์หลักในที่ที่มีคำศัพท์ที่สำคัญและคำตอบนี้ช่วยได้มากจริงๆ ขอบคุณ!
แพทริควิลเลียมส์

9

ขึ้นอยู่กับว่าคุณใช้โมเดลของคุณเป็นอย่างไร แต่ฉันไม่เคยเห็นเหตุผลที่จะไม่เรียกใช้และอธิบายโมเดลด้วยเอฟเฟ็กต์หลักแม้ในกรณีที่สมมติฐานนั้นเกี่ยวกับการโต้ตอบเท่านั้น


จะเกิดอะไรขึ้นถ้าปฏิสัมพันธ์มีความสำคัญเฉพาะเมื่อเอฟเฟ็กต์หลักไม่ได้อยู่ในโมเดล
เกลน

3
@Glen - มีหลายสิ่งที่ให้คิดเกี่ยวกับสิ่งอื่นนอกเหนือจากนัยสำคัญทางสถิติ ดูนี่สิ ดีกว่าที่จะตรวจสอบรูปแบบโดยรวมของคุณ (พล็อตที่เหลือของคุณกับการทำนายของคุณสำหรับแต่ละรุ่นที่คุณเหมาะสม) ทฤษฎีของคุณและแรงจูงใจของคุณสำหรับการสร้างแบบจำลอง
Michael Bishop

7

ฉันจะยืมย่อหน้าจากหนังสือเล่มนี้การแนะนำการวิเคราะห์การอยู่รอดโดยใช้ StataโดยM.Cleves, R.Gutierrez, W.Gould, Y.Marchenkoแก้ไขโดยStata กดเพื่อตอบคำถามของคุณ

เป็นเรื่องปกติที่จะอ่านว่าควรรวมเอฟเฟกต์การโต้ตอบไว้ในโมเดลเมื่อรวมเอฟเฟกต์หลักที่เกี่ยวข้องด้วย แต่ไม่มีอะไรผิดปกติที่จะรวมถึงเอฟเฟกต์การโต้ตอบด้วยตัวเอง [... ] เป้าหมายของนักวิจัยคือการกำหนดสิ่งที่มีเหตุผลน่าจะเป็นจริงสำหรับข้อมูลที่พิจารณาปัญหาที่เกิดขึ้นในมือและไม่เพียง แต่ตามใบสั่งยา


3
คำแนะนำที่น่ากลัวอย่างแน่นอน
Frank Harrell

3
@ Frank คุณจะขยายความคิดเห็นของคุณหรือไม่ บนใบหน้าของมัน "กำหนดพารามิเตอร์สิ่งที่มีเหตุผลน่าจะเป็นจริงสำหรับข้อมูล" ทำให้รู้สึกมาก
whuber

6
ดูstats.stackexchange.com/questions/11009/… . ข้อมูลไม่สามารถบอกคุณได้ว่าอะไรเป็นความจริงและวิธีการดังกล่าวขึ้นอยู่กับแหล่งกำเนิดการวัดสำหรับตัวแปรที่ถูกคูณ การประเมินผลกระทบของอุณหภูมิในฟาเรนไฮต์จะส่งผลให้ภาพแตกต่างจากการใช้องศาเซลเซียส
Frank Harrell

@ Frank: ขอบคุณฉันพบ :-) ตอนนี้เป็นส่วนหนึ่งของเธรดนี้
whuber

7

ทั้งxและyจะมีความสัมพันธ์กับxy (ยกเว้นว่าคุณใช้มาตรการเฉพาะเพื่อป้องกันปัญหานี้โดยใช้การจัดกึ่งกลาง) ดังนั้นหากคุณได้รับผลกระทบอย่างมีนัยสำคัญกับวิธีการของคุณมันอาจจะเป็นจำนวนผลกระทบหลักอย่างน้อยหนึ่งอย่างที่หลอกลวงเป็นปฏิสัมพันธ์ สิ่งนี้จะไม่สร้างผลลัพธ์ที่ชัดเจนและสามารถตีความได้ อะไรคือสิ่งที่พึงประสงค์คือแทนที่จะดูว่ามากปฏิสัมพันธ์สามารถอธิบายและเหนือกว่าสิ่งที่เป็นผลกระทบหลักที่ทำจากX , Yและ (โดยเฉพาะในขั้นตอนต่อมา) XY

สำหรับคำศัพท์: ใช่β 0 เรียกว่า "ค่าคงที่" ในทางกลับกัน "บางส่วน" มีความหมายเฉพาะในการถดถอยดังนั้นฉันจะไม่ใช้คำนั้นเพื่ออธิบายกลยุทธ์ของคุณที่นี่

ตัวอย่างที่น่าสนใจบางอย่างที่จะเกิดขึ้นครั้งเดียวในดวงจันทร์สีน้ำเงินได้อธิบายไว้ในหัวข้อนี้


7

ฉันอยากจะแนะนำว่ามันเป็นกรณีพิเศษของความไม่แน่นอนของแบบจำลอง จากมุมมองแบบเบย์คุณเพียงแค่ปฏิบัติต่อสิ่งนี้ในลักษณะเดียวกับที่คุณปฏิบัติต่อความไม่แน่นอนประเภทอื่น ๆ โดย:

  1. คำนวณความน่าจะเป็นถ้าเป็นวัตถุที่น่าสนใจ
  2. การรวมหรือการหาค่าเฉลี่ยหากไม่เป็นที่สนใจ แต่อาจส่งผลต่อข้อสรุปของคุณ

นี่คือสิ่งที่ผู้คนทำเมื่อทำการทดสอบ "ผลกระทบที่สำคัญ" โดยใช้ t-quantiles แทน quantiles ปกติ เนื่องจากคุณมีความไม่แน่นอนเกี่ยวกับ "ระดับเสียงรบกวนที่แท้จริง" คุณต้องคำนึงถึงสิ่งนี้ด้วยการใช้การกระจายแบบกระจายมากขึ้นในการทดสอบ ดังนั้นจากมุมมองของคุณ "เอฟเฟ็กต์หลัก" จริงๆแล้วเป็น "พารามิเตอร์ที่สร้างความรำคาญ" ที่เกี่ยวข้องกับคำถามที่คุณถาม ดังนั้นคุณจะเฉลี่ยทั้งสองกรณี (หรือโดยทั่วไปมากกว่าโมเดลที่คุณกำลังพิจารณา) ดังนั้นฉันจะมีสมมติฐาน (คลุมเครือ):

Hint:The interaction between A and B is significant
ฉันจะบอกว่าถึงแม้จะไม่ได้นิยามอย่างชัดเจน แต่เป็นคำถามที่คุณต้องการตอบคำถามที่นี่ และโปรดทราบว่ามันไม่ได้เป็นคำพูดด้วยวาจาเช่นด้านบนซึ่ง "กำหนด" สมมติฐาน แต่เป็นสมการทางคณิตศาสตร์เช่นกัน เรามีข้อมูลและข้อมูลก่อนหน้านี้จากนั้นเราคำนวณเพียง: (โน้ตเล็ก ๆ : ไม่ว่าฉันจะเขียนสมการนี้กี่ครั้งก็ตามมันช่วยให้ฉันเข้าใจปัญหาได้ดีขึ้นแปลก ๆ ) ปริมาณหลักในการคำนวณคือความน่าจะเป็นสิ่งนี้ไม่ได้อ้างอิงถึงโมเดลดังนั้นโมเดลต้องถูกลบออกโดยใช้กฎความน่าจะเป็นทั้งหมด: DI
P(Hint|DI)=P(Hint|I)P(D|HintI)P(D|I)
P(D|HintI)
P(D|HintI)=m=1NMP(DMm|HintI)=m=1NMP(Mm|HintI)P(D|MmHintI)
โดยที่ดัชนีโมเดล mth และคือ จำนวนรุ่นที่พิจารณา เทอมแรกคือ "น้ำหนักของโมเดล" ซึ่งบอกว่าข้อมูลและข้อมูลก่อนหน้านี้สนับสนุนโมเดล mth มากเพียงใด เทอมที่สองระบุว่าโมเดล mth รองรับสมมติฐานมากแค่ไหน การเสียบสมการนี้กลับเข้าไปในทฤษฎีบทเบย์เดิมให้: MmNM
P(Hint|DI)=P(Hint|I)P(D|I)m=1NMP(Mm|HintI)P(D|MmHintI)
=1P(D|I)m=1NMP(DMm|I)P(MmHintD|I)P(DMm|I)=m=1NMP(Mm|DI)P(Hint|DMmI)

และคุณสามารถเห็นได้จากสิ่งนี้ว่าคือ "การสรุปตามเงื่อนไข" ของสมมติฐานภายใต้โมเดล mth (นี่คือทั้งหมดที่พิจารณาสำหรับแบบจำลอง "ดีที่สุด" ที่เลือก ) โปรดทราบว่าการวิเคราะห์มาตรฐานนี้มีความชอบธรรมเมื่อใดก็ตามที่ - โมเดล "ชัดที่สุด" - หรือเมื่อใดก็ตามที่ - ทุกรุ่นให้ข้อสรุปที่เหมือนกัน / คล้ายกัน อย่างไรก็ตามหากไม่มีการตอบสนองทฤษฎีบทของเบย์กล่าวว่าขั้นตอนที่ดีที่สุดคือการหาค่าเฉลี่ยของผลลัพธ์โดยวางน้ำหนักที่สูงกว่าในแบบจำลองที่รองรับข้อมูลและข้อมูลก่อนหน้ามากที่สุดP ( M m | D I ) 1 P ( H i n t | D M j I ) P ( H i n t | D M k I )P(Hint|DMmI)P(Mm|DI)1P(Hint|DMjI)P(Hint|DMkI)


5

เป็นความคิดที่ดีที่จะรวมคำศัพท์ที่ไม่มีผลกระทบหลักเข้าด้วยกัน David Rindskopf จาก CCNY ได้เขียนบทความเกี่ยวกับอินสแตนซ์ที่หายากเหล่านั้น


5

มีกระบวนการต่าง ๆ ในธรรมชาติที่เกี่ยวข้องเฉพาะผลกระทบการโต้ตอบและกฎหมายที่ decribe พวกเขา ตัวอย่างเช่นกฎของโอห์ม ในทางจิตวิทยาคุณมีตัวอย่างรูปแบบการปฏิบัติของ Vroom (1964): ประสิทธิภาพ = ความสามารถ x แรงจูงใจตอนนี้คุณอาจคาดหวังว่าจะได้พบกับผลกระทบที่สำคัญเมื่อกฎหมายนี้เป็นจริง น่าเสียดายที่นี่ไม่ใช่กรณี คุณอาจพบว่ามีเอฟเฟ็กต์หลักสองอย่างและเอฟเฟ็กต์การโต้ตอบเล็กน้อย (สำหรับการสาธิตและคำอธิบายเพิ่มเติมดู Landsheer, van den Wittenboer และ Maassen (2006), การวิจัยทางสังคมศาสตร์ 35, 274-294) โมเดลเชิงเส้นไม่เหมาะสำหรับการตรวจจับเอฟเฟกต์การโต้ตอบ โอห์มอาจไม่พบกฎของเขาเมื่อเขาใช้แบบจำลองเชิงเส้น

ดังนั้นการตีความเอฟเฟกต์เชิงเส้นในโมเดลเชิงเส้นจึงเป็นเรื่องยาก หากคุณมีทฤษฎีที่ทำนายผลการโต้ตอบคุณควรรวมไว้แม้ไม่สำคัญ คุณอาจต้องการเพิกเฉยต่อเอฟเฟกต์หลักหากทฤษฎีของคุณไม่รวมสิ่งเหล่านั้น แต่คุณจะพบว่ามันยากเพราะเอฟเฟกต์ที่สำคัญมักพบในกรณีของกลไกการสร้างข้อมูลที่แท้จริงซึ่งมีผลแบบทวีคูณเท่านั้น

คำตอบของฉันคือใช่สามารถรวมการโต้ตอบสองทางในโมเดลได้โดยไม่ต้องรวมเอฟเฟกต์หลัก ตัวแบบเชิงเส้นเป็นเครื่องมือที่ยอดเยี่ยมในการประมาณผลลัพธ์ของกลไกการสร้างข้อมูลที่หลากหลาย แต่สูตรของพวกเขาไม่สามารถตีความได้อย่างง่ายดายว่าเป็นคำอธิบายที่ถูกต้องของกลไกการสร้างข้อมูล


4

อันนี้ช่างยากและเกิดขึ้นกับฉันในโปรเจ็กต์สุดท้ายของฉัน ฉันจะอธิบายด้วยวิธีนี้: สมมติว่าคุณมีตัวแปร A และ B ซึ่งออกมาอย่างมีนัยสำคัญโดยอิสระและจากความรู้สึกทางธุรกิจคุณคิดว่าการมีปฏิสัมพันธ์ของ A และ B นั้นดูดี คุณรวมการโต้ตอบที่ออกมามีความสำคัญ แต่ B ก็สูญเสียความสำคัญไป คุณจะอธิบายโมเดลของคุณในขั้นต้นโดยแสดงผลลัพธ์สองรายการ ผลลัพธ์จะแสดงว่าเริ่มแรก B มีความสำคัญ แต่เมื่อเห็นในแง่ของ A มันจะสูญเสียความเงา ดังนั้น B เป็นตัวแปรที่ดี แต่เมื่อเห็นในแง่ของระดับต่าง ๆ ของ A (ถ้า A เป็นตัวแปรเด็ดขาด) มันเหมือนกับว่าโอบามาเป็นผู้นำที่ดีเมื่อเห็นในแง่ของกองทัพซีล ดังนั้นตราประทับของ Obama * จะเป็นตัวแปรที่สำคัญ แต่โอบามาเมื่อเห็นคนเดียวอาจไม่สำคัญ (ไม่มีความผิดต่อโอบามาเพียงตัวอย่าง)


1
ตรงนี้มันตรงกันข้าม ปฏิสัมพันธ์ (ที่น่าสนใจ) มีความสำคัญเฉพาะเมื่อเอฟเฟกต์หลักไม่ได้อยู่ในโมเดล
เกลน

3

F = m * a แรงนั้นเท่ากับความเร่งคูณมวล

มันไม่ได้แสดงเป็น F = m + a + ma หรือการรวมกันเชิงเส้นอื่น ๆ ของพารามิเตอร์เหล่านั้น อันที่จริงมีเพียงปฏิสัมพันธ์ระหว่างมวลและการเร่งความเร็วเท่านั้นที่จะสมเหตุสมผล


2
สิ่งที่นำไปใช้กับสมการทางฟิสิกส์ที่ไม่สามารถย้อนกลับได้ซึ่งไม่มีที่ว่างสำหรับความแปรปรวนไม่จำเป็นต้องนำไปใช้หรือไม่จำเป็นต้องเป็นจริงหรือถูกต้องหรือมีประสิทธิผลเมื่อสร้างแบบจำลองข้อมูลที่โดดเด่นด้วยความแปรปรวน
rolando2

2

การโต้ตอบที่มีและไม่มีเอฟเฟกต์หลัก  สีน้ำเงินเป็นเงื่อนไขเดียว  แดงอีก  ผลกระทบที่เกี่ยวข้องจะถูกทดสอบในการวัดต่อเนื่องสามครั้ง

มันเคยถูกต้องหรือไม่ที่จะรวมการโต้ตอบแบบสองทางโดยไม่มีผลกระทบหลัก

ใช่มันถูกต้องและจำเป็น ตัวอย่างเช่นใน 2 คุณจะรวมปัจจัยสำหรับเอฟเฟกต์หลัก (ความแตกต่างเฉลี่ยของเงื่อนไขสีน้ำเงินกับสีแดง) สิ่งนี้จะทำให้โมเดลแย่ลง

ถ้าสมมติฐานของคุณเกี่ยวกับการมีปฏิสัมพันธ์เพียงอย่างเดียวคุณยังจำเป็นต้องใส่เอฟเฟกต์หลัก ๆ หรือไม่?

สมมติฐานของคุณอาจเป็นจริงโดยไม่ต้องมีผลกระทบหลัก แต่ตัวแบบอาจต้องการอธิบายกระบวนการที่ดีที่สุด ใช่คุณควรลองด้วยตัวเอง

หมายเหตุ:คุณต้องวางรหัสไว้ที่กึ่งกลางสำหรับตัวแปรอิสระ "ต่อเนื่อง" (การวัดในตัวอย่าง) มิฉะนั้นค่าสัมประสิทธิ์ปฏิสัมพันธ์ในแบบจำลองจะไม่กระจายแบบสมมาตร (ไม่มีค่าสัมประสิทธิ์สำหรับการวัดครั้งแรกในตัวอย่าง)


1

หากตัวแปรที่เป็นปัญหานั้นมีการจัดหมวดหมู่ดังนั้นการรวมการโต้ตอบโดยไม่มีเอฟเฟกต์หลักเป็นเพียงการแก้ไขรูปแบบของโมเดลใหม่และการเลือกการกำหนดพารามิเตอร์ขึ้นอยู่กับสิ่งที่คุณพยายามทำกับโมเดลของคุณ การโต้ตอบตัวแปรต่อเนื่องกับตัวแปรต่อเนื่องอื่น ๆ ที่มีตัวแปรเด็ดขาดเป็นเรื่องที่แตกต่างกันโดยสิ้นเชิง ดู: ดูคำถามที่พบบ่อยนี้จากสถาบันเพื่อการวิจัยและการศึกษาดิจิทัลของ UCLA


1

ใช่สิ่งนี้สามารถใช้ได้แม้ว่าจะหายาก แต่ในกรณีนี้คุณยังต้องจำลองเอฟเฟ็กต์หลักซึ่งคุณจะต้องถอยหลัง

แน่นอนในบางรุ่นการโต้ตอบเท่านั้นน่าสนใจเช่นการทดสอบยา / แบบจำลองทางคลินิก นี่คือตัวอย่างพื้นฐานของแบบจำลอง PsychoPhysiological Interactions (gPPI) Generalized model: y = ax + bxh + chโดยที่x/yvoxels / ภูมิภาคที่น่าสนใจและhการออกแบบบล็อก / กิจกรรม

ในรุ่นนี้ทั้งสองaและcจะถูกยกเลิกเท่านั้นbจะถูกเก็บไว้สำหรับการอนุมาน (ค่าสัมประสิทธิ์เบต้า) อันที่จริงทั้งสองaและcเป็นตัวแทนกิจกรรมปลอมแปลงในกรณีของเราและbแสดงเฉพาะสิ่งที่ไม่สามารถอธิบายได้โดยกิจกรรมปลอม, การมีปฏิสัมพันธ์กับงาน


1

คำตอบสั้น ๆ : หากคุณรวมถึงการทำงานร่วมกันในลักษณะคงที่แล้วผลกระทบหลักจะรวมโดยอัตโนมัติ หรือไม่ว่าคุณโดยเฉพาะรวมไว้ในรหัสของคุณ ความแตกต่างเพียงอย่างเดียวคือพารามิเตอร์ของคุณคือสิ่งที่พารามิเตอร์ในแบบจำลองของคุณหมายถึง (เช่นพวกเขาหมายถึงกลุ่มหรือความแตกต่างจากระดับการอ้างอิง)

สมมติฐาน: ฉันคิดว่าเรากำลังทำงานในโมเดลเชิงเส้นทั่วไปและถามว่าเมื่อใดที่เราสามารถใช้ข้อมูลจำเพาะเอฟเฟกต์คงที่แทนโดยที่และเป็นปัจจัย (เด็ดขาด)A + B + A B A BABA+B+ABAB

ชี้แจงคณิตศาสตร์: เราคิดว่าการตอบสนองของเวกเตอร์I_n) หาก ,และมีการฝึกอบรมการออกแบบสำหรับปัจจัยที่สามแล้วรุ่นที่มี "ผลกระทบหลักและการมีปฏิสัมพันธ์" สอดคล้องกับข้อ จำกัดช่วง\} รูปแบบกับ "เท่านั้นปฏิสัมพันธ์" สอดคล้องกับข้อ จำกัดช่วง\} อย่างไรก็ตามช่วงช่วง\} ดังนั้นมันเป็นสองตัวแปรที่แตกต่างกันของรูปแบบเดียวกันX X B X B ξ { X , X B , X B } ξ { X B } { X B } = { X , X B , X A B }YN(ξ,σ2In)XAXBXABξ{XA,XB,XAB}ξ{XAB}{XAB}={XA,XB,XAB} (หรือตระกูลของการแจกแจงเดียวกันหากคุณรู้สึกสบายใจกับคำศัพท์นั้น)

ฉันเพิ่งเห็นว่า David Beede ให้คำตอบที่คล้ายกันมาก (ขอโทษ) แต่ฉันคิดว่าฉันจะทิ้งเรื่องนี้ไว้สำหรับผู้ที่ตอบสนองดีต่อมุมมองพีชคณิตเชิงเส้น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.