แนวปฏิบัติที่ดีที่สุดในการระบุเอฟเฟกต์การโต้ตอบคืออะไร?


35

นอกเหนือจากการทดสอบตัวอักษรที่เป็นไปได้รวมกันในแบบจำลอง ( x1:x2หรือx1*x2 ... xn-1 * xn) คุณจะระบุได้อย่างไรว่าการโต้ตอบควรมีอยู่ระหว่างตัวแปรอิสระ (หวังว่า) ของคุณหรือไม่

แนวปฏิบัติที่ดีที่สุดในการพยายามระบุการโต้ตอบคืออะไร มีเทคนิคกราฟิกที่คุณสามารถใช้หรือไม่?


คุณสามารถบอกเราเล็กน้อยเกี่ยวกับข้อมูลของคุณ ขนาด (คำตอบของฉัน) และธรรมชาติ (คำตอบของ Gavin)
robin girard

@ Robin: ให้เวลาเขาลุกจากเตียงแบรนดอนอยู่ในโตรอนโต ;-)
Reinstate Monica - G. Simpson

1
@ Robin ฉันต้องการให้มันเป็นเรื่องทั่วไปมากขึ้น หากในการตอบกลับของคุณคุณกำลังเตรียมวิธีการที่จำเป็นต้องมีข้อสันนิษฐานเกี่ยวกับขนาดหรือลักษณะของข้อมูลโปรดระบุไว้ ปัญหาฉันมีช่วงของงานการสร้างแบบจำลองที่แตกต่างกันจำนวนมากทั้งหมดมีข้อมูลที่แตกต่างกัน ดังนั้นในกรณีนี้ฉันกำลังมองหาคำแนะนำทั่วไปเกี่ยวกับการระบุเอฟเฟกต์การโต้ตอบ
Brandon Bertelsen

คำตอบ:


20

Cox and Wermuth (1996) หรือ Cox (1984) กล่าวถึงวิธีการบางอย่างในการตรวจจับการมีปฏิสัมพันธ์ โดยทั่วไปปัญหามักจะเป็นเงื่อนไขทั่วไปของการโต้ตอบ โดยทั่วไปเรา (ก) พอดี (และทดสอบ) ทุกแง่การมีปฏิสัมพันธ์ที่สองสั่งซื้อในช่วงเวลาหนึ่งและ (ข) พล็อตที่สอดคล้องกัน P-ค่าของพวกเขา (เช่นข้อตกลงฉบับที่เป็นหน้าที่ของ ) ความคิดคือการดูว่าจำนวนของเงื่อนไขการโต้ตอบควรจะเก็บไว้: ภายใต้สมมติฐานว่าข้อตกลงการปฏิสัมพันธ์ทั้งหมดเป็นโมฆะการกระจายของค่า p- ควรจะเหมือนกัน เส้นที่ผ่านจุดกำเนิด)1p

ทีนี้อย่างที่@Gavinกล่าวว่าการมีปฏิสัมพันธ์ที่เหมาะสม (ถ้าไม่ใช่ทั้งหมด) อาจนำไปสู่การ overfitting แต่ก็ไม่มีประโยชน์ในแง่หนึ่ง (เงื่อนไขการโต้ตอบที่มีลำดับสูงบางครั้งก็ไม่มีความหมาย) อย่างไรก็ตามสิ่งนี้เกี่ยวข้องกับการตีความไม่ใช่การตรวจจับการโต้ตอบและการทบทวนที่ดีนั้นได้จัดทำขึ้นโดย Cox ในการตีความการโต้ตอบ: การตรวจสอบ ( The Annals of Applied Statistics 2007, 1 (2), 371–385) - มัน รวมการอ้างอิงที่อ้างถึงข้างต้น สายการวิจัยอื่นที่ควรพิจารณาคือการศึกษาผลกระทบของepistaticในการศึกษาทางพันธุกรรมโดยเฉพาะอย่างยิ่งวิธีการที่ขึ้นอยู่กับแบบจำลองแบบกราฟิก (เช่นวิธีที่มีประสิทธิภาพสำหรับการระบุผู้ปฏิสัมพันธ์ทางสถิติในเครือข่ายสมาคมยีน )

อ้างอิง

  • Cox, DR และ Wermuth, N (1996) อ้างอิงหลายตัวแปร: รุ่น, การวิเคราะห์และการตีความ แชปแมนและฮอล / CRC
  • Cox, DR (1984) ปฏิสัมพันธ์ การทบทวนทางสถิติระหว่างประเทศ , 52, 1–31

16

วิธีปฏิบัติที่ดีที่สุดของฉันคือคิดเกี่ยวกับปัญหาก่อนส่งแบบ แบบจำลองที่น่าเชื่อถือคืออะไรที่ให้ปรากฏการณ์ที่คุณกำลังศึกษาอยู่? ปรับการผสมผสานของตัวแปรและการโต้ตอบที่เป็นไปได้ทั้งหมดเข้าด้วยกันให้เหมือนกับการขุดลอกข้อมูลให้ฉัน


5
ฟังดูเหมือนคำพูดหรือคำตอบคือ "คิด"?
robin girard

2
@ Robin - หลัง ฉันพบว่าการสร้างแบบจำลองทางสถิติค่อนข้างยาก (ฉันเป็นนักนิเวศวิทยาที่มีการฝึกอบรมทางสถิติเล็กน้อยอย่างเป็นทางการสิ่งที่ฉันได้เรียนรู้มาจากการเรียนรู้ด้วยตนเอง) แต่มันง่ายกว่ามากถ้าฉันคิดเกี่ยวกับปัญหาก่อน สร้างแบบจำลองนั้นทำการวินิจฉัยแบบจำลองของฉันลองทำปฏิกิริยากับสิ่งเหล่านี้
Reinstate Monica - G. Simpson

2
@Brandon: หากมีการโต้ตอบที่ขาดหายไปจะมีรูปแบบในเงื่อนไขที่เหลือตามค่าของ covariates การพล็อตสิ่งตกค้างกับโควาเรียอาจช่วยในการพิจารณาว่าการทำปฏิกิริยานั้นเหมาะสมหรือไม่
Reinstate Monica - G. Simpson

2
@Brandon: นี่คือการวินิจฉัยรูปแบบมาตรฐานและทักษะการวางแผนการสำรวจ ฉันจะพล็อตเรื่องที่เหลือกับหนึ่งในบรรดาโควาเรียที่ฉันคิดว่าอาจเป็นตัวเลือกสำหรับการเติม, ปรับอากาศ (ใน ggplot2 หรือทางขัดแตะ) กับค่าของ covariate ที่ฉันคิดว่าเกี่ยวข้องกับการมีปฏิสัมพันธ์ ติดสีเหลืองที่เรียบกว่าผ่านแต่ละแผงเพื่อดูว่ามีลวดลายหรือไม่ ขึ้นอยู่กับตัวแปรประเภทของคุณคือตัวแปร
Reinstate Monica - G. Simpson

2
ขุดลอกข้อมูล? หากคุณทรมานข้อมูลนานพอมันจะสารภาพ ...
อยากรู้อยากเห็น

16

การติดตั้งโมเดลทรี (เช่นการใช้ R) จะช่วยให้คุณระบุการโต้ตอบที่ซับซ้อนระหว่างตัวแปรอธิบาย อ่านตัวอย่างเช่นในหน้า 30 ที่นี่


ง่ายมากและมีประโยชน์มาก ขอบคุณสำหรับการอ้างอิงถึงข้อความของ Crawley ด้วย!
Brandon Bertelsen

ระวัง - คุณไม่สามารถโต้ตอบกับสิ่งเหล่านั้นได้อย่างง่ายดายในรูปแบบเชิงเส้น การโต้ตอบเกิดขึ้นในสาขาเดียวของต้นไม้ (หรือส่วนหนึ่งของ) คุณต้องการข้อมูลจำนวนมากเพื่อใช้เครื่องมือประเภทนี้ในข้อมูลโลกแห่งความจริง
Reinstate Monica - G. Simpson

3
ดังที่ @Gavin กล่าวหนึ่งในข้อผิดพลาดที่อาจเกิดขึ้นคือต้นไม้การตัดสินใจต้องการตัวอย่างขนาดใหญ่และค่อนข้างไม่แน่นอน (ซึ่งเป็นหนึ่งในเหตุผลของการบรรจุหีบห่อ ปัญหาอีกประการหนึ่งก็คือมันไม่ชัดเจนว่าเราค้นหาเอฟเฟกต์การโต้ตอบลำดับที่สองหรือสูงกว่า ในกรณีก่อนหน้านี้ CART ไม่ใช่วิธีแก้ปัญหา ไม่ว่าในกรณีใดฉันจะพบการตีความการโต้ตอบระหว่างตัวแปร 6 อย่างในการศึกษาทุกรูปแบบ (แบบสังเกตหรือควบคุม)
chl

7

ฉันจะคำนำคำตอบนี้เมื่อฉันเห็นด้วยกับกาวินทั้งหมดและหากคุณสนใจที่จะปรับแบบจำลองทุกประเภทมันควรจะสะท้อนปรากฏการณ์ที่เกิดขึ้นภายใต้การศึกษา ปัญหาที่เกิดขึ้นคือตรรกะในการระบุเอฟเฟกต์ใด ๆ และทั้งหมด (และสิ่งที่กาวินอ้างถึงเมื่อเขากล่าวว่าการขุดลอกข้อมูล) คือคุณสามารถใส่การโต้ตอบจำนวนอนันต์หรือเงื่อนไขกำลังสองสำหรับตัวแปรหรือการแปลงข้อมูลของคุณ จะพบผลกระทบ "สำคัญ" อย่างหลีกเลี่ยงไม่ได้สำหรับข้อมูลของคุณที่เปลี่ยนแปลง

ในฐานะที่เป็นรัฐ chl เอฟเฟกต์การสั่งซื้อที่สูงขึ้นเหล่านี้ไม่มีการตีความใด ๆ และบ่อยครั้งที่การโต้ตอบที่มีลำดับต่ำกว่าไม่สมเหตุสมผล หากคุณสนใจที่จะพัฒนาแบบจำลองเชิงสาเหตุคุณควรรวมเฉพาะคำศัพท์ที่คุณเชื่อว่าอาจเกี่ยวข้องกับตัวแปรตามของคุณA นิรนัยเพื่อปรับโมเดลของคุณ

หากคุณเชื่อว่าพวกเขาสามารถเพิ่มพลังการทำนายของแบบจำลองของคุณคุณควรค้นหาแหล่งข้อมูลเกี่ยวกับเทคนิคการเลือกแบบจำลองเพื่อป้องกันไม่ให้แบบจำลองของคุณมีขนาดเกินพอดี


7

วิธีที่มีขนาดใหญ่เป็น ? คุณมีข้อสังเกตกี่ข้อ? นี่เป็นสิ่งสำคัญ ...n

ดัชนี Sobolจะบอกคุณสัดส่วนของความแปรปรวนอธิบายได้ด้วยการทำงานร่วมกันถ้าคุณมีจำนวนมากของการสังเกตและไม่กี่มิฉะนั้นคุณจะต้องทำแบบจำลอง (เชิงเส้นที่จะเริ่มต้นด้วย) คุณมีแพ็คเกจ R ที่ดีสำหรับความไวที่เรียกว่า อย่างไรก็ตามความคิดนั้นค่อนข้างบ่อยครั้งที่การย่อยสลายความแปรปรวน (หรือที่เรียกว่าการวิเคราะห์ความแปรปรวนทั่วไป)n

หากคุณต้องการทราบว่าสัดส่วนความแปรปรวนนี้มีความสำคัญหรือไม่คุณต้องทำการสร้างแบบจำลอง (โดยประมาณคุณต้องทราบจำนวนองศาอิสระของแบบจำลองของคุณเพื่อเปรียบเทียบกับความแปรปรวน)

ตัวแปรของคุณไม่ต่อเนื่องหรือต่อเนื่องหรือไม่? จำกัด หรือไม่จริง ๆ (เช่นคุณไม่ทราบจำนวนสูงสุด)


ขอบคุณสำหรับทิศทางไปยังดัชนี Sobol อีกครั้งฉันต้องการระบุว่าฉันกำลังมองหาทั่วไปมากกว่าคำตอบเฉพาะที่นี่ ฉันไม่ได้ถามเกี่ยวกับชุดข้อมูลที่เฉพาะเจาะจง แต่พยายามอธิบายปัญหาที่เกิดขึ้นกับชุดข้อมูลหลายชุด
Brandon Bertelsen
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.