ฉันจะสร้างแบบจำลองการโต้ตอบระหว่างตัวแปรอธิบายได้อย่างไรเมื่อหนึ่งในนั้นอาจมีสมการกำลังสองและลูกบาศก์?


10

ฉันหวังเป็นอย่างยิ่งว่าฉันจะได้ใช้คำถามนี้ในลักษณะที่สามารถตอบได้อย่างชัดเจน - หากไม่ได้โปรดแจ้งให้เราทราบและฉันจะลองอีกครั้ง! ฉันควรเดาด้วยว่าฉันจะใช้ R สำหรับการวิเคราะห์เหล่านี้

ฉันมีหลายมาตรการplant performance (Ys)ที่ฉันสงสัยว่าได้รับอิทธิพลจากสี่รักษาผม imposed-- และflower thinning (X1), fertilization (X2), leaf clipping (X3) biased flower thinning (X4)สำหรับ Ys ที่เป็นไปได้ทั้งหมด N มีอย่างน้อย 242 ดังนั้นขนาดตัวอย่างของฉันจึงใหญ่ แผนการทั้งหมดถูกทำให้ผอมบางหรือไม่ แต่แต่ละแปลงก็ต้องมีหนึ่ง (และเพียงหนึ่ง) ของการรักษาอีกสาม (หรือไม่ - มีแผนการควบคุมด้วย) แนวคิดของการออกแบบนี้คือการทดสอบว่าอีกสามวิธีการรักษามีความสามารถในการ "กำบัง" หรือ "การเสริมสร้าง" ผลของการทำให้ผอมบาง ดังนั้นด้วยการออกแบบการรักษาทั้งสามหลัง (X2-X4) จึงไม่สามารถโต้ตอบกันได้เพราะพวกเขาไม่ได้ถูกข้าม แต่พวกเขาแต่ละคนสามารถโต้ตอบกับการทำให้ผอมบางของดอกไม้ - และพวกเขาอาจทำ

สมมติฐานที่ชัดเจนของฉันคือ 1) การทำให้ผอมบางดอกจะมีนัยสำคัญและ 2) คำที่ใช้ในการโต้ตอบX1*X2, X1*X3, and X1*X4,ระหว่างการทำให้ผอมบางของดอกไม้กับอีกสามการรักษาก็มีความสำคัญเช่นกัน นั่นคือการทำให้ผอมบางดอกไม้ควรมีความสำคัญ แต่วิธีการที่มันควรจะมีการเปลี่ยนแปลงอย่างมีนัยสำคัญโดยสิ่งที่อีกสามรักษา

ฉันต้องการรวมข้อมูลทั้งหมดนี้ในรูปแบบผสม:

Y ~ X0 + X1 + X2 + X3 + X4 + X1*X2 + X1*X3 + X1*X4 + (Up to three random effects)

แต่มีอยู่หนึ่งแขวน: ฉันมีเหตุผลที่ดีที่จะเชื่อว่าผลกระทบของการทำให้ผอมบางใน Y เป็นแบบไม่เป็นเชิงเส้น พวกเขาอาจจะเป็นกำลังสอง แต่อาจจะเป็นลูกบาศก์ในบางกรณี นี่เป็นเพราะผลกระทบของการทำให้ผอมบางที่มีต่อประสิทธิภาพมีแนวโน้มที่จะเพิ่มขึ้นเร็วขึ้นในระดับที่ผอมบาง ถ้าฉันพยายามที่จะสร้างแบบจำลองความสัมพันธ์ที่ไม่ใช่เชิงเส้นผ่านสมการข้างต้นโดยการเพิ่มคำกำลังสองและลูกบาศก์สำหรับ X1 ฉันก็ไม่แน่ใจว่าจะสร้างแบบจำลองเงื่อนไขการโต้ตอบได้อย่างไร - ฉันควรจะรวมชุดค่าผสมที่เป็นไปได้ทั้งหมดของ X1, (X1) ^ 2 และ (X1) ^ 3 * X2, X3 และ X4? เพราะนั่นดูเหมือนว่าเป็นพารามิเตอร์จำนวนมากที่จะพยายามประมาณแม้จะมีจำนวนจุดข้อมูลที่ฉันมีและฉันไม่แน่ใจว่าจะตีความผลลัพธ์ที่ฉันจะได้รับอย่างไร ที่กล่าวว่าฉันไม่มีเหตุผลทางชีวภาพที่จะคิดว่านี่จะเป็นวิธีที่ไม่รอบคอบในการสร้างแบบจำลองสถานการณ์

ดังนั้นฉันมีสามความคิดเกี่ยวกับวิธีแก้ไขปัญหานี้:

  1. พอดีกับโมเดลที่มีขนาดเล็กกว่าก่อนเช่นY ~ X1 + X1^2 + X^3 + Random effectsมีจุดประสงค์เพียงอย่างเดียวในการพิจารณาว่าความสัมพันธ์ระหว่างการทำให้ผอมบางและ Y นั้นเป็นเส้นตรงกำลังสองหรือลูกบาศก์แล้วเปลี่ยนการทำให้ผอมบางผ่านสี่เหลี่ยม - หรือลูกบาศก์รูท จากที่นั่นเงื่อนไขการโต้ตอบสามารถเป็นแบบอย่างข้างต้นด้วยตัวแปรแปลง
  2. สมมติว่าการโต้ตอบที่สำคัญหากเกิดขึ้นจะส่งผลต่อคำศัพท์ X1 เพียงคำเดียว (เช่นเฉพาะเชิงเส้นกำลังสองหรือลูกบาศก์เทอม) และจำลองการโต้ตอบตามนั้น ฉันไม่แน่ใจด้วยซ้ำว่าวิธีการนี้เหมาะสมหรือไม่
  3. พอดีกับ "full model" กับทุก ๆ ระยะการโต้ตอบที่เป็นไปได้ระหว่างคำที่ทำให้ผอมบางและการรักษาอื่น ๆ ตามที่กล่าวไว้ข้างต้น จากนั้นตัดคำที่ไม่สำคัญออกไปและใช้กราฟและเทคนิคอื่น ๆ เพื่อตีความผลลัพธ์

วิธีการใดที่เหมาะสมที่สุดและทำไมเพราะฉันสนใจการทดสอบสมมติฐานและไม่เลือกรูปแบบ? โดยเฉพาะอย่างยิ่งหาก # 1 ด้านบนไม่สมเหตุสมผลที่จะทำทำไมเป็นเช่นนั้น? ฉันได้อ่านบทความนี้และบทความนี้และพยายามที่จะแยกแยะสิ่งที่พวกเขาอาจมีความหมายสำหรับฉัน แต่แหล่งข้อมูลใด ๆ สำหรับการอ่านเพิ่มเติมก็จะได้รับการชื่นชมมาก!

คำตอบ:


7

วิธีการเหล่านี้จะไม่ทำงานอย่างถูกต้อง วิธีที่ 3 เข้ามาใกล้ แต่คุณบอกว่าคุณจะตัดคำที่ไม่สำคัญออกไป นี่เป็นปัญหาเนื่องจากการมีลักษณะร่วมเป็นเส้นตรงทำให้ไม่สามารถหาคำศัพท์ที่จะลบออกได้และเนื่องจากนี่จะทำให้คุณมีระดับความอิสระที่ไม่ถูกต้องในการทดสอบสมมติฐานหากคุณต้องการรักษาข้อผิดพลาดประเภทที่ 1

ขึ้นอยู่กับขนาดตัวอย่างและสัญญาณที่มีประสิทธิภาพ: อัตราส่วนสัญญาณรบกวนในปัญหาของคุณฉันขอแนะนำให้ติดตั้งแบบจำลองกับผลิตภัณฑ์และเงื่อนไขหลักทั้งหมดและตีความโมเดลโดยใช้พล็อตและ "การทดสอบชิ้น" (การทดสอบหลายชิ้นของคำที่เกี่ยวข้องเช่น การทดสอบการมีปฏิสัมพันธ์โดยรวมการทดสอบการมีปฏิสัมพันธ์แบบไม่เชิงเส้นการทดสอบเอฟเฟกต์รวมถึงเอฟเฟกต์หลัก + การโต้ตอบ ฯลฯ ) rmsแพคเกจR ทำให้ง่ายต่อการทำสำหรับรุ่น univariate มาตรฐานและสำหรับรุ่นยาวเมื่อเป็นหลายตัวแปรปกติ ตัวอย่าง:Y

# Fit a model with splines in x1 and x2 and tensor spline interaction surface
# for the two.  Model is additive and linear in x3.
# Note that splines typically fit better than ordinary polynomials
f <- ols(y ~ rcs(x1, 4) * rcs(x2, 4) + x3)
anova(f)   # get all meaningful hypothesis tests that can be inferred
           # from the model formula
bplot(Predict(f, x1, x2))    # show joint effects
plot(Predict(f, x1, x2=3))   # vary x1 and hold x2 constant

เมื่อคุณเห็นanovaตารางคุณจะเห็นบรรทัดที่มีป้ายกำกับว่าAll Interactionsแบบจำลองทั้งหมดทดสอบอิทธิพลรวมของคำที่ใช้โต้ตอบทั้งหมด สำหรับตัวทำนายแต่ละตัวสิ่งนี้จะเป็นประโยชน์เฉพาะเมื่อตัวทำนายนั้นโต้ตอบกับตัวแปรมากกว่าหนึ่งตัว มีตัวเลือกในprintวิธีการที่anova.rmsจะแสดงโดยแต่ละบรรทัดในตารางตรงที่พารามิเตอร์จะถูกทดสอบกับศูนย์ ทั้งหมดนี้ใช้งานได้กับชุดผสมของตัวพยากรณ์หมวดหมู่และตัวทำนายแบบต่อเนื่อง

หากคุณต้องการที่จะใช้หลายชื่อสามัญใช้แทนpolrcs

น่าเสียดายที่ฉันไม่ได้ใช้โมเดลเอฟเฟกต์ผสม


1
ขอบคุณสำหรับคำตอบนี้ ฉันไม่เคยใช้ Splines มาก่อน แต่ฉันคิดว่าฉันเข้าใจตัวอย่างของคุณ ฉันมีคำถามติดตามสองสามข้อถ้าไม่เป็นไร 1. เมื่อดูที่ anova เป็นผลมาจาก ols เช่นในตัวอย่างของคุณ "การโต้ตอบทั้งหมด" มีความหมายอย่างไรภายใต้ปัจจัย นั่นคือปฏิสัมพันธ์ทั้งหมดกับอะไร 2. วิธีการที่คล้ายกันจะได้รับอนุญาตในวิธีการผสมแบบจำลองหรือไม่? ฉันคิดว่าฉันติดอยู่กับความต้องการปัจจัยแบบสุ่ม ตัวอย่างของคุณเข้ากันได้กับตัวอย่างเช่น lme4 หรือไม่ 3. วิธีนี้จะใช้ได้ผลหรือไม่หากการรักษาแบบโต้ตอบบางประเภทมีการจัดหมวดหมู่? เช่นจะเกิดอะไรขึ้นถ้า X2 เป็นปัจจัย 2 ระดับ
Bajcz

2

ฉันเป็นแฟนตัวยงของการใช้การถดถอยแบบไม่อิงพารามิเตอร์เพื่อประเมินรูปแบบการทำงานของความสัมพันธ์ระหว่างตัวแปรตามและตัวทำนายแม้ว่าฉันจะประเมินแบบจำลองการถดถอยแบบพารามิเตอร์ในภายหลัง ในขณะที่ฉันพบความสัมพันธ์แบบไม่เชิงเส้นบ่อยครั้งมากฉันไม่เคยพบคำที่มีปฏิสัมพันธ์แบบไม่เชิงเส้นแม้ว่าจะมีผลกระทบหลักอย่างรุนแรง การกลับบ้านของฉัน: เอฟเฟ็กต์การโต้ตอบไม่จำเป็นต้องประกอบด้วยรูปแบบการทำงานเดียวกับตัวทำนายที่ประกอบด้วย


ดังนั้นเพื่ออธิบายให้ชัดเจนว่าการกลับบ้านของคุณคือว่าถ้าฉันเลือกตัวเลือก # 2 ฉันสามารถรวมเงื่อนไขการโต้ตอบกับคำศัพท์เชิงเส้น X1 ได้อย่างปลอดภัยและไม่ต้องกังวลเกี่ยวกับ
Bajcz

1
@Bajcz ดี ... ฉันเดาฉันกำลังพูดสองสิ่ง: (1) ฉันได้รับการจัดการโดยในชุดข้อมูลที่ฉันได้พบกับการโต้ตอบเชิงเส้นเท่านั้นเท่านั้น แต่ยัง (2) ฉันชอบดู (ใช้การถดถอยแบบพารามิเตอร์) และให้ข้อมูลบอกฉันว่าฉันควรพิจารณาทางเลือกที่ไม่เชิงเส้นหรือไม่ [การใช้แบบจำลองที่เหมาะสมหรือการทดสอบสมมติฐานกับข้อตกลงเชิงเส้นคือ IMO วิธีที่ผิดที่จะไปเกี่ยวกับเรื่องนี้ตั้งแต่นั้นมายกตัวอย่างเช่นการอนุมานจากตัวอย่างข้อตกลงพหุนามแบบกำหนดเองมากกว่าข้อมูลเอง]
Alexis

3
ไม่มีเหตุผลใหญ่ที่จะเชื่อว่าการโต้ตอบมีแนวโน้มที่จะเป็นเส้นตรง ฉันเจอตัวอย่างที่ดีของการปฏิสัมพันธ์ที่ไม่ใช่เชิงเส้น แนวคิดของ "การค้นหา" และ "การให้ข้อมูลบอกคุณ" กำลังประสบกับปัญหาการอนุมานรวมถึงปัญหาช่วงความมั่นใจที่ไม่ดี
Frank Harrell

1
@ FrankHarrell ขอขอบคุณ! ประโยคแรกของคุณคือจุดที่ฉันพยายามข้ามใน (2) ในความคิดเห็นข้างต้น (ประสบการณ์ที่ผ่านมาของฉันอาจแตกต่างกันอย่างมากในอนาคต) OTOH: การไม่ปล่อยให้ข้อมูลพูดได้เป็นกลยุทธ์ที่ยอดเยี่ยมสำหรับการอนุมานการอนุมานเกี่ยวกับสิ่งประดิษฐ์ของการสร้างแบบจำลองสมมติฐานไปยังการอนุมานเกี่ยวกับข้อมูลจริง
Alexis
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.