การเปรียบเทียบตัวแบบการถดถอยเชิงเส้นสองแบบ


12

ฉันต้องการเปรียบเทียบแบบจำลองการถดถอยเชิงเส้นสองแบบซึ่งเป็นตัวแทนของอัตราการลดลงของ mRNA เมื่อเวลาผ่านไปภายใต้เงื่อนไขที่แตกต่างกันสองแบบ ข้อมูลสำหรับแต่ละรุ่นรวบรวมอย่างอิสระ

นี่คือชุดข้อมูล

บันทึกเวลา (ชั่วโมง) (การรักษา A) บันทึก (การรักษา B)
0 2.02 1.97
0 2.04 2.06
0 1.93 1.96
2 2.02 1.91
2 2.00 1.95
2 2.07 1.82
4 1.96 1.97
4 2.02 1.99
4 2.02 1.99
6 1.94 1.90
6 1.94 1.97
6 1.86 1.88
8 1.93 1.97
8 2.12 1.99
8 2.06 1.93
12 1.71 1.70
12 1.96 1.73
12 1.71 1.76
24 1.70 1.46
24 1.83 1.41
24 1.62 1.42

นี่คือรุ่นของฉัน:

Exp1.A.lm<-lm(Exp1$Time~Exp1$(Treatment A))
Exp1.B.lm<-lm(Exp1$Time~Exp1$(Treatment B))
โทร:
lm (สูตร = Exp1 $ เวลา ~ Exp1 $ (การรักษา A))

เหลือ:
    ต่ำสุด 1Q ค่ามัธยฐาน 3Q สูงสุด 
-6.8950 -1.2322 0.2862 1.2494 5.2494 

ค่าสัมประสิทธิ์:
                   ประมาณการ Std ข้อผิดพลาด t ค่า Pr (> | t |)    
(สกัดกั้น) 74.68 6.27 11.91 2.94e-10 ***
ค่าใช้จ่าย $ 1 (การรักษา A) -36.14 3.38 -10.69 1.77e-09 ***
---
signif รหัส: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 '' 1

ข้อผิดพลาดมาตรฐานที่เหลือ: 2.97 ใน 19 องศาอิสระ
หลาย R-squared: 0.8575, R-squared ที่ปรับแล้ว: 0.85 
สถิติ F-114.3 ในวันที่ 1 และ 19 DF ค่า p: 1.772e-09

โทร:
lm (สูตร = Exp1 $ เวลา ~ Exp1 $ (การรักษา B))

เหลือ:
   ต่ำสุด 1Q ค่ามัธยฐาน 3Q สูงสุด 
-7.861 -3.278 -1.444 3.222 11.972 

ค่าสัมประสิทธิ์:
                      ประมาณการ Std ข้อผิดพลาด t ค่า Pr (> | t |)    
(สกัดกั้น) 88.281 16.114 5.478 2.76e-05 ***
ค่าใช้จ่าย $ 1 (การรักษา B) -41.668 8.343 -4.994 8.05e-05 ***
---
signif รหัส: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 '' 1

ข้อผิดพลาดมาตรฐานที่ตกค้าง: 5.173 ใน 19 องศาอิสระ
หลาย R-squared: 0.5676, R-squared ที่ปรับแล้ว: 0.5449 
สถิติ F: 24.94 ในวันที่ 1 และ 19 DF ค่า p: 8.052e-05

เพื่อเปรียบเทียบทั้งสองรุ่นฉันใช้รหัสต่อไปนี้

anova(Exp1.A.lm,Exp1.B.lm)
การวิเคราะห์ตารางความแปรปรวน

รุ่น 1: Exp1 $ Time ~ Exp1 $ Exp1 $ (การรักษา A)
รุ่น 2: Exp1 $ Time ~ Exp1 $ Exp1 $ (การรักษา B)
  Res.Df RSS Df ผลรวมของ Sq F Pr (> F)
1 19 167.60                      
2 19 508.48 0 -340.88

คำถามของฉันคือเหตุผลที่การวิเคราะห์ ANOVA ไม่แสดงสถิติ F และ p.val ฉันขอโทษถ้านี่เป็นคำถามที่ไร้เดียงสา

ขึ้นอยู่กับความลาดชันที่แตกต่างกันอัตราการย่อยสลายแตกต่างกันในสองโมเดลนี้ แต่ฉันอยากจะรู้ว่าความแตกต่างนี้มีนัยสำคัญทางสถิติอย่างไร ฉันหวังว่านี่จะสมเหตุสมผล


2
คุณอาจพบว่าตาราง ANOVA แสดงรายการองศาความเป็นอิสระที่เกี่ยวข้องกับการวิเคราะห์เป็น0 ; คุณมีตัวแปรจำนวนเท่ากันในทั้งสองรุ่นนั่นคือเหตุผลที่ไม่สามารถคำนวณค่า F หรือ p-value ได้
gung - Reinstate Monica

5
ฉันไม่รำคาญที่จะเปรียบเทียบโมเดลเหล่านี้จนกว่าจะได้ตรวจสอบความพอดีของมันแล้ว ฉันคิดว่าคุณจะพบในครั้งที่สองที่ไม่ตอบสนองหรือลอการิทึมของมันเป็นฟังก์ชั่นเชิงเส้นของเวลา สิ่งนี้เรียกร้องให้มีการตั้งคำถามอย่างจริงจังเมื่อเปรียบเทียบการประมาณความชัน
whuber

คำตอบ:


11

หากคุณตั้งค่าข้อมูลในคอลัมน์ยาวหนึ่งคอลัมน์โดยมี A และ B เป็นคอลัมน์ใหม่คุณสามารถเรียกใช้โมเดลการถดถอยของคุณเป็น GLM ด้วยตัวแปรเวลาต่อเนื่องและตัวแปร "การทดลอง" เล็กน้อย (A, B) ผลลัพธ์ของ ANOVA จะให้ความสำคัญของความแตกต่างระหว่างพารามิเตอร์ "การสกัดกั้น" คือการสกัดกั้นทั่วไปและปัจจัย "การทดลอง" จะสะท้อนถึงความแตกต่างระหว่างการสกัดกั้น (โดยทั่วไปหมายถึงโดยรวม) ระหว่างการทดลองปัจจัย "เวลา" จะเป็นความลาดชันทั่วไปและการมีปฏิสัมพันธ์คือความแตกต่างระหว่างการทดลอง ถึงความชัน

ฉันต้องยอมรับว่าฉันโกง (?) และเรียกใช้โมเดลแยกกันก่อนเพื่อรับพารามิเตอร์สองชุดและข้อผิดพลาดจากนั้นจึงเรียกใช้โมเดลรวมเพื่อรับความแตกต่างระหว่างการรักษา (ในกรณี A และ B) ...


3
นี่เป็นวิธีที่ฉลาด เมื่อคุณ "โกง" คุณตรวจสอบว่าความแปรปรวนข้อผิดพลาดนั้นใกล้เคียงกันในแต่ละรุ่นหรือไม่ และหากปรากฏแตกต่างกันมากสิ่งนี้มีผลต่อคำแนะนำของคุณอย่างไร
whuber

Th GLM เป็นวิธีการที่ดีและสำหรับการสำรวจข้อมูลการแยกโมเดลที่เหมาะสมเป็นวิธีที่ดีในการตัดสินความแปรปรวนข้อผิดพลาดระหว่างการทดลอง หากมีข้อกังวลจริงๆพวกเขาสามารถขยายโมเดล GLM เพื่อรวมความแปรปรวนข้อผิดพลาดเฉพาะของกลุ่มมากกว่าการอนุมานโดยนัยของความแปรปรวนข้อผิดพลาดทั่วไปสำหรับข้อมูลการทดลองทั้งหมด
prince_of_pears

อีกสิ่งหนึ่งที่อยู่ในใจคือว่า OP มีความสนใจในการซื้อขายหรือไม่ว่าอัตราการย่อยสลายระหว่างการทดลองนั้นแตกต่างกันหรือไม่ จำนวนแรกเป็นการทดสอบสมมติฐานที่ว่าค่าสัมประสิทธิ์ปฏิสัมพันธ์ระหว่างการรักษาและเวลาเท่ากับศูนย์ ข้อที่สองคือทำการทดสอบแยกกันสองแบบ (หรือการทดสอบสมมติฐานร่วมหนึ่งข้อ) ว่าแต่ละอัตราแตกต่างจากศูนย์ ฉันอาจจะสนใจในการทดสอบครั้งที่สองก่อนที่จะเป็นครั้งแรก
prince_of_pears

5

การวิเคราะห์ ANOVA ไม่ได้แสดงสถิติ F และค่า p.value เนื่องจากทั้งสองรุ่นมีองศาอิสระที่เหลืออยู่เท่ากัน (เช่น 19) และหากคุณมีความแตกต่างก็จะเป็นศูนย์! ควรมีอิสระอย่างน้อยหนึ่งระดับหลังจากคุณรับความแตกต่างเพื่อทำการทดสอบ F


ฉันไม่แน่ใจว่าฉันเข้าใจคำตอบของคุณหรือไม่ มีเหตุผลว่าองศาอิสระที่เหลืออยู่เท่ากันหรือไม่? มีข้อเสนอแนะเกี่ยวกับวิธีการอื่นในการเปรียบเทียบความลาดชันหรือไม่?
Rooz

ใช่แล้ว ทั้งในรูปแบบของคุณคุณมี 21 ข้อสังเกตคือnในการถดถอยเชิงเส้นที่มีตัวแปรสุ่มอธิบายอย่างใดอย่างหนึ่ง (เช่น Exp1 (การรักษา B)) ระดับความเป็นอิสระสำหรับ regressors คือหนึ่ง การศึกษาระดับปริญญารวมของเสรีภาพdf_โปรดทราบว่าregressors} ดังนั้นในทั้งสองรุ่นดังนั้นคุณไม่สามารถใช้การทดสอบ F ที่นี่ ( t r e a t m e n t A ) o r e x p 1 d f T = n - 1 = 20 d f T = d f e r r o r + d f r e g r e s s o r s d f e r r o rn=21(TreatmentA)orExp1dfT=n1=20dfT=dferror+dfregressorsdferror=19
สถิติ

มีหลายวิธีในการเปรียบเทียบกับแบบอื่นนอกเหนือจาก F-test วิธีที่ง่ายที่สุดคือการใช้ Multiple R-squared และ Adjusted R-squared ตามที่คุณมีในบทสรุปแบบจำลองที่มี R-squared สูงกว่าหรือ Adjusted R-squared จะดีกว่า ที่นี่รุ่นที่ดีกว่าน่าจะเป็นรุ่นที่มี Exp1 $ (การรักษา A) แต่จำไว้ว่าคุณควรตรวจสอบส่วนที่เหลือของแบบจำลองของคุณเพื่อตรวจสอบความเพียงพอของแบบจำลองที่ติดตั้งไว้ ฉันเองไม่แนะนำให้ใช้เฉพาะกับเกณฑ์ R-squared และคุณควรตรวจสอบสมมติฐานอื่น ๆ ในโมเดลเชิงเส้นเช่นกัน โดยเฉพาะอย่างยิ่งดูว่าเศษที่เหลือมีความสัมพันธ์โดยอัตโนมัติหรือไม่
สถิติ
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.