การระบุโครงสร้างความแปรปรวนร่วม: ข้อดีและข้อเสีย


15

ประโยชน์ของการระบุโครงสร้างความแปรปรวนร่วมใน GLM คืออะไร (แทนที่จะจัดการกับรายการนอกแนวทแยงทั้งหมดในเมทริกซ์ความแปรปรวนร่วมเป็นศูนย์) นอกเหนือจากการสะท้อนสิ่งที่คนรู้จากข้อมูลแล้ว

  1. ปรับปรุงความดีของพอดี?
  2. ปรับปรุงความแม่นยำในการทำนายข้อมูลที่จัดขึ้น?
  3. อนุญาตให้เราประเมินขอบเขตความแปรปรวนร่วมได้หรือไม่

ค่าใช้จ่ายในการกำหนดโครงสร้างความแปรปรวนร่วมคืออะไร? ทำมัน

  1. เพิ่มความยุ่งยากในการคำนวณสำหรับอัลกอริทึมการประมาณค่าหรือไม่?
  2. เพิ่มจำนวนพารามิเตอร์โดยประมาณรวมถึงการเพิ่ม AIC, BIC, DIC

เป็นไปได้หรือไม่ที่จะกำหนดโครงสร้างความแปรปรวนร่วมที่ถูกต้องเชิงประจักษ์หรือเป็นสิ่งที่ขึ้นอยู่กับความรู้ของคุณเกี่ยวกับกระบวนการสร้างข้อมูล

ค่าใช้จ่าย / ผลประโยชน์ใด ๆ ที่ฉันไม่ได้พูดถึง?


5
โดยทั่วไปคุณต้องระบุโครงสร้างความแปรปรวนร่วมใน GLM หากโดย "สมมติว่าไม่มีความแปรปรวนร่วม" คุณหมายถึง "รายการนอกแนวทแยงทั้งหมดในเมทริกซ์ความแปรปรวนร่วมเป็นศูนย์" จากนั้นทั้งหมดที่คุณทำคือถือว่าโครงสร้างการแปรปรวนร่วมที่เฉพาะเจาะจงมากหนึ่งรายการ (คุณอาจเจาะจงมากขึ้นเช่นโดยสมมติว่าความแปรปรวนทั้งหมดเท่ากัน) บรรทัดล่าง: ฉันไม่แน่ใจว่าคำถามนี้สมเหตุสมผลหรือไม่ในรูปแบบปัจจุบัน (ฉันลงคะแนนแล้วเพราะฉันคิดว่าฉันจะเรียนรู้ได้มากเมื่อผู้เชี่ยวชาญเริ่มพูด) หรือฉันเข้าใจคุณผิด
Stephan Kolassa

คุณหมายถึงโครงสร้างความแปรปรวนร่วมใน GLM ด้วย a, พูด, การกระจายตัวแบบหลายตัวแปรปกติหรือการวิเคราะห์โครงสร้างความแปรปรวนร่วมของเมทริกซ์ความแปรปรวนร่วมหรืออย่างอื่นหรือไม่?
ทิม

1
@StephanKolassa คุณต้องการคัดลอกความคิดเห็นของคุณเป็นคำตอบหรือไม่? ดูเหมือนว่าจะตอบคำถามได้ดีเท่าที่จะเป็นไปได้
Corone

@Corone: จุดดีขอบคุณสำหรับการเตือน ฉันไปและโพสต์คำตอบ บางทีคนอื่นจะพูดสอดและให้หนึ่งที่ดีกว่า ...
สเตฟาน Kolassa

คำตอบ:


13

โดยทั่วไปคุณต้องระบุโครงสร้างความแปรปรวนร่วมใน GLM หากโดย "สมมติว่าไม่มีความแปรปรวนร่วม" คุณหมายถึง "รายการนอกแนวทแยงทั้งหมดในเมทริกซ์ความแปรปรวนร่วมเป็นศูนย์" จากนั้นทั้งหมดที่คุณทำคือถือว่าโครงสร้างการแปรปรวนร่วมที่เฉพาะเจาะจงมากหนึ่งรายการ (คุณอาจเฉพาะเจาะจงมากขึ้นเช่นโดยสมมติว่าความแปรปรวนทั้งหมดเท่ากัน)

นี่เป็นรูปแบบที่หลากหลายของ "ฉันไม่ได้สมัครสมาชิกปรัชญาใด ๆ เลยฉันเป็นนักปฏิบัติ" - "คุณเพิ่งอธิบายปรัชญาที่คุณสมัคร"

ดังนั้นฉันจะบอกว่าข้อดีของการคิดเกี่ยวกับโครงสร้างความแปรปรวนร่วมคือโอกาสในการใช้แบบจำลองที่เหมาะสมกับข้อมูลของคุณมากกว่า เช่นเดียวกับที่คุณควรรวมความสัมพันธ์ในการทำงานที่ทราบสำหรับค่าที่คาดหวัง (หรือค่าเฉลี่ย) ของการสังเกตของคุณคุณควรพิจารณาโครงสร้างใด ๆ ที่คุณรู้ในความแปรปรวนร่วม

และแน่นอนว่า "ข้อเสีย" คือคุณต้องคิดถึงสิ่งเหล่านี้จริงๆ ง่ายกว่ามากเพียงแค่ใช้การตั้งค่าเริ่มต้นของซอฟต์แวร์ แต่มันก็เหมือนกับการขับขี่ในเกียร์แรกเสมอเพราะรถของคุณอยู่ในเกียร์แรกเมื่อคุณซื้อมันและการทำความเข้าใจกับการเปลี่ยนเกียร์ก็ต้องใช้ความพยายาม ไม่แนะนำ.


2
+1 ฉันเห็นด้วยกับทุกคำที่คุณเขียน แต่ฉันไม่คิดว่านี่จะตอบคำถามได้อย่างเต็มที่ ตัวอย่างเช่นการระบุโครงสร้างความแปรปรวนร่วมที่เหมาะสมยิ่งขึ้นช่วยลดการตกค้างของโมเดลหรือไม่
Jack Tanner

1
@ JackTanner: ขอบคุณ! และคุณพูดถูกว่าฉันไม่ได้ตอบคำถามของคุณอย่างเต็มที่ซึ่งเป็นสาเหตุที่ฉันโพสต์เฉพาะสิ่งนี้เป็นความคิดเห็น ความจริงจะได้รับการบอก: ตัวอย่างเช่นฉันไม่รู้ว่าการระบุโครงสร้างความแปรปรวนร่วมที่ถูกต้องจะช่วยลดการตกค้างได้หรือไม่ ฉันคิดว่าการวางโครงสร้างเพิ่มเติมในส่วนที่เหลือ (ความแปรปรวนร่วม) อาจเพิ่มขึ้นได้ - แต่มันอาจจะช่วยประหยัดค่าพารามิเตอร์ได้ ลองนึกถึงโครงสร้าง AR (1) แทนเมทริกซ์ความแปรปรวนร่วมที่ไม่มีโครงสร้าง คล้ายกับคำถามอื่น ๆ ในโพสต์ของคุณ ฉันจะสนใจมุมมองของคนอื่นอย่างแน่นอน
Stephan Kolassa

1
+1; มันเป็นคำตอบที่มีประโยชน์ยิ่งกว่านั้นคำอุปมาที่น่ากลัว
russellpierce

2

ต่อไปนี้เป็นคำตอบที่ไม่สมบูรณ์ที่ไม่ได้เกี่ยวกับ GLM โดยตรง ... จากประสบการณ์ที่ จำกัด มากของฉันในการสร้างแบบจำลองสมการเชิงโครงสร้าง (SEM) ฉันได้รับแนวคิดสองสามข้อที่ฉันหวังว่าอาจเพิ่มบางสิ่งลงในการสนทนา โปรดจำไว้ตลอดว่าฉันกำลังพูดจากประสบการณ์ (จำกัด ) กับ SEM ไม่ใช่ GLM ต่อ seและฉันค่อนข้างไม่รู้ว่าจะแยกแยะความแตกต่างนี้ได้หรือไม่ ฉันเป็นผู้ใช้สถิติมากกว่านักสถิติดังนั้นฉันไม่แน่ใจว่าแนวคิดเหล่านี้จะใช้กับข้อมูลทั้งหมดหรือแม้แต่ส่วนใหญ่ ฉันเพิ่งพบว่าพวกเขาได้นำไปใช้กับส่วนใหญ่ของฉันเอง

อันดับแรกฉันต้องการ echo @ StephanKolassa โดยเน้นที่ความสำคัญของการสร้างแบบจำลองที่คุณรู้อยู่แล้ว คุณยอมรับว่านี่เป็นสิ่งที่กัน แต่ฉันคิดว่าประโยชน์ที่คุณจะถามคือประโยชน์ของแบบจำลองสิ่งที่คุณรู้ ด้วยเหตุนี้พวกเขาจึงมีความหมายว่าโมเดลผลลัพธ์ของคุณมีข้อมูลเกี่ยวกับโครงสร้างความแปรปรวนร่วมที่คุณได้เพิ่มไว้

ใน SEMฉันได้พบ (ผ่านประสบการณ์ที่ จำกัด ไม่ใช่การศึกษาเชิงทฤษฎี):

ประโยชน์ที่ได้รับ

  1. การสร้างแบบจำลองโครงสร้างความแปรปรวนร่วมช่วยเพิ่มความดีของความพอดี (GoF) ถ้าความแปรปรวนร่วมนั้นมีความแข็งแรงกว่าข้อผิดพลาดมาตรฐานมาก (เช่นถ้าเส้นทางสมมาตรมีความสำคัญ) ซึ่งหมายความว่าคุณจะไม่ปรับปรุง GoF โดยการสร้างแบบจำลองที่มีความสัมพันธ์ใกล้เคียงเป็นศูนย์และ multicollinearity สามารถทำให้เกิดปัญหากับ GoF ได้เนื่องจากทำให้เกิดข้อผิดพลาดมาตรฐาน

  2. ยังไม่ได้พยายามเก็บข้อมูลเพื่อคาดการณ์ แต่ปรีชาญาณของฉันคือการแก้ไขค่า covariances ให้เป็นศูนย์ในแบบจำลองของคุณนั้นคล้ายคลึงกับการทำนาย DV โดยการรวมชุดของสมการถดถอยเชิงเส้นเดียว -iv ซึ่งแตกต่างจากวิธีการนี้บัญชีถดถอยหลายรายการสำหรับความแปรปรวนร่วมใน IV เมื่อสร้างแบบจำลองของสมการเพื่อทำนาย DV สิ่งนี้จะช่วยเพิ่มความสามารถในการตีความได้อย่างชัดเจนโดยแยกผลกระทบโดยตรงจากผลกระทบทางอ้อมที่เกิดขึ้นทั้งหมดภายในชุดของ IV สุจริตฉันไม่แน่ใจว่าสิ่งนี้จำเป็นต้องปรับปรุงการทำนายของ DV แม้ว่า ในฐานะผู้ใช้สถิติและไม่ใช่นักสถิติฉันได้รวมฟังก์ชันการทดสอบการจำลองต่อไปนี้เพื่อให้คำตอบที่ไม่สมบูรณ์ (เห็นได้ชัดว่า "ใช่ความแม่นยำในการทำนายจะปรับปรุงเมื่อแบบจำลองประกอบด้วยความแปรปรวนร่วม IV") ในกรณีนี้

    simtestit=function(Sample.Size=100,Iterations=1000,IV.r=.3,DV.x.r=.4,DV.z.r=.4) {
    require(psych); output=matrix(NA,nrow=Iterations,ncol=6); for(i in 1:Iterations) {
    x=rnorm(Sample.Size); z=rnorm(Sample.Size)+x*IV.r
    y=rnorm(Sample.Size)+x*DV.x.r+z*DV.z.r
    y.predicted=x*lm(y~x+z)$coefficients[2]+z*lm(y~x+z)$coefficients[3]
    bizarro.y.predicted=x*lm(y~x)$coefficients[2]+z*lm(y~z)$coefficients[2]
    output[i,]=c(cor(y.predicted,y)^2,cor(bizarro.y.predicted,y)^2,
    cor(y.predicted,y)^2>cor(bizarro.y.predicted,y)^2,cor(x,z),cor(x,y),cor(y,z))}
    list(output=output,percent.of.predictions.improved=100*sum(output[,3])/Iterations,
    mean.improvement=fisherz2r(mean(fisherz(output[,1])-fisherz(output[,2]))))}
    
    # Wrapping the function in str( ) gives you the gist without filling your whole screen
    str(simtestit())
    

    N= IterationsnSample.Sizez = x +y = x + z +yxz

    1y.predicted

    2bizarro.y.predicted

    outputIterationsR2121>2Rxyzoutputsimtestit()str( )R21rpsych

    R2R2IV.r) มีขนาดใหญ่กว่า เนื่องจากคุณอาจคุ้นเคยกับฟังก์ชั่น GLM มากกว่าที่ฉันเป็น (ซึ่งไม่ใช่ทั้งหมด) คุณอาจเปลี่ยนฟังก์ชั่นนี้หรือใช้แนวคิดพื้นฐานเพื่อเปรียบเทียบการทำนาย GLM ใน IV ที่คุณต้องการโดยไม่มีปัญหามากเกินไป สมมติว่าจะ (หรือไม่) กลายเป็นแบบเดียวกันดูเหมือนว่าคำตอบพื้นฐานสำหรับคำถามที่สองของคุณน่าจะใช่ แต่ก็ขึ้นอยู่กับว่าความอุดมสมบูรณ์ของ IV เป็นอย่างมาก ความแตกต่างในการสุ่มตัวอย่างข้อผิดพลาดระหว่างข้อมูลที่ถูกดึงออกมาและข้อมูลที่ใช้เพื่อให้พอดีกับแบบจำลองอาจทำให้การปรับปรุงในความแม่นยำในการทำนายของมันอยู่ในชุดข้อมูลหลังเนื่องจากการปรับปรุงอีกครั้งดูเหมือนจะมีขนาดเล็ก กรณีพื้นฐานที่สุดที่มีเพียงสอง IV)

  3. การระบุเส้นทางอิสระสำหรับความแปรปรวนร่วมระหว่าง IV ในแบบจำลองหมายถึงการขอให้ฟังก์ชันการปรับพอดีตัวแบบจำลองเพื่อประมาณค่าสัมประสิทธิ์ของเส้นทางนี้ซึ่งแสดงถึงขอบเขตของความแปรปรวนร่วมระหว่าง IV หากฟังก์ชัน GLM ของคุณอนุญาตให้คุณระบุแบบจำลองที่ความแปรปรวนร่วมระหว่าง IV ถูกประมาณอย่างอิสระแทนที่จะจับจ้องที่ศูนย์แล้วปัญหาของคุณคือเรื่องง่าย ๆ ที่หวังว่าจะหาวิธีการทำเช่นนี้ได้ ประมาณว่า หากฟังก์ชั่นของคุณประมาณค่าความแปรปรวนร่วม IV โดยค่าเริ่มต้นปัญหาของคุณจะลดความซับซ้อนลงไปในเรื่องหลัง (เช่นกรณีlm( ))

ค่าใช้จ่าย

  1. ใช่การประมาณค่าความแปรปรวนร่วมแบบอิสระระหว่าง IV หมายถึงอัลกอริธึมการปรับตัวแบบจำลองต้องทำงานเพื่อประเมินค่าสัมประสิทธิ์ของวิถีนั้น การไม่ระบุทางเดินในโมเดลมักจะหมายถึงการแก้ไขสัมประสิทธิ์เป็นศูนย์ซึ่งหมายความว่าอัลกอริทึมการปรับพอดีรุ่นไม่จำเป็นต้องประเมินค่าสัมประสิทธิ์ การประมาณค่าพารามิเตอร์ความแปรปรวนร่วมเพิ่มเติมหมายความว่าแบบจำลองโดยรวมจะต้องใช้เวลามากพอสมควร ในรุ่นที่ใช้เวลาในการประมาณนานกว่านั้นเวลาพิเศษอาจมีค่ามากโดยเฉพาะถ้าคุณมี IV จำนวนมาก

  2. ใช่โครงสร้างความแปรปรวนร่วมที่ประเมินโดยอิสระแสดงถึงการประมาณค่าพารามิเตอร์ ประชากรมีพารามิเตอร์ความแปรปรวนร่วมดังนั้นหากคุณประมาณค่าความแปรปรวนร่วมของประชากรคุณกำลังประมาณค่าพารามิเตอร์ อย่างไรก็ตามหากแบบจำลองของคุณเหมาะกับการใช้งานมากขึ้นเนื่องจากคุณเลือกที่จะประเมินความสัมพันธ์แบบไม่สำคัญแทนที่จะกำหนดให้เป็นศูนย์คุณอาจคาดหวังว่าเกณฑ์ข้อมูล Akaike และ Bayesian จะดีขึ้นเช่นเดียวกับเกณฑ์อื่น ๆ ที่รวม GoF ฉันไม่คุ้นเคยกับเกณฑ์ข้อมูลเบี่ยงเบน ( DICที่คุณอ้างถึงใช่มั้ย) แต่เมื่อพิจารณาจากหน้าวิกิพีเดียมันดูเหมือนว่าจะรวม GoF และบทลงโทษสำหรับความซับซ้อนของแบบจำลอง

    ดังนั้น GoF ควรเพียงแค่ต้องปรับปรุงตามสัดส่วนมากกว่าความซับซ้อนของแบบจำลองที่เพิ่มขึ้นเพื่อปรับปรุง DIC หากสิ่งนี้ไม่ได้เกิดขึ้นโดยรวมเกณฑ์เช่นนี้ที่ปรับสำหรับความซับซ้อนของแบบจำลองจะแย่ลงเมื่อคุณประเมินความแปรปรวนร่วม IV เพิ่มเติม นี่อาจเป็นปัญหาถ้าตัวอย่าง IV ของคุณไม่สัมพันธ์กัน แต่โครงสร้างความแปรปรวนร่วมนั้นประเมินได้อย่างอิสระอยู่แล้วเพราะคุณคิดว่า IV อาจสัมพันธ์กันหรือเป็นเพราะการตั้งค่าเริ่มต้นของฟังก์ชันของคุณ หากคุณมีเหตุผลทางทฤษฎีก่อนที่จะถือว่าสหสัมพันธ์เป็นศูนย์และคุณไม่ต้องการให้แบบจำลองของคุณทดสอบสมมติฐานนี้นี่เป็นกรณีหนึ่งที่คุณอาจได้รับการพิสูจน์ในการแก้ไขเส้นทางให้เป็นศูนย์ หากทฤษฎีก่อนหน้านี้ของคุณใกล้เคียงกัน

Dunno ฟังก์ชั่นที่คุณทำงานด้วย แต่อีกครั้งฉันแน่ใจว่าฉันไม่คุ้นเคยกับมันดังนั้นฉันมั่นใจว่าคำตอบนี้จะได้รับการปรับปรุงโดยเฉพาะคำตอบของฉันสำหรับคำถามประโยชน์ครั้งที่สอง (สำหรับสิ่งหนึ่งคือคณิตศาสตร์ หลักฐานของสิ่งที่ฉันตอบด้วยการจำลองเกี่ยวกับการถดถอยหลายครั้งอาจมีอยู่ที่ใดที่หนึ่ง) ฉันไม่คุ้นเคยกับ GLM โดยทั่วไป (สมมติว่าคุณหมายถึงgeneralizedไม่ใช่แบบจำลองเชิงเส้นทั่วไปตามที่แท็กแนะนำ) ดังนั้นฉันหวังว่าจะมีคนแสดงความคิดเห็นหรือแก้ไขคำตอบนี้หากความแตกต่างจาก SEM ทำให้คำตอบของฉันเป็นโมฆะ เลย

อย่างไรก็ตามดูเหมือนว่าเราจะรอสิบเดือนเพื่อที่ผู้เชี่ยวชาญจะพูดออกมาดังนั้นถ้าสิ่งนี้ไม่ได้ให้พวกเขาทำมันก็แค่ต้องทำด้วยตัวเองฉันคิดว่า แจ้งให้เราทราบหากคุณมีฟังก์ชั่น GLM โดยเฉพาะในใจที่คุณต้องการให้ฉันยุ่งกับใน R แม้ว่า ฉันอาจสามารถหาวิธีตอบ # 3 ได้โดยตรงสำหรับแอปพลิเคชันของคุณหากคุณสามารถระบุฟังก์ชัน GLM ที่น่าสนใจใน R. ฉันไม่เชี่ยวชาญในการทดสอบการจำลอง แต่อย่างใดฉันคิดว่าอีกสี่คำถามของคุณอาจเป็นการทดสอบซิม (เพิ่มเติมโดยตรง) ด้วย


2
+1 คำตอบที่น่าประทับใจ ยินดีต้อนรับสู่ CV, Nick!
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.