การสร้างแบบจำลองข้อมูลระยะยาวที่ผลกระทบของเวลาแตกต่างกันไปในรูปแบบการทำงานระหว่างบุคคล


32

บริบท :

ลองนึกภาพคุณมีการศึกษาระยะยาวซึ่งวัดตัวแปรตาม (DV) สัปดาห์ละครั้งเป็นเวลา 20 สัปดาห์สำหรับผู้เข้าร่วม 200 คน ถึงแม้ว่าฉันจะสนใจ DV ทั่วไป แต่ฉันคิดว่ารวมถึงการทำงานตามการจ้างงานหรือมาตรการความเป็นอยู่ที่หลากหลายหลังจากการแทรกแซงทางจิตวิทยาคลินิก

ฉันรู้ว่าการสร้างแบบจำลองหลายระดับสามารถใช้เป็นแบบจำลองความสัมพันธ์ระหว่างเวลาและ DV นอกจากนี้คุณยังสามารถอนุญาตค่าสัมประสิทธิ์ (เช่นการสกัดกั้นความลาดชัน ฯลฯ ) เพื่อเปลี่ยนแปลงระหว่างบุคคลและประเมินค่าเฉพาะสำหรับผู้เข้าร่วม แต่จะเกิดอะไรขึ้นถ้าเมื่อตรวจสอบข้อมูลด้วยสายตาคุณจะพบว่าความสัมพันธ์ระหว่างเวลากับ DV นั้นเป็นอย่างใดอย่างหนึ่งต่อไปนี้:

  • แตกต่างกันในรูปแบบการใช้งาน (อาจมีบางแบบเป็นแบบเส้นตรงและแบบอื่นอาจมีเลขยกกำลังหรือบางแบบอาจมีความไม่ต่อเนื่อง)
  • แตกต่างกันในความแปรปรวนข้อผิดพลาด (บุคคลบางคนมีความผันผวนจากจุดหนึ่งไปยังอีกครั้ง)

คำถาม :

  • อะไรจะเป็นวิธีที่ดีในการเข้าถึงแบบจำลองข้อมูลเช่นนี้
  • โดยเฉพาะวิธีการใดที่ใช้ระบุความสัมพันธ์ประเภทต่าง ๆ ได้ดีและจัดประเภทบุคคลตามประเภทของพวกเขา
  • มีการใช้งานอะไรบ้างใน R สำหรับการวิเคราะห์เช่นนี้?
  • มีการอ้างอิงใด ๆ เกี่ยวกับวิธีการทำเช่นนี้: ตำราหรือแอปพลิเคชันจริง?

คำตอบ:


20

ฉันขอแนะนำให้ดูสามทิศทางต่อไปนี้:

  • การจัดกลุ่มแบบยาว : สิ่งนี้ไม่ได้รับการดูแล แต่คุณใช้วิธี k- หมายถึงอาศัยเกณฑ์ Calinsky สำหรับการประเมินคุณภาพของการแบ่ง (แพคเกจkmlและการอ้างอิงที่รวมอยู่ในวิธีใช้ออนไลน์); ดังนั้นโดยทั่วไปมันจะไม่ช่วยในการระบุรูปร่างที่เฉพาะเจาะจงสำหรับแต่ละช่วงเวลา แต่แยกโปรไฟล์วิวัฒนาการที่เป็นเนื้อเดียวกัน
  • การเติบโตแบบซ่อนเร้นบางอย่างเกี่ยวกับความแตกต่างทางสถิติ: การคาดเดาที่ดีที่สุดของฉันคือการดูข้อมูลอ้างอิงที่กว้างขวางเกี่ยวกับซอฟต์แวร์MPlusโดยเฉพาะคำถามที่พบบ่อยและการส่งจดหมาย ฉันเคยได้ยินเช่นกันของโมเดลเฮเทอโรเซสติกแบบสุ่มเอฟเฟกต์แบบสุ่ม (ลอง googling รอบคำหลักเหล่านั้น) ฉันพบว่าเอกสารเหล่านี้ ( 1 , 2 ) น่าสนใจ แต่ฉันไม่ได้ดูรายละเอียด ฉันจะอัปเดตด้วยการอ้างอิงเกี่ยวกับการประเมินไซโคทันทีที่กลับไปที่สำนักงานของฉัน
  • functional PCA ( แพ็คเกจfpca ) แต่มันอาจคุ้มค่าที่จะดูการวิเคราะห์ข้อมูลการใช้งาน

การอ้างอิงอื่น ๆ (เรียกดูได้ทันที):


1
ขอบคุณ แนวคิดของการใช้กระบวนการจัดกลุ่มเกิดขึ้นกับฉัน ฉันจินตนาการว่าความท้าทายคือการจับภาพและกำหนดเส้นโค้งระดับบุคคลที่เป็นไปได้อย่างเพียงพอในลักษณะที่มีความหมายทางทฤษฎี ฉันจะดูว่ามันทำงานอย่างไรใน kml
Jeromy Anglim

1
มันใช้งานได้ค่อนข้างดีแม้ว่าอินเทอร์เฟซนั้นแย่มาก (และฉันรู้ว่าคนที่สร้างมัน :) - ฉันใช้มันเมื่อสองเดือนก่อนสำหรับการแยกกลุ่มทางคลินิกตามแต่ละโปรไฟล์ในการวัดพัฒนาการ (Brunet-Lézine)
chl

1
นี่คืออีกหนึ่งข้อมูลอ้างอิงหลักสำหรับ FDA: psych.mcgill.ca/misc/fda
Mike Lawrence

1
ฉันพบการแนะนำการเชื่อมโยง FDA นี้โดย Ramsay (2008) โดยเฉพาะgbi.agrsci.dk/~shd/public/FDA2008/FDA_Sage.pdf ที่
Jeromy Anglim

8

ฉันขอแนะนำให้ดูที่เอกสารสองฉบับโดย Heping Zhang โดยใช้ splines แบบปรับตัวสำหรับการสร้างแบบจำลองข้อมูลตามยาว:

นอกจากนี้ดูหน้าMASALสำหรับซอฟต์แวร์รวมถึงแพ็คเกจ R


6

ดูเหมือนว่าฉันจะมีรูปแบบการผสมผสานการเจริญเติบโตอาจมีศักยภาพที่จะช่วยให้คุณตรวจสอบความแปรปรวนข้อผิดพลาดของคุณ ( PDFที่นี่) (ฉันไม่แน่ใจว่าแบบจำลอง heteroscedastic แบบหลายตัวคืออะไร แต่ฉันจะต้องตรวจสอบพวกเขาอย่างแน่นอน)

แบบจำลองวิถีโคจรแบบกลุ่มแฝงได้กลายเป็นที่นิยมอย่างมากเมื่อเร็ว ๆ นี้ในอาชญวิทยา แต่หลายคนก็แค่ยอมรับว่ากลุ่มนั้นมีอยู่จริงและการวิจัยที่ชาญฉลาดบางคนชี้ให้เห็นว่าคุณจะพบกลุ่มได้แม้ในข้อมูลแบบสุ่ม นอกจากนี้เมื่อต้องการทราบว่าวิธีการสร้างแบบจำลองตามกลุ่มของ Nagin ไม่อนุญาตให้คุณประเมินข้อผิดพลาดของคุณ (และโดยสุจริตฉันไม่เคยเห็นแบบจำลองที่ดูเหมือนอะไรที่ไม่ต่อเนื่อง)

แม้ว่ามันจะเป็นเรื่องยากที่มี 20 คะแนนเวลา แต่สำหรับวัตถุประสงค์เชิงสำรวจการสร้างฮิวริสติกแบบง่ายเพื่อระบุรูปแบบอาจเป็นประโยชน์ (เช่นต่ำหรือสูงเสมอเสมอค่าสัมประสิทธิ์การเปลี่ยนแปลง) ฉันนึกภาพประกายไฟในสเปรดชีตหรือแปลงพิกัดคู่ขนาน แต่ฉันสงสัยว่าพวกเขาจะมีประโยชน์ (โดยสุจริตฉันไม่เคยเห็นพล็อตพิกัดขนานที่สว่างมาก)

โชคดี


@chl, ไม่มีปัญหา, ขอบคุณสำหรับทรัพยากรทั้งหมดที่คุณระบุไว้ที่นี่
Andy W

ข้อดีของกลุ่มแอบแฝง ฉันได้เห็นแอปพลิเคชั่นหลายระดับของการวิเคราะห์ระดับแฝง & การวิเคราะห์กลุ่มซึ่งดูเหมือนว่าจะเป็นเพียงการแกะสลักหมวดหมู่ตัวแปรที่ต่อเนื่องเช่นต่ำ & สูง ( jeromyanglim.blogspot.com/2009/09/ … ) อย่างไรก็ตามฉันมีข้อมูลระยะยาวระดับบุคคลซึ่งดูเหมือนว่ามาจากกระบวนการสร้างข้อมูลที่แตกต่างกันอย่างเห็นได้ชัด (เช่นสูงเสมอต่ำเสมอเพิ่มขึ้นทีละน้อยเพิ่มขึ้นอย่างกระทันหันและอื่น ๆ ) และอยู่ในหมวดหมู่ มีการแปรผันต่อเนื่องของพารามิเตอร์มากกว่า
Jeromy Anglim

@Jeromy ฉันไม่คิดว่างานที่ฉันอ้างจะกีดกันผู้คนจากการใช้วิธีการดังกล่าวเพื่อระบุกลุ่มที่ซ่อนเร้น ฉันจะบอกว่าจุดประสงค์ของการทำงานคือคุณไม่สามารถใช้วิธีการดังกล่าวเพื่ออนุมานการดำรงอยู่ของกลุ่มเพียงอย่างเดียวเพราะคุณจะหากลุ่มได้เสมอแม้ในข้อมูลที่สุ่ม มันขึ้นอยู่กับการตีความเชิงอัตวิสัยมากขึ้นว่ากลุ่มที่คุณค้นหานั้นเป็นของจริงหรือเป็นเพียงสิ่งประดิษฐ์ของวิธีการ คุณสามารถระบุทฤษฎีตรรกะบางอย่างที่สร้างกระบวนการดังกล่าวแล้วดูว่ากลุ่มที่ระบุเหมาะสมภายในทฤษฎีเหล่านั้นหรือไม่
Andy W

5

สี่ปีหลังจากถามคำถามนี้ฉันได้เรียนรู้เล็ก ๆ น้อย ๆ ดังนั้นบางทีฉันควรเพิ่มความคิดเล็กน้อย

ฉันคิดว่าการสร้างแบบจำลองเชิงลำดับชั้นแบบเบย์ให้แนวทางที่ยืดหยุ่นสำหรับปัญหานี้

ซอฟต์แวร์ : เครื่องมือเช่น jags, stan, WinBugs และอื่น ๆ ที่อาจรวมเข้ากับแพ็คเกจอินเตอร์เฟส R (เช่น rjags, rstan) ทำให้ง่ายต่อการระบุรุ่นดังกล่าว

การเปลี่ยนแปลงภายในข้อผิดพลาดบุคคล: โมเดลแบบเบย์ทำให้ง่ายต่อการระบุความแปรปรวนข้อผิดพลาดภายในบุคคลเป็นปัจจัยสุ่มที่แตกต่างกันระหว่างผู้คน

Yผม=1,...,nJ=1,...J

YผมJ~ยังไม่มีข้อความ(μผม,σผม2)
μผม=γ
γ~ยังไม่มีข้อความ(μγ,σγ2)
σผม~Gaม.ม.a(α,β)

ดังนั้นค่าเบี่ยงเบนมาตรฐานของแต่ละคนอาจถูกจำลองเป็นการแจกแจงแกมม่า ฉันพบว่านี่เป็นพารามิเตอร์ที่สำคัญในโดเมนจิตวิทยาหลายแห่งที่ผู้คนแตกต่างกันไปตามระยะเวลาที่พวกเขาเปลี่ยนแปลง

คลาสโค้งที่แฝงอยู่: ฉันยังไม่ได้สำรวจความคิดนี้มากนัก แต่มันค่อนข้างตรงไปตรงมาที่จะระบุฟังก์ชั่นการสร้างข้อมูลที่เป็นไปได้สองรายการขึ้นไปสำหรับแต่ละบุคคลแล้วให้แบบจำลอง Bayesian เลือกรูปแบบที่เป็นไปได้ ดังนั้นโดยทั่วไปคุณจะได้รับความน่าจะเป็นหลังสำหรับแต่ละบุคคลเกี่ยวกับแบบฟอร์มการทำงานที่อธิบายข้อมูลส่วนบุคคล

ในภาพร่างของแนวคิดสำหรับแบบจำลองคุณอาจมีสิ่งต่อไปนี้:

YผมJ~ยังไม่มีข้อความ(μผมJ,σ2)
μผมJ=γผมλผมJ(1)+(1-γผม)λผมJ(2)
λผมJ(1)=θ1ผม(1)+θ2ผม(1)ประสบการณ์(-θ3ผม(1))
λผมJ(2)=θ1ผม(2)+θ2ผม(2)xผมJ+θ3ผม(2)xผมJ2
γผม=BอีRnโอยูล.ล.ผม(πผม)

xผมJλผมJ(1)λผมJ(2)πผมλผมJ(1)


ฉันได้ย้ายไปยังกรอบ Bayesian และได้อ่านเกี่ยวกับการใช้กระบวนการแบบเกาส์สำหรับการวิเคราะห์อนุกรมเวลาของรูปแบบฟังก์ชั่นที่ไม่แน่นอน ยังคงไม่มีความชัดเจนว่าจะสามารถนำไปใช้กับกรณีของข้อมูลแบบลำดับชั้น (ดูแบบสอบถามของฉันยังไม่ได้ตอบที่นี่: groups.google.com/d/msg/stan-users/yjDWtMhxQQE/2TiYevy0ZwUJ )
ไมค์อเรนซ์

3

John Fox มีภาคผนวกที่ยอดเยี่ยมพร้อมใช้งานออนไลน์โดยใช้ nlme เพื่อดูข้อมูลระยะยาว มันอาจมีประโยชน์สำหรับคุณ:

http://cran.r-project.org/doc/contrib/Fox-Companion/appendix-mixed-models.pdf

มีหลายสิ่งที่ยอดเยี่ยมอยู่ที่นั่น (และโดยทั่วไปแล้วหนังสือของ Fox ค่อนข้างดี!)


2
ลิงค์เสีย อย่างไรก็ตามสามารถดูได้จากหน้าเว็บของผู้เขียนที่นี่
Glen_b -Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.