ตัวอย่างข้อมูลที่ดีจำเป็นต้องใช้กับ covariate รับผลกระทบจากการรักษา


19

ฉันได้ดูชุดข้อมูล R จำนวนมากการโพสต์ใน DASL และที่อื่น ๆ และฉันไม่พบตัวอย่างที่ดีของชุดข้อมูลที่น่าสนใจมากมายที่แสดงการวิเคราะห์ความแปรปรวนร่วมสำหรับข้อมูลการทดลอง มีชุดข้อมูล "ของเล่น" จำนวนมากที่มีข้อมูลที่ประดิษฐ์ไว้ในตำราเรียน

ฉันต้องการตัวอย่างที่:

  • ข้อมูลเป็นของจริงพร้อมเรื่องราวที่น่าสนใจ
  • มีปัจจัยการรักษาอย่างน้อยหนึ่งปัจจัยและสองตัวแปรร่วม
  • covariate อย่างน้อยหนึ่งตัวได้รับผลกระทบจากปัจจัยการรักษาอย่างน้อยหนึ่งอย่างและอย่างใดอย่างหนึ่งไม่ได้รับผลกระทบจากการรักษา
  • ทดลองมากกว่าการสังเกตโดยเฉพาะอย่างยิ่ง

พื้นหลัง

เป้าหมายที่แท้จริงของฉันคือการหาตัวอย่างที่ดีในการเขียนบทความสั้น ๆ สำหรับแพ็คเกจ R ของฉัน แต่เป้าหมายที่ใหญ่กว่าคือผู้คนจำเป็นต้องเห็นตัวอย่างที่ดีเพื่อแสดงให้เห็นถึงความกังวลที่สำคัญในการวิเคราะห์ความแปรปรวนร่วม พิจารณาสถานการณ์ที่สร้างขึ้นต่อไปนี้ (และโปรดเข้าใจว่าความรู้ของฉันเกี่ยวกับการเกษตรเป็นเรื่องที่ตื้นที่สุด)

  • เราทำการทดลองที่ปุ๋ยถูกสุ่มไปยังแปลงและปลูกพืช หลังจากระยะเวลาการเจริญเติบโตที่เหมาะสมเราเก็บเกี่ยวพืชผลและวัดลักษณะคุณภาพ - นั่นคือตัวแปรตอบสนอง แต่เรายังบันทึกปริมาณน้ำฝนทั้งหมดในช่วงที่ปลูกและความเป็นกรดของดินในช่วงที่มีการเก็บเกี่ยว - และแน่นอนว่ามีการใช้ปุ๋ย ดังนั้นเราจึงมีโควาเรียสองตัวและการบำบัด

วิธีปกติในการวิเคราะห์ข้อมูลที่ได้จะเป็นแบบจำลองเชิงเส้นตรงกับการรักษาเป็นปัจจัยและผลเสริมสำหรับ covariates จากนั้นจะสรุปผลลัพธ์หนึ่งคำสั่ง "ปรับหมายถึง" (AKA หมายถึงกำลังสองน้อยที่สุด) ซึ่งเป็นการทำนายจากแบบจำลองสำหรับแต่ละปุ๋ยที่ปริมาณน้ำฝนเฉลี่ยและความเป็นกรดของดินเฉลี่ย 3 สิ่งนี้ทำให้ทุกอย่างเท่าเทียมกันเพราะเมื่อเราเปรียบเทียบผลลัพธ์เหล่านี้เรามีปริมาณน้ำฝนและค่าความเป็นกรดคงที่

แต่นี่อาจเป็นสิ่งที่ผิดที่ต้องทำเพราะปุ๋ยอาจส่งผลกระทบต่อความเป็นกรดของดินรวมถึงการตอบสนอง สิ่งนี้ทำให้การปรับหมายถึงทำให้เข้าใจผิดเพราะผลการรักษารวมถึงผลกระทบต่อความเป็นกรด วิธีหนึ่งในการจัดการสิ่งนี้คือการเอากรดออกจากแบบจำลองจากนั้นวิธีการปรับปริมาณน้ำฝนจะให้การเปรียบเทียบที่เป็นธรรม แต่ถ้าความเป็นกรดมีความสำคัญความเป็นธรรมนี้มาพร้อมกับราคาที่ดีในการเพิ่มความแปรปรวนที่เหลือ

มีวิธีแก้ไขโดยใช้ความเป็นกรดที่ปรับแล้วในแบบจำลองแทนที่จะเป็นค่าดั้งเดิม การปรับปรุงที่จะเกิดขึ้นในแพคเกจ R ฉันlsmeansจะทำให้เรื่องนี้อย่างจริงจังง่าย แต่ฉันต้องการมีตัวอย่างที่ดีในการอธิบาย ฉันจะขอบคุณมากและจะรับทราบอย่างถูกต้องทุกคนที่สามารถชี้ให้ฉันไปที่ชุดข้อมูลที่เป็นตัวอย่างที่ดี


1
ในขณะที่ไม่มีข้อสงสัยทั้งคำถามที่สำคัญและน่าสนใจดูเหมือนว่ามันอาจผิดกฎเกี่ยวกับสิ่งที่อยู่ในหัวข้อ : " คำถามเกี่ยวกับการรับชุดข้อมูลโดยเฉพาะอย่างยิ่งอยู่นอกหัวข้อ (พวกเขามีความเชี่ยวชาญมากเกินไป) "
Glen_b โมนิก้า


1
ความประทับใจในการตอบสนองของฉันจนถึงตอนนี้คือเราระมัดระวังที่จะให้คำถามอื่น ๆ เช่นการตรวจสอบที่ว่างเปล่าโดยการพิจารณาคดีอย่างแน่นหนา แต่เราส่วนใหญ่ชอบคำถามนี้และอยากเห็นสิ่งเล็กน้อย คำตอบที่คุณอาจได้รับ (บางทีนั่นอาจเป็นแค่ฉัน) สิ่งที่เราไม่ต้องการคือการล้มลงเป็นลายลักษณ์อักษรอย่างไม่ดีของคำถามนี้ที่ขอชุดข้อมูลที่จะพิสูจน์คะแนนด้วยสถิติ แต่ไม่เกี่ยวกับสถิติ คือมันเป็นสิ่งหนึ่งที่จะขอความช่วยเหลือในการแสดงให้เห็นถึงหลักการทางสถิติ แต่มันจะเป็นอีกที่จะขอชุดข้อมูลเฉพาะของโดเมน ...
นิค Stauner

3
ตกลงดูเหมือนความคิดที่ดี ฉันได้ทำสิ่งที่เลวร้ายกว่าในอดีตที่ผ่านมาเพื่อลดชื่อเสียงของฉัน ...
RVL

2
@SteveS ฉันเห็นด้วยว่ามันเป็นตัวเลือกที่ดีสำหรับค่าหัว แน่นอนฉันเพิ่งมาที่นี่เพื่อใส่มันด้วยตัวเองเท่านั้นที่จะค้นพบว่า Russ ได้ทำไปแล้ว หากไม่มีคำตอบที่ดีในหนึ่งสัปดาห์ฉันอาจลองใส่เงินรางวัลที่สองลงไป รัส: การตั้งคำถามที่น่าสนใจมักจะดึงดูดความสนใจพอที่ upvotes ต่อมามักจะจ่ายให้กับพวกเขาดังนั้นการสูญเสียชื่อเสียงมักจะสูงชันน้อยกว่าที่เห็นได้อย่างรวดเร็วก่อน
Glen_b -Reinstate Monica

คำตอบ:


6

คุณอาจต้องการตรวจสอบmediationแพ็คเกจ R มันรวมถึงข้อมูลการทดลองเช่นjobsและframingที่ตัวแปรการรักษามีผลต่อทั้งตัวแปรตอบสนองและ covariates (เช่นผู้ไกล่เกลี่ยของผลการรักษา) พร้อมด้วย covariates ไม่ได้รับผลกระทบจากการรักษา

ฉันดูในวรรณคดีการประนีประนอมเพราะฉันว่าคุณอธิบายการศึกษาการไกล่เกลี่ยอย่างแน่นอน: ผลกระทบของปุ๋ยต่อคุณภาพของพืชนั้นถูกสื่อผ่านผลกระทบต่อความเป็นกรดของดิน แม้ว่าชุดข้อมูลในmediationแพคเกจจะไม่พอใจคุณคุณอาจพบหนึ่งถ้าคุณดูวรรณกรรมไกล่เกลี่ย


ขอบคุณ ฉันติดตั้งแพคเกจและจะดูมัน และโอกาสในการเรียนรู้สิ่งใหม่
rvl

ที่น่าสนใจที่ข้อมูลการจ้างงานที่ถูกกล่าวถึงในสองในสามของการเจรจาในเซสชั่น JSM ฉันเพียงแค่เข้าร่วม ...
RVL

1
ฉันก็หวังว่าฉันจะสามารถแยกเงินรางวัลได้อย่างใดอย่างหนึ่ง แต่แพ็คเกจนี้มีชุดข้อมูลพร้อมที่เหมาะสมกับสิ่งที่ฉันถามดังนั้น @MasatoNakazawa จึงได้รับรางวัล ขอบคุณมาก. การใช้framingข้อมูลแผนการแปลงของ LSmeans (ขึ้นอยู่กับตัวแบบโลจิสติก) เมื่อตัวแปร mediating ถูกจับจ้องอยู่ที่แตกต่างอย่างมากจากที่ที่มันถูกตั้งค่าเป็นค่าที่ทำนายไว้โดยการรักษาและ covariates อื่น ๆ ดังนั้นแสดงให้เห็นว่ามันสำคัญแค่ไหน ตัวแปรเข้าบัญชี
rvl

1
ขอบคุณดร. Lenth ที่จริงฉันได้อ้างถึงบทความของคุณในวิทยานิพนธ์ของฉัน ฉันรู้สึกเป็นเกียรติที่ฉันสามารถช่วยเหลือนักสถิติที่มีชื่อเสียงเช่นคุณ
Masato Nakazawa

4

ฉันคิดว่าฉันแสดงให้เห็นว่าการวิเคราะห์เกิดขึ้นกับหนึ่งในชุดข้อมูลในแพ็คเกจการไกล่เกลี่ย ในframingการทดลองเสร็จสิ้นเมื่ออาสาสมัครมีโอกาสส่งข้อความถึงสภาคองเกรสเกี่ยวกับการเข้าเมือง อย่างไรก็ตามบางวิชา ( treat=1) ถูกแสดงครั้งแรกเป็นเรื่องข่าวที่แสดงให้เห็นว่าชาวลาตินในทางลบ นอกจากการตอบสนองแบบไบนารี่ (ไม่ว่าพวกเขาจะส่งข้อความหรือไม่ก็ตาม) เราก็ทำการวัดempสถานะทางอารมณ์ของอาสาสมัครหลังจากทำการรักษา มีตัวแปรทางประชากรต่างๆเช่นกัน

ก่อนอื่นมาโหลดแพ็กเกจที่จำเป็นใน R และเปลี่ยนเลเบลสำหรับeducสตริงที่สั้นกว่า

> library("lsmeans")
> library("mediation")
> levels(framing$educ) = c("NA","Ref","< HS", "HS", "> HS","Coll +")

ตอนนี้พอดีกับรูปแบบการถดถอยโลจิสติก

> framing.glm = glm(cong_mesg ~ age + income + educ + emo + gender * factor(treat),
+                   family = binomial, data = framing)

นี่คือการแสดงผลของวิธีการตั้งค่าแบบเดิมที่คาดการณ์จะทำกับตัวแปรage, incomeและemoการตั้งค่าที่ค่าเฉลี่ยของพวกเขา

> lsmip(framing.glm, treat ~ educ | gender, type = "response")

(พล็อตการโต้ตอบของ "การปรับวิธี" แบบเดิมเปลี่ยนเป็นระดับการตอบสนอง)

นี่เป็นผลลัพธ์ที่น่าแปลกใจเพราะผลการรักษาที่ปรากฏนั้นตรงกันข้ามกับผู้หญิงสำหรับผู้ชายและผลของการศึกษาไม่ได้เป็นเสียงเดียวอย่างที่ใคร ๆ คาดหวัง

หมายเหตุ hHeverever emoเป็นการวัดหลังการรักษา ซึ่งหมายความว่าการรักษาอาจส่งผลกระทบต่อมันคือemoเป็นสื่อกลาง covariate; และดังนั้นจึงไม่มีความหมายที่จะเปรียบเทียบการทำนายของตัวแปรตอบกลับขณะที่emoคงที่ ให้ดูที่การคาดคะเนที่emoถูกตั้งค่าเป็นค่าที่ทำนายtreatและตัวแปรทางประชากร

> lsmip(framing.glm, treat ~ educ | gender, type = "response",
+       cov.reduce = emo ~ treat*gender + age + educ + income)

(พล็อตการโต้ตอบของการคาดการณ์ที่นำมาใช้เป็นสื่อกลางพิจารณา)

ผลลัพธ์นี้ค่อนข้างแตกต่างกันโดยแนะนำว่าemoมีบทบาทเป็นสื่อกลางที่แข็งแกร่ง ( แพคเกจการไกล่เกลี่ยมีฟังก์ชั่นสำหรับการประเมินความแข็งแรงของผลกระทบเหล่านี้) การคาดการณ์ข้างต้นชี้ให้เห็นว่าการพิจารณาถึงการตอบสนองทางอารมณ์อาสาสมัครชายที่สัมผัสกับข่าวเชิงลบมีแนวโน้มที่จะส่งข้อความมากกว่าผู้หญิง เรื่องราวข่าวเชิงลบ นอกจากนี้ผลของการeducเป็นเสียงเดียว (เกือบ)

ขอขอบคุณอีกครั้งที่ @MasatoNakagawa ที่ชี้ให้ฉันเห็นตัวอย่างที่น่าสนใจนี้และปรับให้ฉันไปที่การวิจัยล่าสุดเกี่ยวกับสาเหตุ


3

ค้นหาการศึกษาปฏิสัมพันธ์ระหว่างยีนและสิ่งแวดล้อมของ GWAS การวิเคราะห์ทางสถิติที่พวกเขาดำเนินการในสาระสำคัญคือสิ่งที่คุณได้อธิบาย คำถามคือสิ่งที่สภาพแวดล้อมของคุณมีความสำคัญต่อฟีโนไทป์ (คุณสมบัติที่สังเกตได้)? โรงเรียนแห่งความคิดโดยทั่วไปจะไม่สนใจข้อมูลด้านสิ่งแวดล้อมทั้งหมดและบอกว่าการแต่งพันธุกรรมของคุณอธิบายฟีโนไทป์ของคุณ สิ่งนี้ตรงกันข้ามกับการศึกษาทางนิเวศวิทยาซึ่งเรื่องราวคือสภาพแวดล้อมคือทุกสิ่งและพวกมันไม่สนใจยีนส์ เนื่องจากทั้งสองฝ่ายพยายามเข้าใจปัญหาเดียวกันจึงมีการพยายามรวมตัวกันครั้งล่าสุด

สมมติว่าเรากำลังศึกษาค่าดัชนีมวลกาย เราใช้องค์ประกอบหลักสองสามข้อแรกของเมทริกซ์เชิงพันธุกรรมเป็นผลกระทบคงที่เนื่องจากยีน เราเหมาะสมกับการศึกษาด้วยดัชนี 1 สำหรับการศึกษาดีและ 0 สำหรับการศึกษาไม่ดีเป็นผลคงที่ มีความสัมพันธ์ที่แข็งแกร่งพอสมควรระหว่างดัชนีการศึกษาและความมั่งคั่งของชุมชนที่บุคคลนั้นมาจาก ดังนั้นใครจะโต้แย้งว่าชุมชนผู้มีรายได้น้อยมีแนวโน้มที่จะมีร้านอาหารฟาสต์ฟู้ดมากขึ้น อาหารจานด่วนทำหน้าที่เป็นตัวกระตุ้นให้เกิดโรค .. "กระตุ้นบางสิ่งในพันธุกรรมของคุณซึ่งกระตุ้นให้เกิดการสะสมไขมัน" ดังนั้นมันจะปรากฏขึ้นในการแต่งหน้าทางพันธุกรรมในบางรูปแบบ

การจำลองข้อมูลดังกล่าวไม่ใช่ปัญหา เงยหน้าขึ้นมอง

http://pngu.mgh.harvard.edu/~purcell/plink/simulate.shtml

สิ่งนี้ช่วยให้คุณจำลองข้อมูล GWAS (คิดว่านี่เป็นหน่วยพันธุกรรม) ที่รับผิดชอบต่ออาการ หากไม่ได้รับคำแนะนำมิฉะนั้นจะสร้าง 1,000 ด้วยอาการและการควบคุม 1,000 ครั้ง บรรทัดฐานในแบบจำลองเหล่านี้ที่ฉันใช้คือ 9990 SNPs ไม่ทำให้เกิดอาการและ 10 SNPs ทำ อ่านคำแนะนำเกี่ยวกับวิธีการจำลองเหล่านี้

ผลลัพธ์จะเป็น 1 หากบุคคลนั้นเป็นโรคอ้วนและ 0 ถ้าเขาไม่ใช่ จำลองปัจจัยการศึกษา (การศึกษาในวิทยาลัยที่สำเร็จแล้ว / การศึกษาวิทยาลัยที่ไม่สำเร็จ) ตามความสัมพันธ์ที่สมเหตุสมผลกับระดับความอ้วน

หวังว่านี่จะช่วย !!!


ขอบคุณ ยังคงเก็บข้อมูลจริงบางอย่างอยู่ ... แต่ฉันไม่แน่ใจว่าการศึกษา GWAS คืออะไร DUH เพิ่งค้นพบโดยไปตามลิงค์
rvl

แม้ว่าฉันจะให้ความโปรดปรานแก่ผู้ถูกตอบอีกคน แต่ฉันก็ยินดีรับข้อเสนอแนะนี้และตั้งใจจะปฏิบัติตามด้วย ขอบคุณ
rvl

1

ฉันขอแนะนำให้อ่าน Freakonomics และค้นหางานของพวกเขาโดยยึดตามและดูว่าคุณสามารถคว้าข้อมูลนั้นได้หรือไม่ พวกเขามีงานที่น่าสนใจจริง ๆ ในชุดข้อมูลที่น่าสนใจจริง ๆ และในบางกรณีพวกเขาหาวิธีที่ชาญฉลาดมากในการทดสอบสมมติฐานแม้จะมีข้อ จำกัด ในข้อมูล

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.