คำถามติดแท็ก confounding

ในแบบจำลองทางสถิติมีการกล่าวถึงความสับสนว่าเกิดขึ้นเมื่อการพึ่งพาที่ชัดเจนของการตอบสนองต่อตัวทำนายเป็นเพียงบางส่วนหรือทั้งหมดเนื่องจากการพึ่งพาทั้งสองตัวแปรที่ไม่รวมอยู่ในแบบจำลองหรือการพึ่งพาการรวมเชิงเส้นของตัวแปรอื่น ๆ ที่รวมอยู่ใน นางแบบ. การสับสนกับตัวแปรที่รวมอยู่ในโมเดลมักเรียกว่า multicollinearity คำพ้องความหมายคือ * นามแฝง * ใช้ในการออกแบบการทดลอง

5
“ การควบคุมตัวแปรอื่น ๆ ” ได้อย่างไร?
นี่คือบทความที่กระตุ้นคำถามนี้: ความกระวนกระวายทำให้เราอ้วนหรือไม่? ฉันชอบบทความนี้และแสดงให้เห็นอย่างชัดเจนถึงแนวคิดของ "การควบคุมตัวแปรอื่น ๆ " (IQ, อาชีพ, รายได้, อายุ, ฯลฯ ) เพื่อแยกความสัมพันธ์ที่แท้จริงระหว่างตัวแปร 2 ตัวที่มีปัญหา คุณช่วยอธิบายให้ฉันฟังว่าคุณควบคุมตัวแปรในชุดข้อมูลทั่วไปได้อย่างไร? เช่นหากคุณมี 2 คนที่มีระดับความอดทนและ BMI เหมือนกัน แต่มีรายได้ต่างกันคุณจะจัดการกับข้อมูลเหล่านี้อย่างไร คุณแบ่งกลุ่มพวกเขาออกเป็นกลุ่มย่อยต่าง ๆ ที่มีรายได้ความอดทนและค่าดัชนีมวลกายใกล้เคียงกันหรือไม่? แต่ท้ายที่สุดก็มีตัวแปรหลายสิบตัวที่จะควบคุม (IQ, อาชีพ, รายได้, อายุ, ฯลฯ ) จากนั้นคุณจะรวมกลุ่มย่อย 100 กลุ่มเหล่านี้ได้อย่างไร ในความเป็นจริงฉันมีความรู้สึกว่าวิธีนี้กำลังเห่าต้นไม้ที่ไม่ถูกต้องตอนนี้ที่ฉันพูดด้วยวาจาแล้ว ขอบคุณที่ส่องแสงบางอย่างที่ฉันตั้งใจจะทำตอนนี้สองสามปีที่ผ่านมา ... !

15
ผลการเลือกตั้งของสหรัฐอเมริกาปี 2016: เกิดอะไรขึ้นกับแบบจำลองการทำนาย?
ครั้งแรกมันคือBrexitตอนนี้การเลือกตั้งสหรัฐ การทำนายแบบจำลองจำนวนมากถูกปิดลงโดยมีระยะขอบกว้างและมีบทเรียนที่ต้องเรียนรู้ที่นี่หรือไม่? ดึกแค่สี่ทุ่ม PST เมื่อวานนี้ตลาดการเดิมพันยังคงเป็นที่นิยมของฮิลลารี 4 ต่อ 1 ฉันคิดว่าตลาดการเดิมพันด้วยเงินจริงในบรรทัดควรทำหน้าที่เป็นชุดของการทำนายที่มีทั้งหมด ดังนั้นจึงไม่ใช่เรื่องที่ไกลเกินกว่าที่จะบอกว่าแบบจำลองเหล่านี้ทำงานได้ไม่ดีนัก ฉันเห็นหนึ่งคำอธิบายว่าผู้ลงคะแนนไม่เต็มใจที่จะระบุตัวเองว่าเป็นผู้สนับสนุนทรัมป์ แบบจำลองสามารถรวมเอฟเฟกต์แบบนั้นได้อย่างไร คำอธิบายหนึ่งแมโครผมอ่านคือการเพิ่มขึ้นของประชานิยม คำถามคือโมเดลทางสถิติสามารถจับแนวโน้มมาโครได้อย่างไร แบบจำลองการทำนายเหล่านี้ออกมามีน้ำหนักมากเกินไปกับข้อมูลจากการสำรวจและความเชื่อมั่นซึ่งไม่เพียงพอจากที่ประเทศกำลังยืนอยู่ในมุมมอง 100 ปี? ฉันกำลังพูดถึงความคิดเห็นของเพื่อน

3
โรงพยาบาลไหนควรเลือก หนึ่งมีอัตราความสำเร็จที่สูงขึ้น แต่อื่น ๆ มีอัตราความสำเร็จโดยรวมที่สูงขึ้น
ฉันมีคำถามเกี่ยวกับสิ่งที่ครูสถิติของฉันพูดเกี่ยวกับปัญหาต่อไปนี้ คำถามของฉันไม่ได้เกี่ยวกับการเกิดขึ้นของความขัดแย้งของ Simpson ในสถานการณ์นี้ คำถามของฉันเป็นเพียงการยืนยันของอาจารย์ว่า A) และ D) เป็นคำตอบที่ถูกต้องแทนที่จะเป็น A) และ F) เขาพูดว่า: "เนื่องจากอัตราความสำเร็จต่ำมากสำหรับการผ่าตัด Type E เราจึงสามารถสรุปได้ว่ามันยากและไม่ใช่เรื่องแปลกดังนั้นความเมตตาอาจมีเครื่องมือ / แพทย์ที่ดีกว่าเมื่อเทียบกับ Hope" ฉันไม่เข้าใจว่าเขาสามารถอนุมานได้อย่างไรว่าความเมตตาทำให้ "การผ่าตัดยากขึ้น" เห็นได้ชัดว่าความเมตตามีอัตราความสำเร็จดีกว่าในการทำศัลยกรรมประเภท E แต่เหตุใดจึงหมายความว่าพวกเขาทำ "การผ่าตัดที่ยากขึ้น" ฉันคิดว่าฉันกำลังเมาเพราะถ้อยคำของปัญหานี้และอาจารย์ไม่ได้ทำอะไร ใครช่วยอธิบายหน่อยได้ไหมว่าทำไมฉันถึงทำผิดหรืออธิบายได้อย่างไรกับอาจารย์? มีโรงพยาบาลสองแห่งชื่อ Mercy and Hope ในเมืองของคุณ คุณต้องเลือกหนึ่งในสิ่งเหล่านี้ที่จะเข้ารับการผ่าตัด คุณตัดสินใจที่จะตัดสินใจบนพื้นฐานของความสำเร็จของทีมผ่าตัดของพวกเขา โชคดีที่ภายใต้แผนสุขภาพใหม่โรงพยาบาลให้ข้อมูลเกี่ยวกับความสำเร็จในการดำเนินงานของพวกเขาแบ่งออกเป็นห้าประเภทกว้างของการดำเนินงาน สมมติว่าคุณได้รับข้อมูลต่อไปนี้สำหรับโรงพยาบาลสองแห่ง: Mercy Hospital Type A B C D E All Operations 359 1836 299 …

3
เราจำเป็นต้องรวม“ ตัวทำนายที่เกี่ยวข้องทั้งหมดหรือไม่”
สมมติฐานพื้นฐานของการใช้แบบจำลองการถดถอยสำหรับการอนุมานคือ "ตัวทำนายที่เกี่ยวข้องทั้งหมด" ได้รวมอยู่ในสมการทำนาย เหตุผลก็คือความล้มเหลวในการรวมปัจจัยที่สำคัญในโลกแห่งความจริงนำไปสู่ค่าสัมประสิทธิ์ความเอนเอียงและการอนุมานที่ไม่ถูกต้อง แต่ในการปฏิบัติงานวิจัยฉันไม่เคยเห็นใครเลยรวมทั้งสิ่งที่คล้ายคลึงกับ "ตัวทำนายที่เกี่ยวข้องทั้งหมด" ปรากฏการณ์หลายอย่างมีสาเหตุสำคัญมากมายและมันคงเป็นเรื่องยากมากที่จะรวมพวกเขาทั้งหมดเข้าด้วยกัน ตัวอย่างนอกข้อมือคือการสร้างแบบจำลองภาวะซึมเศร้าเป็นผลลัพธ์: ไม่มีใครสร้างอะไรที่ใกล้เคียงกับแบบจำลองซึ่งรวมถึง "ตัวแปรที่เกี่ยวข้องทั้งหมด": เช่นประวัติผู้ปกครองลักษณะบุคลิกภาพการสนับสนุนทางสังคมรายได้ปฏิสัมพันธ์ของพวกเขา ฯลฯ ฯลฯ ... ยิ่งไปกว่านั้นการติดตั้งแบบจำลองที่ซับซ้อนเช่นนี้จะนำไปสู่การประมาณค่าที่ไม่เสถียรสูงเว้นแต่ว่ามีตัวอย่างขนาดใหญ่ คำถามของฉันง่ายมาก: สมมติฐาน / คำแนะนำในการ "รวมตัวทำนายที่เกี่ยวข้องทั้งหมด" เป็นเพียงแค่สิ่งที่เรา "พูด" แต่ไม่เคยหมายความว่าจริงหรือ? ถ้าไม่เช่นนั้นทำไมเราจึงให้คำแนะนำในการสร้างแบบจำลองจริง? และนี่หมายความว่าสัมประสิทธิ์ส่วนใหญ่อาจทำให้เข้าใจผิด? (เช่นการศึกษาปัจจัยบุคลิกภาพและภาวะซึมเศร้าที่ใช้ตัวทำนายหลายตัวเท่านั้น) พูดอีกอย่างคือปัญหาใหญ่แค่ไหนสำหรับข้อสรุปของวิทยาศาสตร์ของเรา?

1
Confounder - คำจำกัดความ
ตามที่เอ็มแคทซ์ในหนังสือของเขาวิเคราะห์หลายตัวแปร (มาตรา 1.2, หน้า 6), " ปัจจัยรบกวนมีความเกี่ยวข้องกับปัจจัยเสี่ยงที่เกี่ยวข้องและเหตุผลเพื่อผล. " ทำไมต้องปัจจัยรบกวนจะเหตุผลที่เกี่ยวข้องกับผล? มันจะเพียงพอหรือไม่ที่ผู้สับสนจะเชื่อมโยงกับผลลัพธ์?

1
เทคนิคการวิเคราะห์อัตราส่วน
ฉันกำลังมองหาคำแนะนำและความคิดเห็นที่เกี่ยวข้องกับการวิเคราะห์อัตราส่วนและอัตรา ในสาขาที่ฉันทำงานวิเคราะห์อัตราส่วนโดยเฉพาะอย่างยิ่งเป็นที่แพร่หลาย แต่ฉันได้อ่านเอกสารสองสามฉบับที่แนะนำว่านี่อาจเป็นปัญหาได้ฉันกำลังคิดถึง: Kronmal, Richard A. 1993. ความสัมพันธ์ปลอมและการเข้าใจผิดของมาตรฐานอัตราส่วนที่มาเยือน วารสารสมาคมสถิติราชวงศ์ A 156 (3): 379-392 และเอกสารที่เกี่ยวข้อง จากสิ่งที่ฉันได้อ่านจนถึงขณะนี้ก็ดูเหมือนว่าอัตราส่วนสามารถสร้างความสัมพันธ์ปลอมเส้นแรงถดถอยผ่านต้นกำเนิด (ซึ่งเป็นสิ่งที่ไม่เหมาะสมเสมอ) และการสร้างแบบจำลองพวกเขาอาจละเมิดหลักการของขอบเขตหากไม่ได้ทำอย่างถูกต้อง ( ใช้อัตราส่วนในการถดถอยโดยริชาร์ดโกลด์สไตน์ ) อย่างไรก็ตามจะต้องมีโอกาสเมื่อการใช้อัตราส่วนเป็นธรรมและฉันต้องการความคิดเห็นจากนักสถิติในหัวข้อนี้

4
ทำไมการจับคู่คะแนนความชอบมีเหตุผลสำหรับการอนุมานสาเหตุ
การจับคู่คะแนนความชอบใช้สำหรับการหาสาเหตุในการศึกษาเชิงสังเกตการณ์ (ดูที่กระดาษ Rosenbaum / Rubin ) สัญชาตญาณง่าย ๆ ของเบื้องหลังทำไมมันทำงาน อีกนัยหนึ่งทำไมถ้าเราแน่ใจว่าความน่าจะเป็นของการมีส่วนร่วมในการรักษานั้นเท่ากันทั้งสองกลุ่มผลข้างเคียงที่หายไปและเราสามารถใช้ผลลัพธ์เพื่อสรุปข้อสรุปเกี่ยวกับการรักษาได้?

2
unoundoundedness ในรูปแบบสาเหตุของรูบิน - คำอธิบายของคนธรรมดา
เมื่อใช้โมเดลเชิงสาเหตุของรูบินหนึ่งในข้อสมมติฐานที่ไม่สามารถพิสูจน์ได้ที่เราต้องการคือ unoundounded ซึ่งหมายความว่า ( Y( 0 ) , Y( 1 ) ) ⊥ T| X(Y(0),Y(1))⊥T|X(Y(0),Y(1))\perp T|X ในกรณีที่ LHS เป็นสิ่งกีดขวาง T คือการรักษาและ X คือโควาเรียตที่เราควบคุม ฉันสงสัยว่าจะอธิบายเรื่องนี้อย่างไรกับคนที่ไม่ค่อยรู้อะไรเกี่ยวกับแบบจำลองสาเหตุรูบิน ฉันเข้าใจว่าทำไมเราถึงต้องการสมมติฐานนี้ในทางทฤษฎี แต่ฉันไม่แน่ใจเกี่ยวกับแนวคิดว่าทำไมสิ่งนี้ถึงสำคัญ โดยเฉพาะอย่างยิ่งถ้า T คือการรักษาผลที่อาจเกิดขึ้นจะขึ้นอยู่กับมันหรือไม่? เช่นกันถ้าเรามีสุ่มทดลองแล้วโดยอัตโนมัติT ทำไมสิ่งนี้ถึงเป็นจริง?(Y(0),Y(1))⊥T(Y(0),Y(1))⊥T(Y(0),Y(1))\perp T คุณจะอธิบายข้อสมมติฐานที่ไร้เหตุผล / ความเพิกเฉยต่อคนที่ไม่ได้ศึกษา RCM อย่างไร

3
โอกาสที่อาจเกิดความสับสนในการออกแบบการทดสอบ
ภาพรวมของคำถาม คำเตือน: คำถามนี้ต้องมีการตั้งค่าจำนวนมาก กรุณาทนกับฉัน เพื่อนร่วมงานของฉันและฉันกำลังทำงานในการออกแบบการทดสอบ การออกแบบต้องแก้ไขข้อ จำกัด จำนวนมากซึ่งฉันจะแสดงรายการด้านล่าง ฉันได้พัฒนาการออกแบบที่สอดคล้องกับข้อ จำกัด และนั่นทำให้เราประเมินค่าผลกระทบที่น่าสนใจของเราโดยไม่ลำเอียง อย่างไรก็ตามเพื่อนร่วมงานของฉันเชื่อว่ามีความสับสนในการออกแบบ เราโต้เถียงประเด็นนี้ได้โดยไม่ต้องมีการแก้ปัญหาดังนั้น ณ จุดนี้ฉันต้องการความเห็นจากภายนอก ฉันจะอธิบายถึงเป้าหมายของการศึกษาข้อ จำกัด ของเราความสับสนที่อาจเกิดขึ้นและสาเหตุที่ฉันเชื่อว่า "ความสับสน" นี้ไม่ใช่ปัญหาด้านล่าง เมื่อคุณอ่านแต่ละส่วนโปรดจำไว้ว่าคำถามโดยรวมของฉัน: มีความสับสนในการออกแบบที่ฉันอธิบายหรือไม่ [รายละเอียดของการทดลองนี้ได้รับการแก้ไข แต่องค์ประกอบสำคัญที่จำเป็นในการถามคำถามของฉันยังคงเหมือนเดิม] เป้าหมายการทดสอบ เราต้องการตรวจสอบว่าเรียงความที่เขียนโดยตัวผู้สีขาวได้รับการประเมินอย่างดีกว่าเรียงความที่เขียนโดยตัวเมียสีขาวตัวผู้ผิวดำหรือตัวเมียดำ ( ตัวแปรการประพันธ์เรียงความ ) นอกจากนี้เรายังต้องการตรวจสอบว่าอคติใด ๆ ที่เราพบปรากฏขึ้นในทุนที่มีคุณภาพสูงหรือต่ำ ( ตัวแปรคุณภาพ ) สุดท้ายเราต้องการรวมบทความที่เขียนประมาณ 12 หัวข้อที่แตกต่างกัน ( ตัวแปรหัวข้อ ) อย่างไรก็ตามมีเพียงสองตัวแปรแรกเท่านั้นที่น่าสนใจ แม้ว่าหัวข้อจะต้องแตกต่างกันไปตามแต่ละบทความ แต่เราไม่สนใจอย่างมากว่าการประเมินแตกต่างกันอย่างไรในแต่ละหัวข้อ ข้อ จำกัด มีข้อ จำกัด ทั้งจำนวนผู้เข้าร่วมและจำนวนเรียงความที่เราสามารถรวบรวมได้ ผลที่ได้คือการประพันธ์ไม่สามารถควบคุมได้อย่างสมบูรณ์ระหว่างผู้เข้าร่วมและไม่สามารถจัดการได้อย่างสมบูรณ์ระหว่างการเขียนเรียงความ …

3
มีตัวอย่างอะไรของตัวแปรที่ซ่อนอยู่ในการทดลองที่มีการควบคุมในสิ่งพิมพ์?
ในบทความนี้: ตัวแปรที่ซุ่มซ่อน: บางตัวอย่าง Brian L. Joiner ฉบับสถิติชาวอเมริกัน 35, ฉบับที่ 4, พ.ย. , 1981 227-233 Brian Joiner อ้างว่า "การสุ่มไม่ใช่ยาครอบจักรวาล" ตรงข้ามกับข้อความทั่วไปเช่นข้อความด้านล่าง: การทดสอบที่ออกแบบมาอย่างดีประกอบด้วยคุณสมบัติการออกแบบที่ช่วยให้นักวิจัยสามารถกำจัดตัวแปรภายนอกซึ่งเป็นคำอธิบายสำหรับความสัมพันธ์ที่สังเกตได้ระหว่างตัวแปรอิสระกับตัวแปรตาม ตัวแปรภายนอกเหล่านี้เรียกว่าตัวแปรซุ่มซ่อน ข้อความที่นำมาจากคำถามนี้และไม่มีแหล่งที่มา แต่จากประสบการณ์ของฉันมันเป็นตัวแทนของทัศนคติที่แพร่หลาย: ตัวอย่างของ Lurking Variable และสังเกตการณ์ที่มีอิทธิพล ตัวอย่างหนึ่งที่ให้ไว้คือเมื่อทำการทดสอบความปลอดภัย (การก่อมะเร็งโดยเฉพาะ) ของสีย้อมอาหารสีแดง # 40 บนสัตว์ฟันแทะในอายุเจ็ดสิบผลของตำแหน่งกรงก็พบว่าทำให้การศึกษาสับสน ตอนนี้ฉันได้อ่านบทความวารสารมากมายที่ศึกษาการก่อมะเร็งในสัตว์ฟันแทะ การอภิปรายเพิ่มเติมของการศึกษาเหล่านี้สามารถพบได้ที่นี่: กรณีศึกษาสถิติในกระบวนการกำกับดูแล: การทดลอง FD&C Red No. 40 ฉันไม่พบรุ่นที่ไม่ได้ชำระเงิน แต่นี่เป็นข้อความที่ตัดตอนมา: ในการประชุมเดือนมกราคมเรานำเสนอการวิเคราะห์เบื้องต้น (14) ที่เปิดเผยความสัมพันธ์ที่แข็งแกร่งระหว่างแถวกรงและอัตราการเสียชีวิต RE (reticulo-endothelial tumor) ซึ่งมีความหลากหลายตั้งแต่ …

2
เป็นไปได้หรือไม่ที่จะมีตัวแปรที่ทำหน้าที่เป็นทั้งตัวปรับแต่งเอฟเฟกต์และ Confounder
เป็นไปได้หรือไม่ที่จะมีตัวแปรที่ทำหน้าที่เป็นทั้งตัวปรับเอฟเฟกต์ (การวัด) และตัวรบกวนสำหรับคู่ของความสัมพันธ์ผลลัพธ์ความเสี่ยงที่กำหนด ฉันยังไม่แน่ใจในความแตกต่างเล็กน้อย ฉันได้ดูสัญกรณ์กราฟิกเพื่อช่วยให้ฉันเข้าใจความแตกต่าง แต่ความแตกต่างของสัญกรณ์นั้นทำให้สับสน คำอธิบายกราฟิก / ภาพของทั้งสองและเมื่อพวกเขาอาจทับซ้อนกันจะเป็นประโยชน์

1
ทำไม Anova () และ drop1 () จึงให้คำตอบที่แตกต่างกันสำหรับ GLMM
ฉันมีแบบฟอร์ม GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) เมื่อฉันใช้drop1(model, test="Chi")ฉันได้รับผลลัพธ์ที่แตกต่างกว่าถ้าผมใช้จากแพคเกจรถหรือAnova(model, type="III") summary(model)สองหลังนี้ให้คำตอบเดียวกัน จากการใช้ข้อมูลที่ประดิษฐ์ขึ้นมาฉันพบว่าทั้งสองวิธีปกติไม่แตกต่างกัน พวกเขาให้คำตอบเดียวกันสำหรับแบบจำลองเชิงเส้นที่มีความสมดุลแบบจำลองเชิงเส้นที่ไม่สมดุล (ซึ่งไม่เท่ากันในกลุ่มต่าง ๆ ) และสำหรับแบบจำลองเชิงเส้นที่สมดุลแบบทั่วไป ดังนั้นจึงปรากฏว่าเฉพาะในกรณีที่มีการรวมปัจจัยแบบสุ่มเข้าด้วยกัน ทำไมจึงมีความคลาดเคลื่อนระหว่างสองวิธีนี้? เมื่อใช้ GLMM ควรAnova()หรือdrop1()จะใช้งานอย่างไร ความแตกต่างระหว่างสองสิ่งนี้ค่อนข้างเล็กน้อยอย่างน้อยสำหรับข้อมูลของฉัน มันมีความสำคัญต่อการใช้งานหรือไม่?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.