ทำไมเราต้องมีการถดถอยหลายตัวแปร (ซึ่งต่างจากการถดถอยหลายตัวแปร)


28

ฉันเพียงแค่เรียกดูผ่านหนังสือที่ยอดเยี่ยมนี้: การประยุกต์ใช้การวิเคราะห์ทางสถิติหลายตัวแปรโดยจอห์นสันและ Wichern การประชดคือฉันยังคงไม่สามารถเข้าใจแรงจูงใจในการใช้แบบจำลองหลายตัวแปร (การถดถอย) แทนที่จะเป็นแบบจำลองแบบ univariate (การถดถอย) ที่แยกต่างหาก ฉันผ่าน stats.statexchange โพสต์ที่1และ2ที่อธิบาย (ก) ความแตกต่างระหว่างการถดถอยแบบหลายตัวแปรและหลายตัวแปรและ (b) การตีความผลการถดถอยหลายตัวแปร แต่ฉันไม่สามารถปรับแต่งการใช้แบบจำลองสถิติหลายตัวแปรจากข้อมูลทั้งหมดที่ฉัน ออนไลน์เกี่ยวกับพวกเขา

คำถามของฉันคือ:

  1. ทำไมเราต้องมีการถดถอยหลายตัวแปร? อะไรคือข้อได้เปรียบของการพิจารณาผลลัพธ์พร้อมกันมากกว่าแต่ละรายการเพื่อที่จะทำการอนุมาน
  2. เมื่อใดจึงควรใช้แบบจำลองหลายตัวแปรและเมื่อใดจึงจะใช้แบบจำลองหลายตัวแปร (สำหรับหลายผลลัพธ์)
  3. ยกตัวอย่างที่ได้รับจากเว็บไซต์ของ UCLAด้วยผลลัพธ์สามประการ: สถานที่ควบคุม, แนวคิดของตัวเองและแรงจูงใจ ด้วยความเคารพต่อ 1 และ 2 เราสามารถเปรียบเทียบการวิเคราะห์เมื่อเราทำการถดถอยแบบหลายตัวแปรที่ไม่ซ้ำกันสามตัวเปรียบเทียบกับการถดถอยหลายตัวแปรแบบหลายตัวแปรได้หรือไม่ วิธีที่จะพิสูจน์ความชอบธรรมมากกว่ากันได้อย่างไร
  4. ฉันยังไม่ได้เจอกับเอกสารทางวิชาการมากมายที่ใช้ตัวแบบสถิติหลายตัวแปร นี่เป็นเพราะข้อสันนิษฐานของตัวแปรหลายตัวแปรความซับซ้อนของการปรับ / ตีความแบบจำลองหรือเหตุผลเฉพาะอื่น ๆ ?

18
แยกรุ่น univariate ละเว้นความสัมพันธ์
jwimberley

3
ใช่มีปรากฏการณ์มากมายในโลกที่ไม่สามารถสร้างแบบจำลองโดยตัวแปรสุ่มอิสระ
Michael R. Chernick

2
@jwimberley คุณช่วยขยายผลของการเพิกเฉยความสัมพันธ์เหล่านี้ด้วยคำตอบได้ไหม?
Jake Westfall

2
เพียงแค่ทราบเกี่ยวกับชื่อเรื่อง: การลดขนาด (PCA, การวิเคราะห์ปัจจัย, วิธีการไม่เชิงเส้น ฯลฯ ) และการจัดกลุ่มมักจะถือว่าเป็นวิธี "หลายตัวแปร" เช่นกัน ดูเหมือนว่าคำถามของคุณจะเน้นไปที่การถดถอยหลายตัวแปร (เทียบกับการถดถอยหลายตัวแปร) ดังนั้นฉันขอแนะนำให้คุณใส่ลงในชื่อของคุณโดยตรง +1 btw
อะมีบาพูดว่า Reinstate Monica

2
ตัวอย่างง่ายๆของวิธี MANOVA สามารถเป็นประโยชน์เมื่อเทียบกับ ANOVAs: stats.stackexchange.com/questions/129123 สถานการณ์ตรงข้ามที่ MANOVA ยังคงเป็นประโยชน์ แต่ด้วยเหตุผลที่แตกต่างกัน: stats.stackexchange.com/questions/61921 ดังนั้น MANOVA สามารถ: (i) ให้พลังงานมากขึ้น (ii) ควบคุมอัตราความผิดพลาดโดยรวม
อะมีบาพูดว่า Reinstate Monica

คำตอบ:


22

คุณอ่านตัวอย่างทั้งหมดในเว็บไซต์ UCLA ที่คุณเชื่อมโยงแล้วหรือยัง?

การคำนึงถึง 1:
การใช้แบบจำลองหลายตัวแปรช่วยให้คุณเปรียบเทียบสัมประสิทธิ์ระหว่างผลลัพธ์
ในตัวอย่างที่เชื่อมโยงนั้นพวกเขาใช้แบบจำลองหลายตัวแปรเพื่อทดสอบว่าwriteสัมประสิทธิ์มีความแตกต่างอย่างมีนัยสำคัญสำหรับlocus_of_controlผลลัพธ์เทียบกับself_conceptผลลัพธ์หรือไม่ ฉันไม่ใช่นักจิตวิทยา แต่สมมุติว่ามันน่าสนใจที่จะถามว่าความสามารถในการเขียนของคุณมีผลต่อ / ทำนายตัวแปรทางจิตวิทยาสองแบบในลักษณะเดียวกันหรือไม่ (หรือถ้าเราไม่เชื่อว่าเป็นโมฆะก็ยังน่าสนใจที่จะถามว่าคุณได้รวบรวมข้อมูลเพียงพอที่จะแสดงให้เห็นอย่างชัดเจนหรือไม่ว่าเอฟเฟ็กต์ต่างกันจริง ๆ )
หากคุณแยกวิเคราะห์ univariate แยกต่างหากwriteสัมประสิทธิ์ทั้งสองรุ่น การประมาณการทั้งสองจะมาจากชุดข้อมูลเดียวกันดังนั้นจึงมีความสัมพันธ์กัน แบบจำลองหลายตัวแปรสำหรับความสัมพันธ์นี้

นอกจากนี้ยังมีเรื่องที่ 4:
มีเป็นบางรุ่นหลายตัวแปรมากที่ใช้กันทั่วไปเช่นวัดซ้ำ ANOVA ด้วยการออกแบบการศึกษาที่เหมาะสมให้จินตนาการว่าคุณให้ยาแต่ละชนิดแก่ผู้ป่วยทุกรายและวัดสุขภาพของผู้ป่วยหลังจากใช้ยาทุกชนิด หรือลองจินตนาการว่าคุณวัดผลลัพธ์เดียวกันเมื่อเวลาผ่านไปเช่นเดียวกับข้อมูลตามยาวพูดถึงความสูงของเด็กเมื่อเวลาผ่านไป จากนั้นคุณจะมีผลลัพธ์หลายรายการสำหรับแต่ละหน่วย (แม้ว่าพวกเขาจะทำซ้ำการวัดประเภทเดียวกัน "ซ้ำ") คุณอาจต้องการทำข้อแตกต่างง่ายๆอย่างน้อย: เปรียบเทียบผลของยา A กับยา B หรือผลเฉลี่ยของยา A และ B เทียบกับยาหลอก สำหรับสิ่งนี้มาตรการซ้ำ ๆ ANOVA เป็นรูปแบบ / การวิเคราะห์ทางสถิติหลายตัวแปรที่เหมาะสม


1
คุณให้คำตอบที่ดี ฉันรู้แน่นอนว่ามีโลกของตัวอย่างและข้อโต้แย้งอื่น ๆ ที่สามารถทำได้ ฉันชอบที่คุณเอาข้อมูลจากลิงค์ UCLA เพื่อแสดง OP ตรงไปตรงมาฉันเริ่มขุ่นเคืองกับคำถาม แต่ฉันตัดสินใจที่จะให้คำตอบเมื่อฉันตระหนักว่า OP ต้องการที่จะโต้แย้งที่ดีอย่างจริงใจและไม่ได้ผลักดันแนวคิดของการเพิกเฉยวิธีการหลายตัวแปร ตัวเลือกของฉันคือแสดงตัวอย่างว่าการละเว้นความสัมพันธ์มีผลทำลายล้างและผลลัพธ์ที่ร้ายแรง
Michael R. Chernick

1
ฉันยินดีต้อนรับคำตอบของคุณและหวังว่าจะได้คำตอบที่ดียิ่งขึ้นซึ่งจะทำให้สิ่งนี้มีค่ายิ่งขึ้น
Michael R. Chernick

ขอบคุณสำหรับคำตอบที่ดี @civilstat ในจุดที่ 1 หากเราเรียกใช้โมเดล univariate อิสระสองแบบคุณได้กล่าวว่าสัมประสิทธิ์ตัวแปรอินพุต (สำหรับwriteค่าสัมประสิทธิ์เป็นต้น) จะมีความสัมพันธ์กันและโมเดลหลายตัวแปรจะเหมือนกัน ที่นี่ฉันต้องการทำความเข้าใจเพิ่มเติม locus_of_control และ self_concept สามารถผสานเข้ากับการวัดเดียวโดยใช้การวิเคราะห์ปัจจัยหรือเทคนิคอื่น ๆ และแบบจำลองการวัดผลลัพธ์สามารถเป็นแบบจำลองหากมีแรงจูงใจที่เหมาะสม หากทั้งสองวัด psyc ต่างกัน ปรากฏการณ์เราจะได้อะไรจากการสร้างแบบจำลองพร้อมกัน
KarthikS

2
@ManuelFazio ดูประโยคต่อไปในเว็บไซต์ของ UCLA: "เหตุใดจึงต้องทำการถดถอยหลายตัวแปร? ดังที่เราได้กล่าวไปแล้วข้อได้เปรียบอย่างหนึ่งของการใช้ mvreg ก็คือคุณสามารถทำการทดสอบสัมประสิทธิ์ในตัวแปรผลลัพธ์ต่าง ๆ " ถ้าคุณวิ่งถดถอยแยกจากกันคุณจะได้รับค่าสัมประสิทธิ์เดียวกันและ SE สำหรับแต่ละผลแต่คุณจะไม่ได้รับการประมาณการความสัมพันธ์ระหว่างค่าสัมประสิทธิ์ทั่วผล ตัวอย่างเช่นคุณต้องการความสัมพันธ์นี้หากคุณต้องการ CI สำหรับความแตกต่างของสัมประสิทธิ์การอ่านสำหรับผลลัพธ์แรงจูงใจเทียบกับผลลัพธ์ self_concept
แพ่งที่

1
@civilstat อ้าน่าละอายกับฉันความเป็นอิสระที่ฝังแน่นอยู่ในใจของฉันมันก็ไม่ได้คลิกแม้แต่หลังจากที่ฉันได้อ่านประโยคนั้น ขอบคุณสำหรับคำอธิบายเพิ่มเติม!
zipzapboing

11

คิดถึงข้อสรุปที่ผิด ๆ และอันตรายบางครั้งที่มาจากความน่าจะเป็นทวีคูณความคิดเหตุการณ์ต่าง ๆ เป็นอิสระ เนื่องจากการป้องกันที่ซ้ำซ้อนทั้งหมดที่สร้างขึ้นเราจึงใส่ผู้เชี่ยวชาญด้านโรงไฟฟ้าพลังงานนิวเคลียร์ของเราโดยใช้สมมติฐานความเป็นอิสระบอกเราว่าโอกาสของการเกิดอุบัติเหตุนิวเคลียร์ครั้งใหญ่นั้นมีน้อยมาก แต่อย่างที่เราเห็นที่ Three Mile Island มนุษย์ทำผิดพลาดโดยเฉพาะอย่างยิ่งเมื่อพวกเขาตกอยู่ในความหวาดกลัวเพราะข้อผิดพลาดเริ่มแรกที่สามารถรวมตัวเองได้อย่างรวดเร็ว มันอาจเป็นเรื่องยากที่จะสร้างแบบจำลองหลายตัวแปรที่สมจริงซึ่งระบุลักษณะพฤติกรรมของมนุษย์ แต่ตระหนักถึงผลกระทบของแบบจำลองที่น่ากลัว (ข้อผิดพลาดอิสระ) นั้นชัดเจน

มีตัวอย่างอื่น ๆ อีกมากมายที่เป็นไปได้ ฉันจะนำภัยพิบัติ Challenger Shuttle มาเป็นอีกตัวอย่างหนึ่งที่เป็นไปได้ คำถามคือว่าจะเปิดตัวหรือไม่ภายใต้สภาวะที่มีอุณหภูมิต่ำ มีข้อมูลบางอย่างที่แนะนำว่าโอริงอาจล้มเหลวที่อุณหภูมิต่ำได้ แต่มีข้อมูลไม่มากนักจากภารกิจส่งผ่านเพื่อให้ชัดเจนว่ามีความเสี่ยงสูงเพียงใด องค์การนาซ่าให้ความสำคัญกับความปลอดภัยของนักบินอวกาศมาโดยตลอดและมีความซ้ำซ้อนมากมายที่ได้รับการออกแบบมาเพื่อยานอวกาศและส่งยานพาหนะเพื่อให้ภารกิจปลอดภัย

แต่ก่อนปี 1986 มีความล้มเหลวของระบบและความล้มเหลวที่อยู่ใกล้อาจเกิดจากการไม่ระบุโหมดความล้มเหลวที่เป็นไปได้ทั้งหมด (เป็นงานที่ยาก) การสร้างแบบจำลองความน่าเชื่อถือเป็นธุรกิจที่ยากลำบาก แต่นั่นเป็นอีกเรื่องหนึ่ง ในกรณีของกระสวยผู้ผลิตโอริง (Morton Thiokol) ได้ทำการทดสอบโอริงบางอย่างที่บ่งชี้ถึงความเป็นไปได้ของความล้มเหลวที่อุณหภูมิต่ำ

แต่ข้อมูลเกี่ยวกับจำนวนภารกิจที่ จำกัด ได้แสดงความสัมพันธ์ระหว่างอุณหภูมิและความล้มเหลว แต่เนื่องจากความซ้ำซ้อนทำให้ผู้ดูแลระบบบางคนคิดว่าความล้มเหลวของโอริงหลายครั้งจะไม่เกิดขึ้นพวกเขาจึงกดดันนาซ่าให้เริ่ม

แน่นอนมีปัจจัยอื่น ๆ อีกมากมายที่นำไปสู่การตัดสินใจ โปรดจำไว้ว่าประธานาธิบดีเรแกนเป็นห่วงตัวเองอย่างไรในการวางครูไว้ในอวกาศเพื่อแสดงให้เห็นว่าตอนนี้ปลอดภัยแล้วที่คนธรรมดาที่ไม่ใช่นักบินอวกาศสามารถเดินทางด้วยกระสวยได้อย่างปลอดภัย ดังนั้นแรงกดดันทางการเมืองจึงเป็นปัจจัยสำคัญที่ส่งผลต่อการตัดสินใจ ในกรณีนี้มีข้อมูลเพียงพอและโมเดลหลายตัวแปรความเสี่ยงน่าจะแสดงให้เห็นได้ดีขึ้น นาซ่าใช้เพื่อพยายามทำผิดด้านความระมัดระวัง ในกรณีนี้การปิดตัวการเปิดตัวเป็นเวลาสองสามวันจนกว่าอากาศจะอุ่นขึ้นในฟลอริดาจะระมัดระวัง

ค่าคอมมิชชั่นหลังภัยพิบัติวิศวกรนักวิทยาศาสตร์และนักสถิติได้ทำการวิเคราะห์และตีพิมพ์เป็นจำนวนมาก มุมมองของพวกเขาอาจแตกต่างจากของฉัน Edward Tufte แสดงในหนังสือชุดหนึ่งของเขาเกี่ยวกับกราฟิกว่ากราฟิกที่ดีอาจน่าเชื่อถือมากขึ้น แต่ในท้ายที่สุดถึงแม้ว่าการวิเคราะห์เหล่านี้ทั้งหมดจะได้รับประโยชน์ฉันคิดว่าการเมืองจะยังคงชนะ

คุณธรรมของเรื่องราวเหล่านี้ไม่ใช่ว่าภัยพิบัติเหล่านี้เป็นแรงกระตุ้นให้ใช้วิธีการหลายตัวแปร แต่เป็นการวิเคราะห์ที่ไม่ดีที่ละเลยการพึ่งพาบางครั้งก็นำไปสู่การประเมินความเสี่ยงที่ต่ำเกินไป สิ่งนี้สามารถนำไปสู่ความมั่นใจมากเกินไปที่อาจเป็นอันตรายได้ ในฐานะที่เป็น jwimberley ชี้ให้เห็นในความคิดเห็นแรกกับหัวข้อนี้ "แยกรุ่น univariate ละเว้นความสัมพันธ์"


ขอบคุณสำหรับตัวอย่างที่ยอดเยี่ยมของคุณ @MichaelChernick ฉันเข้าใจว่าสมมติฐานของความเป็นอิสระเป็นเรื่องที่น่ากังวล ฉันอยากรู้อยากเห็นมากขึ้นเกี่ยวกับความสัมพันธ์ระหว่างผลลัพธ์และความต้องการในการจำลองพวกเขา
KarthikS

ให้เรานำตัวอย่างภัยพิบัติของรถรับส่ง Challenger นี่คือผลลัพธ์ที่ไม่แปรเปลี่ยนเป็นแบบไบนารี - ไม่ว่าจะปลอดภัยหรือไม่ที่จะส่งกระสวยอวกาศ ลองพิจารณาตัวแบบที่พยายามทำหลายสิ่งหลายอย่างเช่นทำนายความปลอดภัยวัดความเบี่ยงเบนวิถีและทำนายแรงดันภายในสำหรับรถรับส่ง วิธีการหนึ่งอาจเป็นการสร้างแบบจำลองที่แยกจากกันสำหรับแต่ละแบบและวิธีอื่น ๆ อาจพิจารณาแบบจำลองแบบหนึ่งเดียวสำหรับทั้งหมดที่ไม่เพียง แต่พยายามจับภาพผลกระทบของอินพุต (อุณหภูมิความชื้น ฯลฯ ) แต่ยังตรวจสอบพร้อมกัน ผลกระทบต่อผลลัพธ์
KarthikS

1
ขอบคุณ @MichaelChernick ฉันไม่แน่ใจว่าฉันเข้าใจข้อโต้แย้งของคุณทั้งหมดหรือไม่ ฉันเข้าใจว่าพวกเราหลายคนใช้การถดถอยแบบหลายตัวแปรและหลายตัวแปรสำหรับการถดถอยเชิงเส้นอย่างง่ายโดยใช้อินพุตเดี่ยวและตัวแปรอินพุตมากกว่าหนึ่งตัว แต่ฉันได้วางกรอบคำถามนี้สำหรับแบบจำลองที่มีหนึ่งผลลัพธ์ (univariate) หรือมากกว่าหนึ่งผลลัพธ์ (หลายตัวแปร) หากกรณีผู้ท้าชิงไม่อ้างถึงผลการใช้หลายตัวแปรคุณสามารถอ้างอิงถึงกรณีที่ถูกต้องได้ ขอบคุณสำหรับการสนทนาต่อไป
KarthikS

ฉันประหลาดใจที่คุณตั้งคำถามกับคำถามนี้ บ่อยครั้งที่มีการเพิ่มรางวัลเมื่อได้รับความคิดเห็นเล็กน้อยและหากมีคำตอบก็จะไม่ครอบคลุมประเด็นที่สำคัญบางคำถาม หัวข้อนี้มีสามคำตอบที่ดีและความคิดเห็นมากมาย (คนที่ดีจริงๆเช่นเดียวกับคนแรกจาก jwimberley.
Michael R. Chernick

ฉันไม่แน่ใจว่าคุณต้องการอะไรอีก คำถามกว้างมากและดูเหมือนจะเป็นการสนทนามากกว่าคำถามทางเทคนิค ดูเหมือนว่าฉันเกือบจะเหมือนว่าคุณกำลังพยายามให้ใครบางคนพูดว่าการวิเคราะห์ที่แยกตัวคนเดียวนั้นไม่เป็นไรในสถานการณ์ที่ซับซ้อน ฉันจะไม่ลองรับรางวัลและมันจะน่าสนใจที่จะเห็นในอีกเจ็ดวันถัดไปทุกคนพยายามและถ้าพวกเขาทำคุณจะยอมรับมัน ภัยพิบัติของผู้ท้าชิงสามารถมองได้ว่าเป็นผลที่ไม่แปรเปลี่ยน แต่ฉันไม่คิดว่าการจินตนาการใด ๆ จะสามารถตอบได้อย่างละเอียดโดยวิธีการที่ไม่เปลี่ยนแปลง
Michael R. Chernick

7

พิจารณาคำพูดนี้จาก p 36 หนังสือของดาร์ซีโอลเซ่นสิทธิในการลอง [1]:

แต่ประมาณสิบหกสัปดาห์หลังจากที่ [eteplirsen] เงินทุนเริ่มขึ้นเจนก็เริ่มสังเกตเห็นการเปลี่ยนแปลงใน [ลูกชายของเธอ] แม็กซ์ “ เด็กหยุดต้องการที่จะใช้รถเข็นของเขา” เธอกล่าว ไม่กี่สัปดาห์ต่อมาเขาถูกขอให้เล่นข้างนอก - สิ่งที่เขาไม่ได้ทำในปีที่ผ่านมา จากนั้นแม็กซ์ก็เริ่มมีทักษะยนต์ดี เขาสามารถเปิดตู้คอนเทนเนอร์ได้อีกครั้ง - ทักษะที่เขาสูญเสียไปเมื่อ [Duchenne muscular dystrophy] ของเขาก้าวหน้าไป

แม่ของแม็กซ์เจนน์คือการสร้างภาพที่สอดคล้องกันของการปรับปรุงของเขาโดยการดึงหลักฐานด้วยกันจากผลหลายตัวที่ไม่ซ้ำกันอาจจะมีการออกเป็น 'เสียง' แต่ที่ร่วมกันเป็นที่น่าสนใจมากทีเดียว ( หลักการสังเคราะห์หลักฐานนี้เป็นส่วนหนึ่งของเหตุผลที่กุมารแพทย์ไม่เคยทอดทิ้งการอนุมานสัญชาตญาณของผู้ปกครองว่า "มีอะไรผิดปกติกับลูกของฉัน" พ่อแม่สามารถเข้าถึง 'การวิเคราะห์ระยะยาวหลายตัวแปร' ของลูก ๆ ของพวกเขายิ่งกว่า 'oligovariate' การวิเคราะห์แบบตัดขวางสามารถเข้าถึงได้โดยแพทย์ในระหว่างที่พบทางคลินิกสั้น ๆ )

p>0.05

การบรรลุถึงการสังเคราะห์หลักฐานดังกล่าวเป็นเหตุผลหลักสำหรับการวิเคราะห์ผลลัพธ์หลายตัวแปรในการทดลองทางคลินิก วิธีการทางสถิติในการวิจัยทางการแพทย์มีปัญหาพิเศษไม่กี่ปีหลัง [2] อุทิศให้กับ 'การสร้างแบบจำลองร่วม' ของผลลัพธ์หลายตัวแปร

  1. โอลเซ่นดาร์ซี สิทธิ์ในการลอง: วิธีการที่รัฐบาลป้องกันไม่ให้ชาวอเมริกันได้รับการรักษาที่ช่วยชีวิตที่พวกเขาต้องการ ฉบับพิมพ์ครั้งแรก. New York, NY: Harper สำนักพิมพ์ของสำนักพิมพ์ HarperCollins, 2015
  2. Rizopoulos, Dimitris และ Emmanuel Lesaffre “ การแนะนำปัญหาพิเศษเกี่ยวกับเทคนิคการสร้างแบบจำลองร่วม” วิธีการทางสถิติในการวิจัยทางการแพทย์ 1 (1 กุมภาพันธ์ 2014): 3–10 ดอย: 10.1177 / 0962280212445800

6

มาสร้างการเปรียบเทียบกันง่าย ๆ เพราะนั่นคือทั้งหมดที่ฉันสามารถมีส่วนร่วมได้ แทนที่จะเป็นการ univariate เทียบกับการถดถอยหลายตัวแปรลองพิจารณา univariate (marginal) กับการแจกแจง multivariate (ร่วม) บอกว่าฉันมีข้อมูลต่อไปนี้และฉันต้องการค้นหา "ผิด" เป็นวิธีแรกฉันอาจใช้การกระจายสองส่วน ("univariate") และวาดเส้นที่ต่ำกว่า 2.5% และ 2.5% บนของแต่ละอย่างอิสระ คะแนนที่อยู่นอกเส้นผลลัพธ์ถือว่าเป็นค่าผิดปกติ

แต่สองสิ่ง: 1) เราคิดอย่างไรกับจุดที่อยู่นอกเส้นสำหรับหนึ่งแกน แต่ด้านในของเส้นสำหรับอีกแกนหนึ่ง? พวกเขาเป็น "ผิดปกติบางส่วน" หรือบางสิ่งบางอย่าง? และ 2) กล่องผลลัพธ์ไม่ได้ดูเหมือนว่ามันกำลังทำสิ่งที่เราต้องการจริงๆ เหตุผลก็คือแน่นอนว่าตัวแปรทั้งสองนั้นมีความสัมพันธ์กันและสิ่งที่เราต้องการอย่างสังหรณ์ใจคือการหาค่าผิดปกติที่ผิดปกติเมื่อพิจารณาตัวแปรร่วมกัน

ในกรณีนี้เราดูการกระจายตัวของข้อต่อและฉันเขียนรหัสสีตามระยะทางของ Mahalanobis จากกึ่งกลางว่าอยู่ในระดับ 5% หรือไม่ จุดสีดำมีลักษณะคล้ายกับค่าผิดปกติมากถึงแม้ว่าค่าผิดปกติบางค่าจะอยู่ในเส้นสีเขียวทั้งสองชุดและไม่ใช่แบบไร้ค่า (สีแดง) อยู่นอกเส้นสีเขียวทั้งสองชุด

ในทั้งสองกรณีเราจะแบ่ง 95% เมื่อเทียบกับ 5% แต่เทคนิคที่สองบัญชีสำหรับการกระจายข้อต่อ ฉันเชื่อว่าการถดถอยหลายตัวแปรเป็นเช่นนี้ซึ่งคุณแทนที่ "การถดถอย" สำหรับ "การกระจาย" ฉันไม่ได้รับทั้งหมดและไม่จำเป็น (ฉันเข้าใจ) ที่จะทำการถดถอยหลายตัวแปรด้วยตัวเอง แต่นี่คือวิธีที่ฉันคิดเกี่ยวกับมัน

[การเปรียบเทียบมีปัญหา: ระยะทาง Mahalanobis ลดสองตัวแปรให้เป็นตัวเลขเดียว - บางอย่างเช่นวิธีการที่การลงทะเบียน univariate ใช้ชุดของตัวแปรอิสระและสามารถใช้เทคนิคที่เหมาะสมคำนึงถึงความแปรปรวนร่วมระหว่างตัวแปรอิสระและผลลัพธ์ ในตัวแปรที่ขึ้นต่อกันเดียว - ในขณะที่การถดถอยหลายตัวแปรส่งผลให้เกิดตัวแปรหลายตัว ดังนั้นมันจึงล้าหลังไปข้างหน้า แต่หวังว่าจะส่งต่อได้ดีพอที่จะให้สัญชาตญาณ]

ป้อนคำอธิบายรูปภาพที่นี่


1
ฉันชอบสิ่งนี้. ฉันจะใช้วงรีด้านนอกเพื่อกำหนดค่าผิดปกติ เมื่อฉันเห็นภาพประกอบของคุณจุดหนึ่งอาจอยู่ห่างจากค่าเฉลี่ยในทิศทาง x หรือ y แต่ยังคงอยู่ในวงรีที่อยู่ไม่ไกลจากเส้นถดถอย
Michael R. Chernick

3

1) ธรรมชาติไม่ง่ายเสมอไป ในความเป็นจริงปรากฏการณ์ส่วนใหญ่ (ผลลัพธ์) ที่เราศึกษาขึ้นอยู่กับตัวแปรหลายตัวและในลักษณะที่ซับซ้อน ตัวแบบอนุมานที่ยึดตามตัวแปรหนึ่งตัวในแต่ละครั้งนั้นมักจะมีอคติสูง

2) รุ่น Univariate เป็นรุ่นที่ง่ายที่สุดที่คุณสามารถสร้างได้ตามคำจำกัดความ ไม่เป็นไรถ้าคุณกำลังตรวจสอบปัญหาเป็นครั้งแรกและคุณต้องการเข้าใจคุณลักษณะที่สำคัญที่สุดเพียงอย่างเดียว แต่ถ้าคุณต้องการความเข้าใจที่ลึกซึ้งยิ่งขึ้นความเข้าใจที่คุณสามารถใช้ประโยชน์ได้จริงเพราะคุณเชื่อมั่นในสิ่งที่คุณทำคุณจะใช้การวิเคราะห์หลายตัวแปร และในบรรดาตัวแปรหลายตัวแปรคุณควรเลือกแบบที่มีความเข้าใจในรูปแบบสหสัมพันธ์หากคุณสนใจเกี่ยวกับความถูกต้องของแบบจำลอง

3) ขออภัยที่ไม่มีเวลาอ่านอันนี้

4) เอกสารที่ใช้เทคนิคหลายตัวแปรเป็นเรื่องธรรมดามากในทุกวันนี้ - แม้แต่ในบางสาขา ในการทดลองของ CERN โดยใช้ข้อมูล Large Hadron Collider (เพื่อเป็นตัวอย่างจากฟิสิกส์ของอนุภาค) มากกว่าครึ่งของเอกสารนับร้อยที่ตีพิมพ์ในแต่ละปีใช้เทคนิคหลายตัวแปรไม่ทางใดก็ทางหนึ่ง

https://inspirehep.net/search?ln=en&ln=en&p=find+cn+cms+&of=hb&action_search=Search&sf=earliestdate&so=d&rm=&rg=25&sc=0


ฉันคิดว่าคุณหมายถึงว่ารูปแบบ univariate เป็นหนึ่งเดียวที่มีอินพุตเท่านั้นและหลายตัวแปรเป็นโมเดลที่มีอินพุตหลายตัว คำถามของฉันเกี่ยวกับผลลัพธ์หลายอย่างพร้อมกันวิเคราะห์ในรูปแบบ
KarthikS

1
คุณผสมการถดถอยหลายตัวแปร / ไม่แปรกับการถดถอยหลายครั้ง / เดียว
Firebug

1

คำตอบของฉันขึ้นอยู่กับสิ่งที่คุณต้องการจะทำอย่างไรกับการถดถอย หากคุณพยายามเปรียบเทียบผลของสัมประสิทธิ์ที่แตกต่างกันการถดถอยอาจไม่ใช่เครื่องมือที่เหมาะสมสำหรับคุณ หากคุณกำลังพยายามทำนายโดยใช้สัมประสิทธิ์ต่าง ๆ ที่คุณพิสูจน์แล้วว่ามีความเป็นอิสระบางทีการถดถอยหลายครั้งก็เป็นสิ่งที่คุณควรใช้

ปัจจัยมีความสัมพันธ์หรือไม่? ถ้าเป็นเช่นนั้นการถดถอยหลายตัวแปรสามารถให้แบบจำลองที่ไม่ดีแก่คุณและคุณควรใช้วิธีการเช่น VIF หรือการถดถอยแนวสันเพื่อลดความสัมพันธ์ข้าม คุณไม่ควรเปรียบเทียบค่าสัมประสิทธิ์จนกว่าปัจจัยความสัมพันธ์ข้ามจะถูกกำจัด การทำเช่นนั้นจะนำไปสู่ภัยพิบัติ หากพวกเขาไม่ได้มีความสัมพันธ์ข้ามจากนั้นค่าสัมประสิทธิ์หลายตัวแปรควรจะเทียบเท่ากับค่าสัมประสิทธิ์ univariate และสิ่งนี้ไม่ควรแปลกใจ

ผลลัพธ์อาจขึ้นอยู่กับชุดซอฟต์แวร์ที่คุณใช้ ฉันไม่ได้ล้อเล่น. ชุดซอฟต์แวร์ที่ต่างกันมีวิธีการต่าง ๆ สำหรับการคำนวณการถดถอยหลายตัวแปร (อย่าเชื่อฉันเลยลองดูว่าแพ็คเกจ R Regression แบบมาตรฐานคำนวณ R 2 แบบมีและไม่มีการบังคับให้ต้นกำเนิดเป็นจุดตัดหรือขากรรไกรของคุณน่าจะตกถึงพื้น) คุณต้องเข้าใจว่าแพคเกจซอฟต์แวร์ทำงานอย่างไร มันชดเชยความสัมพันธ์ข้ามได้อย่างไร? มันทำงานตามลำดับหรือเมทริกซ์โซลูชั่น? ฉันเคยผิดหวังกับสิ่งนี้ในอดีต ฉันแนะนำให้ทำการถดถอยหลายครั้งบนแพ็คเกจซอฟต์แวร์ที่แตกต่างกันและดูว่าคุณได้อะไร

อีกตัวอย่างที่ดีที่นี่:

โปรดสังเกตว่าในสมการนี้สัมประสิทธิ์การถดถอย (หรือสัมประสิทธิ์ B) แสดงถึงการมีส่วนร่วมที่เป็นอิสระของตัวแปรอิสระแต่ละตัวเพื่อการทำนายของตัวแปรตาม อีกวิธีในการแสดงความจริงนี้คือการพูดเช่นตัวแปร X1 มีความสัมพันธ์กับตัวแปร Y หลังจากควบคุมตัวแปรอิสระอื่น ๆ ทั้งหมด ความสัมพันธ์ประเภทนี้เรียกอีกอย่างว่าความสัมพันธ์บางส่วน (คำนี้ถูกใช้เป็นครั้งแรกโดยเทศกาลคริสต์มาสปี 1907) บางทีตัวอย่างต่อไปนี้จะชี้แจงปัญหานี้ คุณอาจพบว่ามีความสัมพันธ์เชิงลบอย่างมีนัยสำคัญระหว่างความยาวผมและความสูงในประชากร (เช่นคนสั้นมีผมยาว) ในตอนแรกมันอาจดูแปลก ๆ อย่างไรก็ตามถ้าเราเพิ่มตัวแปรเพศลงในสมการการถดถอยหลายครั้งความสัมพันธ์นี้อาจจะหายไป นี่เป็นเพราะโดยเฉลี่ยแล้วผู้หญิงมีผมยาวกว่าผู้ชาย พวกเขายังสั้นโดยเฉลี่ยกว่าผู้ชาย ดังนั้นหลังจากเราลบความแตกต่างทางเพศนี้โดยการใส่เพศเข้าในสมการความสัมพันธ์ระหว่างความยาวผมและความสูงจะหายไปเพราะความยาวของผมไม่ได้มีส่วนช่วยในการทำนายความสูงเหนือสิ่งอื่นใดในการทำนายด้วยตัวแปรเพศ . ใส่อีกวิธีหนึ่งหลังจากควบคุมตัวแปรเพศความสัมพันธ์บางส่วนระหว่างความยาวและความสูงของผมคือศูนย์ ความสัมพันธ์ระหว่างความยาวและความสูงของเส้นผมจะหายไปเพราะความยาวของผมไม่ได้มีส่วนช่วยในการทำนายความสูงเหนือสิ่งอื่นใดในการทำนายด้วยตัวแปรเพศ ใส่อีกวิธีหนึ่งหลังจากควบคุมตัวแปรเพศความสัมพันธ์บางส่วนระหว่างความยาวและความสูงของผมคือศูนย์ ความสัมพันธ์ระหว่างความยาวและความสูงของเส้นผมจะหายไปเพราะความยาวของผมไม่ได้มีส่วนช่วยในการทำนายความสูงเหนือสิ่งอื่นใดในการทำนายด้วยตัวแปรเพศ ใส่อีกวิธีหนึ่งหลังจากควบคุมตัวแปรเพศความสัมพันธ์บางส่วนระหว่างความยาวและความสูงของผมคือศูนย์ http://www.statsoft.com/Textbook/Multiple-Regression

มีข้อผิดพลาดมากมายที่ใช้การถดถอยหลายครั้งที่ฉันพยายามหลีกเลี่ยงการใช้มัน หากคุณใช้งานให้ใช้ความระมัดระวังกับผลลัพธ์และตรวจสอบอีกครั้ง คุณควรพล็อตข้อมูลด้วยสายตาเพื่อยืนยันความสัมพันธ์ (เพียงเพราะโปรแกรมซอฟต์แวร์ของคุณบอกว่าไม่มีความสัมพันธ์กันไม่ได้หมายความว่าไม่มีเลย สหสัมพันธ์ที่น่าสนใจ ) ตรวจสอบผลลัพธ์ของคุณกับสามัญสำนึกทุกครั้ง หากปัจจัยหนึ่งแสดงถึงความสัมพันธ์ที่แข็งแกร่งในการถดถอยแบบไม่รวมตัวแปร แต่ไม่มีตัวแปรใดในหลายตัวแปรคุณต้องเข้าใจว่าทำไมก่อนที่จะแบ่งปันผลลัพธ์ (ปัจจัยเพศด้านบนเป็นตัวอย่างที่ดี)


" ตรวจสอบว่าแพคเกจการถดถอย R มาตรฐานคำนวณ R2 ด้วยและไม่บังคับให้ต้นทางเป็นจุดตัด " ในขณะที่มันอาจทำให้ผู้ที่ไม่คาดหวังสับสน แต่สิ่งที่ R ทำในสถานการณ์นั้นเป็นวิธีมาตรฐานที่ใช้ในซอฟต์แวร์สถิติทุกตัว แพ็คเกจที่ฉันตรวจสอบสิ่งนี้
Jake Westfall

น่าสนใจ ฉันเคยเห็นเอกสารเผยแพร่จากนักวิเคราะห์ที่ไม่เข้าใจความแตกต่างนี้ คุณเคยเห็นการสนทนาที่ดีในหัวข้อนี้หรือไม่? ฉันควรส่งคำถามใหม่ถึง CV เกี่ยวกับเรื่องนี้หรือไม่
Maddenker

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.