คุณจะอธิบายโมเดลเชิงเส้นทั่วไปให้กับผู้ที่ไม่มีพื้นฐานทางสถิติอย่างไร


16

ฉันมักจะลำบากในการอธิบายเทคนิคทางสถิติให้กับผู้ชมที่ไม่มีพื้นฐานทางสถิติ หากฉันต้องการอธิบายว่า GLM คืออะไรสำหรับผู้ชมดังกล่าว (โดยไม่ทิ้งศัพท์แสงทางสถิติ) สิ่งใดจะเป็นวิธีที่ดีที่สุดหรือมีประสิทธิภาพมากที่สุด

ฉันมักจะอธิบาย GLM ด้วยสามส่วน - (1) องค์ประกอบสุ่มซึ่งเป็นตัวแปรตอบสนอง (2) องค์ประกอบของระบบซึ่งเป็นตัวทำนายเชิงเส้นและ (3) ฟังก์ชั่นลิงค์ซึ่งเป็น "กุญแจ" ต่อการเชื่อมต่อ (1) และ (2) จากนั้นฉันจะให้ตัวอย่างของการถดถอยเชิงเส้นหรือโลจิสติกและอธิบายวิธีการเลือกฟังก์ชั่นลิงค์ตามตัวแปรการตอบสนอง ดังนั้นมันทำหน้าที่เป็นกุญแจสำคัญในการเชื่อมต่อสององค์ประกอบ


ผู้ชมมีพื้นหลังแบบใด การอธิบาย GLM ให้กับนักคณิตศาสตร์หรือนักชีววิทยานั้นแตกต่างกันมาก

1
@Procrastinator จะมีนักคณิตศาสตร์บางคนที่ไม่มีภูมิหลังทางสถิติ แต่ประเด็นของคุณคือสิ่งที่ดี: การมีความคิดที่ชัดเจนเกี่ยวกับผู้ชมที่ต้องการจะช่วยให้คำตอบสอดคล้องและเน้น คุณจะแก้ไขคำถามเพื่อขยายสิ่งนี้หรือไม่?
whuber

1
ฉันเห็นประเด็นของคุณ @Procrastinator แต่ฉันหวังว่าจะได้คำตอบที่เข้าใจง่ายสำหรับทุกคน (นักคณิตศาสตร์และ / หรือนักชีววิทยา) โดยทั่วไปเพราะถ้าฉันไม่มีภูมิหลังทางคณิตศาสตร์หรือชีววิทยา (ซึ่งเป็นกรณีนี้) ฉันไม่รู้จะอธิบาย GLM ให้พวกเขาได้อย่างไรเกี่ยวกับภูมิหลังของพวกเขา
เคน

4
ฉันคิดว่ามันสำคัญที่ต้องจำไว้ว่าคุณสามารถรับปริญญาตรีปริญญาโทหรือปริญญาเอกทางชีววิทยาโดยไม่ต้องเรียนวิชาสถิติแม้แต่ในมหาวิทยาลัยชั้นหนึ่งหลายแห่ง ปริญญาของฉันในชีวเคมีต้องใช้สองภาคเรียนของแคลคูลัสเบื้องต้นและหนึ่งภาคการศึกษาของสมการเชิงอนุพันธ์ เนื้อหาของคลาสเหล่านี้ถูกลืมไปอย่างรวดเร็วเพราะนักเรียนหลายคนจะไม่ใช้ทักษะเหล่านี้อีกเลย! ดังนั้นฉันคิดว่ามันเป็นเรื่องจำเป็นที่จะต้องปิดบังคำอธิบายสำหรับนักสถิติทั่วไป
Alexander

ความคิดเห็นเพื่อเพิ่มคำตอบด้านล่าง; ถ้าคุณสามารถหาเส้นตรง (เช่นฟังก์ชั่นลิงค์และตัวทำนายเชิงเส้น) การเชื่อมต่อกับการถ่วงน้ำหนักความแปรปรวนที่มีประสิทธิภาพนั้นไม่ยากที่จะสื่อสาร เราเพียงแค่ต้องการให้มีส่วนร่วมที่แม่นยำขึ้นและลดน้ำหนักที่เหลือ สิ่งนี้ช่วยให้คุณหลีกเลี่ยงการพูดอะไรที่เป็นเทคนิคมากเกินไปเกี่ยวกับการสุ่มของผลลัพธ์ NB GLMs ได้รับการออกแบบเป็น (เพียง) โมเดลที่สามารถใช้ IWLS เพื่อมอบ MLE ได้ดังนั้นวิธีคิดเกี่ยวกับพวกเขาที่อธิบายไว้ด้านบนจึงสรุปได้ว่าทำไมพวกเขาถึงมีประโยชน์จริง ๆ
ผู้เข้าพัก

คำตอบ:


25

หากผู้ชมจริงๆไม่มีพื้นหลังสถิติฉันคิดว่าฉันจะพยายามที่จะลดความซับซ้อนของการอธิบายค่อนข้างน้อยมาก ก่อนอื่นฉันจะวาดระนาบพิกัดบนกระดานโดยมีเส้นตรงเป็นดังนี้:

y = mx + b

ทุกคนในการพูดคุยของคุณจะคุ้นเคยกับสมการของเส้นตรงy = m x + bเพราะนั่นคือสิ่งที่เรียนรู้ในระดับชั้นประถมศึกษา ดังนั้นฉันจะแสดงให้เห็นว่าข้างการวาดภาพ อย่างไรก็ตามฉันจะเขียนย้อนกลับเช่น: Y=ม.x+

 ม.x+=Y

ฉันจะบอกว่าสมการนี้เป็นตัวอย่างของการถดถอยเชิงเส้นอย่างง่าย จากนั้นฉันจะอธิบายวิธีที่คุณ (หรือคอมพิวเตอร์) สามารถปรับสมการดังกล่าวให้สอดคล้องกับพล็อตจุดกระจายข้อมูลเช่นที่แสดงในภาพนี้:

พล็อตกระจาย

ฉันจะบอกว่าที่นี่เรากำลังใช้อายุของสิ่งมีชีวิตที่เรากำลังศึกษาเพื่อทำนายว่ามันใหญ่แค่ไหนและสมการการถดถอยเชิงเส้นผลลัพธ์ที่เราได้รับ (แสดงในภาพ) สามารถใช้ในการทำนายว่าสิ่งมีชีวิตใหญ่แค่ไหน คือถ้าเรารู้อายุของมัน

 ม.x+=Y

จากนั้นฉันจะอธิบายอีกครั้งว่านี่เป็นตัวอย่างของสมการการถดถอยเชิงเส้นอย่างง่ายและจริง ๆ แล้วมีความซับซ้อนมากขึ้น ตัวอย่างเช่นในหลากหลายที่เรียกว่าการถดถอยโลจิสติก y จะได้รับอนุญาตให้เป็น 1 หรือ 0 อาจต้องการใช้รูปแบบนี้หากคุณพยายามคาดเดาคำตอบ "ใช่" หรือ "ไม่" เช่นว่ามีคนเป็นโรคหรือไม่ ความหลากหลายพิเศษอีกอย่างคือสิ่งที่เรียกว่าการถดถอยของปัวซองซึ่งใช้ในการวิเคราะห์ข้อมูล "นับ" หรือ "เหตุการณ์" (ฉันจะไม่เจาะลึกลงไปอีกหากไม่จำเป็นจริงๆ)

ฉันจะอธิบายว่าการถดถอยเชิงเส้นการถดถอยโลจิสติกและการถดถอยปัวซองเป็นตัวอย่างพิเศษทั้งหมดของวิธีการทั่วไปที่มากกว่าสิ่งที่เรียกว่า "โมเดลเชิงเส้นเชิงเส้นทั่วไป" สิ่งที่ยอดเยี่ยมเกี่ยวกับ "แบบจำลองเชิงเส้นทั่วไป" คือพวกมันอนุญาตให้เราใช้ข้อมูล "การตอบสนอง" ที่สามารถรับค่าใด ๆ (เช่นสิ่งมีชีวิตขนาดใหญ่อยู่ในการถดถอยแบบเส้นตรง) ใช้เวลาเพียง 1 หรือ 0 โรคในการถดถอยโลจิสติก) หรือใช้นับจำนวน (เช่นจำนวนเหตุการณ์ในการถดถอยปัวซอง)

ฉันจะบอกว่าในสมการประเภทนี้ x's (ตัวทำนาย) เชื่อมต่อกับ y's (การตอบสนอง) ผ่านสิ่งที่นักสถิติเรียกว่า "ฟังก์ชันลิงก์" เราใช้ "ฟังก์ชันลิงก์" เหล่านี้ในกรณีที่ x ไม่เกี่ยวข้องกับ y ในลักษณะเชิงเส้น

อย่างไรก็ตามนี่คือสองเซ็นต์ของฉันในปัญหา! บางทีคำอธิบายที่ฉันเสนออาจฟังดูแปลก ๆ และโง่เง่า แต่ถ้าจุดประสงค์ของแบบฝึกหัดนี้เป็นเพียงการให้ "ใจความสำคัญ" ผ่านไปยังผู้ฟังบางทีคำอธิบายเช่นนี้ก็ไม่ได้แย่เกินไป ฉันคิดว่ามันเป็นสิ่งสำคัญที่แนวคิดจะถูกอธิบายในวิธีที่ใช้งานง่ายและคุณหลีกเลี่ยงการโยนคำเช่น "องค์ประกอบแบบสุ่ม", "องค์ประกอบของระบบ", "ฟังก์ชันลิงก์", "ยับยั้ง", "ฟังก์ชัน logit" ฯลฯ หากคุณ ' กำลังพูดคุยกับคนที่ไม่มีพื้นฐานทางสถิติอย่างแท้จริงเช่นนักชีววิทยาหรือแพทย์โดยทั่วไปดวงตาของพวกเขาจะเปล่งประกายเมื่อได้ยินคำพูดเหล่านั้น พวกเขาไม่รู้ว่าการกระจายความน่าจะเป็นคืออะไรพวกเขาไม่เคยได้ยินเกี่ยวกับฟังก์ชันลิงก์และพวกเขาไม่รู้ว่า "logit"

ในคำอธิบายของคุณเกี่ยวกับผู้ชมที่ไม่ใช่เชิงสถิติฉันจะเน้นไปที่การใช้แบบจำลองที่หลากหลายเมื่อใด ฉันอาจพูดถึงจำนวนนักทำนายที่คุณได้รับอนุญาตให้รวมทางด้านซ้ายมือของสมการ (ฉันได้ยินกฎของหัวแม่มือไม่เกินขนาดตัวอย่างของคุณหารด้วยสิบ) นอกจากนี้ยังเป็นการดีที่จะรวมตัวอย่างสเปรดชีตที่มีข้อมูลและอธิบายให้ผู้ชมทราบถึงวิธีการใช้แพคเกจซอฟต์แวร์เชิงสถิติเพื่อสร้างแบบจำลอง จากนั้นฉันจะอธิบายผลลัพธ์ของแบบจำลองทีละขั้นตอนและพยายามอธิบายความหมายของตัวอักษรและตัวเลขที่แตกต่างกันทั้งหมด นักชีววิทยามีความรู้เกี่ยวกับสิ่งนี้และสนใจที่จะเรียนรู้ว่าจะใช้แบบทดสอบอะไรเมื่อใดแทนที่จะได้รับความเข้าใจในคณิตศาสตร์ที่อยู่เบื้องหลัง GUI ของ SPSS!

ฉันจะซาบซึ้งความคิดเห็นหรือข้อเสนอแนะเกี่ยวกับคำอธิบายของฉันที่นำเสนอโดยเฉพาะอย่างยิ่งถ้าใครบันทึกข้อผิดพลาดหรือคิดว่าวิธีที่ดีกว่าที่จะอธิบายมัน!


4
ไม่ใช่ทุกคนที่คุ้นเคยกับสมการของเส้นตรง ไม่ใช่แม้แต่นักศึกษาระดับบัณฑิตศึกษาทุกคนและทุกคนที่มีปริญญาเอก
Peter Flom - Reinstate Monica

6
ฉันหมายความว่าฉันแน่ใจว่านักศึกษาระดับบัณฑิตศึกษามีอยู่จริงในโลกที่ไม่รู้สมการเส้น แต่สมมุติว่าผู้ชมที่คุณต้องการอธิบายแบบจำลองเชิงเส้นทั่วไปอย่างน้อยจะมีเงื่อนงำครึ่งหนึ่งเกี่ยวกับความสูง พีชคณิตระดับโรงเรียน! : -o
Alexander

ฉันเห็นด้วยกับคุณอเล็กซานเดอร์และแนวทางของคุณดูเป็นธรรมชาติมากสำหรับฉัน ฉันจะไม่มุ่งเน้นไปที่ "g" ของ glm มากเกินไป (หรือเร็วเกินไป) และจะไม่แยกความแตกต่างของการสุ่มเทียบกับการแก้ไข แน่นอนมันขึ้นอยู่กับระยะเวลาที่คุณต้องอธิบายทั้งหมดนี้
Dominic Comtois

Y=αX+βα

10

ฉันจะไม่เรียกการตอบสนองว่าเป็นองค์ประกอบแบบสุ่ม มันคือการรวมกันขององค์ประกอบที่กำหนดขึ้นและสุ่ม

เข้าสู่ระบบ(พี/(1-พี))[0,1]


3
ฉันสงสัยเกี่ยวกับการใช้ "การตอบสนอง" นี้ ผู้ชมเป้าหมายของเราอาจจะเข้าใจว่าหมายถึงการสังเกตการตอบสนอง: ใช่หรือไม่, 0 หรือ 1 ฯลฯ ในการถดถอยโลจิสติกเรารุ่นอะไรบางอย่างที่ไม่มีใครสังเกต (และไม่เคยสังเกตโดยตรง); กล่าวคือโอกาสในการตอบสนอง ลิงก์ "" เป็นเพียงเรื่องของการแสดงโอกาสเหล่านั้นว่าเป็นอัตราต่อรองมากกว่าที่จะเป็นไปได้ การถดถอยโลจิสติกสมมติว่าอัตราต่อรองของบันทึกนั้นแปรผันเป็นเส้นตรงด้วย IV (ฉันใช้ "แบบจำลอง" "ถือว่า" และ "สมมุติ" แทนที่จะเป็น "และ" ทำนาย "ระบุมุมมองทางปัญญาและ ontological ที่แตกต่างกันเช่นกัน)
whuber

1
จุดที่ดี whuber
Michael R. Chernick

-2

ฉันจะอธิบายว่าบางครั้งฉันต้องการสิ่งที่ทำนายไว้ ตัวอย่างเช่นราคาของบ้านให้ข้อมูลบางอย่างเกี่ยวกับมัน บอกว่าขนาดสถานที่ก่อสร้างอายุเท่าไหร่ ฯลฯ ฉันต้องการแยกแยะว่าเป็นแบบจำลองที่คำนึงถึงอิทธิพลของปัจจัยเหล่านี้ในการทำนายราคา

ทีนี้ลองดูตัวอย่างย่อย, สมมุติว่า, ฉันจะพิจารณาเฉพาะขนาดของบ้าน นั่นก็หมายความว่าไม่มีอะไรส่งผลกระทบต่อราคา อาจเป็นกรณีที่ฉันกำลังเปรียบเทียบบ้านที่อยู่ในพื้นที่เดียวกันถูกสร้างขึ้นในเวลาเดียวกันเป็นต้นหรืออาจเป็นเพราะฉันไม่ต้องการทำให้เรื่องยุ่งยากสำหรับตัวเองและด้วยเหตุนี้จึงต้องการให้ชีวิตจริงสอดคล้องกับ ไกลฉันสามารถคิด ตอนนี้ฉันสร้างแบบจำลองที่ฉันมีรายการขนาดและราคาที่สอดคล้องกันของคุณสมบัติที่คล้ายกัน (พูดจากการขายที่เพิ่งเกิดขึ้นเร็ว ๆ นี้ ... แต่นั่นจะมีอคติร้ายแรงจากบ้านที่ไม่ได้ขายและมีผลต่อราคา ของบ้านที่เป็น แต่ให้ละเว้นสิ่งนั้น)

ตอนนี้ฉันเห็นว่าบ้านขนาด 100 ตารางฟุตมีราคา $ 1m (เอาชนะตัวคุณเองนี่เป็นตัวอย่างที่ง่าย) ดังนั้นโดยปกติคุณจะคาดหวังว่าบ้านขนาด 200 ตารางฟุตจะมีราคาเป็นสองเท่า และนั่นคือสิ่งที่เราจะเรียกว่า "รูปแบบเชิงเส้น" แน่นอนเมื่อเรารวบรวมข้อมูลและขนาดพล็อตเทียบกับราคาเราเห็นว่ามันไม่เป็นสองเท่า แต่มีแนวโน้มเพิ่มขึ้นอย่างแน่นอน

ดังนั้นฉันจึงพยายามหาแนวโน้มจำนวน เพิ่มขึ้นเท่าใดสำหรับทุกตารางฟุตที่เพิ่มขึ้น? นั่นคือการถดถอยเชิงเส้น

INSERT คำศัพท์แผนที่และดำเนินการต่อด้วยแนวคิดทางสถิติ วิธีหนึ่งในการอธิบายองค์ประกอบแบบสุ่มและเป็นระบบอาจเป็นได้ว่าสิ่งใดก็ตามที่คุณลืมสร้างแบบจำลองหรือไม่สามารถวัดได้ สิ่งที่คุณสามารถทำได้อย่างเป็นระบบ (ตัวอย่างเช่นสมมติว่าเป็นปี 2008 และคุณต้องการขายบ้าน)

ข้อสันนิษฐานที่อยู่ภายใต้แบบจำลองนี้คือแผนการกระจายควรมีลักษณะเหมือนแกน ซึ่งนั่นคือทั้ง X และ Y เป็น "Normal" และทุกคนมีความแปรปรวนที่คล้ายกัน

หากไม่ใช่กรณีนี้ให้ป้อน GLM และตอนนี้อธิบายฟังก์ชันลิงก์ทั้งหมด

มันง่าย แต่มันควรจะทำงานเป็นบทนำ

คุณสามารถใส่ประวัติของ GLMs และโมเดลแฟคทอเรียล ที่ฟิชเชอร์ต้องการสิ่งต่าง ๆ เริ่มแตกต่างกันและกรอบนี้เหมาะสำหรับความซับซ้อนชนิดนั้น

หวังว่านี่จะช่วย ...


1
ขอขอบคุณสำหรับความพยายามของคุณ แต่ไม่จำเป็นต้องโพสต์เนื้อหาของคุณจนกว่าคุณจะเขียนเสร็จจริง ๆ ในรูปแบบปัจจุบันวิธีการสลายตัวลงในบันทึกย่อที่คลุมเครือในตอนท้ายจะทำให้ผู้อ่านผิดหวัง
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.