ควรใช้ GAM กับ GLM เมื่อใด


15

ฉันรู้ว่านี่อาจเป็นคำถามที่กว้าง แต่ฉันสงสัยว่ามีข้อสมมติฐานทั่วไปที่บ่งบอกถึงการใช้ GAM (โมเดลเสริมทั่วไป) เหนือ GLM (โมเดลเชิงเส้นทั่วไป) หรือไม่

มีคนบอกฉันเมื่อไม่นานมานี้ว่า GAM ควรใช้เฉพาะเมื่อฉันถือว่าโครงสร้างข้อมูลเป็น "สารเติมแต่ง" เช่นฉันคาดว่าการเพิ่มของ x เพื่อคาดการณ์ y อีกคนหนึ่งชี้ให้เห็นว่า GAM ทำการวิเคราะห์การถดถอยแบบต่างจาก GLM และเป็นที่ต้องการของ GLM เมื่อสามารถอนุมานเชิงเส้นได้

ในอดีตฉันใช้ GAM สำหรับข้อมูลเชิงนิเวศน์เช่น:

  • ไทม์อย่างต่อเนื่อง
  • เมื่อข้อมูลไม่มีรูปร่างเป็นเส้นตรง
  • ฉันมี x หลายตัวเพื่อทำนาย y ที่ฉันคิดว่ามีปฏิสัมพันธ์แบบไม่เชิงเส้นที่ฉันสามารถเห็นภาพโดยใช้ "พล็อตผิว" พร้อมกับการทดสอบทางสถิติ

เห็นได้ชัดว่าฉันไม่มีความเข้าใจที่ดีในสิ่งที่ GAM ทำแตกต่างจาก GLM ฉันเชื่อว่าเป็นการทดสอบทางสถิติที่ถูกต้อง (และฉันเห็นการเพิ่มขึ้นของการใช้งาน GAMs อย่างน้อยในวารสารด้านนิเวศวิทยา) แต่ฉันจำเป็นต้องรู้ให้ดีขึ้นเมื่อการใช้งานถูกระบุเหนือการวิเคราะห์การถดถอยอื่น ๆ


GAM's จะใช้เมื่อตัวทำนายเชิงเส้นขึ้นอยู่กับฟังก์ชันที่ไม่ทราบค่าของตัวแปรทำนายบางอย่าง
user2974951

1
ความแตกต่างนั้นไม่ชัดเจนเนื่องจากคุณสามารถแสดงค่า covariables ที่เป็นตัวเลขเช่นโดย spline ใน GLM
Michael M

3
ในขณะที่ความแตกต่างนั้นพร่ามัวเกมสามารถเป็นตัวแทนของการโต้ตอบเช่นเดียวกับวิธี smae ดังนั้นจึงไม่จำเป็นต้องเพิ่มความเข้มงวดมาก glm ความแตกต่างใหญ่คือการอนุมาน: เกมต้องการวิธีพิเศษเนื่องจากการประเมินไม่ได้ผ่านการฉาย แต่ผ่านการปรับให้เรียบ ในทางปฏิบัติแล้วฉันไม่เข้าใจ
kjetil b halvorsen

GLM GAM
usεr11852

คำตอบ:


14

ความแตกต่างที่สำคัญที่สุดก็คือขณะที่ "คลาสสิค" ในรูปแบบของเส้นตรงหรือเส้นตรงทั่วไปแบบจำลองที่คงที่หรืออื่น ๆ ในรูปแบบของตัวแปรความสัมพันธ์ระหว่างตัวแปรตามตัวแปรและ covariates, GAM ไม่ถือว่าเป็นรูปแบบเฉพาะของเรื่องนี้เบื้องต้น ความสัมพันธ์และสามารถใช้ในการเปิดเผยและประมาณการผลกระทบที่ไม่ใช่เชิงเส้นของตัวแปรร่วมในตัวแปรตาม รายละเอียดเพิ่มเติมในขณะที่แบบจำลองเชิงเส้นตรง (generalized) ตัวทำนายเชิงเส้นคือผลรวมถ่วงน้ำหนักของ covariates,ในคำนี้จะถูกแทนที่ด้วยผลรวมของฟังก์ชันที่ราบรื่นเช่น , ที่ni=1nβixii=1nj=1qβisj(xi)s1(),,sq()ฟังก์ชั่นพื้นฐานที่ราบรื่น (เช่นลูกบาศก์ Splines) และคือมิติพื้นฐาน โดยการรวมฟังก์ชั่นพื้นฐาน GAMs สามารถเป็นตัวแทนของความสัมพันธ์ในการทำงานจำนวนมาก (ในการทำเช่นนั้นพวกเขาอาศัยสมมติฐานที่ว่าความสัมพันธ์ที่แท้จริงน่าจะราบรื่น พวกเขาจะเป็นหลักเป็นส่วนขยายของ GLMs อย่างไรก็ตามพวกเขาได้รับการออกแบบในลักษณะที่ทำให้พวกเขามีประโยชน์อย่างยิ่งสำหรับการเปิดเผยผลกระทบเชิงตัวแปรเชิงตัวเลขและการทำเช่นนั้นในแฟชั่น "อัตโนมัติ" (จาก Hastie และบทความต้นฉบับ Tibshirani พวกเขามีส ความได้เปรียบของการเป็นไปโดยอัตโนมัติอย่างสมบูรณ์กล่าวคือไม่จำเป็นต้องมีงาน "นักสืบ" ในส่วนของสถิติ ' )q


2
เอาล่ะ แต่ดังที่ได้กล่าวไว้ในความคิดเห็นสิ่งเหล่านี้สามารถทำได้ด้วย glm's ด้วย ... ฉันสงสัยว่าความแตกต่างที่สำคัญคือในทางปฏิบัติ การใช้ R ในการmgcvทำสิ่งต่างๆมากมายที่คุณไม่สามารถทำได้glmแต่สามารถทำได้ในกรอบดังกล่าวเช่นกัน ...
kjetil b halvorsen

ใช่ฉันเห็นด้วยกับคุณว่า GAM เป็นส่วนเสริมของ GLM อย่างไรก็ตามคำถามนั้นเกี่ยวกับเวลาที่จะใช้ GAM และเมื่อใดที่จะใช้ GLM และดูเหมือนว่าสำหรับฉันแล้ว op หมายถึงรูปแบบ "คลาสสิค" ของ GLMs ซึ่งมักจะไม่รวมชุดฟังก์ชันพื้นฐานเป็นตัวทำนายและไม่ได้ใช้เพื่อเปิดเผย / ความสัมพันธ์แบบไม่เชิงเส้นที่ไม่รู้จักโดยประมาณ
matteo

ขอบคุณ - สิ่งนี้มีประโยชน์ และใช่ฉันกำลังพูดถึง GLMs คลาสสิก
mluerig

@ matteo อีกสองสิ่ง: i) คุณหมายถึงอะไรโดย "ความสัมพันธ์ที่แท้จริงมีแนวโน้มที่จะราบรื่นมากกว่า wiggly"? และ ii) "มีประโยชน์อย่างยิ่งสำหรับการเปิดเผยผลกระทบที่ไม่เชิงเส้นของการแปรปรวนร่วมของตัวเลข" - เราจะอธิบาย / วัดความไม่เชิงเส้น (เช่นกับmgcv) อย่างไร?
mluerig

ความสัมพันธ์ที่แท้จริงอาจไม่ราบรื่นอย่างไรก็ตามโดยทั่วไปเกมจะควบคุมความซับซ้อนของแบบจำลองโดยการเพิ่มบทลงโทษ "wiggliness" ในระหว่างขั้นตอนการเพิ่มโอกาส (มักใช้เป็นสัดส่วนของสี่เหลี่ยมจัตุรัสของอนุพันธ์อันดับสองของฟังก์ชันโดยประมาณ) ผลกระทบที่ไม่เชิงเส้นของตัวแปรเชิงซ้อนหมายความว่าอิทธิพลของตัวแปรตัวเลขที่เฉพาะเจาะจงในตัวแปรตามอาจยกตัวอย่างเช่นไม่เพิ่ม / ลดความซ้ำซากจำเจกับค่าตัวแปร แต่มีรูปร่างที่ไม่รู้จักเช่นกับ maxima, minima, inflection points ..
matteo

14

ฉันขอเน้นย้ำว่าเกมมีความยืดหยุ่นมากกว่า GLMs มากดังนั้นจึงต้องใช้ความระมัดระวังมากขึ้น ด้วยพลังที่ยิ่งใหญ่มาพร้อมความรับผิดชอบที่มากขึ้น

คุณพูดถึงการใช้ในระบบนิเวศซึ่งฉันได้สังเกตเห็นด้วย ฉันอยู่ในคอสตาริกาและเห็นการศึกษาบางอย่างในป่าฝนซึ่งนักเรียนระดับปริญญาบางคนได้โยนข้อมูลบางส่วนลงใน GAM และยอมรับ Smoothers ที่ซับซ้อนที่บ้าคลั่งเพราะซอฟต์แวร์ดังกล่าว มันค่อนข้างน่าหดหู่ยกเว้นเรื่องตลกขบขัน / ความจริงที่ว่าพวกเขารวมถึงเชิงอรรถที่บันทึกความจริงที่ว่าพวกเขาต้องการใช้ GAM และสมูทเทอร์คุณภาพสูงที่เป็นผลลัพธ์

คุณไม่จำเป็นต้องเข้าใจว่าเกมใช้งานอย่างไร แต่คุณต้องคิดเกี่ยวกับข้อมูลของคุณปัญหาที่เกิดขึ้นการเลือกพารามิเตอร์อัตโนมัติของซอฟต์แวร์ของคุณเช่นคำสั่งที่นุ่มนวลตัวเลือกของคุณ หากมีความราบรื่นเป็นธรรม ฯลฯ ) และความน่าเชื่อถือของผลลัพธ์ของคุณ

ทำแปลงจำนวนมากและดูที่โค้งที่ราบเรียบของคุณ พวกเขาคลั่งไคล้ในพื้นที่ที่มีข้อมูลน้อยหรือไม่? จะเกิดอะไรขึ้นเมื่อคุณระบุการสั่งซื้อที่ราบรื่นน้อยกว่าหรือลบการปรับให้เรียบทั้งหมด ระดับ 7 เรียบขึ้นสำหรับตัวแปรนั้นจริงหรือไม่แม้ว่าจะยืนยันว่าตัวเลือกตรวจสอบข้ามถูกต้องหรือไม่ คุณมีข้อมูลเพียงพอหรือไม่ มันมีคุณภาพสูงหรือมีเสียงดัง?

ฉันชอบ GAMS และคิดว่าพวกเขาไม่นิยมการสำรวจข้อมูล พวกมันมีความยืดหยุ่นสูงมากและถ้าคุณยอมให้วิทยาศาสตร์ตัวเองไร้ความรุนแรงพวกเขาจะพาคุณไปสู่ความเป็นป่าทางสถิติมากกว่าแบบจำลองที่ง่ายกว่าเช่น GLM


1
ฉันคิดว่าฉันมักจะทำสิ่งที่นักเรียนระดับปริญญาโทเหล่านี้ทำ: โยนข้อมูลของฉันในเกมและตื่นตากับการmgcvจัดการข้อมูลของฉัน ฉันพยายามที่จะใช้พารามิเตอร์ของฉันและฉันตรวจสอบว่าค่าที่ทำนายตรงกับข้อมูลของฉันได้ดีเพียงใด ความคิดเห็นของคุณเป็นตัวเตือนที่ดีที่จะเข้มงวดมากขึ้น - และในที่สุดก็อาจได้หนังสือไซมอนวู้ด!
mluerig

Heck ฉันจะไปไกลถึงการใช้ตัวแปรนุ่มนวลในการสำรวจตัวแปรและจากนั้นกำหนดองศาอิสระที่ค่าต่ำหรือกำจัดความราบรื่นและการใช้พูดคำที่ยกกำลังสองหากความนุ่มนวลนั้นเป็นกำลังสองกำลังสอง ยกกำลังสองทำให้รู้สึกถึงผลกระทบของอายุเช่น
Wayne

@ เวย์นฉันมาที่นี่เพื่อรับคำตอบเกี่ยวกับการสำรวจข้อมูลที่เกี่ยวข้องกับเกมและเห็นคุณชี้ให้เห็น คุณใช้ GAMs เพื่อสำรวจข้อมูลได้อย่างไร และคุณจะตัดสินใจได้อย่างไรว่าจำเป็นต้องใช้ GAM หรือไม่หรือหาก GLM เพียงพอ มันจะสมเหตุสมผลหรือไม่ที่จะเรียกใช้ GAM แบบง่าย ๆ ซึ่งคุณเรียกใช้การตอบสนองและผู้ทำนายที่มีศักยภาพแต่ละคนหันมาวางแผนและดูว่าความสัมพันธ์รับประกัน GAM หรือไม่ (เช่นความสัมพันธ์ที่ไม่ใช่เชิงเส้น
Tilen

6

ฉันไม่มีชื่อเสียงในการเพิ่มความคิดเห็น ผมไม่เห็นด้วยกับความคิดเห็นของเวย์น: ด้วยพลังที่ยิ่งใหญ่มาพร้อมความรับผิดชอบมากขึ้น Gams สามารถมีความยืดหยุ่นมากและบ่อยครั้งที่เราได้รับ / ดูsmoothers บ้าซับซ้อน จากนั้นฉันขอแนะนำให้นักวิจัย จำกัด องศาอิสระ (จำนวนนอต) ของฟังก์ชั่นที่ราบรื่นและทดสอบโครงสร้างของแบบจำลองที่แตกต่างกัน (การโต้ตอบ / ไม่มีปฏิสัมพันธ์ ฯลฯ )

เกมสามารถพิจารณาได้ระหว่างวิธีการที่ใช้แบบจำลอง (แม้ว่าเส้นขอบจะคลุมเครือฉันจะรวม GLM ในกลุ่มนั้น) และวิธีการที่ใช้ข้อมูล (เช่นโครงข่ายประสาทเทียมหรือป่าสุ่มซึ่งถือว่าผลกระทบของตัวแปรที่ไม่ใช่เชิงเส้นอย่างเต็มที่) ตามฉันไม่เห็นด้วยกับ Hastie และ Tibshirani เพราะเกมยังต้องการงานนักสืบ (หวังว่าไม่มีใครฆ่าฉันเพราะพูดอย่างนั้น)

จากมุมมองของระบบนิเวศที่ผมจะแนะนำให้ใช้Rแพคเกจการหลอกลวงเพื่อหลีกเลี่ยงตัวแปรเหล่านี้ไม่น่าเชื่อถือsmoothers บ้าซับซ้อน ได้รับการพัฒนาโดย Natalya Pya และ Simon Wood และช่วยให้การ จำกัด โค้งเรียบไปยังรูปร่างที่ต้องการ (เช่น unimodal หรือ monotonic) แม้การโต้ตอบแบบสองทาง ฉันคิดว่า GLM เป็นทางเลือกรองหลังจาก จำกัด รูปร่างของฟังก์ชั่นที่ราบรื่น แต่นี่เป็นเพียงความเห็นส่วนตัวของฉัน

Pya, N. , Wood, SN, 2015. รูปร่างแบบจำลองสารเติมแต่ง จำกัด สถิติ คอมพิวเต 25 (3), 543–559 10.1007 / s11222-013-9448-7

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.