ทำไมการแยกความแตกต่างระหว่างการ "เชิงเส้น" และ "การไม่เชิงเส้น" จึงเป็นสิ่งสำคัญ


12

อะไรคือความสำคัญของความแตกต่างระหว่างตัวแบบเชิงเส้นและแบบไม่ใช่เชิงเส้น? คำถามแบบไม่เชิงเส้นเทียบกับโมเดลเชิงเส้นทั่วไป: คุณจะอ้างถึงการถดถอยโลจิสติกปัวซอง ฯลฯ อย่างไร และคำตอบคือการให้คำอธิบายที่เป็นประโยชน์อย่างมากเกี่ยวกับความเป็นเชิงเส้น / ไม่เชิงเส้นของแบบจำลองเชิงเส้นทั่วไป ดูเหมือนว่าสำคัญอย่างยิ่งที่จะแยกแยะเชิงเส้นจากตัวแบบที่ไม่ใช่เชิงเส้น แต่ทำไมฉันถึงไม่ชัดเจน ตัวอย่างเช่นพิจารณาโมเดลการถดถอยเหล่านี้:

(1)E[YX]=β0+β1X(2)E[YX]=β0+β1X+β2X2(3)E[YX]=β0+β12X(4)E[YX]={1+exp([β0+β1X]}1

ทั้งรุ่น 1 และ 2 เป็นแบบเส้นตรงและโซลูชันสำหรับอยู่ในรูปแบบปิดพบได้ง่ายโดยใช้เครื่องมือประมาณค่ามาตรฐาน OLS ไม่ได้ดังนั้นสำหรับรุ่นที่ 3 และ 4 ซึ่งเป็นเพราะการไม่เชิงเส้น (บางแห่ง) สัญญาซื้อขายล่วงหน้าของE [ Y | X ] WRT βยังคงมีฟังก์ชั่นของββE[YX]ββ

หนึ่งวิธีง่ายๆในการประเมินในรุ่น 3 คือการ linearize รูปแบบโดยการตั้งค่าγ = β 2 1ประมาณการγโดยใช้แบบจำลองเชิงเส้นและจากนั้นคำนวณβ 1 = β1γ=β12γγβ1=γ

Y

แต่ทำไมการไม่เป็นเชิงเส้นจึงเป็นปัญหาตั้งแต่แรก? ทำไมไม่มีใครสามารถใช้อัลกอริธึมวนซ้ำบางอย่างเพื่อแก้ปัญหาโมเดล 3 โดยไม่ต้องปรับให้เป็นเชิงเส้นโดยใช้ฟังก์ชันรากที่สองหรือรุ่น 4 โดยไม่เรียกใช้ GLM ฉันสงสัยว่าก่อนที่จะมีพลังการคำนวณอย่างกว้างขวางนักสถิติพยายามที่จะทำให้ทุกอย่างเป็นเส้นตรง ถ้าเป็นจริงถ้าอย่างนั้นบางที "ปัญหา" ที่ได้รับการแนะนำให้รู้จักโดยความไม่เชิงเส้นเป็นอดีตที่ยังเหลืออยู่? ภาวะแทรกซ้อนที่เกิดจากแบบจำลองเชิงเส้นไม่ใช่เชิงคำนวณเพียงอย่างเดียวหรือมีประเด็นทางทฤษฎีอื่น ๆ ที่ทำให้แบบจำลองที่ไม่ใช่เชิงเส้นมีความท้าทายมากขึ้นเพื่อให้พอดีกับข้อมูลมากกว่าแบบจำลองเชิงเส้น


1
E[Y|X]=β0+β12XE[Y|X]=β0+γXβ1=γ

@Tim ขอบคุณสำหรับความคิดเห็น ฉันรู้ว่าการเปลี่ยนแปลงนี้เป็นไปได้ แต่พยายามถามคำถามที่แตกต่างออกไป ฉันได้แก้ไขคำถามอย่างมากหวังว่าจะดีขึ้น
user1849779

คำตอบ:


5

ฉันเห็นความแตกต่างหลักสองประการ:

  • เป็นเส้นตรงทำให้ง่ายและแข็งแกร่ง ตัวอย่างเช่น (เชิงเส้น) OLS เป็นเครื่องมือประมาณค่าที่เป็นกลางภายใต้การแจกแจงการรบกวนที่ไม่รู้จัก โดยทั่วไปแล้ว GLM และโมเดลที่ไม่ใช่เชิงเส้นไม่ใช่ OLS ยังมีประสิทธิภาพสำหรับโมเดลโครงสร้างข้อผิดพลาดต่างๆ (เอฟเฟกต์แบบสุ่มการจัดกลุ่ม ฯลฯ ) ซึ่งโดยทั่วไปแล้วในโมเดลที่ไม่ใช่เชิงเส้นคุณจะต้องถือว่าการกระจายของคำเหล่านี้ถูกต้อง

  • การแก้มันง่าย: เพียงแค่คูณเมทริกซ์สองตัว + 1 ค่าผกผัน ซึ่งหมายความว่าคุณสามารถแก้ไขได้ตลอดเวลาแม้ในกรณีที่ฟังก์ชันวัตถุประสงค์เกือบจะราบเรียบ (ความหลากหลายทางหลายทาง) วิธีการวนซ้ำอาจไม่มาบรรจบกันในกรณีที่มีปัญหาเช่นนั้น (ซึ่งในแง่หนึ่งเป็นสิ่งที่ดี) ไม่น้อยกว่าปัญหาในปัจจุบัน คอมพิวเตอร์เริ่มเร็วขึ้น แต่ข้อมูลจะใหญ่ขึ้น เคยลองใช้ logit regression จากการสังเกต 1G หรือไม่

นอกจากนั้นโมเดลเชิงเส้นยังง่ายต่อการตีความ ในโมเดลเชิงเส้นผลกระทบส่วนเพิ่มเท่ากับค่าสัมประสิทธิ์และเป็นอิสระจากค่า X (แม้ว่าคำพหุนามจะทำให้ความเรียบง่ายนี้ขึ้น)


ฉันความแตกต่างเป็นส่วนใหญ่อย่างใดอย่างหนึ่งของความสะดวกสบายหรือการใช้งานในอดีต
Martha

2

แบบจำลองทางชีววิทยาจำนวนมาก (และสาขาอื่น ๆ ) นั้นเป็นแบบไม่เชิงเส้นดังนั้นเหมาะสมที่สุดกับการถดถอยแบบไม่เชิงเส้น แน่นอนว่าคณิตศาสตร์นั้นแตกต่างกันมาก แต่จากมุมมองของนักวิเคราะห์ข้อมูลมีความแตกต่างที่สำคัญเพียงอย่างเดียวจริงๆ

การถดถอยแบบไม่เชิงเส้นต้องการค่าเริ่มต้นโดยประมาณสำหรับแต่ละพารามิเตอร์ หากการประมาณค่าเริ่มต้นเหล่านี้หมดไปโปรแกรมการถดถอยแบบไม่เชิงเส้นสามารถรวมตัวกันในระดับต่ำสุดที่ผิด ๆ และให้ผลลัพธ์ที่ไร้ประโยชน์หรือทำให้เข้าใจผิด


2
นี่เป็นส่วนหนึ่งของคำตอบอย่างแน่นอน แต่ด้วยการยืนยันถึงความแตกต่างเพียงอย่างเดียวคือสิ่งที่มีความเป็นเทคนิคเล็กน้อยคุณอาจลดปัญหาของโมเดลที่ไม่ใช่เชิงเส้นมากเกินไป ตัวอย่างเช่นบางอย่างที่เรียบง่ายที่เกิดขึ้นในชีววิทยาสามารถมี minima ท้องถิ่นที่แตกต่างกันอย่างมากซึ่งทั้งหมดอยู่ใกล้กับ minima ทั่วโลก ปัญหาเชิงคุณภาพขั้นพื้นฐานนี้ไม่ได้รับการแก้ไขโดยการใช้กำลังประมวลผลที่ดีขึ้นหรือเทคนิคการปรับให้เหมาะสมที่ดีกว่า: ธรรมชาติของโมเดลที่ไม่ใช่เชิงเส้นจำนวนมากนั้นแตกต่างจากโมเดลเชิงเส้นที่พวกเขาต้องการความคิดที่ลึกซึ้งเกี่ยวกับความหมายและการตีความ
whuber

1

ประการแรกฉันจะแทนที่คำว่า 'แบบจำลอง' สำหรับคำว่า 'การถดถอย' ฉันคิดว่าสำหรับคำทั้งสองคำหนึ่งถามจริง ๆ ว่าสมการที่เกี่ยวข้องซึ่งกำหนดรูปแบบคืออะไรและมีสมมติฐานที่เกี่ยวข้องเกี่ยวกับค่าของตัวแปรตามและค่าที่ทำนายโดยสมการ / แบบจำลอง ฉันคิดว่าคำว่า 'รุ่น' นั้นมีมาตรฐานมากกว่า หากคุณเห็นด้วยกับที่อ่านต่อ

ϕ1,,ϕnϕ1,,ϕnϕi=xiϵi=yiaijxjคือเกาส์เซียน Imho ฉันคิดว่าวิกิพีเดียมีคำอธิบายที่สมเหตุสมผลมากสำหรับโมเดลเชิงเส้นทั่วไป ฉันคิดว่านี่เป็นประโยคสำคัญ - "GLM สรุปการถดถอยเชิงเส้นโดยอนุญาตให้ตัวแบบเชิงเส้นสัมพันธ์กับตัวแปรตอบสนองผ่านฟังก์ชั่นลิงก์และอนุญาตให้ขนาดของความแปรปรวนของการวัดแต่ละครั้งเป็นฟังก์ชันของค่าที่ทำนายไว้ " ดังนั้น glm ช่วยให้เกิดข้อผิดพลาดทั่วไปมากขึ้น ทำให้มีความยืดหยุ่นในการสร้างแบบจำลองมากขึ้น ราคา ? การคำนวณแบบจำลองที่ถูกต้องนั้นยากกว่า ไม่มีใครอีกแล้วที่มีวิธีการง่ายๆในการคำนวณค่าสัมประสิทธิ์ สัมประสิทธิ์ของการถดถอยเชิงเส้นสามารถพบได้โดยการลดฟังก์ชั่นสมการกำลังสองซึ่งมี mimimum ที่ไม่ซ้ำกัน ในคำพูดของ Borat สำหรับ glm ไม่มาก เราต้องคำนวณ mle


1
แบบจำลองที่ไม่เชิงเส้นสามารถสันนิษฐานได้ว่าส่วนที่เหลือถูกสุ่มตัวอย่างจากการแจกแจงแบบเกาส์เซียน ตัวอย่างง่ายๆคือกิจกรรมของเอนไซม์ (Y) เป็นฟังก์ชั่นของความเข้มข้นของสารตั้งต้น (X) Y = Vmax * X / (Km + X) มันเป็นเรื่องธรรมดาและมีเหตุผลที่จะคิดว่าส่วนที่เหลือเป็น Gaussian แต่นี่เป็นสมการไม่เชิงเส้นที่เหมาะสมกับการถดถอยแบบไม่เชิงเส้น
Harvey Motulsky

2
โมเดลที่ไม่ใช่เชิงเส้นประกอบด้วยมากกว่า GLMs GLMs เป็นที่นิยมเพราะมันเกือบเป็นเส้นตรงในพารามิเตอร์: ความไม่เชิงเส้นทั้งหมดจะถูก จำกัด อยู่ที่ฟังก์ชันของตัวแปรเดียวคือลิงก์ สิ่งนี้ช่วยให้โซลูชั่นที่มีประสิทธิภาพและเชื่อถือได้ โมเดลที่ไม่ใช่เชิงเส้นอื่น ๆ นั้นสามารถถอดออกได้ง่ายกว่ามาก แนวคิดเชิงเส้นตรงส่วนใหญ่แยกจากธรรมชาติของส่วนที่เหลือแม้ว่าในบางกรณีมันจะเป็นประโยชน์ในการแยกความแตกต่างของสารตกค้างเพิ่มเติมจากรูปแบบอื่น ๆ ของการเปลี่ยนแปลง
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.