โมเดลผสมเชิงเส้นทั่วไป: การเลือกรูปแบบ


10

คำถาม / หัวข้อนี้เกิดขึ้นในการสนทนากับเพื่อนร่วมงานและฉันกำลังมองหาความคิดเห็นเกี่ยวกับเรื่องนี้:

ฉันกำลังสร้างแบบจำลองข้อมูลบางอย่างโดยใช้การถดถอยโลจิสติกเอฟเฟกต์แบบสุ่มแม่นยำกว่าการถดถอยโลจิสติกแบบตัดขวางที่แม่นยำ สำหรับผลกระทบคงที่ฉันมี 9 ตัวแปรที่น่าสนใจและเข้ามาพิจารณา ฉันต้องการเลือกรูปแบบบางอย่างเพื่อค้นหาตัวแปรที่มีความสำคัญและให้รูปแบบ "ดีที่สุด" (เอฟเฟกต์หลักเท่านั้น)

ความคิดแรกของฉันคือการใช้ AIC เพื่อเปรียบเทียบแบบจำลองที่แตกต่างกัน แต่ด้วย 9 ตัวแปรฉันไม่ตื่นเต้นเกินไปที่จะเปรียบเทียบ 2 ^ 9 = 512 รุ่นที่แตกต่างกัน (คำหลัก: การขุดลอกข้อมูล)

ฉันพูดคุยเรื่องนี้กับเพื่อนร่วมงานและเขาบอกฉันว่าเขาจำได้ว่าอ่านเกี่ยวกับการใช้การเลือกแบบจำลองแบบขั้นตอน (หรือไปข้างหน้า) กับ GLMM แต่แทนที่จะใช้ p-value (เช่นจากการทดสอบอัตราส่วนความน่าจะเป็นสำหรับ GLMM) เราควรใช้ AIC เป็นเกณฑ์ในการเข้า / ออก

ฉันพบความคิดนี้ที่น่าสนใจมาก แต่ฉันไม่พบการอ้างอิงใด ๆ ที่กล่าวถึงเรื่องนี้เพิ่มเติมและเพื่อนร่วมงานของฉันจำไม่ได้ว่าเขาอ่านที่ไหน หนังสือหลายเล่มแนะนำให้ใช้ AIC เพื่อเปรียบเทียบแบบจำลอง แต่ฉันไม่พบการสนทนาใด ๆ เกี่ยวกับการใช้สิ่งนี้พร้อมกับขั้นตอนการเลือกรุ่นแบบขั้นตอนหรือแบบส่งต่อ

ดังนั้นฉันมีสองคำถามโดยทั่วไป:

  1. มีอะไรผิดปกติหรือไม่หากใช้ AIC ในขั้นตอนการเลือกรุ่นตามขั้นตอนเป็นเกณฑ์เข้า / ออก? ถ้าใช่สิ่งที่จะเป็นทางเลือก?

  2. คุณมีการอ้างอิงบางส่วนที่กล่าวถึงขั้นตอนข้างต้นนั้น (เช่นเดียวกับการอ้างอิงสำหรับรายงานขั้นสุดท้ายหรือไม่?

ที่ดีที่สุด

เอมิเลีย


3
การเลือกแบบจำลองแบบขั้นตอนเป็นการขุดลอกข้อมูลได้มากเท่ากับการเลือกชุดย่อยแบบเต็ม (จริงๆแล้วมันพยายามค้นหาวิธีแก้ปัญหาแบบเดียวกันโดยประมาณในเวลาที่น้อยลง) การเลือกตาม AIC ก็คือการขุดข้อมูลด้วยเช่นกัน
Michael M

คำตอบ:


8

การเลือกแบบขั้นตอนผิดในโมเดลหลายระดับด้วยเหตุผลเดียวกันกับการถดถอยแบบ "ปกติ": ค่า p จะต่ำเกินไป, ข้อผิดพลาดมาตรฐานขนาดเล็กเกินไป, พารามิเตอร์ประมาณลำเอียงอยู่ห่างจาก 0 เป็นต้นสิ่งสำคัญที่สุดคือปฏิเสธคุณ โอกาสที่จะคิด

9 IVs มีไม่มากนัก ทำไมคุณถึงเลือกพวก 9 แน่นอนคุณมีเหตุผล

สิ่งแรกที่ต้องทำคือดูที่แปลงจำนวนมาก ข้อมูลที่แม่นยำนั้นขึ้นอยู่กับว่าข้อมูลของคุณนั้นยาวหรือไม่ (ในกรณีที่พล็อตที่มีเวลาบนแกน x มักเป็นประโยชน์) หรือเป็นกลุ่ม แต่แน่นอนดูความสัมพันธ์ระหว่าง 9 IV และ DV ของคุณ (แปลงกล่องคู่ขนานเป็นไปได้ง่าย ๆ อย่างเดียว)

อุดมคติคือการสร้างแบบจำลองไม่กี่แบบตามความหมายที่แท้จริงและเปรียบเทียบกับ AIC, BIC หรือการวัดอื่น ๆ แต่อย่าแปลกใจถ้าไม่มีรุ่นใดที่ออกมาดีที่สุด คุณไม่ได้พูดว่าคุณทำงานในสาขาใด แต่ในสาขา (ส่วนใหญ่) นั้นธรรมชาติมีความซับซ้อน แบบจำลองหลายแบบอาจมีขนาดพอดีกันและแบบจำลองที่แตกต่างกันอาจพอดีกับชุดข้อมูลที่แตกต่างกันได้ดีกว่า (แม้ว่าทั้งคู่จะเป็นกลุ่มตัวอย่างแบบสุ่มจากประชากรเดียวกัน)

สำหรับการอ้างอิง - มีหนังสือที่ดีมากมายในโมเดลผสมแบบไม่เชิงเส้น ตัวเลือกใดดีที่สุดสำหรับคุณขึ้นอยู่กับก) ฟิลด์ใดที่คุณอยู่ในข) ลักษณะของข้อมูลคืออะไรค) ซอฟต์แวร์ที่คุณใช้

ตอบสนองต่อความคิดเห็นของคุณ

  1. หากตัวแปรทั้ง 9 มีความสำคัญทางวิทยาศาสตร์อย่างน้อยฉันก็จะพิจารณารวมทั้งหมด หากตัวแปรที่ทุกคนคิดว่าเป็นลมสำคัญที่มีเอฟเฟกต์เล็กน้อยนั่นน่าสนใจ

  2. พล็อตตัวแปรทั้งหมดของคุณอย่างแน่นอนในช่วงเวลาและในรูปแบบต่างๆ

  3. สำหรับปัญหาทั่วไปเกี่ยวกับโมเดลหลายระดับตามยาวฉันชอบHedeker และ Gibbons ; สำหรับรุ่นที่ยาวไม่เชิงเส้นใน SAS ฉันเหมือนMolenberghs และ Verbeke เอกสาร SAS เอง (สำหรับPROC GLIMMIX) ยังให้คำแนะนำ


ในการศึกษานี้ผู้เข้าร่วมการวิจัยได้สัมผัสกับยาและการออกกำลังกายที่แตกต่างกันเมื่อเวลาผ่านไปและผลลัพธ์ที่น่าสนใจคือการมีสภาพทางเดินหายใจบางอย่าง (ใช่ / ไม่ใช่) ผู้ป่วยจะถูกวัดซ้ำ ๆ ทุก 2 สัปดาห์ในช่วง 6 เดือน ในแง่ของซอฟต์แวร์ฉันใช้ SAS และ R. 9 IV ที่ผู้ตรวจสอบเลือกเนื่องจากมีความสำคัญทางวิทยาศาสตร์
Emilia

การตรวจสอบข้อมูลนั้นไม่ดีหากไม่เลวร้ายไปกว่าการเลือกใช้แบบจำลองอัลกอริธึม เหตุผลก็คือการเลือกรูปแบบอัลกอริทึมเป็นที่เข้าใจกันดีและสามารถปรับเปลี่ยนได้ การดูข้อมูลและใช้วิจารณญาณส่วนตัวเป็นกระบวนการที่ไม่สามารถทำซ้ำหรือปรับเปลี่ยนได้ ไม่ว่าในกรณีใดฉันจะหลีกเลี่ยงการเลือกรุ่นเนื่องจากการเลือกรุ่นทำให้การอนุมานไม่ถูกต้อง เนื่องจากที่นี่มีผู้ร่วมเพาะพันธุ์เพียง 9 คนฉันคิดว่าคำแนะนำที่ดีที่สุดคือการทำงานกับแบบจำลองเต็มรูปแบบหรือแบบจำลองที่เลือกจากสารเดี่ยว
user3903581

3

การเลือกรุ่นสามารถทำได้ดีกว่าโดยใช้วิธีการหดตัวเช่น LASSO วิธีการแบบขั้นตอนเป็นอิสระมากเกินไป ข้ออ้างสามารถพบได้ในหน้าเว็บของ Tibshirani หากคุณใช้ R จะมีแพ็คเกจที่เรียกว่าglmmLassoอนุญาตให้เลือกแบบจำลองในลักษณะเอฟเฟกต์การผสมเชิงเส้นทั่วไปโดยใช้วิธีการลดขนาด LASSO


1

การอ้างอิงที่ดีสำหรับการเลือกแบบผสม AIC ใน R (ดีสำหรับหุ่น) คือ Zuur_2009_Mixed_Effect_Models_and_Extensions_in_Ecology_with_R

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.