ฉันสามารถละเว้นค่าสัมประสิทธิ์สำหรับปัจจัยที่ไม่มีนัยสำคัญในแบบจำลองเชิงเส้นได้หรือไม่?


15

หลังจากหาความกระจ่างเกี่ยวกับสัมประสิทธิ์โมเดลเชิงเส้นตรงนี้ฉันมีคำถามติดตามเกี่ยวกับค่าที่ไม่ลงนาม (ค่า p สูง) สำหรับค่าสัมประสิทธิ์ระดับปัจจัย

ตัวอย่าง: หากโมเดลเชิงเส้นของฉันมีปัจจัยที่มี 10 ระดับและมีเพียง 3 ของระดับเหล่านั้นที่มีค่า p สำคัญที่เกี่ยวข้องกับพวกเขาเมื่อใช้แบบจำลองในการทำนาย Y ฉันสามารถเลือกที่จะไม่รวมคำว่าสัมประสิทธิ์ได้ ระดับที่ไม่มีนัยสำคัญ?

ยิ่งไปกว่านั้นมันจะผิดหรือไม่ที่จะปั้นก้อนหิน 7 ระดับที่ไม่สำคัญออกเป็นระดับเดียวและวิเคราะห์อีกครั้ง?


2
คุณอาจได้รับการอนุมานแบบเอนเอียงโดยทำอย่างนั้น - ตัวอย่างเช่นหากคุณกำหนดช่วงเวลาการทำนายความน่าจะเป็นของการครอบคลุมอาจจะผิดสำหรับแต่ละบุคคลใน 7 ระดับที่ไม่มีนัยสำคัญ
มาโคร

1
คุณได้รับคำตอบที่ดีมาแล้วที่นี่ แต่คุณอาจสนใจว่าทำไมจึงไม่เหมาะสมที่จะลดปัจจัยที่มีค่า p สูง เป็นมูลค่าที่ชี้ให้เห็นว่าสิ่งนี้มีเหตุผลเทียบเท่ากับกระบวนการเลือกรูปแบบอัตโนมัติแม้ว่าคุณจะทำเองแทนที่จะเป็นคอมพิวเตอร์ที่ทำเพื่อคุณ การอ่านคำถามนี้ & คำตอบที่เสนอสามารถช่วย w / ทำความเข้าใจว่าทำไมสิ่งเหล่านี้เป็นจริง
gung - Reinstate Monica

1
Q นี้มีแน่นอนซ้ำตั้งแต่เดือนพฤศจิกายน 2012: stats.stackexchange.com/questions/18745/... มีข้อมูลที่กระตุ้นความคิดเช่นกัน
rolando2

2
นี่เป็นคำถามที่สำคัญมาก แต่ก็ไม่มีคำตอบที่สนับสนุนการโต้แย้งด้วยทฤษฎี มันเป็นเพียงความคิดเห็น ไม่ใช่แม้แต่หนังสือที่เชื่อมโยงกับหนึ่งในคำตอบ (ซึ่งข้อสรุปที่แตกต่างจากคำตอบอื่น ๆ ) ให้การอ้างอิง เนื่องจากสิ่งนี้หมายถึงฉันไม่เชื่อถือสิ่งใดเลยและจะไม่ทำอะไรเลย (เช่นเก็บหมวดหมู่ / ปัจจัยทั้งหมดไว้)
luchonacho

คำตอบ:


13

หากคุณใส่ตัวแปรทำนายที่มีหลายระดับคุณอาจใส่ตัวแปรหรือไม่เลือกคุณจะไม่สามารถเลือกและเลือกระดับได้ คุณอาจต้องการปรับโครงสร้างระดับของตัวแปรทำนายของคุณเพื่อลดจำนวนระดับ (หากเหมาะสมในบริบทของการวิเคราะห์ของคุณ) อย่างไรก็ตามฉันไม่แน่ใจว่าสิ่งนี้จะทำให้เกิดการตรวจสอบทางสถิติบางประเภทหากคุณ ระดับการยุบเนื่องจากคุณเห็นว่าไม่สำคัญ

นอกจากนี้เพียงบันทึกย่อคุณบอกว่าค่าเล็กน้อยนั้นไม่มีนัยสำคัญ ฉันคิดว่าคุณหมายถึงขนาดเล็กที่มีความสำคัญเช่น:ของ. 0001 มีความสำคัญและดังนั้นคุณจึงปฏิเสธ null (สมมติว่า level ?) พีพีพีα>0001


(แก้ไขค่าตัวพิมพ์ผิดของฉัน) จุดดีที่นี่ ดังนั้นระดับการยุบหากมันขึ้นอยู่กับโลกแห่งความเป็นจริงและเหตุผลเชิงตรรกะที่สมเหตุสมผลในบริบทของการศึกษา (ที่อาจเกิดขึ้นเพื่อแยกพวกเขาออกไปตามการหยุดพักอย่างมีนัยสำคัญ) มีเหตุผล แต่ไม่เพียง . เข้าใจแล้ว
Trees4theForest

15

@ Ellie ตอบสนองได้ดี

หากคุณกำลังใส่ตัวแปรหลายระดับคุณจะต้องเก็บรักษาระดับเหล่านั้นไว้ในการวิเคราะห์ของคุณ การเลือกและเลือกตามระดับนัยสำคัญจะทำให้คุณมีอคติกับผลลัพธ์และทำสิ่งแปลก ๆ ให้กับการอนุมานของคุณแม้ว่าปาฏิหาริย์บางอย่างที่คุณคาดการณ์ไว้จะยังคงเหมือนเดิมเพราะคุณจะมีช่องโหว่ในผลกระทบโดยประมาณในระดับต่างๆ ตัวแปร.

ฉันจะพิจารณาการประมาณการของคุณสำหรับตัวทำนายแต่ละระดับแบบกราฟิก คุณเห็นแนวโน้มในขณะที่คุณขึ้นไปสู่ระดับหรือว่าเอาแน่เอานอนไม่ได้?

โดยทั่วไปฉันยังไม่เห็นด้วยกับการคำนวณตัวแปรตามการทดสอบทางสถิติหรืออิงตามช่วงเวลาทางสถิติ หน่วยงานในตัวแปรของคุณควรขึ้นอยู่กับ บริษัท ที่มีความมั่นคงมากขึ้น - จุดตัดที่มีความหมายตามหลักเหตุผล, ความสนใจของฟิลด์ในจุดเปลี่ยนเฉพาะเป็นต้น


8

ขยายคำตอบที่ดีสองข้อที่คุณได้รับไปแล้วลองมาดูสิ่งนี้กัน สมมติว่าตัวแปรตามของคุณคือ (พูด) รายได้และตัวแปรอิสระของคุณคือ (พูด) เชื้อชาติที่มีระดับตามคำจำกัดความของการสำรวจสำมะโนประชากร (สีขาวดำ / Afr.Am, Am. อินเดีย / อะแลสกาพื้นเมือง, เอเชีย, พื้นเมืองฮาวาย / Pac Islander, อื่น ๆ และหลายเชื้อชาติ) สมมติว่าคุณจำลองรหัสโดยใช้ White เป็นหมวดหมู่อ้างอิงและคุณจะได้รับ

ผมnโอม.อี=0+1BAA+2AผมAยังไม่มีข้อความ+3AS+4ยังไม่มีข้อความHPผม+5O+6MR

หากคุณกำลังศึกษาอยู่ในนิวยอร์กซิตี้คุณอาจจะได้พบกับชาวฮาวายพื้นเมืองหรือชาวเกาะแปซิฟิกน้อยมาก คุณอาจตัดสินใจรวมพวกเขา (ถ้ามี) กับคนอื่น ๆ อย่างไรก็ตามคุณไม่สามารถใช้สมการแบบเต็มและไม่รวมสัมประสิทธิ์นั้น จากนั้นการสกัดกั้นจะผิดและค่าคาดการณ์รายได้จะเป็นเช่นไร

แต่คุณจะรวมหมวดหมู่ได้อย่างไร

ขณะที่คนอื่น ๆ กล่าวว่ามันมีที่จะทำให้ความรู้สึก


4

หากต้องการแสดงความเห็นที่แตกต่าง: ทำไมไม่รวมเป็นแบบสุ่ม? ที่ควรลงโทษระดับเหล่านั้นด้วยการสนับสนุนที่อ่อนแอและทำให้แน่ใจว่าขนาดเอฟเฟกต์ของพวกเขานั้นน้อยที่สุด ด้วยวิธีนี้คุณสามารถทำให้พวกเขาทั้งหมดโดยไม่ต้องกังวลเกี่ยวกับการทำนายที่โง่เขลา

และใช่นี่เป็นแรงบันดาลใจจากมุมมองแบบเบย์ของเอฟเฟกต์แบบสุ่มมากกว่ามุมมอง "ตัวอย่างของระดับที่เป็นไปได้ทั้งหมด" ของเอฟเฟกต์แบบสุ่ม


0

ฉันยังสงสัยว่าฉันสามารถรวมหมวดหมู่ที่ไม่สำคัญกับหมวดหมู่อ้างอิงได้หรือไม่ ข้อความต่อไปนี้ในหนังสือ "Data Mining for Business Intelligence: แนวคิดเทคนิคและแอปพลิเคชันใน Microsoft Office Excel®พร้อมXLMiner®รุ่นที่ 2 โดย Galit Shmueli, Nitin R. Patel, Peter C. Bruce", p87-89 (ขนาด) ส่วนลด) ( ผลการค้นหาของ Google ) ดูเหมือนจะสนับสนุนประโยคที่สองของการตอบสนองของ @ Ellie:

  • "โมเดลการถดถอยที่ประกอบเข้าด้วยกันสามารถใช้เพื่อรวมหมวดหมู่ที่คล้ายกันต่อไป: หมวดหมู่ที่มีค่าสัมประสิทธิ์ที่ไม่มีนัยสำคัญทางสถิติ (เช่นมีค่า p-value สูง) สามารถใช้ร่วมกับหมวดหมู่อ้างอิงได้เนื่องจากความแตกต่างจากหมวดอ้างอิงปรากฏว่าไม่มี ผลกระทบสำคัญกับตัวแปรเอาต์พุต "
  • "หมวดหมู่ที่มีค่าสัมประสิทธิ์ใกล้เคียงกัน (และเครื่องหมายเดียวกัน) มักจะสามารถรวมกันได้เพราะผลกระทบต่อตัวแปรเอาต์พุตคล้ายกัน"

อย่างไรก็ตามฉันวางแผนที่จะตรวจสอบกับผู้เชี่ยวชาญในสาขาวิชาว่าการรวมหมวดหมู่เข้ากันอย่างสมเหตุสมผลหรือไม่


คำตอบนี้ขัดแย้งกับคำตอบอื่น ๆ ที่นี่
kjetil b halvorsen
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.