ทำไมข้อมูลที่เอียงจึงไม่เหมาะสำหรับการสร้างแบบจำลอง?


16

ส่วนใหญ่เวลาที่ผู้คนพูดถึงการเปลี่ยนแปลงของตัวแปร (สำหรับทั้งตัวทำนายและตัวแปรตอบกลับ) พวกเขาคุยกันถึงวิธีการรักษาความเบ้ของข้อมูล สิ่งที่ฉันไม่สามารถเข้าใจได้คือทำไมการลบความเบ้จึงถือเป็นวิธีปฏิบัติที่ดีที่สุด ความเบ้นั้นส่งผลกระทบต่อประสิทธิภาพการทำงานของแบบจำลองประเภทต่าง ๆ เช่นแบบจำลองที่ใช้แบบต้นไม้แบบเชิงเส้นและแบบที่ไม่ใช่เชิงเส้นได้อย่างไร แบบจำลองประเภทใดที่ได้รับผลกระทบมากขึ้นจากความเบ้และทำไม


2
เพื่อที่จะให้คำตอบที่สมเหตุสมผลโปรดชี้แจงสิ่งที่คุณหมายถึงโดย: a) ข้อมูลข) โมเดลและโมเดล c) คำถามที่สำคัญ - ตามปกติ - สิ่งที่คุณต้องการจะทำอย่างไรกับมัน แต่มันคืออะไร
เทวดา

ฉันอัพเดตคำตอบเพื่อเพิ่มการอ้างอิงที่เกี่ยวข้องและขยายการอ้างสิทธิ์
Tavrock

คำตอบ:


11

เมื่อลบความเบ้การแปลงกำลังพยายามทำให้ชุดข้อมูลเป็นไปตามการแจกแจงแบบเกาส์ เหตุผลก็คือว่าถ้าชุดข้อมูลสามารถแปลงเป็นสถิติใกล้พอที่จะเป็นชุดข้อมูล Gaussian แล้วชุดเครื่องมือที่ใหญ่ที่สุดที่เป็นไปได้มีให้พวกเขาใช้ การทดสอบเช่น ANOVA, -test, F -test และอื่น ๆ อีกมากมายขึ้นอยู่กับข้อมูลที่มีความแปรปรวนคงที่ ( σ 2 ) หรือตามการแจกแจงแบบเกาส์ 1tFσ2

มีแบบจำลองที่มีประสิทธิภาพมากกว่า1 (เช่นใช้การทดสอบ Levine แทนการทดสอบของ Bartlett) แต่การทดสอบและแบบจำลองส่วนใหญ่ที่ทำงานได้ดีกับการแจกแจงแบบอื่นนั้นคุณต้องรู้ว่าคุณมีการกระจายแบบใดจะทำงานร่วมกับและโดยทั่วไปจะมีเพียงที่เหมาะสมสำหรับการกระจายเดียว เช่นกัน

ในการอ้างอิงคู่มือสถิติทางวิศวกรรมของ NIST :

ในการสร้างแบบจำลองการถดถอยเรามักจะใช้การเปลี่ยนแปลงเพื่อให้บรรลุสองเป้าหมายต่อไปนี้:

  1. เพื่อตอบสนองความสม่ำเสมอของความแปรปรวนของข้อผิดพลาด
  2. เพื่อจัดแนวพอดีให้มากที่สุด

การดูแลและการตัดสินบางอย่างเป็นสิ่งจำเป็นสำหรับเป้าหมายทั้งสองนี้ที่อาจขัดแย้งกัน โดยทั่วไปเราพยายามที่จะทำให้เกิดความแปรปรวนแบบเอกพันธ์ก่อนจากนั้นจึงกล่าวถึงปัญหาของการพยายามทำให้พอดี

และในสถานที่อื่น

รูปแบบที่เกี่ยวข้องกับตัวแปรตอบสนองและตัวแปรอิสระเดียวมีรูปแบบ:

Yi=f(Xi)+Ei

โดยที่คือตัวแปรตอบสนองXคือตัวแปรอิสระfคือฟังก์ชันเชิงเส้นตรงหรือไม่ใช่เชิงเส้นและEคือองค์ประกอบสุ่ม สำหรับโมเดลที่ดีส่วนประกอบข้อผิดพลาดควรมีลักษณะดังนี้:YXfE

  1. ภาพวาดแบบสุ่ม (เช่นอิสระ);
  2. จากการกระจายคงที่
  3. พร้อมตำแหน่งคงที่ และ
  4. ด้วยรูปแบบคงที่

นอกจากนี้สำหรับรุ่นที่เหมาะสมมักจะสันนิษฐานว่าการกระจายตัวคงที่เป็นเรื่องปกติและตำแหน่งคงที่เป็นศูนย์ สำหรับแบบจำลองที่ดีการเปลี่ยนแปลงคงที่ควรมีขนาดเล็กที่สุดเท่าที่จะทำได้ ส่วนประกอบที่จำเป็นของแบบจำลองที่เหมาะสมคือการตรวจสอบสมมติฐานเหล่านี้สำหรับองค์ประกอบข้อผิดพลาดและเพื่อประเมินว่ารูปแบบสำหรับส่วนประกอบข้อผิดพลาดนั้นมีขนาดเล็กเพียงพอหรือไม่ ฮิสโทแกรม, พล็อตความล่าช้าและพล็อตความน่าจะเป็นปกติจะใช้ในการตรวจสอบการแจกแจงคงที่, สถานที่, และการเปลี่ยนแปลงสมมติฐานในองค์ประกอบข้อผิดพลาด พล็อตของตัวแปรตอบกลับและค่าที่ทำนายกับตัวแปรอิสระจะใช้ในการประเมินว่ารูปแบบมีขนาดเล็กเพียงพอหรือไม่ พล็อตของค่าคงที่เมื่อเทียบกับตัวแปรอิสระและค่าที่ทำนายถูกนำมาใช้ในการประเมินสมมติฐานความเป็นอิสระ

การประเมินความถูกต้องและคุณภาพของความพอดีในแง่ของสมมติฐานข้างต้นเป็นส่วนสำคัญอย่างยิ่งของกระบวนการปรับตัวแบบ ไม่ควรพิจารณาความเหมาะสมโดยสมบูรณ์โดยไม่มีขั้นตอนการตรวจสอบความถูกต้องของโมเดล


  1. (ตัวย่อ) การอ้างอิงสำหรับการอ้างสิทธิ์:
    • Breyfogle III, Forrest W. กำลังใช้ Six Sigma
    • Pyzdek, Thomas คู่มือ Six Sigma
    • Montgomery, Douglas C. ความรู้เบื้องต้นเกี่ยวกับการควบคุมคุณภาพเชิงสถิติ
    • เอ็ด Cubberly, Willaim H และ Bakerjan, Ramon คู่มือวิศวกรและเครื่องมือการผลิต: Desktop Edition

ขอบคุณสำหรับการตอบสนองของคุณ Tavrock แต่เท่าที่ฉันรู้ ANOVA หรือ t-test ของ F-test ไม่ได้ใช้ในต้นไม้การตัดสินใจ (อย่างน้อยก็เพื่อทำการแยก) นอกจากนี้ในการถดถอยเชิงเส้นส่วนใหญ่ของสมมติฐานเกี่ยวกับรูปร่างของการกระจายที่เกี่ยวข้องกับข้อผิดพลาด หากข้อผิดพลาดเบ้การทดสอบเหล่านี้จะล้มเหลว ดังนั้นนี่หมายความว่าความเบ้ของตัวแปรทำนายไม่ควรส่งผลกระทบต่อคุณภาพของการทำนายสำหรับโมเดลเหล่านี้ โปรดแก้ไขฉันหากฉันผิด ขอบคุณอีกครั้ง!!
saurav shekhar

1
คุณสามารถอธิบายคำถามของคุณได้หรือไม่ - คุณต้องการรู้เกี่ยวกับการเปลี่ยนตัวแปรการตอบสนองหรือเกี่ยวกับการเปลี่ยนตัวแปรตัวทำนายหรือทั้งสองอย่าง?
Groovy_Worm

1
@Groovy_Worm ขอบคุณสำหรับการชี้ว่า ในคำถามนี้ฉันกังวลเกี่ยวกับตัวทำนายและตัวแปรตอบสนอง
saurav shekhar

คุณอาจจะมองหาทั่วไปการสร้างแบบจำลองเชิงเส้น (GLM) ในการถดถอยเชิงเส้นคุณมักจะคิดว่าขึ้นอยู่กับตัวแปรของคุณเป็นไปตามเงื่อนไขการจัดจำหน่ายของเกาส์ในตัวแปรสุ่มXและอี ด้วย GLM คุณสามารถขยายจักรวาลของคุณเพื่ออนุญาต (เกือบ) การกระจายประเภทใด ๆ สำหรับตัวแปรตามของคุณตัวแปรอิสระของคุณ (ผ่านฟังก์ชั่นลิงก์ที่คุณระบุ)
Chris K

7

นี่เป็นเรื่องจริงสำหรับโมเดลพาราเมตริก ดังที่ Tavrock กล่าวว่าการมีตัวแปรตอบสนองที่ไม่เบ้ทำให้การประมาณแบบเกาส์ของการประมาณค่าพารามิเตอร์ทำงานได้ดีขึ้นเนื่องจากการกระจายแบบสมมาตรมาบรรจบกันเร็วกว่าแบบเกาส์ไปที่เกาส์ ซึ่งหมายความว่าหากคุณมีข้อมูลที่บิดเบือนการเปลี่ยนมันจะทำให้ชุดข้อมูลมีขนาดเล็กลงอย่างน้อยที่สุดสำหรับการใช้ช่วงความเชื่อมั่นที่เหมาะสมและการทดสอบพารามิเตอร์ (ช่วงเวลาการทำนายยังคงไม่ถูกต้องเพราะถึงแม้ว่าข้อมูลของคุณจะสมมาตร เป็นเรื่องปกติการประมาณค่าพารามิเตอร์เท่านั้นที่จะมาบรรจบกับ Gaussian)

คำพูดทั้งหมดนี้เกี่ยวกับการกระจายตัวแปรตอบสนองแบบมีเงื่อนไขคุณสามารถพูดได้ว่า: เกี่ยวกับข้อผิดพลาด อย่างไรก็ตามหากคุณมีตัวแปรที่ดูเบ้เมื่อคุณดูการแจกแจงแบบไม่มีเงื่อนไขของเขานั่นอาจหมายถึงว่ามันมีการแจกแจงแบบปรับเงื่อนไข การปรับโมเดลให้เหมาะสมกับข้อมูลของคุณจะช่วยให้คุณเข้าใจได้

ในต้นไม้การตัดสินใจฉันจะชี้ให้เห็นสิ่งหนึ่ง: ไม่มีจุดเปลี่ยนตัวแปรอธิบายที่เอียงฟังก์ชั่นแบบโมโนโทนิกจะไม่เปลี่ยนอะไร สิ่งนี้จะมีประโยชน์ในแบบจำลองเชิงเส้น แต่ไม่ได้อยู่บนต้นไม้ตัดสินใจ สิ่งนี้กล่าวว่าโมเดล CART ใช้การวิเคราะห์ความแปรปรวนเพื่อทำการแยกและความแปรปรวนนั้นสมเหตุสมผลต่อค่าผิดปกติและข้อมูลที่บิดเบือนนี่คือเหตุผลที่การเปลี่ยนตัวแปรตอบสนองของคุณนั้นสามารถปรับปรุงความแม่นยำของโมเดลได้อย่างมาก


1

ฉันเชื่อว่านี่เป็นสิ่งประดิษฐ์ของประเพณีที่จะกลับไปใช้ Gaussians เป็นอย่างมากเนื่องจากคุณสมบัติที่ดีของพวกเขา

แต่มีทางเลือกการกระจายที่ดีเช่นแกมม่าทั่วไปที่ครอบคลุมโฮสต์ที่มีรูปร่างและรูปแบบการแจกแจงแบบเบ้แตกต่างกัน


1

เช่นเดียวกับที่ผู้อ่านคนอื่น ๆ ได้กล่าวว่าพื้นหลังที่เพิ่มเติมเกี่ยวกับสิ่งที่คุณวางแผนที่จะบรรลุด้วยข้อมูลของคุณจะเป็นประโยชน์

ที่ถูกกล่าวว่ามีหลักคำสอนที่สำคัญสองประการในขอบเขตของสถิติที่รู้จักกันในชื่อทฤษฎีบทขีด จำกัด กลางและกฎจำนวนมาก กล่าวคือยิ่งมีการสังเกตมากเท่าไหร่ก็ยิ่งคาดว่าจะมีการแจกแจงชุดข้อมูลมากกว่าปกติมีค่าเฉลี่ยเท่ากับค่ามัธยฐานและโหมด ภายใต้กฎหมายของคนจำนวนมากคาดว่าค่าเบี่ยงเบนระหว่างที่คาดหวังและมูลค่าที่แท้จริงในที่สุดก็จะลดลงถึงศูนย์ที่ได้รับการสังเกตที่เพียงพอ

ดังนั้นการแจกแจงแบบปกติช่วยให้ผู้วิจัยทำการทำนายที่แม่นยำยิ่งขึ้นเกี่ยวกับประชากรหากทราบการกระจายที่อยู่ข้างใต้

ความเบ้คือเมื่อการแจกแจงเบี่ยงเบนไปจากสิ่งนี้นั่นคือการเบี่ยงเบนอาจเป็นบวกหรือเบ้ในทางลบ อย่างไรก็ตามทฤษฎีบทขีด จำกัด กลางระบุว่ามีการสังเกตจำนวนมากเพียงพอผลลัพธ์จะเป็นการกระจายตัวแบบปกติโดยประมาณ ดังนั้นหากการกระจายไม่ปกติขอแนะนำให้รวบรวมข้อมูลเพิ่มเติมก่อนเสมอก่อนที่จะพยายามเปลี่ยนโครงสร้างพื้นฐานของการกระจายผ่านขั้นตอนการแปลงที่คุณกล่าวถึง


1

ความเบ้เป็นสิ่งที่ไม่ดีเมื่อไหร่ การแจกแจงแบบสมมาตร (โดยทั่วไป แต่ไม่เสมอไป: เช่นไม่ใช่สำหรับการแจกแจงโคชี) มีค่ามัธยฐานโหมดและค่าเฉลี่ยใกล้กันมาก ดังนั้นให้พิจารณาถ้าเราต้องการวัดที่ตั้งของประชากรมันมีประโยชน์ที่จะมีค่ามัธยฐานโหมดและค่าเฉลี่ยใกล้กัน

ตัวอย่างเช่นหากเราหาลอการิทึมของการกระจายรายได้เราจะลดความเบ้ที่มากพอที่เราจะได้แบบจำลองที่มีประโยชน์ของที่ตั้งของรายได้ อย่างไรก็ตามเราจะมีหางขวาที่หนักกว่าที่เราต้องการจริงๆ เพื่อลดความว่าต่อไปเราอาจจะใช้การกระจาย Pareto การกระจาย Pareto คล้ายกับการเปลี่ยนแปลงบันทึกข้อมูล ตอนนี้การแจกแจงแบบพาเรโตและล็อก - ปกติมีความยากในระดับต่ำสุดของระดับรายได้ ตัวอย่างเช่นทั้งสองประสบLN0=-. การรักษาของปัญหานี้จะครอบคลุมในการแปลงพลังงาน

ตัวอย่างจากรายได้ 25 ดอลล่าร์สหรัฐที่คัดแยกมาจาก www

k$	lnk$
28  3.33220451
29  3.36729583
35  3.555348061
42  3.737669618
42  3.737669618
44  3.784189634
50  3.912023005
52  3.951243719
54  3.988984047
56  4.025351691
59  4.077537444
78  4.356708827
84  4.430816799
90  4.49980967
95  4.553876892
101 4.615120517
108 4.682131227
116 4.753590191
121 4.795790546
122 4.804021045
133 4.890349128
150 5.010635294
158 5.062595033
167 5.117993812
235 5.459585514

ความเบ้ของคอลัมน์แรกคือ 0.99 และคอลัมน์ที่สองคือ -0.05 คอลัมน์แรกไม่น่าจะเป็นเรื่องปกติ (Shapiro-Wilk p = 0.04) และคอลัมน์ที่สองไม่ได้เป็นเรื่องปกติ (p = 0.57)

First column    Mean 90.0 (95% CI, 68.6 to 111.3)     Median 84.0 (95.7% CI, 52.0 to 116.0)
Second col Exp(Mean) 76.7 (95% CI, 60.2 to 97.7) Exp(Median) 84.0 (95.7% CI, 52.0 to 116.0)

ดังนั้นคำถามคือถ้าคุณเป็นคนสุ่มที่มีรายได้อยู่ในรายการคุณมีแนวโน้มที่จะได้รับอะไร สรุปได้ไหมว่าคุณจะได้รับ 90k หรือมากกว่ามัธยฐานของ 84k หรือมีแนวโน้มที่จะสรุปว่าแม้ค่ามัธยฐานจะมีอคติเป็นตัวชี้วัดที่ตั้งและประสบการณ์[ค่าเฉลี่ยLN(k$)]  76.7 k ซึ่งน้อยกว่าค่ามัธยฐานก็มีความสมเหตุสมผลมากกว่าในการประมาณ?

เห็นได้ชัดว่าบันทึกปกติที่นี่เป็นแบบจำลองที่ดีกว่าและค่าลอการิทึมเฉลี่ยทำให้เราสามารถวัดตำแหน่งที่ตั้งได้ดีขึ้น ว่านี่เป็นที่รู้จักกันดีถ้าไม่เข้าใจทั้งหมดจะถูกแสดงโดยวลี "ฉันคาดหวังว่าจะได้รับเงินเดือน 5 รูป"


0

ผลลัพธ์ส่วนใหญ่อยู่บนสมมติฐานของเกาส์เซียน หากคุณมีการแจกแจงแบบเบ้คุณไม่มีการแจกแจงแบบเกาส์ดังนั้นบางทีคุณควรพยายามอย่างยิ่งที่จะเปลี่ยนเป็นแบบนั้น

แต่แน่นอนคุณสามารถลองกับ GLM


0

ฉันคิดว่ามันไม่ใช่แค่การสร้างแบบจำลอง แต่สมองของเราไม่ได้ใช้กับข้อมูลที่บิดเบือนสูง ตัวอย่างเช่นเป็นที่รู้จักกันดีในด้านพฤติกรรมการเงินซึ่งเราไม่สามารถประเมินความน่าจะเป็นที่ต่ำหรือสูงได้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.