การขาดอันดับในบริบทนี้บอกว่ามีข้อมูลไม่เพียงพอในข้อมูลของคุณเพื่อประเมินโมเดลที่คุณต้องการ มันเกิดจากต้นกำเนิดมากมาย ฉันจะพูดถึงที่นี่เกี่ยวกับการสร้างแบบจำลองในบริบทที่ค่อนข้างเป็นธรรมมากกว่าการถดถอยโลจิสติกอย่างชัดเจน แต่ทุกอย่างยังคงใช้กับบริบทที่เฉพาะเจาะจง
การขาดอาจเกิดจากข้อมูลที่น้อยเกินไป โดยทั่วไปคุณไม่สามารถประมาณค่าพารามิเตอร์ n ที่มีจุดข้อมูลน้อยกว่าไม่ซ้ำกันได้ นั่นไม่ได้หมายความว่าสิ่งที่คุณต้องการคือ n จุดราวกับว่ามีสัญญาณรบกวนใด ๆ ในกระบวนการคุณจะได้รับผลลัพธ์ที่ไม่ดี คุณต้องการข้อมูลเพิ่มเติมเพื่อช่วยให้อัลกอริทึมในการเลือกโซลูชันที่จะแสดงข้อมูลทั้งหมดในกรณีที่เกิดข้อผิดพลาดน้อยที่สุด นี่คือเหตุผลที่เราใช้เครื่องมือกำลังสองน้อยที่สุด คุณต้องการข้อมูลมากแค่ไหน? ฉันถูกถามเสมอว่าคำถามในชีวิตที่ผ่านมาและคำตอบคือมากกว่าที่คุณมีหรือเท่าที่คุณจะได้รับ :)
บางครั้งคุณอาจมีข้อมูลมากกว่าที่คุณต้องการ แต่บางจุด (มากเกินไป) มีการทำซ้ำ การจำลองแบบเป็นสิ่งที่ดีในแง่ที่ช่วยลดเสียงรบกวน แต่มันไม่ได้ช่วยเพิ่มอันดับของตัวเลข ดังนั้นสมมติว่าคุณมีจุดข้อมูลเพียงสองจุด คุณไม่สามารถประเมินโมเดลสมการกำลังสองที่ไม่ซ้ำกันผ่านจุดต่างๆ ซ้ำล้านจุดในแต่ละจุดจะยังไม่อนุญาตให้คุณพอดีมากกว่าเส้นตรงผ่านสิ่งที่ยังคงมีประสิทธิภาพเพียงคู่คะแนน โดยพื้นฐานแล้วการจำลองแบบไม่ได้เพิ่มเนื้อหาข้อมูล ทั้งหมดจะลดเสียงรบกวนในสถานที่ที่คุณมีข้อมูลอยู่แล้ว
บางครั้งคุณมีข้อมูลผิดที่ ตัวอย่างเช่นคุณไม่สามารถวางโมเดลสมการกำลังสองมิติได้หากสิ่งที่คุณมีคือจุดที่อยู่ในแนวเส้นตรงในสองมิติ นั่นคือสมมติว่าคุณมีจุดกระจายอยู่ตามแนว x = y ในระนาบเท่านั้นและคุณต้องการให้แบบจำลองสำหรับพื้นผิว z (x, y) ถึงแม้จะมีจุด zillions (ไม่ซ้ำกัน) คุณจะมีข้อมูลเพียงพอที่จะประเมินแบบจำลองที่ชาญฉลาดมากกว่าแบบจำลองค่าคงที่ได้อย่างชาญฉลาด น่าแปลกใจที่นี่เป็นปัญหาที่พบโดยทั่วไปในข้อมูลตัวอย่าง ผู้ใช้สงสัยว่าทำไมพวกเขาไม่สามารถสร้างแบบจำลองที่ดีได้ ปัญหาถูกสร้างขึ้นในข้อมูลที่มีการสุ่มตัวอย่าง
บางครั้งมันก็เป็นทางเลือกของรุ่น สิ่งนี้สามารถดูได้ว่า "ข้อมูลไม่เพียงพอ" แต่จากอีกด้านหนึ่ง คุณต้องการประเมินโมเดลที่ซับซ้อน แต่ได้ให้ข้อมูลไม่เพียงพอที่จะทำ
ในทุกกรณีข้างต้นคำตอบคือการได้รับข้อมูลมากขึ้นตัวอย่างอย่างชาญฉลาดจากสถานที่ที่จะให้ข้อมูลเกี่ยวกับกระบวนการที่คุณขาดอยู่ในปัจจุบัน การออกแบบการทดลองเป็นจุดเริ่มต้นที่ดี
อย่างไรก็ตามข้อมูลที่ดีบางครั้งก็ไม่เพียงพออย่างน้อยก็เป็นตัวเลข (เพราะเหตุใดสิ่งไม่ดีจึงเกิดขึ้นกับข้อมูลที่ดี) ปัญหาที่นี่อาจเกี่ยวข้องกับตัวแบบ มันอาจจะไม่มีอะไรมากไปกว่าการเลือกยูนิตที่ไม่ดี อาจเกิดจากการเขียนโปรแกรมคอมพิวเตอร์เพื่อแก้ไขปัญหา (อืม! จะเริ่มต้นที่ไหน?)
ก่อนอื่นให้พูดคุยเกี่ยวกับหน่วยและการปรับขนาด สมมติว่าฉันพยายามที่จะแก้ปัญหาที่ตัวแปรหนึ่งมีขนาดใหญ่กว่าอีกตัวแปรหนึ่ง ตัวอย่างเช่นสมมติว่าฉันมีปัญหาที่เกี่ยวข้องกับความสูงและขนาดรองเท้าของฉัน ฉันจะวัดความสูงของฉันเป็นนาโนเมตร ดังนั้นความสูงของฉันจะเป็นนาโนเมตรประมาณ 1.78 พันล้าน (1.78e9) แน่นอนฉันจะเลือกที่จะวัดขนาดรองเท้าของฉันเป็นกิโลพาร์เซคดังนั้น 9.14e-21 กิโลพาร์เซก เมื่อคุณสร้างแบบจำลองการถดถอยการถดถอยเชิงเส้นคือทั้งหมดที่เกี่ยวกับพีชคณิตเชิงเส้นซึ่งเกี่ยวข้องกับการรวมกันของตัวแปรเชิงเส้น ปัญหานี่คือตัวเลขเหล่านี้แตกต่างกันไปตามคำสั่งขนาดใหญ่ (และไม่ได้เป็นหน่วยเดียวกัน) คณิตศาสตร์จะล้มเหลวเมื่อโปรแกรมคอมพิวเตอร์พยายามเพิ่มและลบตัวเลขที่แตกต่างกันตามคำสั่งจำนวนมาก (เพื่อความแม่นยำสองเท่า จำนวน,
เคล็ดลับมักจะใช้หน่วยทั่วไป แต่ในบางปัญหาแม้จะเป็นปัญหาเมื่อตัวแปรแตกต่างกันไปตามลำดับความสำคัญมากเกินไป ที่สำคัญกว่านั้นคือการปรับขนาดตัวเลขของคุณให้มีขนาดใกล้เคียงกัน
ถัดไปคุณอาจเห็นปัญหาเกี่ยวกับตัวเลขจำนวนมากและการเปลี่ยนแปลงเล็กน้อยในตัวเลขเหล่านั้น ดังนั้นสมมติว่าคุณพยายามสร้างแบบจำลองพหุนามลำดับสูงที่มีข้อมูลที่อินพุตของคุณอยู่ในช่วง [1,2] Squaring, cubing, ฯลฯ ตัวเลขที่อยู่ในลำดับที่ 1 หรือ 2 จะทำให้ไม่มีปัญหาเมื่อทำงานในเลขคณิตความแม่นยำสองเท่า หรือเพิ่ม 1e12 ให้กับทุกหมายเลข ในทางทฤษฎีแล้วคณิตศาสตร์จะอนุญาตสิ่งนี้ สิ่งที่มันทำคือเลื่อนโมเดลพหุนามใด ๆ ที่เราสร้างบนแกน x มันจะมีรูปร่างเหมือนกันทุกประการ แต่แปลโดย 1e12 ไปทางขวา ในทางปฏิบัติพีชคณิตเชิงเส้นจะล้มเหลวอย่างน่าสังเวชเนื่องจากปัญหาการจัดอันดับ คุณไม่ได้ทำอะไรนอกจากแปลข้อมูล แต่ทันใดนั้นคุณก็เริ่มเห็นเมทริกซ์เอกพจน์โผล่ขึ้นมา
โดยปกติความคิดเห็นที่ทำจะเป็นคำแนะนำสำหรับ "จัดกึ่งกลางและปรับขนาดข้อมูลของคุณ" อย่างมีประสิทธิภาพสิ่งนี้บอกว่าจะเลื่อนและปรับขนาดข้อมูลเพื่อให้มีค่าเฉลี่ยใกล้ศูนย์และค่าเบี่ยงเบนมาตรฐานที่ประมาณ 1 ซึ่งจะปรับปรุงการปรับสภาพของโมเดลพหุนามส่วนใหญ่อย่างมากช่วยลดปัญหาการขาดอันดับ
เหตุผลอื่นสำหรับการขาดอันดับมีอยู่ ในบางกรณีมันถูกสร้างขึ้นในรูปแบบโดยตรง ตัวอย่างเช่นสมมติว่าฉันให้อนุพันธ์ของฟังก์ชันฉันสามารถอนุมานฟังก์ชันเองได้หรือไม่ ไม่แน่นอนเนื่องจากการบูรณาการเกี่ยวข้องกับค่าคงที่ของการรวมกันเป็นพารามิเตอร์ที่ไม่รู้จักซึ่งมักจะอนุมานโดยความรู้เกี่ยวกับคุณค่าของฟังก์ชั่นในบางจุด ในความเป็นจริงบางครั้งสิ่งนี้เกิดขึ้นในการประมาณปัญหาเช่นกันซึ่งความแปลกประหลาดของระบบนั้นมาจากลักษณะพื้นฐานของระบบภายใต้การศึกษา
แน่นอนว่าฉันมีเหตุผลหลายประการที่ทำให้การจัดอันดับไม่เพียงพอในระบบเชิงเส้นและตอนนี้ฉันก็ใช้เวลานานเกินไปแล้ว หวังว่าฉันจะสามารถอธิบายสิ่งที่ฉันพูดในแง่ง่าย ๆ และวิธีการบรรเทาปัญหาได้