ฉันเพิ่งทำแอปเบราว์เซอร์เล็ก ๆ น้อย ๆ ที่คุณสามารถใช้เล่นกับแนวคิดเหล่านี้: Scatterplot Smoothers (*)
นี่คือข้อมูลบางส่วนที่ฉันสร้างขึ้นโดยมีพหุนามต่ำ
เป็นที่ชัดเจนว่าพหุนามกำลังสองนั้นไม่ยืดหยุ่นพอที่จะให้ข้อมูลที่เหมาะสม เรามีภูมิภาคที่มีอคติสูงมากระหว่างถึง0.850.60.85ข้อมูลทั้งหมดอยู่ต่ำกว่าค่าพอดีและหลังจาก0.85ข้อมูลทั้งหมดอยู่เหนือเส้นโค้ง
เพื่อกำจัดอคติเราสามารถเพิ่มระดับของเส้นโค้งเป็นสาม แต่ปัญหายังคงอยู่เส้นโค้งลูกบาศก์ยังคงแข็งเกินไป
ดังนั้นเราจึงเพิ่มระดับอย่างต่อเนื่อง แต่ตอนนี้เราประสบปัญหาตรงข้าม
เส้นโค้งนี้ติดตามข้อมูล อย่างใกล้ชิดมากเกินไปและมีแนวโน้มว่าจะบินไปในทิศทางที่ไม่เป็นไปตามรูปแบบทั่วไปในข้อมูล นี่คือที่มาของการทำให้เป็นมาตรฐานด้วยเส้นโค้งองศาเดียวกัน (สิบ) และการทำให้เป็นมาตรฐานที่เลือกไว้อย่างดี
เราได้แบบที่ดีจริงๆ!
มันคุ้มค่าที่จะมุ่งเน้นเพียงเล็กน้อยในแง่มุมหนึ่งของ เลือกด้านบน เมื่อคุณปรับพหุนามให้เหมาะสมกับข้อมูลคุณจะมีชุดตัวเลือกสำหรับการศึกษาระดับปริญญา หากเส้นโค้งสามองศาต่ำเกินไปและเส้นโค้งสี่องศานั้นพอดีคุณไม่ต้องไปอยู่ตรงกลาง การทำให้เป็นปกติจะช่วยแก้ปัญหานี้ได้เนื่องจากมันจะช่วยให้คุณสามารถเล่นกับพารามิเตอร์ที่ซับซ้อนได้อย่างต่อเนื่อง
คุณจะอ้างสิทธิ์ว่า "เราได้รับแบบที่ดีจริงๆ!" สำหรับฉันพวกเขาทั้งหมดมีลักษณะเหมือนกันคือสรุปไม่ได้ คุณใช้เหตุผลอะไรในการตัดสินใจว่าอะไรดีและไม่เหมาะสม?
จุดยุติธรรม
ข้อสันนิษฐานที่ฉันทำที่นี่คือแบบจำลองที่พอดีไม่ควรมีรูปแบบที่มองเห็นได้ในส่วนที่เหลือ ตอนนี้ฉันไม่ได้วางแผนส่วนที่เหลือดังนั้นคุณต้องทำงานนิดหน่อยเมื่อดูรูป แต่คุณควรจะสามารถใช้จินตนาการของคุณได้
ในภาพแรกด้วยเส้นโค้งกำลังสองพอดีกับข้อมูลฉันสามารถดูรูปแบบต่อไปนี้ในส่วนที่เหลือ
- จาก 0.0 ถึง 0.3 พวกมันจะวางอย่างเท่าเทียมกันทั้งด้านบนและด้านล่างของโค้ง
- จาก 0.3 ถึงประมาณ 0.55 ทั้งหมดจุดข้อมูลอยู่เหนือเส้นโค้ง
- จาก 0.55 ถึงประมาณ 0.85 ทั้งหมดจุดข้อมูลอยู่ใต้เส้นโค้ง
- จาก 0.85 ไปพวกเขาอยู่เหนือเส้นโค้งอีกครั้ง
ฉันอ้างถึงพฤติกรรมเหล่านี้ว่าเป็นอคติในท้องถิ่นมีพื้นที่ที่เส้นโค้งไม่ดีพอที่จะประมาณค่าเฉลี่ยตามเงื่อนไขของข้อมูล
เปรียบเทียบสิ่งนี้กับแบบเต็มกับลูกบาศก์เส้นโค้ง ฉันไม่สามารถเลือกภูมิภาคใด ๆ ด้วยตาที่ขนาดพอดีไม่เหมือนว่ากำลังวิ่งอย่างแม่นยำผ่านจุดศูนย์กลางมวลของจุดข้อมูล โดยทั่วไปนี่คือสิ่งที่ฉันหมายถึงว่าเหมาะสม
2
- พฤติกรรมของพวกเขาที่ขอบเขตของข้อมูลของคุณอาจไม่เป็นระเบียบแม้แต่กับการทำให้เป็นปกติ
- พวกเขาไม่ได้อยู่ในท้องถิ่นในแง่ใด การเปลี่ยนแปลงข้อมูลของคุณในที่เดียวอาจส่งผลกระทบอย่างมากต่อสถานที่ที่แตกต่างกันมาก
ในสถานการณ์เช่นที่คุณอธิบายให้ทำอีกครั้งโดยใช้ลูกบาศก์ธรรมชาติพร้อมกับการทำให้เป็นปกติซึ่งให้การประนีประนอมที่ดีที่สุดระหว่างความยืดหยุ่นและความมั่นคง คุณสามารถเห็นด้วยตัวคุณเองด้วยการปรับเส้นโค้งบางส่วนในแอพ
(*) ฉันเชื่อว่ามันใช้งานได้เฉพาะกับ Chrome และ Firefox เนื่องจากฉันใช้คุณสมบัติจาวาสคริปต์ที่ทันสมัยบางอย่าง (และความขี้เกียจโดยรวมเพื่อแก้ไขใน Safari และเช่น) ซอร์สโค้ดอยู่ที่นี่ถ้าคุณสนใจ