วิธีการแก้ปัญหาอย่างละเอียด
การปฏิบัติต่อค่าต่าง ๆ อย่างเป็นหมวดหมู่จะสูญเสียข้อมูลที่สำคัญเกี่ยวกับขนาดที่สัมพันธ์กัน วิธีการมาตรฐานที่จะเอาชนะนี้จะได้รับคำสั่งการถดถอยโลจิสติก ผลวิธีนี้ "รู้" ว่าA < B < ⋯ < J< … และการใช้ความสัมพันธ์ที่สังเกตได้กับ regressors (เช่นขนาด) นั้นเหมาะสมกับ (โดยพลการค่อนข้าง) กับแต่ละหมวดหมู่ที่เคารพการสั่งซื้อ
ให้พิจารณาคู่ที่ 30 (ขนาดหมวดหมู่ความอุดมสมบูรณ์) ที่สร้างขึ้นเป็น
size = (1/2, 3/2, 5/2, ..., 59/2)
e ~ normal(0, 1/6)
abundance = 1 + int(10^(4*size + e))
ด้วยความอุดมสมบูรณ์แบ่งออกเป็นช่วง ๆ [0,10], [11,25], ... , [10001,25000]
การถดถอยโลจิสติกที่สั่งสร้างการกระจายความน่าจะเป็นสำหรับแต่ละประเภท; การกระจายขึ้นอยู่กับขนาด จากข้อมูลโดยละเอียดดังกล่าวคุณสามารถผลิตค่าและช่วงเวลาโดยประมาณได้ นี่คือพล็อตของ 10 PDF ที่ประเมินจากข้อมูลเหล่านี้ (การประมาณการสำหรับหมวดหมู่ 10 เป็นไปไม่ได้เนื่องจากไม่มีข้อมูลในนั้น):
ทางออกอย่างต่อเนื่อง
ทำไมไม่เลือกค่าตัวเลขเพื่อแสดงแต่ละหมวดหมู่และดูความไม่แน่นอนเกี่ยวกับความอุดมสมบูรณ์ที่แท้จริงภายในหมวดหมู่เป็นส่วนหนึ่งของคำผิดพลาด
เราสามารถวิเคราะห์สิ่งนี้เป็นการประมาณแบบไม่ต่อเนื่องกับการแสดงออกในอุดมคติ ฉ ซึ่งแปลงค่าความอุดมสมบูรณ์ a เป็นค่าอื่น ๆ ฉ( a ) ซึ่งข้อผิดพลาดในการสังเกตคือการประมาณที่ดีการกระจายแบบสมมาตรและขนาดที่ประมาณเดียวกันโดยไม่คำนึงถึง a (การแปรปรวน - แปรปรวนเสถียรภาพ)
เพื่อให้การวิเคราะห์ง่ายขึ้นสมมติว่ามีการเลือกหมวดหมู่ (ตามทฤษฎีหรือประสบการณ์) เพื่อให้เกิดการเปลี่ยนแปลงดังกล่าว เราอาจสันนิษฐานได้ว่าฉ แสดงจุดตัดหมวดหมู่อีกครั้ง αผม เป็นดัชนีของพวกเขา ผม. ข้อเสนอมีจำนวนเพื่อเลือกค่า "คุณสมบัติ" บางอย่างβผม ภายในแต่ละหมวดหมู่ ผม และการใช้ ฉ(βผม) เป็นค่าตัวเลขของความอุดมสมบูรณ์เมื่อใดก็ตามที่ความอุดมสมบูรณ์ถูกตั้งข้อสังเกตให้อยู่ระหว่าง αผม และ αฉัน+ 1. นี่จะเป็นพร็อกซีสำหรับค่าที่แสดงซ้ำอย่างถูกต้องฉ( a ).
สมมติว่าความอุดมสมบูรณ์นั้นเกิดจากความผิดพลาด εดังนั้นตัวเลขสมมุติฐานนั้นเป็นจริง a + ε แทน a. ข้อผิดพลาดเกิดขึ้นในการเข้ารหัสนี้เป็นฉ(βผม) คือโดยนิยามความแตกต่าง ฉ(βผม) - f( a )ซึ่งเราสามารถแสดงความแตกต่างของคำสองคำ
ข้อผิดพลาด= f( a + ε ) - f( a ) - ( f( a + ε ) - f(βผม) )
เทอมแรก ฉ( a + ε ) - f( a )ถูกควบคุมโดย ฉ (เราไม่สามารถทำอะไรเกี่ยวกับ ε) และจะปรากฏขึ้นหากเราไม่ได้จัดหมวดหมู่ความอุดมสมบูรณ์ เทอมที่สองเป็นแบบสุ่ม - มันขึ้นอยู่กับε- และเห็นได้ชัดว่ามีความสัมพันธ์กับ ε. แต่เราสามารถพูดอะไรบางอย่างเกี่ยวกับมันต้องอยู่ระหว่างฉัน- f(βผม) < 0 และ ฉัน+ 1 - ฉ(βผม) ≥ 0. ยิ่งกว่านั้นถ้าฉทำงานได้ดีในระยะที่สองอาจมีการกระจายอย่างสม่ำเสมอ ข้อพิจารณาทั้งสองแนะนำให้เลือกβผม ดังนั้น ฉ(βผม) อยู่กึ่งกลางระหว่าง ผม และ ฉัน+ 1; นั่นคือ,βผม≈ฉ- 1( i + 1 / 2 ).
หมวดหมู่เหล่านี้ในคำถามนี้ก่อให้เกิดความก้าวหน้าทางเรขาคณิตโดยประมาณซึ่งแสดงให้เห็นว่า ฉเป็นลอการิทึมเวอร์ชันที่บิดเบี้ยวเล็กน้อย ดังนั้นเราควรจะพิจารณาใช้วิธีการทางเรขาคณิตของจุดสิ้นสุดช่วงเวลาเพื่อแสดงข้อมูลความอุดมสมบูรณ์
การถดถอยกำลังสองน้อยสุดสามัญ (OLS) ด้วยขั้นตอนนี้ให้ความชันของ 7.70 (ข้อผิดพลาดมาตรฐานคือ 1.00) และค่าตัดขวาง 0.70 (ข้อผิดพลาดมาตรฐานคือ 0.58), แทนความชัน 8.19 (se ของ 0.97) และสกัดกั้น 0.69 (se ของ 0.56) เมื่อบันทึกจำนวนมากมายกับการถดถอย ทั้งสองแสดงการถดถอยของค่าเฉลี่ยเนื่องจากความชันเชิงทฤษฎีควรใกล้เคียง4 บันทึก( 10 ) ≈ 9.21. วิธีการจัดหมวดหมู่แสดงการถดถอยอีกเล็กน้อยสำหรับค่าเฉลี่ย (ความชันเล็ก) เนื่องจากข้อผิดพลาดการแยกส่วนเพิ่มตามที่คาดไว้
พล็อตนี้จะแสดงความอุดมสมบูรณ์ที่ไม่ได้จัดหมวดหมู่พร้อมกับความพอดีบนพื้นฐานของความอุดมสมบูรณ์ของหมวดหมู่ (ใช้วิธีทางเรขาคณิตของจุดสิ้นสุดหมวดหมู่ตามที่แนะนำ) และความพอดีที่ขึ้นอยู่กับความอุดมสมบูรณ์ของตัวเอง เหมาะกับเป็นอย่างน่าทึ่งใกล้แสดงให้เห็นวิธีการเปลี่ยนประเภทโดยค่าตัวเลขได้รับการแต่งตั้งอย่างเหมาะสมนี้ทำงานได้ดีในตัวอย่าง
การดูแลบางอย่างเป็นสิ่งจำเป็นในการเลือก "กึ่งกลาง" βผม สำหรับสองหมวดหมู่ที่รุนแรงเพราะบ่อยครั้ง ฉไม่ได้มีขอบเขต (สำหรับตัวอย่างนี้ฉัน crudely เอาจุดสิ้นสุดด้านซ้ายของประเภทแรกที่จะ1 ค่อนข้างมากกว่า 0 และจุดสิ้นสุดที่ถูกต้องของหมวดหมู่สุดท้ายที่จะเป็น 25000.) วิธีหนึ่งคือการแก้ปัญหาก่อนโดยใช้ข้อมูลที่ไม่ได้อยู่ในหมวดหมู่ที่มากที่สุดจากนั้นใช้ความพอดีเพื่อประเมินค่าที่เหมาะสมสำหรับหมวดหมู่ที่รุนแรงเหล่านั้นจากนั้นกลับไปและปรับข้อมูลทั้งหมดให้พอดี ค่า p จะดีเกินไปเล็กน้อย แต่โดยรวมแล้วความพอดีควรมีความแม่นยำมากกว่าและมีอคติน้อยกว่า