แนวปฏิบัติที่ดีที่สุดเมื่อรักษาข้อมูลช่วงเป็นต่อเนื่อง


9

ฉันกำลังดูว่าความอุดมสมบูรณ์นั้นเกี่ยวข้องกับขนาดหรือไม่ ขนาดคือ (แน่นอน) ต่อเนื่องอย่างไรก็ตามความอุดมสมบูรณ์จะถูกบันทึกไว้ในสเกลดังกล่าว

A = 0-10
B = 11-25
C = 26-50
D = 51-100
E = 101-250
F = 251-500
G = 501-1000
H = 1001-2500
I = 2501-5000
J = 5001-10,000
etc... 

A ถึง Q ... 17 ระดับ ฉันคิดว่าวิธีหนึ่งที่เป็นไปได้คือการกำหนดตัวเลขให้กับตัวอักษรแต่ละตัว: อย่างน้อยที่สุด, สูงสุดหรือค่ามัธยฐาน (เช่น A = 5, B = 18, C = 38, D = 75.5 ... )

ข้อผิดพลาดที่อาจเกิดขึ้น - และเช่นนี้จะเป็นการดีกว่าถ้าจะจัดการกับข้อมูลนี้เป็นหมวดหมู่หรือไม่

ฉันได้อ่านคำถามนี้ซึ่งให้ความคิดบางอย่าง - แต่หนึ่งในกุญแจของชุดข้อมูลนี้คือหมวดหมู่นั้นไม่เท่ากัน - ดังนั้นการปฏิบัติตามหมวดหมู่จะถือว่าความแตกต่างระหว่าง A และ B เหมือนกับความแตกต่างระหว่าง B และ C ... (ซึ่งสามารถแก้ไขได้โดยใช้ลอการิทึม - ขอบคุณ Anonymouse)

ในที่สุดฉันต้องการดูว่าขนาดสามารถใช้เป็นตัวทำนายความอุดมสมบูรณ์ได้หรือไม่หลังจากพิจารณาปัจจัยด้านสิ่งแวดล้อมอื่น ๆ การคาดการณ์จะอยู่ในช่วง: ขนาดที่กำหนด X และปัจจัย A, B และ C เราคาดการณ์ว่าความอุดมสมบูรณ์ Y จะลดลงระหว่าง Min และ Max (ซึ่งฉันคิดว่าสามารถขยายหนึ่งคะแนนสเกล: มากกว่า Min D และน้อยกว่า Max F ... ยิ่งแม่นยำยิ่งขึ้น)

คำตอบ:


13

วิธีการแก้ปัญหาอย่างละเอียด

การปฏิบัติต่อค่าต่าง ๆ อย่างเป็นหมวดหมู่จะสูญเสียข้อมูลที่สำคัญเกี่ยวกับขนาดที่สัมพันธ์กัน วิธีการมาตรฐานที่จะเอาชนะนี้จะได้รับคำสั่งการถดถอยโลจิสติก ผลวิธีนี้ "รู้" ว่าA<B<<J<... และการใช้ความสัมพันธ์ที่สังเกตได้กับ regressors (เช่นขนาด) นั้นเหมาะสมกับ (โดยพลการค่อนข้าง) กับแต่ละหมวดหมู่ที่เคารพการสั่งซื้อ

ให้พิจารณาคู่ที่ 30 (ขนาดหมวดหมู่ความอุดมสมบูรณ์) ที่สร้างขึ้นเป็น

size = (1/2, 3/2, 5/2, ..., 59/2)
e ~ normal(0, 1/6)
abundance = 1 + int(10^(4*size + e))

ด้วยความอุดมสมบูรณ์แบ่งออกเป็นช่วง ๆ [0,10], [11,25], ... , [10001,25000]

Scatterplot ของความอุดมสมบูรณ์ของหมวดหมู่เทียบกับขนาด

การถดถอยโลจิสติกที่สั่งสร้างการกระจายความน่าจะเป็นสำหรับแต่ละประเภท; การกระจายขึ้นอยู่กับขนาด จากข้อมูลโดยละเอียดดังกล่าวคุณสามารถผลิตค่าและช่วงเวลาโดยประมาณได้ นี่คือพล็อตของ 10 PDF ที่ประเมินจากข้อมูลเหล่านี้ (การประมาณการสำหรับหมวดหมู่ 10 เป็นไปไม่ได้เนื่องจากไม่มีข้อมูลในนั้น):

ความหนาแน่นน่าจะเป็นตามหมวดหมู่

ทางออกอย่างต่อเนื่อง

ทำไมไม่เลือกค่าตัวเลขเพื่อแสดงแต่ละหมวดหมู่และดูความไม่แน่นอนเกี่ยวกับความอุดมสมบูรณ์ที่แท้จริงภายในหมวดหมู่เป็นส่วนหนึ่งของคำผิดพลาด

เราสามารถวิเคราะห์สิ่งนี้เป็นการประมาณแบบไม่ต่อเนื่องกับการแสดงออกในอุดมคติ ซึ่งแปลงค่าความอุดมสมบูรณ์ a เป็นค่าอื่น ๆ (a) ซึ่งข้อผิดพลาดในการสังเกตคือการประมาณที่ดีการกระจายแบบสมมาตรและขนาดที่ประมาณเดียวกันโดยไม่คำนึงถึง a (การแปรปรวน - แปรปรวนเสถียรภาพ)

เพื่อให้การวิเคราะห์ง่ายขึ้นสมมติว่ามีการเลือกหมวดหมู่ (ตามทฤษฎีหรือประสบการณ์) เพื่อให้เกิดการเปลี่ยนแปลงดังกล่าว เราอาจสันนิษฐานได้ว่า แสดงจุดตัดหมวดหมู่อีกครั้ง αผม เป็นดัชนีของพวกเขา ผม. ข้อเสนอมีจำนวนเพื่อเลือกค่า "คุณสมบัติ" บางอย่างβผม ภายในแต่ละหมวดหมู่ ผม และการใช้ (βผม) เป็นค่าตัวเลขของความอุดมสมบูรณ์เมื่อใดก็ตามที่ความอุดมสมบูรณ์ถูกตั้งข้อสังเกตให้อยู่ระหว่าง αผม และ αผม+1. นี่จะเป็นพร็อกซีสำหรับค่าที่แสดงซ้ำอย่างถูกต้อง(a).

สมมติว่าความอุดมสมบูรณ์นั้นเกิดจากความผิดพลาด εดังนั้นตัวเลขสมมุติฐานนั้นเป็นจริง a+ε แทน a. ข้อผิดพลาดเกิดขึ้นในการเข้ารหัสนี้เป็น(βผม) คือโดยนิยามความแตกต่าง (βผม)-(a)ซึ่งเราสามารถแสดงความแตกต่างของคำสองคำ

ความผิดพลาด=(a+ε)-(a)-((a+ε)-(βผม)).

เทอมแรก (a+ε)-(a)ถูกควบคุมโดย (เราไม่สามารถทำอะไรเกี่ยวกับ ε) และจะปรากฏขึ้นหากเราไม่ได้จัดหมวดหมู่ความอุดมสมบูรณ์ เทอมที่สองเป็นแบบสุ่ม - มันขึ้นอยู่กับε- และเห็นได้ชัดว่ามีความสัมพันธ์กับ ε. แต่เราสามารถพูดอะไรบางอย่างเกี่ยวกับมันต้องอยู่ระหว่างผม-(βผม)<0 และ ผม+1-(βผม)0. ยิ่งกว่านั้นถ้าทำงานได้ดีในระยะที่สองอาจมีการกระจายอย่างสม่ำเสมอ ข้อพิจารณาทั้งสองแนะนำให้เลือกβผม ดังนั้น (βผม) อยู่กึ่งกลางระหว่าง ผม และ ผม+1; นั่นคือ,βผม-1(ผม+1/2).

หมวดหมู่เหล่านี้ในคำถามนี้ก่อให้เกิดความก้าวหน้าทางเรขาคณิตโดยประมาณซึ่งแสดงให้เห็นว่า เป็นลอการิทึมเวอร์ชันที่บิดเบี้ยวเล็กน้อย ดังนั้นเราควรจะพิจารณาใช้วิธีการทางเรขาคณิตของจุดสิ้นสุดช่วงเวลาเพื่อแสดงข้อมูลความอุดมสมบูรณ์

การถดถอยกำลังสองน้อยสุดสามัญ (OLS) ด้วยขั้นตอนนี้ให้ความชันของ 7.70 (ข้อผิดพลาดมาตรฐานคือ 1.00) และค่าตัดขวาง 0.70 (ข้อผิดพลาดมาตรฐานคือ 0.58), แทนความชัน 8.19 (se ของ 0.97) และสกัดกั้น 0.69 (se ของ 0.56) เมื่อบันทึกจำนวนมากมายกับการถดถอย ทั้งสองแสดงการถดถอยของค่าเฉลี่ยเนื่องจากความชันเชิงทฤษฎีควรใกล้เคียง4เข้าสู่ระบบ(10)9.21. วิธีการจัดหมวดหมู่แสดงการถดถอยอีกเล็กน้อยสำหรับค่าเฉลี่ย (ความชันเล็ก) เนื่องจากข้อผิดพลาดการแยกส่วนเพิ่มตามที่คาดไว้

ผลการถดถอย

พล็อตนี้จะแสดงความอุดมสมบูรณ์ที่ไม่ได้จัดหมวดหมู่พร้อมกับความพอดีบนพื้นฐานของความอุดมสมบูรณ์ของหมวดหมู่ (ใช้วิธีทางเรขาคณิตของจุดสิ้นสุดหมวดหมู่ตามที่แนะนำ) และความพอดีที่ขึ้นอยู่กับความอุดมสมบูรณ์ของตัวเอง เหมาะกับเป็นอย่างน่าทึ่งใกล้แสดงให้เห็นวิธีการเปลี่ยนประเภทโดยค่าตัวเลขได้รับการแต่งตั้งอย่างเหมาะสมนี้ทำงานได้ดีในตัวอย่าง

การดูแลบางอย่างเป็นสิ่งจำเป็นในการเลือก "กึ่งกลาง" βผม สำหรับสองหมวดหมู่ที่รุนแรงเพราะบ่อยครั้ง ไม่ได้มีขอบเขต (สำหรับตัวอย่างนี้ฉัน crudely เอาจุดสิ้นสุดด้านซ้ายของประเภทแรกที่จะ1 ค่อนข้างมากกว่า 0 และจุดสิ้นสุดที่ถูกต้องของหมวดหมู่สุดท้ายที่จะเป็น 25000.) วิธีหนึ่งคือการแก้ปัญหาก่อนโดยใช้ข้อมูลที่ไม่ได้อยู่ในหมวดหมู่ที่มากที่สุดจากนั้นใช้ความพอดีเพื่อประเมินค่าที่เหมาะสมสำหรับหมวดหมู่ที่รุนแรงเหล่านั้นจากนั้นกลับไปและปรับข้อมูลทั้งหมดให้พอดี ค่า p จะดีเกินไปเล็กน้อย แต่โดยรวมแล้วความพอดีควรมีความแม่นยำมากกว่าและมีอคติน้อยกว่า


+1 คำตอบที่ยอดเยี่ยม! ฉันชอบวิธีการอธิบายตัวเลือกต่าง ๆ พร้อมกับเหตุผลของพวกเขา 2 อย่างโดยเฉพาะ ฉันยังรวบรวมบันทึกของความอุดมสมบูรณ์ไม่ใช่ขนาดควรเน้นซึ่งเป็นความคิดของฉันเช่นกัน คำถามหนึ่งข้อในส่วนที่ 1 คุณระบุว่า "คุณสามารถสร้างมูลค่าและช่วงเวลาโดยประมาณ" คนเราจะทำสิ่งนี้ได้อย่างไร
gung - Reinstate Monica

เป็นคำถามที่ดี @ gung วิธีหยาบซึ่งอาจมีประสิทธิภาพคือการรักษาหมวดหมู่เป็นข้อมูลที่มีค่าช่วงเวลาและผล logit สั่งให้การกระจาย (ไม่ต่อเนื่อง) ในช่วงเวลาเหล่านั้นสำหรับค่าที่กำหนดใด ๆ ของ 'ขนาด' ผลลัพธ์คือการแจกแจงแบบช่วงเวลาซึ่งจะมีค่าเฉลี่ยของช่วงความเชื่อมั่นและขีด จำกัด ของความเชื่อมั่นที่มีค่าตามช่วงเวลา
whuber

3
@ เมื่อมันจะคุ้มค่ากล่าวถึงตัวเลือกซอฟต์แวร์ ฉันเดาว่าคุณใช้ Stata (ถ้าฉันได้รับการฝึกฝนที่ดีพอที่จะกราฟ Stata และบอกพวกเขาจากการวิจัยและกราฟ SAS) ologitซึ่งรูปแบบนี้จะติดตั้ง ใน R คุณสามารถทำได้ด้วยpolrในMASSแพ็คเกจ
StasK

1
คุณถูกต้อง @Stask ขอบคุณสำหรับการอ้างอิงถึงโซลูชัน R (กราฟเป็นกราฟเริ่มต้นทั้งหมดใน Stata 11 เฉพาะรูปแบบคำอธิบายแผนภูมิและบรรทัดสุดท้ายเท่านั้นที่ปรับแต่งเนื่องจากความแตกต่างสีแดงสีเขียวสีเขียวอาจไม่ชัดเจนสำหรับผู้อ่านทั้งหมดประมาณ 3%)
whuber

2
@StasK rms::lrmและแพ็คเกจordinal ( clm) เป็นตัวเลือกที่ดีเช่นกัน
chl

2

พิจารณาการใช้ลอการิทึมของขนาด


ฮา - คำตอบนั้นนำฝ่ามือบางส่วนมา จริงที่ดูแลปัญหาระดับ - แต่ยังคงอยู่ในมือ: เพื่อจัดหมวดหมู่หรือไม่และจำนวนที่จะตรึง "ค่า" เพื่อ หากคำถามเหล่านี้ไม่เกี่ยวข้องฉันสามารถจัดการกับการได้ยินได้เช่นกัน
Trees4theForest

1
คุณได้รวบรวมประเด็นต่าง ๆ ไว้ในที่เดียวแล้ว ข้อมูลที่คุณดูเหมือนจะสมเหตุสมผลสำหรับสเกลลอการิทึม ไม่ว่าคุณต้องการจะแยกแยะหรือไม่ก็เป็นคำถามแยกต่างหากและที่นั่นฉันมีแค่การตอบคำถามบนฝ่ามืออีกอันหนึ่งสำหรับคุณ: ขึ้นอยู่กับข้อมูลของคุณและสิ่งที่คุณต้องการบรรลุ มีอีกคำถามที่ซ่อนอยู่: ฉันจะคำนวณความแตกต่างระหว่างช่วงเวลาได้อย่างไร - คำนวณความแตกต่างของค่าเฉลี่ยของพวกเขา หรือระยะทางที่น้อยที่สุด (จากนั้น A ถึง B จะเป็น 0, B ถึง C จะเป็น 0 แต่ A ถึง C ไม่ได้) ฯลฯ
จบการทำงาน - Anony-Mousse

จุดดีฉันได้อัปเดตคำถามของฉันพร้อมข้อมูลเพิ่มเติมเพื่อตอบสนองเป้าหมาย สำหรับความแตกต่างในช่วงเวลาฉันคิดว่านั่นเป็นคำถามของฉัน - อะไรคือข้อดี / ข้อเสียของการคำนวณช่วงเวลาตามความแตกต่างของค่าเฉลี่ย, ระยะทางน้อยที่สุด, ระยะทางสูงสุด, ระยะห่างระหว่างนาที, ระยะห่างระหว่างสูงสุด ฯลฯ สิ่งที่ฉันต้องพิจารณาในการตัดสินใจครั้งนี้ (หรือหากจำเป็นต้องพิจารณาด้วย) จะดีมาก
Trees4theForest

มีตัวเลือกเพิ่มเติมมากมาย ตัวอย่างเช่นหากต้องการกำจัดเอฟเฟกต์สเกลทั้งหมดคุณสามารถลองทำนายตำแหน่งการจัดอันดับแทน นอกเหนือจากนั้นมันเป็นคำถามของการวัดข้อผิดพลาด โดยการใช้ลอการิทึมคุณมักจะน้ำหนักข้อผิดพลาดด้วยวิธีนี้ ดังนั้นเมื่อมูลค่าที่แท้จริงคือ 10,000 และค่าที่คาดการณ์คือ 1,0100 นี่คือน้อยกว่ามากเมื่อค่าที่คาดการณ์คือ 1 และมูลค่าที่แท้จริงคือ 101 โดยการทำ binning และคำนวณจิตใจระหว่างถังขยะนอกจากนี้คุณยังมีน้ำหนักน้อย ข้อผิดพลาดด้วย 0
มี QUIT - Anony-Mousse
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.