คำแนะนำในการระบุรูปร่างโค้งโดยใช้ quantreg


10

ฉันใช้แพ็คเกจquantregเพื่อสร้างแบบจำลองการถดถอยโดยใช้เปอร์เซ็นไทล์ที่ 99 ของค่าของฉันในชุดข้อมูล ตามคำแนะนำจากคำถาม stackoverflow ก่อนหน้านี้ที่ฉันถามฉันใช้โครงสร้างรหัสต่อไปนี้

mod <- rq(y ~ log(x), data=df, tau=.99)    
pDF <- data.frame(x = seq(1,10000, length=1000) ) 
pDF <- within(pDF, y <- predict(mod, newdata = pDF) )

ซึ่งฉันแสดงพล็อตที่ด้านบนของข้อมูลของฉัน ฉันวางแผนเรื่องนี้โดยใช้ ggplot2 โดยมีค่าอัลฟาสำหรับจุด ฉันคิดว่าหางของการแจกแจงของฉันไม่ได้รับการพิจารณาอย่างเพียงพอในการวิเคราะห์ของฉัน บางทีนี่อาจเป็นเพราะความจริงที่ว่ามีแต่ละจุดที่ถูกละเว้นโดยการวัดประเภทเปอร์เซ็นไทล์

หนึ่งในความคิดเห็นที่แนะนำว่า

บทความสั้นรวมถึงส่วนที่เกี่ยวกับการถดถอยเชิงเส้นไม่เชิงเส้นและรุ่นที่มีเส้นโค้งเรียบ

จากคำถามก่อนหน้านี้ฉันถือว่าความสัมพันธ์ลอการิทึม แต่ฉันไม่แน่ใจว่าถูกต้องหรือไม่ ฉันคิดว่าฉันสามารถแยกคะแนนทั้งหมดในช่วงเวลาเปอร์เซ็นไทล์ที่ 99 แล้วตรวจสอบแยกกัน แต่ฉันไม่แน่ใจว่าจะทำอย่างไรหรือว่าเป็นวิธีที่ดี ฉันขอขอบคุณคำแนะนำเกี่ยวกับวิธีปรับปรุงการระบุความสัมพันธ์นี้

ป้อนคำอธิบายรูปภาพที่นี่


มีคำถามที่ดีสองสามข้อในไซต์ที่พูดถึงการแปลงข้อมูลเช่นนี้แล้วดูstats.stackexchange.com/q/1444/1036หรือstats.stackexchange.com/q/298/1036
Andy W

คุณสามารถอัพเดตพล็อตเพื่อเพิ่มค่ามัธยฐานตามเงื่อนไขได้หรือไม่ ดูเหมือนว่าฉันจะเป็นปัญหาข้ามควอนไทล์มากกว่าปัญหาการแปลงข้อมูล ...
user603

@ user603 คุณหมายถึงอะไรโดยค่ามัธยฐานตามเงื่อนไข? (ฉันค้นหาทางออนไลน์ แต่ไม่แน่ใจว่าจะคำนวณอย่างไร)
celenius

tau = 0.5 ในฟังก์ชัน rq ()
603

1
หากเป้าหมายของคุณคือการประมาณค่าเปอร์เซ็นไทล์แบบมีเงื่อนไขที่ 99 โดยเฉพาะฉันจะลงคะแนนสำหรับการถดถอยเชิงเส้นแบบไม่เชิงเส้น (บางประเภท - ฉันไม่รู้แพ็คเกจ R) เพราะมันไม่ฟังเหมือนที่คุณรู้ว่ารูปแบบการใช้งานจริง . ฉันยังไม่ชัดเจนสำหรับคำถามก่อนหน้านี้ของคุณว่าเป้าหมายที่แท้จริงคืออะไรดังนั้นฉันจะขอย้ำความคิดเห็นเกี่ยวกับคำถามก่อนหน้านี้ของคุณจาก Spacedman 4 มกราคมเวลา 17:01 น.
David M Kaplan

คำตอบ:


1

ทุกรุ่นผิด แต่บางรุ่นก็มีประโยชน์ (George Box) คุณกำลังบังคับให้รูปร่างที่มีค่าสัมประสิทธิ์ไปยังโค้งที่พอดีของคุณและโดยสุจริตมันไม่ได้ดูแย่ขนาดนั้น ความพอดีไม่ดีที่หางเพราะมีคะแนนน้อยกว่า พารามิเตอร์สองตัวที่คุณอนุญาตจะพอดีกับข้อมูลจำนวนมาก กล่าวอีกนัยหนึ่งในระดับบันทึกหางนั้นไม่ไกลจากกลุ่มข้อมูลของคุณมากพอที่จะใช้ประโยชน์ มันไม่ได้เกี่ยวข้องกับธรรมชาติของการถดถอย OLS จะไม่สนใจประเด็นเหล่านั้น (โดยเฉพาะในระดับบันทึก)

มันค่อนข้างง่ายที่จะยอมให้มีความไม่เป็นเส้นตรง ฉันมีบางส่วนเป็นเส้นโค้งตามธรรมชาติ แต่แบบจำลองทุกอย่างผิดปกติ:

library(splines)
mod <- rq(y ~ ns(log(x), df=6), data=df, tau=.99)

quantregแพคเกจมีตะขอพิเศษบางอย่างสำหรับเส้นโค้งต่อเนื่องถ้านั่นคือความกังวลให้กับคุณ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.