คำถามติดแท็ก nonlinear-regression

ใช้แท็กนี้เฉพาะสำหรับโมเดลการถดถอยซึ่งการตอบสนองเป็นฟังก์ชันที่ไม่เชิงเส้นของพารามิเตอร์ ห้ามใช้แท็กนี้สำหรับการแปลงข้อมูลแบบไม่เชิงเส้น

2
เมื่อทำการปรับเส้นโค้งฉันจะคำนวณช่วงความมั่นใจ 95% สำหรับพารามิเตอร์ที่ติดตั้งได้อย่างไร
ฉันกำลังปรับเส้นโค้งให้เหมาะสมกับข้อมูลของฉันเพื่อแยกพารามิเตอร์หนึ่งตัว อย่างไรก็ตามฉันไม่แน่ใจว่าความแน่นอนของพารามิเตอร์นั้นคืออะไรและฉันจะคำนวณ / แสดงช่วงความมั่นใจ % ได้อย่างไร959595 พูดสำหรับชุดข้อมูลที่มีข้อมูลที่อธิบายการสลายตัวแบบทวีคูณฉันพอดีกับเส้นโค้งกับชุดข้อมูลแต่ละชุด จากนั้นข้อมูลที่ผมต้องการที่จะเป็นสารสกัดจากตัวแทนขฉันรู้ค่าของและค่าของฉันไม่สนใจ (นั่นคือตัวแปรที่มาจากประชากรไม่ใช่กระบวนการที่ฉันพยายามทำแบบจำลอง)t abbbtttaaa ฉันใช้การถดถอยเชิงเส้นเพื่อให้พอดีกับพารามิเตอร์เหล่านี้ อย่างไรก็ตามฉันไม่รู้วิธีคำนวณช่วงความมั่นใจ % สำหรับวิธีการใดดังนั้นคำตอบที่กว้างขึ้นก็ยินดีต้อนรับเช่นกัน959595 f=a⋅e−btf=a⋅e−btf= a\cdot e^{-bt} เมื่อฉันมีค่าของฉันสำหรับฉันจะคำนวณช่วงความมั่นใจ % ได้อย่างไร ขอบคุณล่วงหน้า!95bbb959595

1
เหมาะสมกับฟังก์ชันเลขชี้กำลังโดยใช้กำลังสองน้อยที่สุดเทียบกับโมเดลเชิงเส้นทั่วไปกับสี่เหลี่ยมจัตุรัสไม่เชิงเส้นน้อยที่สุด
ฉันมีชุดข้อมูลที่แสดงถึงการสลายตัวแบบเลขชี้กำลัง ฉันต้องการใส่ฟังก์ชั่นเลขชี้กำลังกับข้อมูลนี้ ฉันได้ลองบันทึกการเปลี่ยนตัวแปรการตอบสนองแล้วใช้กำลังสองน้อยที่สุดเพื่อให้พอดีกับเส้น ใช้โมเดลเชิงเส้นทั่วไปที่มีฟังก์ชั่นบันทึกการเชื่อมโยงและการกระจายแกมม่ารอบ ๆ ตัวแปรตอบสนอง; และใช้กำลังสองน้อยที่สุดแบบไม่เชิงเส้น ฉันได้รับคำตอบที่แตกต่างกันสำหรับสัมประสิทธิ์สองตัวของฉันในแต่ละวิธีแม้ว่ามันจะคล้ายกันทั้งหมด ที่ฉันมีความสับสนคือฉันไม่แน่ใจว่าวิธีใดดีที่สุดที่จะใช้และทำไม ใครบางคนช่วยเปรียบเทียบและเปรียบเทียบวิธีการเหล่านี้ได้ไหม ขอบคุณ.y=Beaxy=Beaxy = Be^{ax}

6
การระบุค่าผิดปกติสำหรับการถดถอยเชิงเส้น
ฉันกำลังวิจัยเกี่ยวกับการตอบสนองการทำงานของไร ฉันต้องการทำการถดถอยเพื่อประเมินพารามิเตอร์ (อัตราการโจมตีและเวลาจัดการ) ของฟังก์ชัน Rogers type II ฉันมีชุดข้อมูลของการวัด ฉันจะกำหนดค่าผิดปกติได้ดีที่สุดอย่างไร สำหรับการถดถอยของฉันฉันใช้สคริปต์ต่อไปนี้ใน R (การถดถอยเชิงเส้นที่ไม่ใช่): (dateet เป็นไฟล์ข้อความ 2 คอลัมน์แบบง่าย ๆ ที่เรียกว่าdata.txtไฟล์ที่มีN0ค่า (จำนวนเหยื่อเริ่มต้น) และFRค่า (จำนวนเหยื่อกินในช่วง 24 ชั่วโมง): library("nlstools") dat <- read.delim("C:/data.txt") #Rogers type II model a <- c(0,50) b <- c(0,40) plot(FR~N0,main="Rogers II normaal",xlim=a,ylim=b,xlab="N0",ylab="FR") rogers.predII <- function(N0,a,h,T) {N0 - lambertW(a*h*N0*exp(-a*(T-h*N0)))/(a*h)} params1 <- list(attackR3_N=0.04,Th3_N=1.46) RogersII_N …

2
ค่าเฉลี่ยความหมายแบบมีเงื่อนไขหมายถึงความเป็นกลางและความสอดคล้องของตัวประมาณค่า OLS
พิจารณาโมเดลการถดถอยหลายแบบต่อไปนี้:Y=Xβ+Zδ+U.(1)(1)Y=Xβ+Zδ+U.Y=X\beta+Z\delta+U.\tag{1} นี่คือคือคอลัมน์เวกเตอร์ aเมทริกซ์ ; aคอลัมน์เวกเตอร์ aเมทริกซ์; aเวกเตอร์คอลัมน์; และ , ข้อผิดพลาด, เวกเตอร์คอลัมน์YYYn×1n×1n\times 1XXXn×(k+1)n×(k+1)n\times (k+1)ββ\beta(k+1)×1(k+1)×1(k+1)\times 1ZZZn×ln×ln\times lδδ\deltal×1l×1l\times 1UUUn×1n×1n\times1 คำถาม อาจารย์ของฉันหนังสือแนะนำเศรษฐมิติฉบับที่ 3 โดย James H. Stock and Mark W. Watson, p. 281 และเศรษฐมิติ: Honor's Exam Review Session (PDF) , p. 7 ได้แสดงต่อไปนี้กับฉัน หากเราถือว่าสิ่งที่เรียกว่าความเป็นอิสระแบบมีเงื่อนไขซึ่งตามคำจำกัดความหมายความว่าE(U|X,Z)=E(U|Z),(2)(2)E(U|X,Z)=E(U|Z),E(U|X,Z)=E(U|Z),\tag{2} และถ้าการสันนิษฐานของสี่เหลี่ยมจัตุรัสน้อยที่สุดเป็นไปตามเงื่อนไขยกเว้นค่าศูนย์ที่เป็นเงื่อนไข (ดังนั้นเราจึงถือว่า ) (ดู 1 -3 ด้านล่าง),E(U|X,Z)=0E(U|X,Z)=0E(U|X,Z)=0E(U|X,Z)=E(U|Z)≠0E(U|X,Z)=E(U|Z)≠0E(U|X,Z)=E(U|Z) \neq 0 จากนั้นตัวประมาณ …

3
การตัดสินใจระหว่างตัวแบบการถดถอยเชิงเส้นหรือตัวแบบการถดถอยเชิงเส้น
เราควรเลือกระหว่างการใช้โมเดลการถดถอยเชิงเส้นหรือแบบจำลองการถดถอยเชิงเส้นอย่างไร เป้าหมายของฉันคือการทำนาย Y ในกรณีของชุดข้อมูลและy ที่เรียบง่ายฉันสามารถตัดสินใจได้อย่างง่ายดายว่ารูปแบบการถดถอยควรใช้โดยการพล็อตพล็อตกระจายxxxyyy ในกรณีที่มีหลายตัวแปรเช่นและY ฉันจะตัดสินใจได้อย่างไรว่าจะใช้รูปแบบการถดถอยแบบใด นั่นคือฉันจะตัดสินใจเกี่ยวกับการใช้โมเดลเชิงเส้นอย่างง่ายหรือแบบจำลองเชิงเส้นแบบไม่ได้เช่น quadric, cubic เป็นต้นx1,x2,...xnx1,x2,...xnx_1,x_2,...x_nyyy มีเทคนิคหรือวิธีการทางสถิติหรือแปลงกราฟิกเพื่ออนุมานและตัดสินใจว่าจะใช้รูปแบบการถดถอยหรือไม่?

3
เกณฑ์และการตัดสินใจสำหรับความไม่เป็นเส้นตรงในแบบจำลองทางสถิติคืออะไร
ฉันหวังว่าคำถามทั่วไปต่อไปนี้จะสมเหตุสมผล โปรดทราบว่าสำหรับวัตถุประสงค์ของคำถามนี้โดยเฉพาะฉันไม่สนใจเหตุผลทางทฤษฎี (โดเมนหัวเรื่อง) สำหรับการแนะนำที่ไม่ใช่เชิงเส้น ดังนั้นฉันจะกำหนดคำถามแบบเต็มดังนี้: กรอบตรรกะคืออะไร( เกณฑ์และหากเป็นไปได้กระบวนการตัดสินใจ ) สำหรับการนำเสนอแบบไม่เป็นเชิงเส้นในแบบจำลองเชิงสถิติด้วยเหตุผลนอกเหนือจากเชิงทฤษฎี (โดเมนเรื่อง)? เช่นเคยทรัพยากรและการอ้างอิงที่เกี่ยวข้องก็ยินดีต้อนรับเช่นกัน

3
จะประเมินความดีของแบบที่ไม่เชิงเส้นได้อย่างไร [ปิด]
เป็นการยากที่จะบอกสิ่งที่ถูกถามที่นี่ คำถามนี้คลุมเครือคลุมเครือไม่สมบูรณ์กว้างเกินไปหรือโวหารและไม่สามารถตอบได้อย่างสมเหตุสมผลในรูปแบบปัจจุบัน สำหรับความช่วยเหลือในการทำความเข้าใจคำถามนี้เพื่อที่จะสามารถเปิด, ไปที่ศูนย์ช่วยเหลือ ปิดให้บริการใน7 ปีที่ผ่านมา ฉันมีรูปแบบไม่เชิงเส้นโดยที่Φคือ cdf ของการแจกแจงแบบปกติมาตรฐานและ f เป็นแบบไม่เชิงเส้น (ดูด้านล่าง) ฉันต้องการทดสอบความดีพอดีของโมเดลนี้ด้วยพารามิเตอร์aต่อข้อมูลของฉัน( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x n , y n )y=Φ(f(x,a))+εy=Φ(f(x,a))+εy=\Phi(f(x,a)) + \varepsilonΦΦ\Phiaaa(x1,y1),(x2,y2),…,(xn,yn)(x1,y1),(x2,y2),…,(xn,yn)(x_1,y_1),(x_2,y_2),\dots,(x_n,y_n)หลังจากที่มีการใช้ในการประมาณค่าความน่าจะเป็นสูงสุดที่จะหา การทดสอบที่เหมาะสมจะเป็นอย่างไร ฉันต้องการใช้การทดสอบนี้เพื่อติดป้ายกำกับข้อมูลไม่ดีพอและระบุว่าควรรวบรวมข้อมูลเพิ่มเติมหรือไม่aaa ผมมองในการใช้อันซ์ซึ่งเปรียบเทียบรุ่นนี้กับรุ่นอิ่มตัวที่มีของการทดสอบของความดีของพอดีสอดคล้องกันโดยใช้กระจาย สิ่งนี้จะเหมาะสมหรือไม่ สิ่งที่ฉันได้อ่านเกี่ยวกับความเบี่ยงเบนส่วนใหญ่นั้นนำไปใช้กับ GLMs ซึ่งไม่ใช่สิ่งที่ฉันมี หากการทดสอบแบบเบี่ยงเบนมีความเหมาะสมสมมติฐานใดที่จำเป็นต้องมีเพื่อให้การทดสอบมีผลχ2n−1χn−12\chi^2_{n-1} อัปเดต: สำหรับx>1,a>0ในกรณีนี้ช่วยได้f=x−1ax2+1√f=x−1ax2+1f = …

1
อนุญาตให้รวมเวลาเป็นตัวทำนายในโมเดลผสมหรือไม่
ฉันเชื่อเสมอว่าเวลาไม่ควรใช้เป็นตัวทำนายในการถดถอย (รวมถึง gam's) เพราะหลังจากนั้นเราจะเพียงแค่ "อธิบาย" แนวโน้มของตัวเอง หากจุดประสงค์ของการศึกษาคือการหาพารามิเตอร์ด้านสิ่งแวดล้อมเช่นอุณหภูมิและอื่น ๆ ที่อธิบายความแปรปรวนสมมติว่ากิจกรรมของสัตว์แล้วฉันสงสัยว่าจะใช้เวลานานแค่ไหน? เป็นพร็อกซีสำหรับพารามิเตอร์ที่ไม่วัดหรือไม่? คุณสามารถดูแนวโน้มของเวลาเกี่ยวกับข้อมูลกิจกรรมของปลาโลมาที่ท่าเรือได้ที่นี่: -> จะจัดการช่องว่างในอนุกรมเวลาเมื่อใช้ GAMM ได้อย่างไร ปัญหาของฉันคือเมื่อฉันรวมเวลาในแบบจำลองของฉัน (วัดเป็นวันจูเลียน) จากนั้น 90% ของพารามิเตอร์อื่น ๆ ทั้งหมดจะไม่มีนัยสำคัญ ถ้าฉันปล่อยให้เวลาหมดแล้วบางคนก็มีความสำคัญ ... คำถามคือ: อนุญาตให้ใช้เวลาเป็นตัวพยากรณ์ (อาจจำเป็นหรือไม่) หรือทำให้การวิเคราะห์ของฉันยุ่งเหยิง? ขอบคุณมากล่วงหน้า

1
ความสำคัญของสัมประสิทธิ์การถดถอย (GAM) เมื่อความน่าจะเป็นแบบจำลองไม่สูงกว่าค่า null อย่างมีนัยสำคัญ
ฉันใช้การถดถอยแบบอิง GAM โดยใช้gamlssแพ็คเกจ R และสมมติว่ามีการกระจายข้อมูลเบต้าที่ไม่มีศูนย์ mymodel = gamlss(response ~ input, family=BEZI)ฉันมีเพียงตัวแปรอธิบายเดียวในรูปแบบของฉันดังนั้นมันเป็นพื้น: อัลกอริทึมทำให้ฉันสัมประสิทธิ์สำหรับผลกระทบของตัวแปรอธิบายในค่าเฉลี่ย ( ) และค่า p ที่เกี่ยวข้องสำหรับคล้าย:kkkμμ\muk(input)=0k(input)=0k(\text{input})=0 Mu link function: logit Mu Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -2.58051 0.03766 -68.521 0.000e+00 input -0.09134 0.01683 -5.428 6.118e-08 ดังที่คุณเห็นในตัวอย่างด้านบนสมมติฐานของถูกปฏิเสธด้วยความมั่นใจสูงk(input)=0k(input)=0k(\text{input})=0 จากนั้นฉันเรียกใช้โมเดลว่าง: null = gamlss(response ~ 1, family=BEZI)และเปรียบเทียบความน่าจะเป็นโดยใช้การทดสอบอัตราส่วนความน่าจะเป็น: p=1-pchisq(-2*(logLik(null)[1]-logLik(mymodel)[1]), df(mymodel)-df(null)). ในหลายกรณีฉันได้รับแม้ว่าค่าสัมประสิทธิ์ที่อินพุตมีการรายงานว่ามีความสำคัญสูง …

3
การประมาณค่าแบบจำลองเลขชี้กำลัง
รูปแบบเลขชี้กำลังเป็นรูปแบบที่อธิบายโดยสมการต่อไปนี้: yi^=β0⋅eβ1x1i+…+βkxkiyi^=β0⋅eβ1x1i+…+βkxki\hat{y_{i}}=\beta_{0}\cdot e^{\beta_{1}x_{1i}+\ldots+\beta_{k}x_{ki}} วิธีที่ใช้กันมากที่สุดที่ใช้ในการประเมินแบบจำลองนี้คือการทำให้เป็นเส้นตรงซึ่งสามารถทำได้อย่างง่ายดายโดยการคำนวณลอการิทึมของทั้งสองฝ่าย อะไรคือแนวทางอื่น ๆ ? ฉันสนใจเป็นพิเศษสำหรับผู้ที่สามารถจัดการในการสังเกตyi=0yi=0y_{i}=0 อัปเดต 31.01.2011 ฉันตระหนักถึงความจริงที่ว่ารุ่นนี้ไม่สามารถสร้างศูนย์ได้ ฉันจะอธิบายรายละเอียดเล็กน้อยเกี่ยวกับสิ่งที่ฉันทำตัวแบบและทำไมฉันถึงเลือกรุ่นนี้ สมมติว่าเราต้องการทำนายจำนวนเงินที่ลูกค้าใช้ในร้าน แน่นอนว่าลูกค้าจำนวนมากกำลังมองหาอยู่และพวกเขาไม่ได้ซื้ออะไรเลยทำไมมี 0 ฉันไม่ต้องการใช้แบบจำลองเชิงเส้นเพราะมันสร้างค่าลบจำนวนมากซึ่งไม่สมเหตุสมผล เหตุผลอื่นคือโมเดลนี้ทำงานได้ดีจริง ๆ ดีกว่าแบบเส้นตรงมาก ฉันใช้อัลกอริทึมทางพันธุกรรมเพื่อประมาณค่าพารามิเตอร์เหล่านั้นดังนั้นมันจึงไม่ใช่วิธีการทางวิทยาศาสตร์ ตอนนี้ฉันอยากจะรู้วิธีจัดการกับปัญหาโดยใช้วิธีการทางวิทยาศาสตร์มากขึ้น สามารถสันนิษฐานได้ว่าตัวแปรส่วนใหญ่หรือทั้งหมดเป็นตัวแปรไบนารี่

1
วิธีการคำนวณช่วงความมั่นใจ 95% สำหรับสมการที่ไม่ใช่เชิงเส้น?
ฉันมีสมการในการทำนายน้ำหนักของ manatees จากอายุของพวกเขาในวัน (dias ในโปรตุเกส): R <- function(a, b, c, dias) c + a*(1 - exp(-b*dias)) ฉันสร้างแบบจำลองมันใน R โดยใช้ nls () และได้กราฟิกนี้: ตอนนี้ฉันต้องการคำนวณช่วงความมั่นใจ 95% และพล็อตมันในกราฟิก ฉันใช้ขีด จำกัด ล่างและสูงกว่าสำหรับแต่ละตัวแปร a, b และ c ดังนี้: lower a = a - 1.96*(standard error of a) higher a = a + 1.96*(standard error of …

2
จะสรุปและเปรียบเทียบความสัมพันธ์ที่ไม่ใช่เชิงเส้นได้อย่างไร
ฉันมีข้อมูลเกี่ยวกับเปอร์เซ็นต์ของอินทรียวัตถุในตะกอนทะเลสาบจาก 0 ซม. (กล่าวคือตะกอน - อินเทอร์เฟซน้ำ) ลงไป 9 ซม. สำหรับทะเลสาบประมาณ 25 ในแต่ละทะเลสาบ 2 แกนถูกนำมาจากแต่ละสถานที่ดังนั้นฉันจึงมีการทำซ้ำ 2 เปอร์เซ็นต์ของปริมาณอินทรียวัตถุในแต่ละระดับความลึกของตะกอนสำหรับแต่ละทะเลสาบ ฉันสนใจที่จะเปรียบเทียบความแตกต่างของความสัมพันธ์ระหว่างอินทรียวัตถุเปอร์เซ็นต์กับความลึกของตะกอนในทะเลสาบ (เช่นความชัน) ในบางทะเลสาบความสัมพันธ์ระหว่างเปอร์เซ็นต์อินทรียวัตถุและความลึกของตะกอนปรากฏเป็นเส้นตรง แต่ในกรณีอื่นความสัมพันธ์นั้นซับซ้อนมากขึ้น (ดูตัวอย่างด้านล่าง) ความคิดเริ่มต้นของฉันคือการปรับความสัมพันธ์เชิงเส้นให้เหมาะสมกับทั้งเส้นโค้งทั้งหมดหรือส่วนย่อยของเส้นโค้งถ้ามันเป็นเส้นตรง "ส่วนใหญ่" และเปรียบเทียบทะเลสาบเหล่านั้นเท่านั้นที่พบความสัมพันธ์เชิงเส้นที่สำคัญ อย่างไรก็ตามฉันไม่พอใจกับวิธีการนี้ในการที่จะต้องกำจัดข้อมูลด้วยเหตุผลอื่นที่ไม่ใช่แบบจำลองเชิงเส้นและไม่สนใจข้อมูลที่น่าสนใจเกี่ยวกับความสัมพันธ์ระหว่างเปอร์เซ็นต์อินทรีย์วัตถุและความลึกของตะกอน อะไรจะเป็นวิธีที่ดีในการสรุปและเปรียบเทียบโค้งจากทะเลสาบต่าง ๆ ขอบคุณ ตัวอย่างเส้นโค้ง: ในทุกกรณีแกน y คืออินทรียวัตถุร้อยละในตะกอนและแกน x คือความลึกของตะกอนที่ 0 = อินเทอร์เฟซของตะกอนน้ำ ตัวอย่างเชิงเส้นที่ดี: 2 ตัวอย่างที่ไม่ใช่เชิงเส้น: ตัวอย่างที่ไม่มีความสัมพันธ์ที่ชัดเจน:

1
รูปแบบการเรียนรู้แบบลึกใดที่สามารถจำแนกหมวดหมู่ที่ไม่ได้เกิดร่วมกัน
ตัวอย่าง: ฉันมีประโยคในรายละเอียดงาน: "วิศวกรอาวุโสของ Java ในสหราชอาณาจักร" ฉันต้องการที่จะใช้รูปแบบการเรียนรู้ที่ลึกที่จะคาดการณ์ว่ามันเป็น 2 ประเภทและEnglish IT jobsถ้าฉันใช้รูปแบบการจำแนกแบบดั้งเดิมมันสามารถทำนายได้เพียง 1 ฉลากที่มีsoftmaxฟังก์ชั่นที่ชั้นสุดท้าย ดังนั้นฉันสามารถใช้โครงข่ายประสาทเทียม 2 แบบในการทำนาย "ใช่" / "ไม่" กับทั้งสองหมวดหมู่ แต่ถ้าเรามีหมวดหมู่มากขึ้นมันก็แพงเกินไป ดังนั้นเราจึงมีรูปแบบการเรียนรู้หรือการเรียนรู้ด้วยเครื่องเพื่อคาดการณ์ 2 หมวดหมู่ขึ้นไปพร้อมกันหรือไม่ "แก้ไข": ด้วย 3 ป้ายกำกับโดยวิธีดั้งเดิมมันจะถูกเข้ารหัสโดย [1,0,0] แต่ในกรณีของฉันมันจะถูกเข้ารหัสโดย [1,1,0] หรือ [1,1,1] ตัวอย่าง: หากเรามี 3 ป้ายกำกับและประโยคอาจเหมาะกับป้ายกำกับเหล่านี้ทั้งหมด ดังนั้นถ้าผลลัพธ์จากฟังก์ชัน softmax คือ [0.45, 0.35, 0.2] เราควรแบ่งมันออกเป็น 3 label หรือ 2 label หรืออาจเป็นหนึ่ง? ปัญหาหลักเมื่อเราทำคือ: …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

3
การเลือก k knots ในการถดถอยเส้นโค้งที่ราบเรียบเทียบเท่ากับตัวแปรเด็ดขาด k?
ฉันกำลังทำงานกับแบบจำลองการคาดการณ์ที่อายุของผู้ป่วย (จำนวนเต็มวัดเป็นปี) เป็นหนึ่งในตัวแปรตัวทำนาย ความสัมพันธ์แบบไม่เชิงเส้นที่แข็งแกร่งระหว่างอายุและความเสี่ยงของการเข้าพักในโรงพยาบาลจะเห็นได้ชัด: ฉันกำลังพิจารณาว่าการทำให้เส้นโค้งการถดถอยเป็นไปอย่างราบรื่นสำหรับผู้ป่วยอายุ ตามองค์ประกอบของการเรียนรู้ทางสถิติ (Hastie et al, 2009, p.151) ตำแหน่งปมที่ดีที่สุดคือหนึ่งปมต่อค่าที่ไม่ซ้ำกันของอายุสมาชิก ระบุว่าฉันรักษาอายุเป็นจำนวนเต็มเป็น spline ปรับลงโทษให้เรียบเพื่อเรียกใช้สันเขาถดถอยหรือ lasso กับ 101 ตัวบ่งชี้ตัวแปรอายุที่แตกต่างกันหนึ่งค่าต่ออายุพบในชุดข้อมูล (ลบหนึ่งสำหรับการอ้างอิง)? การหลีกเลี่ยงค่าพารามิเตอร์มากเกินไปนั้นจะถูกหลีกเลี่ยงเนื่องจากค่าสัมประสิทธิ์ของตัวบ่งชี้อายุแต่ละตัวนั้นหดตัวลงไปเป็นศูนย์

3
การทดสอบทางสถิติเพื่อดูว่าความสัมพันธ์เป็นแบบเชิงเส้นหรือไม่เชิงเส้น
ฉันมีชุดข้อมูลตัวอย่างดังนี้: Volume <- seq(1,20,0.1) var1 <- 100 x2 <- 1000000 x3 <- 30 x4 = sqrt(x2/pi) H = x3 - Volume r = (x4*H)/(H + Volume) Power = (var1*x2)/(100*(pi*Volume/3)*(x4*x4 + x4*r + r*r)) Power <- jitter(Power, factor = 1, amount = 0.1) plot(Volume,Power) จากรูปสามารถบอกได้ว่าระหว่างความสัมพันธ์ 'ปริมาตร' และ 'พลัง' บางช่วงนั้นเป็นเส้นตรงจากนั้นเมื่อ 'ปริมาณ' ค่อนข้างน้อยความสัมพันธ์จะกลายเป็นไม่เป็นเชิงเส้น …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.