คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว

2
วิธีการจำลองข้อมูลเพื่อแสดงเอฟเฟกต์แบบผสมด้วย R (lme4)
ในฐานะที่เป็นคู่ของโพสต์นี้ฉันทำงานเกี่ยวกับการจำลองข้อมูลที่มีตัวแปรต่อเนื่องให้ยืมตัวเองเพื่อดักความสัมพันธ์และความลาดชัน แม้ว่าจะมีโพสต์ที่ยอดเยี่ยมเกี่ยวกับหัวข้อนี้ในเว็บไซต์และนอกไซต์แต่ฉันมีปัญหาในการหาตัวอย่างตั้งแต่ต้นจนจบด้วยข้อมูลจำลองที่ขนานกับสถานการณ์ในชีวิตจริงที่เรียบง่าย ดังนั้นคำถามคือวิธีการจำลองข้อมูลเหล่านี้และการทดสอบ "" lmerมันด้วย ไม่มีอะไรใหม่สำหรับหลาย ๆ คน แต่อาจเป็นประโยชน์สำหรับคนอื่น ๆ ที่ค้นหาเพื่อทำความเข้าใจกับโมเดลที่หลากหลาย

2
ปรับสเกลตัวแปรเป็นข้อมูลนับ - ถูกต้องหรือไม่?
ในบทความนี้ (ใช้ได้อย่างอิสระผ่าน PubMed กลาง) ผู้เขียนใช้การถดถอยแบบทวินามเชิงลบเพื่อทำแบบจำลองคะแนนในเครื่องมือคัดกรอง 10 ข้อที่มีคะแนน 0-40 ขั้นตอนนี้จะถือว่าข้อมูลมีการนับซึ่งเห็นได้ชัดว่าไม่ใช่ในกรณีนี้ ฉันต้องการความคิดเห็นของคุณว่าวิธีนี้เป็นที่ยอมรับหรือไม่เพราะบางครั้งฉันใช้เครื่องมือเดียวกันหรือวิธีที่คล้ายกันในการทำงานของฉัน ถ้าไม่ฉันต้องการทราบว่ามีทางเลือกที่ยอมรับได้หรือไม่ รายละเอียดเพิ่มเติมด้านล่าง: มาตราส่วนที่ใช้คือแบบทดสอบความผิดปกติในการใช้แอลกอฮอล์ (AUDIT) ซึ่งเป็นแบบสอบถาม 10 ข้อที่ออกแบบมาเป็นเครื่องมือคัดกรองสำหรับความผิดปกติในการใช้แอลกอฮอล์และการดื่มสุรา / เป็นอันตราย เครื่องมือนี้ทำคะแนนจาก 0 ถึง 40 และโดยทั่วไปแล้วผลลัพธ์จะเอียงไปทางซ้ายอย่างมาก เพื่อความเข้าใจของฉันการใช้ข้อมูลนับถือว่าค่าทั้งหมดที่ "นับ" เป็นอิสระจากกัน - ผู้ป่วยที่มาถึงแผนกฉุกเฉินในแต่ละวันจำนวนผู้เสียชีวิตในบางกลุ่มและอื่น ๆ ทั้งหมดเป็นอิสระจากกัน แม้ว่าจะขึ้นอยู่กับตัวแปรพื้นฐาน นอกจากนี้ฉันคิดว่าไม่สามารถนับจำนวนสูงสุดที่อนุญาตเมื่อใช้ข้อมูลนับได้ แต่ฉันคิดว่าสมมติฐานนี้สามารถผ่อนคลายได้เมื่อค่าสูงสุดทางทฤษฎีสูงมากเมื่อเปรียบเทียบกับค่าสูงสุดที่สังเกตได้ในข้อมูล? เมื่อใช้ระดับ AUDIT เราไม่ได้นับจริง เรามี 10 รายการที่มีคะแนนรวมสูงสุด 40 ถึงแม้ว่าคะแนนสูงสุดนั้นจะไม่ค่อยเห็นในทางปฏิบัติ คะแนนในรายการมีความสัมพันธ์กันตามธรรมชาติ สมมติฐานที่จำเป็นต้องใช้ข้อมูลนับจึงถูกละเมิด แต่นี่ยังเป็นวิธีที่ยอมรับได้หรือไม่? การละเมิดสมมติฐานมีความร้ายแรงเพียงใด? มีสถานการณ์บางอย่างที่วิธีนี้สามารถยอมรับได้มากกว่าหรือไม่? มีทางเลือกอื่นสำหรับวิธีการนี้ที่ไม่ได้เกี่ยวข้องกับการลดขนาดตัวแปรเป็นหมวดหมู่หรือไม่?

2
RMSE (Root Mean Squared Error) สำหรับโมเดลโลจิสติก
ฉันมีคำถามเกี่ยวกับความถูกต้องของการใช้ RMSE (Root Mean Squared Error) เพื่อเปรียบเทียบโมเดลโลจิสติกที่แตกต่างกัน การตอบสนองเป็นอย่างใดอย่างหนึ่ง0หรือ1และการคาดการณ์ที่มีความน่าจะเป็นระหว่าง0- 1? วิธีที่ใช้ด้านล่างนี้ใช้ได้กับการตอบกลับแบบไบนารีหรือไม่ # Using glmnet require(glmnet) load(url("https://github.com/cran/glmnet/raw/master /data/BinomialExample.RData")) cvfit = cv.glmnet(x, y, family = "binomial", type.measure = "mse") A <- predict(cvfit, newx = x, s = "lambda.min", type = "response") RMSE1 <- mean((y - A)^2) # 0.05816881 # glm mydata <- read.csv("https://stats.idre.ucla.edu/stat/data/binary.csv") …

1
เมื่อทำการ parametrizing ฟังก์ชั่นความน่าจะเป็นอีกครั้งมันก็เพียงพอแล้วที่จะเสียบตัวแปรที่แปลงแล้วแทนที่จะเป็นสูตรการเปลี่ยนแปลงของตัวแปรหรือไม่?
สมมติว่าฉันกำลังพยายามสร้างความน่าจะเป็นซ้ำให้กับฟังก์ชันที่มีการแจกแจงแบบเอ็กซ์โปเนนเชียล หากฟังก์ชันความน่าจะเป็นดั้งเดิมของฉันคือ: p ( y∣ θ ) = θ e- θ yพี(Y|θ)=θอี-θY p(y \mid \theta) = \theta e^{-\theta y} และฉันต้องการอีกครั้ง parametrize โดยใช้เนื่องจากไม่ได้เป็นตัวแปรสุ่ม แต่พารามิเตอร์มันเพียงพอที่จะเสียบ?ϕ = 1θφ=1θ\phi = \frac{1}{\theta}θθ\theta สิ่งที่ฉันหมายถึงอย่างชัดเจนคือ: p ( y∣ ϕ = 1θ) = 1φอี- 1φYพี(Y|φ=1θ)=1φอี-1φY p\left(y \mid \phi = \frac{1}{\theta}\right) = \frac{1}{\phi} e^{-\frac{1}{\phi} y} ถ้าเป็นเช่นนั้นฉันไม่แน่ใจว่าทฤษฎีที่อยู่เบื้องหลังเรื่องนี้คืออะไร ความเข้าใจของฉันคือฟังก์ชั่นความน่าจะเป็นเป็นหน้าที่ของพารามิเตอร์ดังนั้นทำไมฉันไม่จำเป็นต้องใช้การเปลี่ยนแปลงของสูตรตัวแปรทำให้ฉันสับสน ความช่วยเหลือใด ๆ …

2
เราจะพูดอะไรเกี่ยวกับแบบจำลองของข้อมูลเชิงสังเกตในกรณีที่ไม่มีเครื่องมือ?
ฉันเคยถามคำถามเกี่ยวกับเอกสารที่ตีพิมพ์มาแล้วในหลายพื้นที่ที่ใช้การถดถอย (และแบบจำลองที่เกี่ยวข้องเช่นแบบจำลองแบบพาเนลหรือ GLMs) ในข้อมูลเชิงสังเกต (เช่นข้อมูลที่ไม่ได้ผลิตโดยการทดลองที่ควบคุม ในหลายกรณี - แต่ไม่เสมอไป - ข้อมูลถูกตรวจพบตลอดเวลา) แต่เมื่อไม่มีความพยายามในการแนะนำตัวแปรเครื่องมือ ฉันได้ทำการวิพากษ์วิจารณ์จำนวนมากในการตอบสนอง (เช่นการอธิบายปัญหาเกี่ยวกับอคติเมื่อตัวแปรสำคัญอาจหายไป) แต่เนื่องจากคนอื่น ๆ ที่นี่จะไม่สงสัยเลยว่ามีความรู้มากกว่าฉันในหัวข้อนี้ฉันคิดว่าฉันถาม: อะไรคือประเด็นสำคัญ / ผลที่ตามมาของการพยายามหาข้อสรุปเกี่ยวกับความสัมพันธ์ (โดยเฉพาะ แต่ไม่ จำกัด เฉพาะการสรุปเชิงสาเหตุ) ในสถานการณ์เช่นนี้? มีประโยชน์อะไรกับการศึกษาที่เหมาะกับแบบจำลองดังกล่าวในกรณีที่ไม่มีเครื่องมือหรือไม่? มีการอ้างอิงที่ดีอะไรบ้าง (หนังสือหรือเอกสาร) เกี่ยวกับปัญหาของการสร้างแบบจำลอง (โดยเฉพาะอย่างยิ่งที่มีแรงจูงใจทางด้านเทคนิคที่ไม่ชัดเจนของผลที่ตามมาเนื่องจากโดยทั่วไปแล้วคนที่ถามมีภูมิหลังที่หลากหลาย กระดาษ? การอภิปรายเกี่ยวกับข้อควรระวัง / ปัญหาเกี่ยวกับเครื่องมือจะเป็นประโยชน์เช่นกัน (การอ้างอิงพื้นฐานเกี่ยวกับตัวแปรเครื่องมืออยู่ที่นี่แม้ว่าคุณจะต้องเพิ่มสิ่งใดสิ่งหนึ่งก็จะเป็นประโยชน์เช่นกัน) ตัวชี้ไปยังตัวอย่างที่ใช้งานได้ดีของการค้นหาและการใช้เครื่องมือจะเป็นโบนัส แต่ไม่ใช่ประเด็นสำคัญสำหรับคำถามนี้ [ฉันจะชี้คนอื่นให้คำตอบที่ดีที่นี่เช่นคำถามมาหาฉัน ฉันอาจเพิ่มตัวอย่างหนึ่งหรือสองตัวอย่างเมื่อได้รับ]

1
ทำไมระบบการให้คะแนน Elo ใช้กฎการอัปเดตที่ไม่ถูกต้อง
ระบบการจัดระดับ Elo ใช้อัลกอริธึมการลดความลาดชันแบบลาดชันของฟังก์ชั่นการสูญเสียข้ามเอนโทรปีระหว่างความน่าจะเป็นที่คาดหวังและที่สังเกตได้ของผลลัพธ์ในการเปรียบเทียบแบบคู่ เราสามารถเขียนฟังก์ชั่นการสูญเสียทั่วไปเป็น E= - ∑n , ฉันพีผมL o กรัม( qผม)E=−∑n,ipiLog(qi) E=-\sum_{n,i} p_i Log (q_i) ที่ผลรวมจะดำเนินการมากกว่าผลลัพธ์และฝ่ายตรงข้ามทั้งหมดn คือความถี่ที่สังเกตได้ของเหตุการณ์และถึงความถี่ที่คาดหวังn P ฉันฉันถามฉันผมผมinnnพีผมพีผมp_iผมผม_iQผมQผมq_i ในกรณีที่มีเพียงสองผลลัพธ์ที่เป็นไปได้ (ชนะหรือหลวม) และหนึ่งฝ่ายตรงข้ามที่เรามี E= - p L o g( q) - ( 1 - p ) L o g( 1 - q)E=-พีLโอก.(Q)-(1-พี)Lโอก.(1-Q) E=-p Log (q)-(1-p)Log(1-q) ถ้าคืออันดับของผู้เล่นและคืออันดับของผู้เล่นเราสามารถสร้างความน่าจะเป็นที่คาดหวังในฐานะ จากนั้นกฎการอัพเดทลาดลงทางลาดชันฉันπ j j q …

1
ทำไมส่วนประกอบทั้งหมดของ PLS จึงอธิบายเพียงส่วนหนึ่งของความแปรปรวนของข้อมูลต้นฉบับเท่านั้น
ฉันมีชุดข้อมูลซึ่งประกอบด้วยตัวแปร 10 ตัว ฉันวิ่งสี่เหลี่ยมน้อยที่สุดบางส่วน (PLS) เพื่อทำนายตัวแปรการตอบสนองเดียวโดยตัวแปร 10 ตัวเหล่านี้แยกส่วนประกอบ 10 PLS แล้วคำนวณความแปรปรวนของแต่ละองค์ประกอบ จากข้อมูลเดิมฉันได้รวมผลต่างของตัวแปรทั้งหมดซึ่งก็คือ 702 จากนั้นฉันก็แบ่งความแปรปรวนของส่วนประกอบ PLS แต่ละตัวด้วยผลรวมนี้เพื่อให้ได้เปอร์เซ็นต์ของความแปรปรวนที่อธิบายโดย PLS และส่วนประกอบทั้งหมดด้วยกันน่าประหลาดใจเพียงอธิบาย 44% ของความแปรปรวนดั้งเดิม คำอธิบายของสิ่งนั้นคืออะไร? ไม่ควรจะเป็น 100%

1
แยกแยะระหว่างเอฟเฟกต์ระยะสั้นและระยะยาว
ฉันอ่านบทความต่อไปนี้ในกระดาษ: ความจริงที่ว่ามีความแตกต่างระหว่างค่าสัมประสิทธิ์ระยะสั้นและระยะยาวเป็นผลมาจากข้อกำหนดของเราซึ่งรวมถึงตัวแปรภายนอกที่ล่าช้า พวกเขาใช้การถดถอยในความแตกต่างแรกและรวมถึงความล่าช้าของตัวแปรตาม ตอนนี้พวกเขาโต้แย้งว่าถ้าคุณดูการประมาณค่า (เช่นเรียกการประมาณนี้ว่า ) จากผลลัพธ์นั่นคือผลระยะสั้นของต่อตัวแปรตาม นอกจากนี้พวกเขายืนยันว่าการดูที่ / (1 - การประเมินความล่าช้า) ให้ผลระยะยาวของ p กับตัวแปรตามพีพีpพีพีpพีพีp สามารถดูเอกสารได้ที่: https://www.ecb.europa.eu/pub/pdf/scpwps/ecbwp1328.pdfและการอภิปรายเกี่ยวกับผลกระทบระยะสั้น / ยาวในหน้า 20 ในเชิงอรรถ 23 ฉันไม่เข้าใจว่าทำไมคุณสามารถแยกแยะความแตกต่างระหว่างเอฟเฟ็กต์ระยะสั้นและระยะยาวของกับตัวแปรตาม หากมีคนอธิบายความคิดของพวกเขาให้ละเอียดยิ่งขึ้นมันก็จะมีประโยชน์มากพีพีp

1
ชี้แจงเกี่ยวกับการอ่านคำย่อ
ต่อไปนี้เป็น Nomogram ที่สร้างขึ้นจากชุดข้อมูล mtcars พร้อมแพ็กเกจ rms สำหรับสูตร: mpg ~ wt + am + qsec ตัวแบบนั้นดูดีด้วย R2 ที่ 0.85 และ P <0.00001 > mod Linear Regression Model ols(formula = mpg ~ wt + am + qsec, data = mtcars) Model Likelihood Discrimination Ratio Test Indexes Obs 32 LR chi2 60.64 R2 …

4
วิธีหลีกเลี่ยงคำ log (0) ในการถดถอย
ฉันติดตามเวกเตอร์ X และ Y อย่างง่าย: > X [1] 1.000 0.063 0.031 0.012 0.005 0.000 > Y [1] 1.000 1.000 1.000 0.961 0.884 0.000 > > plot(X,Y) ฉันต้องการทำการถดถอยโดยใช้บันทึกของ X เพื่อหลีกเลี่ยงการบันทึก (0) ฉันพยายามใส่ +1 หรือ +0.1 หรือ +0.00001 หรือ +0.000000000000001: > summary(lm(Y~log(X))) Error in lm.fit(x, y, offset = offset, singular.ok = singular.ok, …

2
การประเมินการเดินแบบสุ่มด้วย AR (1)
เมื่อฉันประเมินการเดินแบบสุ่มด้วย AR (1) สัมประสิทธิ์ใกล้เคียงกับ 1 มาก แต่น้อยกว่าเสมอ อะไรคือเหตุผลทางคณิตศาสตร์ที่สัมประสิทธิ์ไม่มากกว่าหนึ่ง?

1
การถดถอยด้วยความถี่ที่แตกต่างกัน
ฉันพยายามเรียกใช้การถดถอยอย่างง่าย แต่พบว่าตัวแปร Y ของฉันเป็นความถี่รายเดือนและตัวแปร x ถูกพบในความถี่รายปี ฉันจะขอบคุณคำแนะนำบางอย่างเกี่ยวกับวิธีการที่เหมาะสมซึ่งอาจใช้สำหรับการถดถอยด้วยความถี่ที่แตกต่างกัน ขอบคุณมาก

3
การตัดสินใจระหว่างตัวแบบการถดถอยเชิงเส้นหรือตัวแบบการถดถอยเชิงเส้น
เราควรเลือกระหว่างการใช้โมเดลการถดถอยเชิงเส้นหรือแบบจำลองการถดถอยเชิงเส้นอย่างไร เป้าหมายของฉันคือการทำนาย Y ในกรณีของชุดข้อมูลและy ที่เรียบง่ายฉันสามารถตัดสินใจได้อย่างง่ายดายว่ารูปแบบการถดถอยควรใช้โดยการพล็อตพล็อตกระจายxxxyyy ในกรณีที่มีหลายตัวแปรเช่นและY ฉันจะตัดสินใจได้อย่างไรว่าจะใช้รูปแบบการถดถอยแบบใด นั่นคือฉันจะตัดสินใจเกี่ยวกับการใช้โมเดลเชิงเส้นอย่างง่ายหรือแบบจำลองเชิงเส้นแบบไม่ได้เช่น quadric, cubic เป็นต้นx1,x2,...xnx1,x2,...xnx_1,x_2,...x_nyyy มีเทคนิคหรือวิธีการทางสถิติหรือแปลงกราฟิกเพื่ออนุมานและตัดสินใจว่าจะใช้รูปแบบการถดถอยหรือไม่?

1
ฉันจะค้นหา p-value ของการถดถอยแบบอิสระ
ฉันมีตัวแปรบางอย่างและฉันสนใจที่จะค้นหาความสัมพันธ์ที่ไม่ใช่เชิงเส้นระหว่างพวกเขา ดังนั้นฉันจึงตัดสินใจใส่เดือยหรือดินเหลืองและพิมพ์พล็อตที่ดี (ดูรหัสด้านล่าง) แต่ฉันยังต้องการที่จะมีสถิติบางอย่างที่ทำให้ฉันมีความคิดว่าความสัมพันธ์นั้นเป็นเรื่องของการสุ่ม ... นั่นคือฉันต้องการค่า p โดยรวมบางอย่างเช่นฉันมีการถดถอยเชิงเส้น กล่าวอีกนัยหนึ่งฉันต้องรู้ว่าเส้นโค้งที่พอดีนั้นเหมาะสมหรือไม่เนื่องจากรหัสของฉันจะพอดีกับเส้นโค้งกับข้อมูลใด ๆ x <- rnorm(1000) y <- sin(x) + rnorm(1000, 0, 0.5) cor.test(x,y) plot(x, y, xlab = xlab, ylab = ylab) spl1 <- smooth.spline(x, y, tol = 1e-6, df = 8) lines(spl1, col = "green", lwd = 2) spl2 <- loess(y ~ …
10 r  regression  splines  loess 

2
ทำไมข้อผิดพลาดการวัดในตัวแปรตามไม่ทำให้เกิดผลลัพธ์
เมื่อมีข้อผิดพลาดในการวัดในตัวแปรอิสระฉันเข้าใจว่าผลลัพธ์นั้นจะเอนเอียงกับ 0 เมื่อตัวแปรที่ขึ้นอยู่กับการวัดที่มีข้อผิดพลาดพวกเขาบอกว่ามันมีผลต่อข้อผิดพลาดมาตรฐาน แต่สิ่งนี้ไม่สมเหตุสมผลสำหรับฉันเพราะเรา การประเมินผลของไม่ได้อยู่ในตัวแปรดั้งเดิมแต่มีผลต่ออื่น ๆรวมถึงข้อผิดพลาด ดังนั้นสิ่งนี้จะไม่ส่งผลกระทบต่อประมาณการ ในกรณีนี้ฉันสามารถใช้ตัวแปรเครื่องมือเพื่อลบปัญหานี้ได้หรือไม่XXXYYYYYY

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.