คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว

4
มันสมเหตุสมผลหรือไม่ที่จะเพิ่มคำกำลังสอง แต่ไม่ใช่เชิงเส้นตรงกับแบบจำลอง?
ฉันมีแบบจำลอง (ผสม) ที่หนึ่งในตัวทำนายของฉันควรจะมีการจัดลำดับความสำคัญก่อนที่จะเกี่ยวข้องกับสมการกำลังสองเท่านั้น (เนื่องจากการจัดการทดลอง) ดังนั้นฉันต้องการเพิ่มเฉพาะคำกำลังสองเข้ากับโมเดล มีสองสิ่งที่ขัดขวางไม่ให้ทำเช่นนั้น: ฉันคิดว่าฉันอ่านมาแล้วว่าคุณควรจะรวมพหุนามลำดับที่ต่ำลงไปเสมอ ฉันลืมที่ฉันพบมันและในวรรณคดีที่ฉันดู (เช่น Faraway, 2002; Fox, 2002) ฉันไม่สามารถหาคำอธิบายที่ดีได้ เมื่อฉันเพิ่มทั้งคำเชิงเส้นและกำลังสองทั้งสองมีความสำคัญ เมื่อฉันเพิ่มเพียงหนึ่งเดียวพวกเขาไม่สำคัญ อย่างไรก็ตามความสัมพันธ์เชิงเส้นของตัวทำนายและข้อมูลไม่สามารถตีความได้ บริบทของคำถามของฉันมีลักษณะเป็นแบบผสมโดยlme4เฉพาะ แต่ฉันอยากได้คำตอบที่สามารถอธิบายได้ว่าทำไมมันถึงเป็นหรือทำไมมันไม่เป็นไรที่จะรวมพหุนามลำดับที่สูงกว่าและไม่ใช่พหุนามลำดับที่ต่ำกว่า หากจำเป็นฉันสามารถให้ข้อมูลได้

2
การถดถอยแบบเบย์: ทำอย่างไรเมื่อเปรียบเทียบกับการถดถอยแบบมาตรฐาน
ฉันมีคำถามบางอย่างเกี่ยวกับการถดถอยแบบเบย์: ได้รับการถดถอยมาตรฐานY= β0+ β1x + εY=β0+β1x+εy = \beta_0 + \beta_1 x + \varepsilon ε หากฉันต้องการเปลี่ยนสิ่งนี้เป็นการถดถอยแบบเบย์ฉันต้องมีการแจกแจงก่อนหน้าทั้งคู่สำหรับβ0β0\beta_0และβ1β1\beta_1 (หรือไม่ได้ทำงานด้วยวิธีนี้)? ในการถดถอยมาตรฐานหนึ่งจะพยายามที่จะลดเหลือที่จะได้รับค่าเดียวสำหรับβ0β0\beta_0และβ1β1\beta_1 1 สิ่งนี้จะเกิดขึ้นได้อย่างไรในการถดถอยแบบเบย์ ฉันดิ้นรนมากที่นี่: posterior = โอกาส× ก่อนหน้าด้านหลัง=ก่อน×ความเป็นไปได้ \text{posterior} = \text{prior} \times \text{likelihood} ความน่าจะเป็นมาจากชุดข้อมูลปัจจุบัน (ดังนั้นจึงเป็นพารามิเตอร์การถดถอยของฉัน แต่ไม่ได้เป็นค่าเดียว แต่เป็นการกระจายความเป็นไปได้ใช่มั้ย) ก่อนหน้ามาจากการวิจัยก่อนหน้า (สมมุติว่า) ดังนั้นฉันได้สมการนี้: Y= β1x + εY=β1x+ε y = \beta_1 x + \varepsilon ด้วยβ1β1\beta_1เป็นโอกาสหรือหลังของฉัน (หรือนี่เป็นเพียงความผิดทั้งหมด)? ฉันไม่เข้าใจว่าการถดถอยมาตรฐานเปลี่ยนเป็น Bayes …

6
การทำให้เป็นมาตรฐาน L2 เทียบเท่ากับ Gaussian ก่อน
ฉันอ่านมันต่อไปและอย่างสังหรณ์ใจฉันสามารถเห็นสิ่งนี้ได้ แต่จะไปจากการทำให้เป็นมาตรฐาน L2 เพื่อบอกว่านี่คือการวิเคราะห์แบบเกาส์ก่อนหรือไม่ กันไปสำหรับการพูด L1 เทียบเท่ากับ Laplacean ก่อน การอ้างอิงใด ๆ เพิ่มเติมจะดีมาก

1
การถดถอยโลจิสติกใน R ทำให้เกิดการแยกที่สมบูรณ์แบบ (ปรากฏการณ์ Hauck-Donner) ตอนนี้คืออะไร
ฉันพยายามที่จะทำนายผลเลขฐานสองโดยใช้ตัวแปรอธิบายอย่างต่อเนื่อง 50 ตัว (ช่วงของตัวแปรส่วนใหญ่คือถึง ) ชุดข้อมูลของฉันมีเกือบ 24,000 แถว เมื่อฉันทำงานใน R ฉันจะได้รับ:−∞−∞-\infty∞∞\inftyglm Warning messages: 1: glm.fit: algorithm did not converge 2: glm.fit: fitted probabilities numerically 0 or 1 occurred ฉันได้อ่านคำตอบอื่น ๆ ที่แนะนำว่าอาจมีการแยกอย่างสมบูรณ์แบบ แต่ฉันมั่นใจว่าไม่ใช่กรณีในข้อมูลของฉัน (แม้ว่าการแยกแบบกึ่งสมบูรณ์อาจเกิดขึ้นได้ฉันจะทดสอบเพื่อดูว่าเป็นอย่างนั้นได้อย่างไร) . หากฉันลบตัวแปรบางตัวข้อผิดพลาด "ไม่ได้บรรจบกัน" อาจหายไป แต่นั่นไม่ใช่สิ่งที่เกิดขึ้นเสมอไป ฉันพยายามใช้ตัวแปรเดียวกันในbayesglmฟังก์ชั่นและได้รับข้อผิดพลาดเดียวกัน ขั้นตอนใดที่คุณจะต้องทราบว่าเกิดอะไรขึ้นที่นี่ คุณคิดว่าตัวแปรใดเป็นสาเหตุของปัญหาได้อย่างไร

2
การอภิปรายที่ชัดเจนยิ่งขึ้นของการเลือกตัวแปร
พื้นหลัง ฉันกำลังทำวิจัยทางคลินิกด้านการแพทย์และมีหลักสูตรสถิติหลายหลักสูตร ฉันไม่เคยตีพิมพ์บทความโดยใช้การถดถอยเชิงเส้น / โลจิสติกและต้องการเลือกตัวแปรอย่างถูกต้อง การตีความเป็นสิ่งสำคัญดังนั้นจึงไม่มีเทคนิคการเรียนรู้ด้วยเครื่อง ฉันได้สรุปความเข้าใจของฉันเกี่ยวกับการเลือกตัวแปร - บางคนจะมีจิตใจที่เข้าใจถึงความเข้าใจผิด ๆ ผมพบว่าสอง (1) ที่คล้ายกัน (2) โพสต์ CV ให้เป็นหนึ่งในนี้ แต่พวกเขาไม่ได้ค่อนข้างเต็มที่ตอบข้อสงสัยของฉัน ความคิดใด ๆ ที่จะได้รับการชื่นชมมาก! ฉันมี 3 คำถามหลักในตอนท้าย ปัญหาและการสนทนา ปัญหาการถดถอย / การจำแนกประเภทโดยทั่วไปของฉันมีการสังเกต 200-300 ครั้งอัตราการเกิดเหตุการณ์ไม่พึงประสงค์ 15% (หากการจำแนก) และข้อมูลเกี่ยวกับตัวแปร 25 จาก 40 ที่อ้างว่ามีผลกระทบ "นัยสำคัญทางสถิติ" ในวรรณคดีหรือทำให้น่าเชื่อถือ ความรู้สึกโดยโดเมนความรู้ ฉันใส่ "นัยสำคัญทางสถิติ" ในเครื่องหมายคำพูดเพราะดูเหมือนว่าทุกคนและแม่ของพวกเขาใช้การถดถอยแบบขั้นตอน แต่Harrell (3) และFlom (4) ดูเหมือนจะไม่ชอบด้วยเหตุผลหลายประการ สิ่งนี้ได้รับการสนับสนุนเพิ่มเติมจากการสนทนาโพสต์บล็อกของ Gelman …

6
ทางเลือกในการถดถอยโลจิสติกใน R
ฉันต้องการอัลกอริทึมเป็นจำนวนมากที่ทำงานเช่นเดียวกับการถดถอยโลจิสติก นั่นคืออัลกอริธึม / แบบจำลองที่สามารถทำนายการตอบสนองแบบไบนารี (Y) ด้วยตัวแปรอธิบาย (X) ฉันจะดีใจถ้าคุณตั้งชื่ออัลกอริทึมถ้าคุณจะแสดงวิธีการใช้ในอาร์นี่คือรหัสที่สามารถอัปเดตกับรุ่นอื่น ๆ ได้: set.seed(55) n <- 100 x <- c(rnorm(n), 1+rnorm(n)) y <- c(rep(0,n), rep(1,n)) r <- glm(y~x, family=binomial) plot(y~x) abline(lm(y~x), col='red', lty=2) xx <- seq(min(x), max(x), length=100) yy <- predict(r, data.frame(x=xx), type='response') lines(xx, yy, col='blue', lwd=5, lty=2) title(main='Logistic regression with the "glm" …

5
การปรับค่า p ในการถดถอยหลายครั้งสำหรับการเปรียบเทียบหลายรายการเป็นแนวคิดที่ดีหรือไม่
สมมติว่าคุณเป็นนักวิจัยสังคมศาสตร์ / เศรษฐมิติที่พยายามค้นหาตัวทำนายที่เกี่ยวข้องของความต้องการใช้บริการ คุณมี 2 ผลลัพธ์ / ตัวแปรตามที่อธิบายความต้องการ (ใช้บริการใช่ / ไม่ใช่และจำนวนครั้ง) คุณมีตัวแปรทำนาย 10 ตัว / ตัวแปรอิสระที่สามารถอธิบายความต้องการในทางทฤษฎี (เช่นอายุเพศรายได้ราคาเชื้อชาติ ฯลฯ ) การรันการถดถอยหลาย ๆ ตัวสองตัวที่แยกกันจะให้ค่าประมาณ 20 สัมประสิทธิ์และค่า p เมื่อมีตัวแปรอิสระเพียงพอในการถดถอยของคุณคุณจะพบตัวแปรอย่างน้อยหนึ่งตัวแปรที่มีความสัมพันธ์อย่างมีนัยสำคัญทางสถิติระหว่างตัวแปรที่ขึ้นอยู่กับตัวแปรอิสระ คำถามของฉัน: เป็นความคิดที่ดีหรือไม่ที่จะแก้ไขค่า p สำหรับการทดสอบหลายครั้งถ้าฉันต้องการรวมตัวแปรอิสระทั้งหมดในการถดถอย การอ้างอิงถึงงานก่อนหน้านี้ชื่นชมมาก

3
การถดถอยเชิงเส้นหลายตัวแปรเทียบกับเครือข่ายประสาทเทียม?
ดูเหมือนว่าเป็นไปได้ที่จะได้ผลลัพธ์ที่คล้ายคลึงกับเครือข่ายประสาทที่มีการถดถอยเชิงเส้นหลายตัวแปรในบางกรณีและการถดถอยเชิงเส้นหลายตัวแปรนั้นรวดเร็วและง่ายมาก เครือข่ายประสาทสามารถให้ผลลัพธ์ที่ดีกว่าการถดถอยเชิงเส้นหลายตัวแปรในสถานการณ์ใดบ้าง

3
Box-Cox ชอบการแปลงสำหรับตัวแปรอิสระหรือไม่?
Box-Cox มีการแปลงสำหรับตัวแปรอิสระหรือไม่? นั่นคือการแปลงที่ปรับตัวแปรให้เหมาะสมที่สุดเพื่อให้เหมาะสมกับแบบจำลองเชิงเส้นมากขึ้นหรือไม่xxxy~f(x) ถ้าเป็นเช่นนั้นมีฟังก์ชั่นในการทำสิ่งนี้ด้วยRหรือไม่?

6
การถดถอยเชิงเส้นออนไลน์ที่มีประสิทธิภาพ
ฉันกำลังวิเคราะห์ข้อมูลบางอย่างที่ฉันต้องการทำการถดถอยเชิงเส้นปกติ แต่เป็นไปไม่ได้เมื่อฉันจัดการกับการตั้งค่าออนไลน์ด้วยการป้อนข้อมูลต่อเนื่อง (ซึ่งจะใหญ่เกินไปสำหรับหน่วยความจำ) และต้องการ เพื่ออัปเดตการประมาณการพารามิเตอร์ขณะนี้กำลังถูกใช้ไป เช่นฉันไม่สามารถโหลดทั้งหมดลงในหน่วยความจำและทำการถดถอยเชิงเส้นในชุดข้อมูลทั้งหมด ฉันสมมติว่าตัวแบบการถดถอยเชิงเส้นหลายตัวแปรเชิงเส้นคือ y=Ax+b+ey=Ax+b+e\mathbf y = \mathbf A\mathbf x + \mathbf b + \mathbf e อัลกอริทึมที่ดีที่สุดสำหรับการสร้างการประเมินการอัปเดตอย่างต่อเนื่องของพารามิเตอร์การถดถอยเชิงเส้นและคืออะไร?ขAA\mathbf Abb\mathbf b จะเป็นการดี: ฉันต้องการอัลกอริทึมที่มีพื้นที่ว่างและเวลามากที่สุดต่อการอัปเดตโดยที่คือขนาดของตัวแปรอิสระ ( ) และคือขนาดของตัวแปรตาม ( )N x M yO(N⋅M)O(N⋅M)\mathcal O(N\cdot M)NNNxx\mathbf xMMMyy\mathbf y ฉันต้องการที่จะสามารถระบุพารามิเตอร์บางอย่างเพื่อกำหนดจำนวนพารามิเตอร์ที่มีการปรับปรุงโดยตัวอย่างใหม่แต่ละตัวอย่างเช่น 0.000001 จะหมายความว่าตัวอย่างต่อไปจะให้หนึ่งในล้านของการประมาณค่าพารามิเตอร์ สิ่งนี้จะทำให้การสลายตัวแบบเลขชี้กำลังสำหรับผลกระทบของกลุ่มตัวอย่างในอดีตอันไกลโพ้น

2
“ ความแปรปรวนคงที่” ในแบบจำลองการถดถอยเชิงเส้นหมายความว่าอะไร?
การมี "ความแปรปรวนคงที่" ในคำที่ผิดพลาดหมายถึงอะไร อย่างที่ฉันเห็นเรามีข้อมูลที่มีตัวแปรตามหนึ่งตัวแปรและตัวแปรอิสระหนึ่งตัว ความแปรปรวนคงที่เป็นหนึ่งในสมมติฐานของการถดถอยเชิงเส้น ฉันสงสัยว่า homoscedasticity หมายถึงอะไร เนื่องจากแม้ว่าฉันมี 500 แถวฉันจะมีค่าความแปรปรวนเดียวซึ่งแน่นอนว่าคงที่ ฉันควรเปรียบเทียบความแปรปรวนแบบใดกับตัวแปรใด

3
ทำไมเราถึงสนใจข้อผิดพลาดการกระจายแบบปกติ (และ homoskedasticity) มากในการถดถอยเชิงเส้นเมื่อเราไม่ต้องทำ
ฉันคิดว่าฉันหงุดหงิดทุกครั้งที่ได้ยินคนพูดว่าการไม่ปฏิบัติตามกฎเกณฑ์ของผู้ตกค้างและ / หรือ heteroskedasticity ละเมิดสมมติฐานของ OLS ในการประมาณค่าพารามิเตอร์ในแบบจำลอง OLS ไม่จำเป็นต้องใช้สมมติฐานเหล่านี้ในทฤษฎีบท Gauss-Markov ฉันเห็นว่าสิ่งนี้สำคัญในการทดสอบสมมติฐานสำหรับแบบจำลอง OLS เนื่องจากการสมมติว่าสิ่งเหล่านี้ทำให้เรามีสูตรที่เป็นระเบียบสำหรับการทดสอบ t-test การทดสอบ F และสถิติทั่วไปของ Wald แต่มันก็ไม่ยากเกินไปที่จะทำการทดสอบสมมติฐานโดยที่ไม่มีพวกเขา หากเราลดลงเพียง homoskedasticity เราสามารถคำนวณข้อผิดพลาดมาตรฐานที่แข็งแกร่งและข้อผิดพลาดมาตรฐานคลัสเตอร์ได้อย่างง่ายดาย หากเราทิ้งกฎเกณฑ์โดยสิ้นเชิงเราสามารถใช้การบูตสแตรปปิ้งและกำหนดพารามิเตอร์แบบอื่นสำหรับข้อผิดพลาดอัตราส่วนความน่าจะเป็นและการทดสอบตัวคูณแบบลากรองจ์ มันเป็นเพียงความอัปยศที่เราสอนด้วยวิธีนี้เพราะฉันเห็นคนจำนวนมากที่ต้องดิ้นรนกับข้อสันนิษฐานที่พวกเขาไม่ต้องพบเจอในตอนแรก ทำไมเราถึงเน้นสมมติฐานเหล่านี้อย่างมากเมื่อเรามีความสามารถในการใช้เทคนิคที่แข็งแกร่งกว่าได้อย่างง่ายดาย? ฉันขาดสิ่งสำคัญไปหรือเปล่า

5
จำเป็นหรือไม่ที่จะต้องขยายขนาดมูลค่าเป้าหมายนอกเหนือจากคุณสมบัติการปรับขนาดสำหรับการวิเคราะห์การถดถอย
ฉันกำลังสร้างแบบจำลองการถดถอย ในขั้นตอนก่อนการประมวลผลฉันปรับขนาดคุณสมบัติของฉันให้มีค่าเฉลี่ย 0 และส่วนเบี่ยงเบนมาตรฐาน 1 จำเป็นต้องทำให้ค่าเป้าหมายเป็นมาตรฐานด้วยหรือไม่

4
ทำไมไม่จัดหมวดหมู่ผ่านการถดถอย?
เนื้อหาบางอย่างที่ฉันเห็นในการเรียนรู้ของเครื่องบอกว่าเป็นความคิดที่ไม่ดีที่จะเข้าถึงปัญหาการจัดหมวดหมู่ผ่านการถดถอย แต่ฉันคิดว่าเป็นไปได้เสมอที่จะทำการถดถอยอย่างต่อเนื่องเพื่อให้พอดีกับข้อมูลและตัดทอนการทำนายอย่างต่อเนื่องเพื่อให้ได้การจำแนกประเภทที่ไม่ต่อเนื่อง เหตุใดจึงเป็นความคิดที่ไม่ดี

3
ฟอเรสต์แบบสุ่มสามารถนำมาใช้สำหรับการเลือกคุณสมบัติในการถดถอยเชิงเส้นหลายแบบได้หรือไม่?
เนื่องจาก RF สามารถจัดการแบบไม่เป็นเชิงเส้น แต่ไม่สามารถให้ค่าสัมประสิทธิ์ได้คุณควรใช้ฟอเรสต์แบบสุ่มเพื่อรวบรวมคุณลักษณะที่สำคัญที่สุดจากนั้นจึงเสียบคุณลักษณะเหล่านั้นเข้ากับแบบจำลองการถดถอยเชิงเส้นหลายแบบเพื่อให้ได้ค่าสัมประสิทธิ์

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.