คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว

7
ประโยชน์ของการแยกตัวแปรทำนายอย่างต่อเนื่องคืออะไร?
ฉันสงสัยว่าสิ่งที่มีค่าในการใช้ตัวแปรทำนายอย่างต่อเนื่องและสลายมัน (เช่นเป็น quintiles) ก่อนที่จะใช้ในแบบจำลอง สำหรับฉันแล้วดูเหมือนว่าการเปลี่ยนแปลงตัวแปรทำให้เราสูญเสียข้อมูล นี่เป็นเพียงเพื่อให้เราสามารถจำลองเอฟเฟกต์ที่ไม่ใช่เชิงเส้นได้หรือไม่ ถ้าเราเก็บตัวแปรอย่างต่อเนื่องและมันไม่ได้เป็นความสัมพันธ์เชิงเส้นตรงที่เราจะต้องเกิดขึ้นกับเส้นโค้งบางชนิดเพื่อให้พอดีกับข้อมูลหรือไม่

3
ตัวอย่าง: การถดถอย LASSO โดยใช้ glmnet สำหรับผลลัพธ์ไบนารี
ฉันเริ่มตะลุยกับการใช้งานglmnetกับการถดถอยแบบ LASSOซึ่งผลลัพธ์ของความสนใจของฉันนั้นเป็นแบบขั้วคู่ ฉันได้สร้างกรอบข้อมูลจำลองขนาดเล็กด้านล่าง: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

3
เมื่อ R กำลังสองเป็นค่าลบ
ความเข้าใจของฉันคือว่าไม่สามารถลบได้เนื่องจากมันเป็นสแควร์ของ R อย่างไรก็ตามฉันใช้การถดถอยเชิงเส้นอย่างง่ายใน SPSS ด้วยตัวแปรอิสระเดี่ยวและตัวแปรตาม เอาท์พุท SPSS ของฉันให้ฉันเป็นค่าลบสำหรับ 2 ถ้าฉันจะคำนวณด้วยมือจาก R แล้วจะเป็นค่าบวก SPSS ทำอะไรเพื่อคำนวณสิ่งนี้ว่าเป็นลบR2R2R^2R 2R2R2R^2R2R2R^2 R=-.395 R squared =-.156 B (un-standardized)=-1261.611 รหัสที่ฉันใช้: DATASET ACTIVATE DataSet1. REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT valueP /METHOD=ENTER ageP ฉันได้รับค่าลบ ใครช่วยอธิบายสิ่งนี้ได้บ้าง?

5
อะไรคือทางเลือกที่ทันสมัยใช้ง่ายในการถดถอยแบบขั้นตอน
ฉันมีชุดข้อมูลที่มีตัวแปรอิสระประมาณ 30 ตัวและต้องการสร้างโมเดลเชิงเส้นทั่วไป (GLM) เพื่อสำรวจความสัมพันธ์ระหว่างพวกเขากับตัวแปรตาม ฉันรู้ว่าวิธีการที่ฉันถูกสอนสำหรับสถานการณ์นี้ถดถอยแบบขั้นตอนขณะนี้ถือว่าบาปสถิติ ควรใช้วิธีการแบบจำลองที่ทันสมัยในสถานการณ์นี้อย่างไร

3
ทำไม Lasso ถึงเลือก Variable
ฉันได้อ่านองค์ประกอบของการเรียนรู้ทางสถิติแล้วและฉันอยากจะรู้ว่าทำไม Lasso ถึงเลือกตัวแปรและการถดถอยแบบสันไม่ได้ ทั้งสองวิธีลดผลรวมการตกค้างของสี่เหลี่ยมและมีข้อ จำกัด เกี่ยวกับค่าที่เป็นไปได้ของพารามิเตอร์\สำหรับคล้องข้อ จำกัด คือ , ในขณะที่สำหรับสันมันเป็นสำหรับบางคนทีββ\beta||β||1≤t||β||1≤t||\beta||_1 \le t||β||2≤t||β||2≤t||\beta||_2 \le tttt ฉันเคยเห็นรูป Diamond vs ellipse ในหนังสือแล้วและฉันมีสัญชาตญาณว่าทำไม Lasso ถึงมุมของภูมิภาคที่ถูก จำกัด ซึ่งหมายความว่าหนึ่งในสัมประสิทธิ์ถูกตั้งค่าเป็นศูนย์ อย่างไรก็ตามสัญชาตญาณของฉันค่อนข้างอ่อนแอและฉันไม่มั่นใจ มันควรจะเห็นง่าย แต่ฉันไม่รู้ว่าทำไมเรื่องนี้ถึงเป็นจริง ดังนั้นฉันเดาว่าฉันกำลังมองหาเหตุผลทางคณิตศาสตร์หรือคำอธิบายที่เข้าใจง่ายว่าทำไมรูปทรงของผลรวมที่เหลือของกำลังสองมีแนวโน้มที่จะเข้ามุมของ ขอบเขต จำกัด (ในขณะที่สถานการณ์นี้ไม่น่าจะเกิดขึ้นถ้า ข้อ จำกัด คือ )||β||1||β||1||\beta||_1||β||2||β||2||\beta||_2

3
เหตุใดการถดถอยแบบลอจิสติกจึงไม่เรียกว่าการจำแนกแบบลอจิสติก
ตั้งแต่ถดถอยโลจิสติเป็นสถิติรูปแบบการจัดหมวดหมู่การจัดการกับตัวแปรตามเด็ดขาดทำไมไม่ได้เรียกว่าโลจิสติกการจัดประเภท ? ไม่ควรจองชื่อ "การถดถอย" กับตัวแบบที่เกี่ยวข้องกับตัวแปรตามแบบต่อเนื่อง

3
การวินิจฉัยสำหรับการถดถอยโลจิสติก?
สำหรับการถดถอยเชิงเส้นเราสามารถตรวจสอบพล็อตการวินิจฉัย (พล็อตส่วนที่เหลือพล็อต QQ ปกติ ฯลฯ ) เพื่อตรวจสอบว่าข้อสันนิษฐานของการถดถอยเชิงเส้นถูกละเมิดหรือไม่ สำหรับการถดถอยโลจิสติกฉันมีปัญหาในการค้นหาทรัพยากรที่อธิบายถึงวิธีการวินิจฉัยแบบจำลองการถดถอยโลจิสติกพอดี ขุดบันทึกบางหลักสูตรสำหรับ GLM เพียงแค่ระบุว่าการตรวจสอบส่วนที่เหลือจะไม่เป็นประโยชน์สำหรับการดำเนินการวินิจฉัยสำหรับการถดถอยแบบโลจิสติก เมื่อมองไปรอบ ๆ อินเทอร์เน็ตก็ดูเหมือนจะมีขั้นตอน "การวินิจฉัย" ที่หลากหลายเช่นการตรวจสอบความเบี่ยงเบนของแบบจำลองและการทดสอบไคสแควร์ แต่แหล่งข้อมูลอื่นระบุว่าสิ่งนี้ไม่เหมาะสมและคุณควรทำการ Hosmer-Lemeshow ทดสอบ. จากนั้นฉันพบแหล่งข้อมูลอื่นที่ระบุว่าการทดสอบนี้อาจขึ้นอยู่กับการจัดกลุ่มที่แท้จริงและค่าการตัด (อาจไม่น่าเชื่อถือ) แล้วเราควรวินิจฉัยว่าการถดถอยแบบโลจิสติกส์นั้นเหมาะสมอย่างไร

6
เหตุใดจึงใช้การไล่ระดับสีแบบลาดชันสำหรับการถดถอยเชิงเส้นเมื่อมีวิธีการแก้ปัญหาคณิตศาสตร์แบบปิด
ฉันกำลังเรียนหลักสูตร Machine Learning ออนไลน์และเรียนรู้เกี่ยวกับ Gradient Descent สำหรับการคำนวณค่าที่ดีที่สุดในสมมติฐาน h(x) = B0 + B1X ทำไมเราต้องใช้ Gradient Descent หากเราสามารถหาค่าได้ง่ายด้วยสูตรด้านล่าง นี่ดูตรงไปตรงมาและง่ายเกินไป แต่ GD ต้องการการวนซ้ำหลายครั้งเพื่อรับค่า B1 = Correlation * (Std. Dev. of y/ Std. Dev. of x) B0 = Mean(Y) – B1 * Mean(X) หมายเหตุ:ถ่ายในhttps://www.dezyre.com/data-science-in-r-programming-tutorial/linear-regression-tutorial ฉันตรวจสอบคำถามด้านล่างและสำหรับฉันมันก็ไม่ชัดเจนที่จะเข้าใจ ทำไมต้องใช้การไล่ระดับสี เหตุใดการเพิ่มประสิทธิภาพจึงถูกแก้ไขด้วยการไล่ระดับสีแทนที่จะใช้โซลูชันการวิเคราะห์ คำตอบข้างต้นเปรียบเทียบ GD กับการใช้อนุพันธ์

9
Outliers ควรได้รับการจัดการอย่างไรในการวิเคราะห์การถดถอยเชิงเส้น
บ่อยครั้งที่นักวิเคราะห์ทางสถิติถูกส่งชุดข้อมูลชุดและขอให้พอดีกับรูปแบบการใช้เทคนิคเช่นการถดถอยเชิงเส้น บ่อยครั้งที่ชุดข้อมูลนั้นมีข้อความปฏิเสธความรับผิดชอบคล้ายกับ "ใช่แล้วเราทำสิ่งที่ผิดพลาดในการรวบรวมจุดข้อมูลเหล่านี้ - ทำในสิ่งที่คุณทำได้" สถานการณ์นี้นำไปสู่การถดถอยที่เหมาะสมซึ่งได้รับผลกระทบอย่างมากจากการมีค่าผิดปกติที่อาจเป็นข้อมูลที่ผิดพลาด รับดังต่อไปนี้: มันเป็นอันตรายจากทั้งมุมมองทางวิทยาศาสตร์และศีลธรรมในการโยนข้อมูลโดยไม่มีเหตุผลอื่นนอกจาก "ทำให้ดูไม่ดี" ในชีวิตจริงคนที่รวบรวมข้อมูลนั้นมักจะไม่สามารถตอบคำถามเช่น "เมื่อสร้างชุดข้อมูลนี้ซึ่งเป็นประเด็นข้อใดที่คุณสับสน การทดสอบทางสถิติหรือกฎของหัวแม่มือสามารถใช้เป็นพื้นฐานสำหรับการยกเว้นค่าผิดปกติในการวิเคราะห์การถดถอยเชิงเส้น? มีข้อควรพิจารณาเป็นพิเศษสำหรับการถดถอยหลายชั้นหรือไม่?

7
กฎของหัวแม่มือสำหรับขนาดตัวอย่างขั้นต่ำสำหรับการถดถอยหลายครั้ง
ภายในบริบทของข้อเสนอการวิจัยในสังคมศาสตร์ฉันถูกถามคำถามต่อไปนี้: ฉันได้ไปตลอด 100 + m (โดย m คือจำนวนผู้ทำนาย) เมื่อพิจารณาขนาดตัวอย่างขั้นต่ำสำหรับการถดถอยหลายครั้ง สิ่งนี้เหมาะสมหรือไม่ ฉันได้รับคำถามที่คล้ายกันบ่อยครั้งด้วยกฎง่ายๆ ฉันยังอ่านกฎของหัวแม่มืออย่างมากในตำราต่าง ๆ บางครั้งฉันสงสัยว่าความนิยมของกฎในแง่ของการอ้างอิงนั้นขึ้นอยู่กับมาตรฐานที่ตั้งไว้ต่ำเพียงใด อย่างไรก็ตามฉันยังตระหนักถึงคุณค่าของฮิวริสติกที่ดีในการทำให้การตัดสินใจง่ายขึ้น คำถาม: อะไรคือประโยชน์ของกฎง่ายๆสำหรับขนาดตัวอย่างที่เล็กที่สุดในบริบทของนักวิจัยประยุกต์ที่ออกแบบการศึกษาวิจัย? คุณจะแนะนำกฎทางเลือกแบบง่ายๆสำหรับขนาดตัวอย่างขั้นต่ำสำหรับการถดถอยหลายครั้งหรือไม่ อีกทางหนึ่งกลยุทธ์ทางเลือกใดที่คุณจะแนะนำสำหรับการกำหนดขนาดตัวอย่างขั้นต่ำสำหรับการถดถอยหลายครั้ง โดยเฉพาะอย่างยิ่งมันจะดีถ้ามีการกำหนดมูลค่าให้กับระดับที่กลยุทธ์ใด ๆ สามารถนำไปใช้ได้โดยผู้ที่ไม่ใช่นักสถิติ

10
รายการที่สมบูรณ์ของสมมติฐานปกติสำหรับการถดถอยเชิงเส้นคืออะไร?
อะไรคือสมมติฐานปกติสำหรับการถดถอยเชิงเส้น? พวกเขารวมถึง: ความสัมพันธ์เชิงเส้นระหว่างตัวแปรอิสระและตัวแปรตาม ข้อผิดพลาดอิสระ การแจกแจงปกติของข้อผิดพลาด homoscedasticity มีคนอื่นอีกไหม?

2
การแก้หาพารามิเตอร์การถดถอยในรูปแบบปิดเทียบกับการไล่ระดับสี
ในหลักสูตรการเรียนรู้ของเครื่องแอนดรูว์เขาแนะนำการถดถอยเชิงเส้นและการถดถอยโลจิสติกส์และแสดงวิธีการปรับพารามิเตอร์โมเดลโดยใช้การไล่ระดับสีแบบลาดและวิธีของนิวตัน ฉันรู้ว่าการไล่ระดับสีจะมีประโยชน์ในบางแอปพลิเคชันของการเรียนรู้ของเครื่อง (เช่น backpropogation) แต่ในกรณีทั่วไปมากขึ้นมีเหตุผลใด ๆ ที่คุณจะไม่แก้สำหรับพารามิเตอร์ในรูปแบบปิด - เช่นโดยการหาอนุพันธ์ของ ฟังก์ชั่นค่าใช้จ่ายและการแก้ไขผ่านทางแคลคูลัส? อะไรคือข้อดีของการใช้อัลกอริทึมแบบวนซ้ำเช่นการไล่ระดับสีแบบลาดชันเหนือโซลูชันแบบปิดโดยทั่วไปเมื่อมีให้ใช้งาน?

8
สร้างตัวแปรสุ่มที่มีความสัมพันธ์ที่กำหนดไว้กับตัวแปรที่มีอยู่
สำหรับการศึกษาการจำลองฉันต้องสร้างตัวแปรสุ่มที่แสดง prefined (ประชากร) ความสัมพันธ์กับตัวแปรที่มีอยู่YYYY ฉันดูในRแพ็คเกจcopulaและCDVineสามารถสร้างการแจกแจงหลายตัวแปรแบบสุ่มด้วยโครงสร้างการพึ่งพาที่กำหนด อย่างไรก็ตามเป็นไปไม่ได้ที่จะแก้ไขหนึ่งในตัวแปรที่เป็นผลลัพธ์ของตัวแปรที่มีอยู่ ความคิดและลิงก์ไปยังฟังก์ชั่นที่มีอยู่นั้นได้รับการชื่นชม! สรุป: คำตอบที่ถูกต้องสองคำขึ้นมาพร้อมกับโซลูชันที่แตกต่าง: R สคริปต์โดย Caracal ซึ่งจะคำนวณตัวแปรสุ่มกับที่แน่นอน (ตัวอย่าง) ความสัมพันธ์กับตัวแปรที่กำหนดไว้ล่วงหน้า R ฟังก์ชั่นฉันพบตัวเองซึ่งจะคำนวณตัวแปรสุ่มที่มีการกำหนดประชากรความสัมพันธ์กับตัวแปรที่กำหนดไว้ล่วงหน้า [@ttnphns 'นอกจากนี้: ฉันใช้เสรีภาพในการขยายชื่อคำถามจากกรณีตัวแปรคงที่เดียวเป็นจำนวนคงที่ของตัวแปรคงที่; เช่นวิธีการสร้างตัวแปรที่มีคอร์เรชั่นที่กำหนดไว้ล่วงหน้าพร้อมกับตัวแปรคงที่บางตัวที่มีอยู่]

12
อะไรคือความเข้าใจผิดที่พบบ่อยที่สุดเกี่ยวกับการถดถอยเชิงเส้น?
ฉันอยากรู้อยากเห็นสำหรับพวกคุณที่มีประสบการณ์มากมายที่ร่วมมือกับนักวิจัยคนอื่น ๆ อะไรคือความเข้าใจผิดที่พบบ่อยที่สุดเกี่ยวกับการถดถอยเชิงเส้นที่คุณพบ ฉันคิดว่าเป็นแบบฝึกหัดที่มีประโยชน์ที่จะคิดเกี่ยวกับความเข้าใจผิดที่พบบ่อยล่วงหน้าเพื่อ คาดการณ์ความผิดพลาดของผู้คนและสามารถบอกกล่าวความสำเร็จได้ว่าทำไมความเข้าใจผิดบางอย่างไม่ถูกต้อง ตระหนักดีว่าถ้าฉันปิดบังความเข้าใจผิดบางอย่างด้วยตัวเอง! พื้นฐานสองสามข้อที่ฉันนึกได้: ตัวแปรอิสระ / ขึ้นอยู่กับต้องกระจายตามปกติ ตัวแปรจะต้องเป็นมาตรฐานสำหรับการตีความที่ถูกต้อง อื่น ๆ ? คำตอบทั้งหมดยินดีต้อนรับ

4
ทำอย่างไรจึงจะเห็นภาพการวิเคราะห์ความสัมพันธ์แบบบัญญัติ (เปรียบเทียบกับการวิเคราะห์องค์ประกอบหลัก)
Canonical correlation analysis (CCA) เป็นเทคนิคที่เกี่ยวข้องกับการวิเคราะห์องค์ประกอบหลัก (PCA) ในขณะที่มันง่ายที่จะสอน PCA หรือการถดถอยเชิงเส้นโดยใช้พล็อตกระจาย (ดูตัวอย่างสองสามพันตัวอย่างจากการค้นหารูปภาพของ Google) ฉันไม่เคยเห็นตัวอย่างสองมิติที่ใช้งานง่ายของ CCA จะอธิบายได้อย่างไรว่า CCA เชิงเส้นทำอะไรได้บ้าง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.