คำถามติดแท็ก least-squares

อ้างถึงเทคนิคการประมาณค่าทั่วไปที่เลือกค่าพารามิเตอร์เพื่อลดความแตกต่างกำลังสองระหว่างสองปริมาณเช่นค่าที่สังเกตได้ของตัวแปรและค่าที่คาดหวังของการสังเกตที่กำหนดไว้ในค่าพารามิเตอร์ แบบจำลองเชิงเส้นแบบเกาส์นั้นมีความเหมาะสมน้อยที่สุดและกำลังสองน้อยที่สุดคือแนวคิดที่ใช้การหาค่าเฉลี่ย - กำลังสอง - ข้อผิดพลาด (MSE) เป็นวิธีการประเมินตัวประมาณ

2
เมื่อใดจึงควรใช้วิธีการทำให้เป็นมาตรฐานสำหรับการถดถอย
ในสถานการณ์ใดที่เราควรพิจารณาใช้วิธีการทำให้เป็นมาตรฐาน (สันเขา, บาศหรือการถดถอยมุมน้อยที่สุด) แทนที่จะเป็น OLS? ในกรณีนี้จะช่วยคัดท้ายการสนทนาความสนใจหลักของฉันคือการปรับปรุงความแม่นยำในการทำนาย

3
ทำไมสันถึงประเมินได้ดีกว่า OLS ด้วยการเพิ่มค่าคงที่ในแนวทแยง
ฉันเข้าใจว่าการประเมินการถดถอยของสันเขาเป็นที่ลดผลรวมที่เหลือของสแควร์และลดขนาดของββ\betaββ\beta βridge=(λID+X′X)−1X′y=argmin[RSS+λ∥β∥22]βridge=(λID+X′X)−1X′y=argmin⁡[RSS+λ‖β‖22]\beta_\mathrm{ridge} = (\lambda I_D + X'X)^{-1}X'y = \operatorname{argmin}\big[ \text{RSS} + \lambda \|\beta\|^2_2\big] แต่ผมไม่เข้าใจความสำคัญของความจริงที่ว่าβridgeβridge\beta_\text{ridge}แตกต่างจากβOLSβOLS\beta_\text{OLS}โดยเฉพาะการเพิ่มค่าคงที่ขนาดเล็กเพื่อเส้นทแยงมุมของX'XX′XX′XX'Xอันที่จริง βOLS=(X′X)−1X′yβOLS=(X′X)−1X′y\beta_\text{OLS} = (X'X)^{-1}X'y หนังสือของฉันกล่าวว่าสิ่งนี้ทำให้การประมาณมีเสถียรภาพมากขึ้นเชิงตัวเลข - เพราะเหตุใด ความเสถียรเชิงตัวเลขเกี่ยวข้องกับการหดตัวต่อ 0 ของการประมาณสันหรือไม่หรือเป็นแค่เรื่องบังเอิญ?

3
หมายถึงข้อผิดพลาดสัมบูรณ์หรือรูทหมายความว่าข้อผิดพลาดกำลังสอง?
เหตุใดจึงต้องใช้ Root Mean Squared Error (RMSE) แทนที่จะเป็น Mean Absolute Error (MAE)? สวัสดี ฉันได้ตรวจสอบข้อผิดพลาดที่สร้างขึ้นในการคำนวณ - ในขั้นต้นฉันคำนวณข้อผิดพลาดเป็นข้อผิดพลาดรูตค่าเฉลี่ย Normalized Root เมื่อมองดูใกล้ ๆ ฉันจะเห็นผลกระทบของการยกกำลังข้อผิดพลาดนั้นให้น้ำหนักมากกว่าข้อผิดพลาดที่ใหญ่กว่าตัวที่เล็กกว่า นี่ค่อนข้างชัดเจนในการหวนกลับ ดังนั้นคำถามของฉัน - ในกรณีที่รูทค่าเฉลี่ยของข้อผิดพลาดกำลังสองเป็นข้อผิดพลาดที่เหมาะสมกว่าการวัดค่าความผิดพลาดแบบสัมบูรณ์ หลังดูเหมาะสมกว่าสำหรับฉันหรือฉันขาดอะไรไป? เพื่อแสดงสิ่งนี้ฉันได้แนบตัวอย่างด้านล่าง: พล็อตกระจายกระจายแสดงตัวแปรสองตัวที่มีความสัมพันธ์ที่ดี ฮิสโทแกรมสองแผนภูมิทางด้านขวาข้อผิดพลาดระหว่าง Y (สังเกต) และ Y (ทำนาย) โดยใช้ RMSE ปกติ (บนสุด) และแม่ (ล่าง) ไม่มีค่าผิดปกติที่สำคัญในข้อมูลนี้และ MAE ให้ข้อผิดพลาดต่ำกว่า RMSE มีเหตุผลอื่นใดนอกเหนือจากแม่ที่เป็นที่นิยมกว่าสำหรับการใช้ข้อผิดพลาดหนึ่งวัดเหนืออื่น ๆ ?
58 least-squares  mean  rms  mae 

3
ความเข้าใจผิดที่ Y ต้องแจกจ่ายตามปกติมาจากไหน
แหล่งที่เชื่อถือได้ดูเหมือนจะอ้างว่าตัวแปรตามต้องกระจายตามปกติ: รุ่นสมมติฐาน: YYYมีการกระจายตามปกติข้อผิดพลาดที่มีการกระจายตามปกติei∼N(0,σ2)ei∼N(0,σ2)e_i \sim N(0,\sigma^2)และอิสระและXXXได้รับการแก้ไขและความแปรปรวนคงที่σ2σ2\sigma^2 2 การวิเคราะห์ข้อมูลที่ไม่ต่อเนื่องของ Penn State, STAT 504 ประการที่สองการวิเคราะห์การถดถอยเชิงเส้นกำหนดให้ตัวแปรทั้งหมดเป็นแบบหลายตัวแปรปกติ สถิติสรุปข้อสมมติฐานของการถดถอยเชิงเส้น สิ่งนี้เหมาะสมเมื่อตัวแปรตอบกลับมีการแจกแจงแบบปกติ Wikipedia, โมเดลเชิงเส้นทั่วไป มีคำอธิบายที่ดีเกี่ยวกับความเข้าใจผิดว่าทำไมหรือทำไมถึงเกิดการแพร่กระจาย? เป็นที่รู้จักหรือไม่? ที่เกี่ยวข้อง การถดถอยเชิงเส้นและสมมติฐานเกี่ยวกับตัวแปรตอบสนอง

5
การถดถอยเมื่อส่วนที่เหลือ OLS จะไม่กระจายตามปกติ
มีหลายเธรดในไซต์นี้ที่กล่าวถึงวิธีการตรวจสอบว่ามีการแจกแจงOLS แบบกระจายตามปกติหรือไม่ อีกวิธีหนึ่งในการประเมินความเป็นไปได้ของการใช้รหัส R ในคำตอบที่ยอดเยี่ยมนี้ นี่คือการอภิปรายเกี่ยวกับความแตกต่างในทางปฏิบัติระหว่างมาตรฐานและสารตกค้างที่สังเกตได้ แต่สมมุติว่าส่วนที่เหลือไม่ได้กระจายตามปกติอย่างในตัวอย่างนี้ ที่นี่เรามีการสังเกตหลายพันครั้งและชัดเจนว่าเราต้องปฏิเสธสมมติฐานที่กระจายตัวตามปกติ วิธีหนึ่งในการแก้ไขปัญหาคือการใช้ตัวประมาณค่าที่คาดเดายากบางรูปแบบตามที่อธิบายไว้ในคำตอบ อย่างไรก็ตามฉันไม่ได้ จำกัด เพียง OLS และในความเป็นจริงฉันต้องการเข้าใจประโยชน์ของวิธีการ glm อื่น ๆ หรือไม่ใช่เชิงเส้น วิธีที่มีประสิทธิภาพมากที่สุดในการสร้างแบบจำลองข้อมูลที่ละเมิดกฎเกณฑ์ OLS ของการคิดค่าคงที่คืออะไร หรืออย่างน้อยสิ่งที่ควรเป็นขั้นตอนแรกในการพัฒนาวิธีการวิเคราะห์การถดถอยที่ดี?

2
วิธีความน่าจะเป็นสูงสุดเทียบกับวิธีกำลังสองน้อยที่สุด
อะไรคือความแตกต่างหลักระหว่างการประมาณค่าความน่าจะเป็นสูงสุด (MLE) กับการประมาณกำลังสองน้อยที่สุด (LSE)? เหตุใดเราไม่สามารถใช้ MLE เพื่อทำนายค่าในการถดถอยเชิงเส้นและในทางกลับกันได้YYy ความช่วยเหลือใด ๆ ในหัวข้อนี้จะได้รับการชื่นชมอย่างมาก

6
ขั้นตอนวิธีใดที่ใช้ในการถดถอยเชิงเส้น
ฉันมักจะได้ยินเกี่ยวกับ "กำลังสองน้อยที่สุดธรรมดา" นั่นเป็นอัลกอริทึมที่ใช้กันอย่างแพร่หลายที่สุดสำหรับการถดถอยเชิงเส้นหรือไม่? มีเหตุผลที่จะใช้อันอื่นหรือไม่?

4
ทำไม sigmoid จึงทำงานแทนอย่างอื่น?
ทำไมฟังก์ชั่น sigmoid มาตรฐานแบบพฤตินัยจึงได้รับความนิยมในเครือข่ายนิวรัลและการถดถอยโลจิสติก11+e−x11+e−x\frac{1}{1+e^{-x}} ทำไมเราไม่ใช้ฟังก์ชั่นที่เปลี่ยนแปลงได้อื่น ๆ อีกมากมายด้วยเวลาการคำนวณที่เร็วขึ้นหรือการสลายตัวที่ช้ากว่า ไม่กี่ตัวอย่างในวิกิพีเดียเกี่ยวกับฟังก์ชั่น sigmoid หนึ่งในรายการโปรดของฉันกับการสลายตัวช้าและการคำนวณอย่างรวดเร็ว|}x1+|x|x1+|x|\frac{x}{1+|x|} แก้ไข คำถามนั้นแตกต่างจากรายการฟังก์ชั่นการเปิดใช้งานที่ครอบคลุมในเครือข่ายนิวรัลที่มีข้อดี / ข้อเสียเนื่องจากฉันสนใจเพียงแค่ 'ทำไม' และสำหรับ sigmoid เท่านั้น

5
จะหาวิธีการแก้ปัญหาการถดถอยของสันเขาได้อย่างไร?
ฉันกำลังมีปัญหาบางอย่างกับการได้มาของวิธีแก้ปัญหาการถดถอยของสันเขา ฉันรู้วิธีการแก้ปัญหาการถดถอยโดยไม่มีคำศัพท์ β=(XTX)−1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. แต่หลังจากเพิ่มคำศัพท์ L2เข้ากับฟังก์ชั่นค่าใช้จ่ายλ∥β∥22λ‖β‖22\lambda\|\beta\|_2^2 β=(XTX+λI)−1XTy.β=(XTX+λI)−1XTy.\beta = (X^TX + \lambda I)^{-1}X^Ty.

5
การลดข้อผิดพลาดกำลังสองเท่ากับการย่อข้อผิดพลาดแบบสัมบูรณ์หรือไม่ ทำไมข้อผิดพลาดยกกำลังสองจึงเป็นที่นิยมมากกว่าข้อหลัง
เมื่อเราทำการถดถอยเชิงเส้นเพื่อให้พอดีกับจุดข้อมูลจำนวนมากวิธีแบบคลาสสิกช่วยลดข้อผิดพลาดกำลังสอง ฉันงงงวยกับคำถามที่จะลดข้อผิดพลาดกำลังสองให้ได้ผลลัพธ์เช่นเดียวกับการลดข้อผิดพลาดสัมบูรณ์ให้น้อยที่สุดหรือไม่ ถ้าไม่ทำไมข้อผิดพลาดกำลังสองลดลงจึงดีกว่า มีเหตุผลอื่นนอกเหนือจาก "ฟังก์ชั่นวัตถุประสงค์คือ differentiable"?y=ax+by=ax+by=ax+b(x1,y1),(x2,y2),...,(xn,yn)(x1,y1),(x2,y2),...,(xn,yn)(x_1,y_1),(x_2,y_2),...,(x_n,y_n) ข้อผิดพลาดกำลังสองยังใช้กันอย่างแพร่หลายในการประเมินประสิทธิภาพของแบบจำลอง แต่ข้อผิดพลาดแบบสัมบูรณ์เป็นที่นิยมน้อยกว่า ทำไมข้อผิดพลาดยกกำลังสองที่ใช้บ่อยกว่าข้อผิดพลาดที่แน่นอน? หากการซื้อขายสัญญาซื้อขายล่วงหน้าไม่เกี่ยวข้องกับการคำนวณผิดพลาดแน่นอนเป็นเรื่องง่ายเหมือนการคำนวณผิดพลาดยกกำลังสองแล้วทำไมข้อผิดพลาดยกกำลังสองเป็นที่แพร่หลายดังนั้น ? มีข้อได้เปรียบที่ไม่เหมือนใครที่สามารถอธิบายความชุกของมันได้หรือไม่? ขอขอบคุณ.

8
มันถูกต้องหรือไม่ที่จะรวมการวัดพื้นฐานเป็นตัวแปรควบคุมเมื่อทดสอบผลกระทบของตัวแปรอิสระต่อคะแนนการเปลี่ยนแปลง?
ฉันพยายามเรียกใช้การถดถอย OLS: DV: การเปลี่ยนแปลงของน้ำหนักในช่วงหนึ่งปี (น้ำหนักเริ่มต้น - น้ำหนักสุดท้าย) IV: ไม่ว่าคุณจะออกกำลังกายหรือไม่ก็ตาม อย่างไรก็ตามดูเหมือนว่าคนที่มีน้ำหนักมากจะลดน้ำหนักได้มากขึ้นต่อการออกกำลังกายมากกว่าคนที่ผอมลง ดังนั้นฉันต้องการรวมตัวแปรควบคุม: CV: น้ำหนักเริ่มต้นเริ่มต้น อย่างไรก็ตามตอนนี้น้ำหนักเริ่มต้นจะใช้ทั้งสองในการคำนวณตัวแปรตามและเป็นตัวแปรควบคุม ไม่เป็นไร สิ่งนี้ละเมิดสมมติฐานของ OLS หรือไม่

1
พิสูจน์ว่าสัมประสิทธิ์ในแบบจำลอง OLS เป็นไปตามการแจกแจงแบบ t ด้วย (nk) องศาอิสระ
พื้นหลัง สมมติว่าเรามีโมเดลกำลังสองน้อยที่สุดซึ่งเรามีค่าสัมประสิทธิ์ในแบบจำลองการถดถอยของเรา kkky=Xβ+ϵy=Xβ+ϵ\mathbf{y}=\mathbf{X}\mathbf{\beta} + \mathbf{\epsilon} โดยที่เป็นเวกเตอร์ของสัมประสิทธิ์ ,คือเมทริกซ์การออกแบบที่กำหนดโดยββ\mathbf{\beta}(k×1)(k×1)(k\times1)XX\mathbf{X} X=⎛⎝⎜⎜⎜⎜⎜⎜11⋮1x11x21xn1x12…⋱………x1(k−1)⋮⋮xn(k−1)⎞⎠⎟⎟⎟⎟⎟⎟X=(1x11x12…x1(k−1)1x21…⋮⋮⋱⋮1xn1……xn(k−1))\mathbf{X} = \begin{pmatrix} 1 & x_{11} & x_{12} & \dots & x_{1\;(k-1)} \\ 1 & x_{21} & \dots & & \vdots \\ \vdots & & \ddots & & \vdots \\ 1 & x_{n1} & \dots & \dots & x_{n\;(k-1)} \end{pmatrix} และข้อผิดพลาดคือ IID ปกติ …

3
วิธีการถดถอยแบบฉาก (รวมสี่เหลี่ยมจัตุรัสน้อยที่สุด) ผ่านทาง PCA ได้อย่างไร
ฉันมักจะใช้lm()ในการวิจัยเพื่อดำเนินการถดถอยเชิงเส้นของyyyบนxxxxฟังก์ชั่นที่ส่งกลับค่าสัมประสิทธิ์ββ\betaดังกล่าวว่าy=βx.y=βx.y = \beta x. วันนี้ฉันได้เรียนรู้เกี่ยวกับกำลังสองรวมน้อยที่สุดและสามารถprincomp()ใช้ฟังก์ชัน (การวิเคราะห์องค์ประกอบหลัก, PCA) เพื่อดำเนินการได้ มันควรจะดีสำหรับฉัน (แม่นยำยิ่งขึ้น) ฉันได้ทำการทดสอบโดยใช้princomp()เช่น: r <- princomp( ~ x + y) ปัญหาของฉันคือวิธีการตีความผลลัพธ์ ฉันจะรับสัมประสิทธิ์การถดถอยได้อย่างไร โดย "ค่าสัมประสิทธิ์" ผมหมายถึงจำนวนββ\betaว่าผมจะต้องใช้ในการคูณxxxคุ้มค่าที่จะให้ตัวเลขที่ใกล้เคียงกับปีyyy

1
การคำนวณซ้ำของเอฟเฟกต์จากโมเดล lmer
ฉันเพิ่งอ่านบทความนี้ซึ่งอธิบายถึงวิธีการคำนวณความสามารถในการทำซ้ำ (ความน่าเชื่อถือหรือความสัมพันธ์ภายในอินทราเน็ต) ของการวัดผ่านการสร้างแบบจำลองเอฟเฟกต์ผสม รหัส R จะเป็น: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

2
เหตุใด RSS จึงกระจายไคสแควร์ถึง np
ฉันต้องการที่จะเข้าใจว่าทำไมภายใต้รูปแบบ OLS ที่ RSS (ผลรวมที่เหลือของสี่เหลี่ยม) มีการกระจาย ( Pเป็นจำนวนของพารามิเตอร์ในรูปแบบที่nจำนวนสังเกต)χ2⋅(n−p)χ2⋅(n−p)\chi^2\cdot (n-p)pppnnn ฉันขอโทษที่ถามคำถามพื้นฐาน แต่ดูเหมือนว่าฉันจะไม่สามารถหาคำตอบออนไลน์ได้ (หรือในตำราเรียนที่เน้นการประยุกต์ใช้มากขึ้น)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.