คำถามติดแท็ก model

ความสัมพันธ์ระหว่างตัวแปรที่เกี่ยวข้องกับการสุ่มอย่างเป็นทางการ (สุ่ม) ในรูปแบบของสมการทางคณิตศาสตร์ อย่าใช้แท็กนี้ด้วยตัวเอง: ควรรวมแท็กที่เฉพาะเจาะจงมากกว่าเสมอ

1
ความแตกต่างระหว่างแบบจำลองที่มีหรือไม่มีการสกัดกั้นในการถดถอยแบบโลจิสติกส์
ฉันชอบที่จะเข้าใจความแตกต่างระหว่างแบบจำลองที่มีหรือไม่มีการสกัดกั้นในการถดถอยโลจิสติก มีความแตกต่างระหว่างพวกเขายกเว้นว่ามีการสกัดกั้นค่าสัมประสิทธิ์พิจารณาล็อก (อัตราส่วนอัตราต่อรอง) เทียบกับกลุ่มพื้นฐานและไม่มีการสกัดกั้นพวกเขาถือว่าเป็นบันทึก (อัตราต่อรอง)? จากสิ่งที่ฉันได้เห็นสัมประสิทธิ์เหมือนกันในทั้งสองกรณี แต่ความสำคัญไม่เหมือนกันเสมอไปและไม่เข้าใจว่าทำไม .. จึงเป็นเช่นนั้นนอกจากนี้ในกรณีใดจะถูกต้องที่จะใช้แบบจำลองที่ไม่มีการสกัดกั้น? นี่คือแบบจำลองของฉัน: glm(NeverReturn ~ factor(Network) * TotalPrice , family = binomial)และฉันไม่แน่ใจเกี่ยวกับการสกัดกั้นออกหรือไม่เพราะที่ "คำจริง" ราคารวมไม่เกิน 50 แต่อย่างใด แต่ความน่าจะเป็นที่ 1 จะไม่เป็น 0 ดังนั้นฉันจึงสับสน

3
ฉันจะใส่ข้อมูลที่มีค่าและอนุพันธ์อันดับที่ 1/2 ได้อย่างไร
ฉันมีชุดข้อมูลที่ประกอบด้วยกล่าวคือการวัดตำแหน่งความเร็วและความเร่ง ทั้งหมดมาจาก "การทำงาน" ที่เหมือนกัน ฉันสามารถสร้างระบบเชิงเส้นและพอดีกับพหุนามกับการวัดทั้งหมด แต่ฉันสามารถทำเช่นเดียวกันกับเส้นโค้ง? วิธี 'R' ในการทำเช่นนี้คืออะไร? นี่คือข้อมูลจำลองที่ฉันต้องการให้มี: f <- function(x) 2+x-0.5*x^2+rnorm(length(x), mean=0, sd=0.1) df <- function(x) 1-x+rnorm(length(x), mean=0, sd=0.3) ddf <- function(x) -1+rnorm(length(x), mean=0, sd=0.6) x_f <- runif(5, 0, 5) x_df <- runif(8, 3, 8) x_ddf <- runif(10, 4, 9) data <- data.frame(type=rep('f'), x=x_f, y=f(x_f)) data <- …

3
ความหมายและขอบเขตของแบบจำลองการถดถอย
คำถามง่ายๆที่น่าอาย - แต่ดูเหมือนว่ายังไม่ได้ถามคำถามเกี่ยวกับ Cross Validated มาก่อน: คำจำกัดความของตัวแบบการถดถอยคืออะไร? นอกจากนี้ยังมีคำถามสนับสนุน อะไรคือสิ่งที่ไม่ได้ตัวแบบการถดถอยหรือไม่? สำหรับเรื่องหลังนั้นฉันสนใจตัวอย่างที่ยุ่งยากซึ่งคำตอบไม่ชัดเจนในทันทีเช่น ARIMA หรือ GARCH

1
ข้อผิดพลาดการบวกหรือข้อผิดพลาดการคูณ?
ฉันค่อนข้างใหม่กับสถิติและขอขอบคุณที่ช่วยให้เข้าใจสิ่งนี้ดีขึ้น ในสาขาของฉันมีรูปแบบที่ใช้กันทั่วไปของแบบฟอร์มคือ: Pt=Po(Vt)αPt=Po(Vt)αP_t = P_o(V_t)^\alpha เมื่อคนทำโมเดลให้พอดีกับข้อมูลพวกเขามักทำตัวเป็นเส้นตรงและพอดีกับสิ่งต่อไปนี้ log(Pt)=log(Po)+αlog(Vt)+ϵlog⁡(Pt)=log⁡(Po)+αlog⁡(Vt)+ϵ\log(P_t) = \log(P_o) + \alpha \log(V_t) + \epsilon ตกลงไหม ฉันอ่านบางที่เพราะสัญญาณรบกวนในรูปแบบที่แท้จริงควรจะเป็น Pt=Po(Vt)α+ϵPt=Po(Vt)α+ϵP_t = P_o(V_t)^\alpha + \epsilon และสิ่งนี้ไม่สามารถทำให้เป็นเชิงเส้นได้ตามที่กล่าวมา มันเป็นเรื่องจริงเหรอ? ถ้ามีใครรู้การอ้างอิงที่ฉันสามารถอ่านและเรียนรู้เพิ่มเติมเกี่ยวกับมันและอาจอ้างอิงในรายงาน?

1
การตีความเชิงเรขาคณิตของตัวแบบเชิงเส้นทั่วไป
สำหรับรูปแบบเชิงเส้นเราสามารถมีการตีความทางเรขาคณิตที่ดีของรุ่นประมาณผ่าน OLS:{E} คือการฉายภาพของ y ลงบนพื้นที่ที่ถูกทอดโดย x และส่วนที่เหลือตั้งฉากกับพื้นที่นี้ซึ่งถูกขยายโดย xY = x β + E Y อีY= x β+ ey=xβ+ey=x\beta+eY^= x β^+ e^y^=xβ^+e^\hat{y}=x\hat{\beta}+\hat{e}Y^y^\hat{y}อี^e^\hat{e} ตอนนี้คำถามของฉันคือ: มีการตีความทางเรขาคณิตของโมเดลเชิงเส้นทั่วไป (การถดถอยโลจิสติก, การเป็นพิษ, การอยู่รอด) หรือไม่ ฉันอยากรู้มากเกี่ยวกับวิธีการตีความรูปแบบการถดถอยโลจิสติกส์ไบนารีโดยประมาณเรขาคณิตในลักษณะเดียวกันกับแบบจำลองเชิงเส้น มันยังไม่ได้มีข้อผิดพลาด พี^= logistic ( x β^)p^=logistic(xβ^)\hat{p} = \textrm{logistic}(x\hat{\beta}) ฉันพบหนึ่งพูดคุยเกี่ยวกับการตีความทางเรขาคณิตสำหรับโมเดลเชิงเส้นทั่วไป http://statweb.stanford.edu/~lpekelis/talks/13_obs_studies.html#(7) น่าเสียดายที่ตัวเลขไม่พร้อมใช้งานและค่อนข้างยากที่จะถ่ายภาพ ความช่วยเหลือการอ้างอิงและข้อเสนอแนะใด ๆ จะได้รับการชื่นชมอย่างมาก !!!

1
การประมาณค่า MLE แบบไม่แสดงอาการปกติ & มีประสิทธิภาพแม้ว่าตัวแบบจะไม่เป็นจริงหรือไม่?
สถานที่ตั้ง: นี่อาจเป็นคำถามที่โง่ ฉันรู้เพียงคำแถลงเกี่ยวกับคุณสมบัติของ asymptotic ของ MLE แต่ฉันไม่เคยศึกษาหลักฐานเลย ถ้าฉันทำฉันอาจจะไม่ถามคำถามเหล่านี้หรือฉันอาจรู้ว่าคำถามเหล่านี้ไม่สมเหตุสมผล ... ดังนั้นโปรดไปที่ฉันเถอะ :) ฉันมักจะเห็นข้อความที่บอกว่าตัวประมาณค่า MLE ของพารามิเตอร์ของโมเดลนั้นเป็นเรื่องปกติและมีประสิทธิภาพ คำสั่งมักจะเขียนเป็น N→∞θ^→dN(θ0,I(θ0)−1)θ^→dN(θ0,I(θ0)−1)\hat{\theta}\xrightarrow[]{d}\mathcal{N}(\theta_0,\mathbf{I}(\theta_0)^{-1})เป็นN→∞N→∞N\to\infty ที่คือจำนวนของกลุ่มตัวอย่างที่เป็นข้อมูลที่ฟิชเชอร์และเป็นพารามิเตอร์ (เวกเตอร์) มูลค่าที่แท้จริง ตอนนี้เนื่องจากมีการอ้างอิงถึงโมเดลจริงนี่หมายความว่าผลลัพธ์จะไม่ถูกเก็บไว้หากโมเดลไม่เป็นจริงหรือไม่?ฉันθ 0NNNII\mathbf{I}θ0θ0\theta_0 ตัวอย่าง: สมมติว่าฉันเป็นแบบจำลองกำลังไฟฟ้าออกจากกังหันลม เป็นฟังก์ชั่นของความเร็วลมบวกกับเสียงรบกวนแบบเกาส์เพิ่มเติม5PPPVVV P=β0+β1V+β2V2+ϵP=β0+β1V+β2V2+ϵP=\beta_0+\beta_1V+\beta_2V^2+\epsilon ฉันรู้ว่าแบบจำลองนั้นผิดด้วยเหตุผลอย่างน้อยสองประการ: 1)เป็นสัดส่วนจริง ๆ กับกำลังสามของและ 2) ข้อผิดพลาดนั้นไม่ได้เป็นสารเติมแต่งเพราะฉันละเลยตัวทำนายอื่น ๆ ซึ่งไม่ได้เกี่ยวข้องกับความเร็วลม ที่ควรเป็น 0 เพราะที่ 0 ความเร็วลมไม่มีอำนาจจะถูกสร้างขึ้น แต่ที่ไม่เกี่ยวข้องที่นี่) ทีนี้สมมติว่าฉันมีฐานข้อมูลพลังงานและความเร็วลมที่ไม่มีที่สิ้นสุดจากกังหันลมของฉัน ฉันสามารถวาดตัวอย่างได้มากเท่าที่ต้องการขนาดใดก็ได้ สมมติว่าฉันดึงตัวอย่าง 1,000 ตัวอย่างแต่ละขนาด 100 และคำนวณ\ hat {\ boldsymbol {\ …

4
เบาะแสว่าปัญหาเหมาะสมอย่างยิ่งสำหรับการถดถอยเชิงเส้น
ฉันเรียนรู้การถดถอยเชิงเส้นโดยใช้รู้เบื้องต้นเกี่ยวกับการวิเคราะห์การถดถอยเชิงเส้นโดยอจิกและ Vining ฉันต้องการเลือกโครงการวิเคราะห์ข้อมูล ฉันมีความคิดที่ไร้เดียงสาว่าการถดถอยเชิงเส้นนั้นเหมาะสมเมื่อผู้ต้องสงสัยคนหนึ่งเท่านั้นที่มีความสัมพันธ์เชิงเส้นตรงระหว่างตัวแปรอธิบายและตัวแปรตอบสนอง แต่มีแอพพลิเคชั่นในโลกแห่งความจริงไม่มากนักที่ดูเหมือนจะตรงตามเกณฑ์นี้ แต่การถดถอยเชิงเส้นค่อนข้างแพร่หลาย แง่มุมของโครงการที่นักสถิติที่มีประสบการณ์กำลังคิดอยู่ว่าพวกเขาอยู่ในรองเท้าของฉันหรือไม่โดยมองหาคำถาม + ข้อมูลที่เหมาะสมกับการถดถอยเชิงเส้น

5
จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?
ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

3
ตัวอย่างชีวิตจริงของ“ แบบจำลองทางสถิติที่ไม่ใช่พารามิเตอร์” คืออะไร?
ฉันอ่านบทความ Wikipedia เกี่ยวกับแบบจำลองทางสถิติที่นี่และฉันค่อนข้างงุนงงกับความหมายของ "ตัวแบบทางสถิติที่ไม่ใช่พารามิเตอร์" โดยเฉพาะ: แบบจำลองทางสถิติไม่ใช่พารามิเตอร์ถ้าชุดพารามิเตอร์ΘΘ\Theta เป็นมิติที่ไม่มีที่สิ้นสุด แบบจำลองทางสถิติคือsemiparametricถ้ามันมีทั้งขอบเขต จำกัด และพารามิเตอร์อนันต์มิติ อย่างเป็นทางการถ้าdddคือมิติของΘΘ\Thetaและnnnคือจำนวนของกลุ่มตัวอย่างทั้งสองรุ่น semiparametric และไม่อิงพารามิเตอร์มีd→ ∞d→∞d \rightarrow \inftyเป็นn → ∞n→∞n \rightarrow \infty ∞ ถ้าd/ n→0d/n→0d/n \rightarrow 0 เป็นn → ∞n→∞n \rightarrow \inftyโมเดลจะเป็นแบบ semiparametric มิฉะนั้นโมเดลนั้นไม่ใช่พารามิเตอร์ ฉันเข้าใจว่าถ้ามิติ (ฉันใช้นั่นหมายถึงจำนวนพารามิเตอร์) ของโมเดลนั้น จำกัด แน่นอนนี่คือโมเดลพาราเมตริก สิ่งที่ไม่สมเหตุสมผลสำหรับฉันคือวิธีที่เราสามารถมีแบบจำลองทางสถิติที่มีจำนวนพารามิเตอร์ที่ไม่สิ้นสุดเช่นที่เราจะเรียกมันว่า "แบบไม่อิงพารามิเตอร์" ยิ่งไปกว่านั้นแม้ว่าในกรณีนี้ทำไม "ไม่ใช่" หากในความเป็นจริงมีจำนวนมิติไม่สิ้นสุด สุดท้ายเนื่องจากฉันมาที่นี่จากภูมิหลังการเรียนรู้ของเครื่องมีความแตกต่างระหว่าง "แบบจำลองทางสถิติที่ไม่ใช่พารามิเตอร์" นี้หรือไม่และพูดว่า "แบบจำลองการเรียนรู้ด้วยเครื่องที่ไม่ใช่พารามิเตอร์" ในที่สุดตัวอย่างที่เป็นรูปธรรมอาจเป็นของโมเดลที่ไม่มีขอบเขตอนันต์แบบไม่มีพารามิเตอร์

2
ประมาณอัตราที่เครื่องชั่งเบี่ยงเบนมาตรฐานที่มีตัวแปรอิสระ
ฉันมีการทดลองในที่ที่ฉันกำลังการวัดของการกระจายตามปกติตัวแปรYYY , Y∼ N( μ , σ)Y∼N(μ,σ)Y \sim N(\mu,\sigma) อย่างไรก็ตามการทดลองก่อนหน้านี้ได้มีหลักฐานบางอย่างที่เบี่ยงเบนมาตรฐานσσ\sigmaเป็นฟังก์ชั่นเลียนแบบของตัวแปรอิสระคือXXX σ= a | X| +bσ=a|X|+b\sigma = a|X| + b Y∼ N( μ , a | X| +b)Y∼N(μ,a|X|+b)Y \sim N(\mu,a|X| + b) ฉันต้องการที่จะประเมินค่าพารามิเตอร์และBโดยการสุ่มตัวอย่างYที่หลายค่าของX นอกจากนี้เนื่องจากข้อ จำกัด ในการทดสอบฉันสามารถใช้ตัวอย่างYจำนวน จำกัด (ประมาณ 30-40) เท่านั้นและต้องการสุ่มตัวอย่างที่ค่าXหลาย ๆ ค่าด้วยเหตุผลการทดลองที่ไม่เกี่ยวข้อง ได้รับข้อ จำกัด เหล่านี้สิ่งที่วิธีการที่มีอยู่ในการประมาณการและข ?aaaขbbYYYXXXYYYXXXaaaขbb คำอธิบายการทดลอง นี่เป็นข้อมูลเพิ่มเติมถ้าคุณสนใจว่าทำไมฉันถึงถามคำถามข้างต้น การทดลองของฉันวัดการรับรู้ทางสายตาและภาพ ฉันมีตั้งค่าการทดสอบที่ฉันสามารถนำเสนอทั้งการได้ยินหรือการมองเห็นเป้าหมายจากสถานที่ที่แตกต่างกัน, , …

7
หลีกเลี่ยงการเลือกปฏิบัติทางสังคมในการสร้างแบบจำลอง
ฉันมีคำถามที่ได้รับแรงบันดาลใจจากเรื่องอื้อฉาวการรับสมัครงานล่าสุดของ Amazon ที่พวกเขาถูกกล่าวหาว่าเลือกปฏิบัติต่อสตรีในกระบวนการสรรหา ข้อมูลเพิ่มเติมที่นี่ : ผู้เชี่ยวชาญด้านการเรียนรู้เครื่องจักรของ Amazon.com Inc เปิดเผยปัญหาใหญ่: เครื่องมือการสรรหาคนใหม่ของพวกเขาไม่ชอบผู้หญิง ทีมได้สร้างโปรแกรมคอมพิวเตอร์ตั้งแต่ปี 2014 เพื่อตรวจสอบประวัติย่อของผู้สมัครงานโดยมีจุดประสงค์ในการค้นหาผู้มีความสามารถสูงสุด ...... เครื่องมือการทดลองเชิงทดลองของ บริษัท ใช้ปัญญาประดิษฐ์เพื่อให้คะแนนผู้สมัครงานตั้งแต่หนึ่งถึงห้าดาว ... ... แต่ในปี 2558 บริษัท ตระหนักว่าระบบใหม่ไม่ใช่การให้คะแนนผู้สมัครสำหรับงานพัฒนาซอฟต์แวร์และการโพสต์ทางเทคนิคอื่น ๆ ในลักษณะที่เป็นกลางทางเพศ นั่นเป็นเพราะโมเดลคอมพิวเตอร์ของอเมซอนได้รับการฝึกฝนให้ใช้สัตว์แพทย์โดยการสังเกตรูปแบบการดำเนินการต่อที่ส่งมาถึง บริษัท ในช่วงระยะเวลา 10 ปี ส่วนใหญ่มาจากผู้ชายซึ่งเป็นภาพสะท้อนของการครอบงำชายในอุตสาหกรรมเทคโนโลยี (สำหรับกราฟิกเกี่ยวกับการแยกเพศในเทคโนโลยีดูที่นี่ ) ผลของระบบ Amazon สอนตัวเองว่าผู้สมัครชายเป็นที่ต้องการ มันดำเนินการลงโทษที่รวมคำว่า "ผู้หญิง" ไว้ใน "กัปตันชมรมหมากรุกของผู้หญิง" และมันได้ปรับลดบัณฑิตของวิทยาลัยสตรีทั้งสองแห่งตามที่คนคุ้นเคยกับเรื่องนี้ พวกเขาไม่ได้ระบุชื่อโรงเรียน Amazon แก้ไขโปรแกรมเพื่อให้เป็นกลางกับข้อกำหนดเฉพาะเหล่านี้ แต่นั่นไม่รับประกันว่าเครื่องจะไม่คิดวิธีการคัดแยกผู้สมัครที่สามารถพิสูจน์การเลือกปฏิบัติได้ ท้ายที่สุด บริษัท ซีแอตเทิลยกเลิกทีมเมื่อต้นปีที่แล้วเพราะผู้บริหารสูญเสียความหวังในโครงการ ...... การทดลองของ …

1
มี "มาตรฐาน" สำหรับสัญลักษณ์แบบจำลองทางสถิติหรือไม่
ตัวอย่างเช่นในคู่มือ BUGSหรือหนังสือที่กำลังจะมาถึงโดย Lee และ Wagenmakers ( pdf ) และในสถานที่อื่น ๆ มีการใช้สัญกรณ์ประเภทหนึ่งซึ่งดูเหมือนว่าฉันจะมีความยืดหยุ่นมากในการอธิบายรูปแบบทางสถิติส่วนใหญ่ ตัวอย่างของสัญกรณ์นี้มีดังต่อไปนี้: yi∼Binomial(pi,ni)log(pi1−pi)=bibi∼Normal(μp,σp)yi∼Binomial(pi,ni)log⁡(pi1−pi)=bibi∼Normal(μp,σp) y_i \sim \text{Binomial}(p_i,n_i) \\ \log(\frac{p_i}{1 - p_i}) = b_i \\ b_i \sim \text{Normal}(\mu_p,\sigma_p) ซึ่งจะอธิบายถึงรูปแบบการโลจิสติกลำดับชั้นโดยไม่มีการพยากรณ์ แต่ด้วยกลุ่ม วิธีการอธิบายแบบจำลองนี้ดูเหมือนจะทำงานอย่างเท่าเทียมกันทั้งสำหรับการอธิบายและรูปแบบ frequentist คชกรรมตัวอย่างเช่นการให้คำอธิบายรูปแบบนี้อย่างเต็มที่คชกรรมคุณก็จะต้องเพิ่มไพรเออร์ในและ\i=1…ni=1…ni = 1\dots n μpμp\mu_pσpσp\sigma_p รูปแบบของสัญกรณ์รุ่นนี้มีการอธิบายไว้โดยละเอียดในบทความหรือหนังสือบางเล่มหรือไม่? หากคุณต้องการใช้สัญกรณ์นี้เพื่อเขียนแบบจำลองมีหลายวิธีในการทำสิ่งต่าง ๆ และมันจะมีประโยชน์มากกับคู่มือที่ครอบคลุมทั้งในการติดตามและอ้างอิงผู้อื่น ความแตกต่างบางประการที่ฉันพบในวิธีที่คนใช้สัญกรณ์ประเภทนี้: สิ่งใดที่คุณเรียกการแจกแจง เช่นฉันเคยเห็นฯลฯN,N,Norm,NormalN,N,Norm,Normal\mathcal{N},\text{N},\text{Norm},\text{Normal} คุณจัดการกับดัชนีอย่างไร เช่นฉันเห็น , ,ฯลฯyijyijy_{ij}yi[j]yi[j]y_{i[j]}yj|iyj|iy_{j|i} สัญลักษณ์พารามิเตอร์ใดที่มักใช้สำหรับพารามิเตอร์ ตัวอย่างเช่นเป็นเรื่องปกติที่จะใช้เป็นค่าเฉลี่ยสำหรับการแจกแจงแบบปกติ แต่จะมีการแจกแจงแบบอื่นอย่างไร (สำหรับเรื่องนี้ฉันมักจะตรวจสอบการกระจายของ …

6
โมเดลที่ยืดหยุ่นและไม่ยืดหยุ่นในการเรียนรู้ของเครื่อง
ฉันเจอคำถามง่าย ๆ ในการเปรียบเทียบโมเดลที่ยืดหยุ่น (เช่น splines) กับโมเดลที่ไม่ยืดหยุ่น (เช่นการถดถอยเชิงเส้น) ภายใต้สถานการณ์ที่แตกต่างกัน คำถามคือ: โดยทั่วไปเราคาดหวังว่าประสิทธิภาพของวิธีการเรียนรู้ทางสถิติที่ยืดหยุ่นจะทำงานได้ดีขึ้นหรือแย่ลงกว่าวิธีที่ไม่ยืดหยุ่นเมื่อ: จำนวนตัวทำนายพีพีpมีขนาดใหญ่มากและจำนวนการสังเกตnnnนั้นน้อยมาก ความแปรปรวนของข้อกำหนดข้อผิดพลาดคือมีค่าสูงมาก?σ2= Var ( e )σ2=var(อี)σ^2 = \text{Var}(e) ฉันคิดว่าสำหรับ (1) เมื่อมีขนาดเล็กโมเดลที่ยืดหยุ่นได้ดีกว่า (ไม่แน่ใจ) สำหรับ (2) ฉันไม่รู้ว่ารุ่นไหนดีกว่ากันnnn

3
วิธีรับช่วงความมั่นใจในการเปลี่ยนแปลงประชากร r-square
ตัวอย่างง่ายๆสมมติว่ามีตัวแบบถดถอยเชิงเส้นสองแบบ รุ่นที่ 1 มีสามทำนาย, x1a, x2bและx2c แบบจำลอง 2 มีตัวทำนายสามตัวจากแบบจำลอง 1 และสองตัวทำนายเพิ่มเติมx2aและx2b มีสมการถดถอยที่ประชากรประชากรแปรปรวนอธิบายคือเป็น สำหรับรุ่นที่ 1 และρ 2 ( 2 )สำหรับรุ่น 2. แปรปรวนเพิ่มขึ้นอธิบายโดยรุ่น 2 ในประชากรที่อยู่Δ ρ 2 = ρ 2 ( 2 ) - ρ 2 ( 1 )ρ2(1)ρ(1)2\rho^2_{(1)}ρ2(2)ρ(2)2\rho^2_{(2)}Δρ2=ρ2(2)−ρ2(1)Δρ2=ρ(2)2−ρ(1)2\Delta\rho^2 = \rho^2_{(2)} - \rho^2_{(1)} ฉันสนใจในการได้รับข้อผิดพลาดมาตรฐานและช่วงความเชื่อมั่นสำหรับประมาณการของ 2 ในขณะที่ตัวอย่างเกี่ยวข้องกับตัวทำนาย 3 และ 2 ตามลำดับความสนใจงานวิจัยของฉันเกี่ยวข้องกับตัวทำนายจำนวนต่าง ๆ (เช่น …

3
คำว่า "เรียนรู้แบบจำลอง" มาจากที่ใด
บ่อยครั้งที่ฉันเคยได้ยินว่าผู้ขุดข้อมูลใช้คำนี้ ในฐานะนักสถิติที่ทำงานเกี่ยวกับการจำแนกปัญหาฉันคุ้นเคยกับคำว่า "ฝึกฝนลักษณนาม" และฉันถือว่า "เรียนรู้ตัวแบบ" หมายถึงสิ่งเดียวกัน ฉันไม่สนใจคำว่า "ฝึกฝนลักษณนาม" ที่ดูเหมือนจะแสดงให้เห็นถึงแนวคิดของการปรับโมเดลให้เหมาะสมเนื่องจากข้อมูลการฝึกอบรมใช้เพื่อให้ได้ค่าประมาณที่ดีขึ้นหรือ "ดีขึ้น" ของพารามิเตอร์โมเดล แต่การเรียนรู้จะหมายถึงการได้รับความรู้ ในภาษาอังกฤษธรรมดา "เรียนรู้แบบจำลอง" จะหมายถึงการรู้ว่ามันคืออะไร แต่ในความเป็นจริงเราไม่เคย "รู้" โมเดล แบบจำลองความเป็นจริงโดยประมาณ แต่ไม่มีแบบจำลองที่ถูกต้อง มันเหมือนที่ Box บอกว่า "ไม่มีรุ่นที่ถูกต้อง แต่บางรุ่นก็มีประโยชน์" ฉันสนใจที่จะฟังการตอบสนองของผู้ปฏิบัติข้อมูล คำนี้มาอย่างไร ถ้าคุณใช้มันคุณชอบมันทำไม

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.