คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว

5
การตรวจจับตัวทำนายที่สำคัญจากตัวแปรอิสระจำนวนมาก
ในชุดข้อมูลของประชากรสองกลุ่มที่ไม่ทับซ้อนกัน (ผู้ป่วย & สุขภาพดี, รวม ) ฉันต้องการค้นหา (จากตัวแปรอิสระ) ตัวทำนายที่สำคัญสำหรับตัวแปรที่ขึ้นต่อเนื่อง มีความสัมพันธ์ระหว่างตัวทำนาย ฉันสนใจที่จะทราบว่าตัวทำนายใด ๆ ที่เกี่ยวข้องกับตัวแปรตาม "ในความเป็นจริง" (แทนที่จะทำนายตัวแปรตามให้มากที่สุด) ในขณะที่ฉันมีวิธีการมากมายที่เป็นไปได้ฉันอยากจะถามว่าวิธีไหนที่แนะนำมากที่สุดn = 60n=60n=60300300300 จากความเข้าใจของฉันไม่แนะนำให้รวมหรือแยกตัวทำนายแบบเป็นขั้นตอน เช่นใช้การถดถอยเชิงเส้นแยกกันสำหรับตัวทำนายทุกตัวและแก้ไขค่า p สำหรับการเปรียบเทียบหลาย ๆ ครั้งโดยใช้ FDR (อาจจะอนุรักษ์นิยมมาก?) การถดถอยส่วนประกอบหลัก: ยากที่จะตีความเพราะฉันจะไม่สามารถบอกเกี่ยวกับพลังการทำนายของตัวทำนายส่วนบุคคล แต่เกี่ยวกับส่วนประกอบเท่านั้น ข้อเสนอแนะอื่น ๆ ?

4
การวิเคราะห์ด้วยข้อมูลที่ซับซ้อนมีอะไรที่แตกต่างกันอย่างไร
พูดเช่นคุณกำลังทำโมเดลเชิงเส้น แต่ข้อมูลนั้นซับซ้อนYyy Y= x β+ ϵy=xβ+ϵ y = x \beta + \epsilon ชุดข้อมูลของฉันมีความซับซ้อนในขณะที่ตัวเลขทั้งหมดในที่มีรูปแบบBI) มีขั้นตอนใดบ้างที่แตกต่างเมื่อทำงานกับข้อมูลดังกล่าว?Yyy( a + b i )(a+bi)(a + bi) ฉันถามเพราะคุณจะได้รับการฝึกอบรมความแปรปรวนร่วมที่ซับซ้อนและสถิติการทดสอบที่มีมูลค่าซับซ้อน .. คุณจำเป็นต้องใช้การผันแบบคอนจูเกตแทนการแปลงสัญญาณเมื่อทำกำลังสองน้อยที่สุดหรือไม่? ค่าความแปรปรวนร่วมที่ซับซ้อนมีความหมายอะไร?

3
สัมประสิทธิ์การถดถอยที่พลิกสัญญาณหลังจากรวมตัวทำนายอื่น ๆ
จินตนาการ คุณรันการถดถอยเชิงเส้นพร้อมตัวทำนายตัวเลขสี่ตัว (IV1, ... , IV4) เมื่อมีเพียง IV1 เท่านั้นที่รวมเป็นตัวทำนายค่าเบต้ามาตรฐานคือ +.20 เมื่อคุณรวม IV2 ถึง IV4 เครื่องหมายของสัมประสิทธิ์การถดถอยมาตรฐานของ IV1 พลิกไปที่-.25(เช่นมันจะกลายเป็นค่าลบ) สิ่งนี้ก่อให้เกิดคำถามสองสามข้อ: เกี่ยวกับคำศัพท์คุณเรียกสิ่งนี้ว่า "เอฟเฟกต์การยับยั้ง" หรือไม่? คุณจะใช้กลยุทธ์อะไรในการอธิบายและเข้าใจผลกระทบนี้? คุณมีตัวอย่างของผลกระทบดังกล่าวในทางปฏิบัติและคุณอธิบายและเข้าใจผลกระทบเหล่านี้ได้อย่างไร

2
เราจำเป็นต้องมีการไล่ระดับสีเพื่อหาค่าสัมประสิทธิ์ของตัวแบบการถดถอยเชิงเส้นหรือไม่?
ผมพยายามที่จะเรียนรู้การเรียนรู้เครื่องใช้วัสดุ Coursera ในการบรรยายครั้งนี้แอนดรูว์อึ้งใช้อัลกอริธึมการไล่ระดับสีเพื่อค้นหาค่าสัมประสิทธิ์ของตัวแบบการถดถอยเชิงเส้นที่จะลดฟังก์ชั่นข้อผิดพลาด (ฟังก์ชันต้นทุน) สำหรับการถดถอยเชิงเส้นเราจำเป็นต้องมีการไล่ระดับสี ดูเหมือนว่าฉันสามารถวิเคราะห์ความแตกต่างของฟังก์ชั่นข้อผิดพลาดและตั้งค่าเป็นศูนย์เพื่อแก้ค่าสัมประสิทธิ์; นั่นถูกต้องใช่ไหม?

7
ในการวิเคราะห์การถดถอยทำไมเราจึงเรียกตัวแปรอิสระว่า "อิสระ"
ฉันหมายถึงตัวแปรบางตัวนั้นมีความสัมพันธ์กันอย่างมาก เรานิยามว่ามันเป็นตัวแปรอิสระอย่างไร / ทำไม / ในบริบทใด

2
การทำให้เป็นมาตรฐาน L1 จะทำงานได้ดีกว่า L2 และในทางกลับกันหรือไม่
หมายเหตุ: ฉันรู้ว่า L1 มีคุณสมบัติการเลือกคุณสมบัติ ฉันพยายามที่จะเข้าใจว่าจะเลือกแบบใดเมื่อการเลือกคุณสมบัติไม่เกี่ยวข้องอย่างสมบูรณ์ จะตัดสินใจใช้การทำให้เป็นมาตรฐาน (L1 หรือ L2) ได้อย่างไร ข้อดีและข้อเสียของการทำให้เป็นมาตรฐาน L1 / L2 แต่ละอย่างมีอะไรบ้าง แนะนำให้เลือกใช้คุณลักษณะที่ 1 โดยใช้ L1 แล้วใช้ L2 กับตัวแปรที่เลือกเหล่านี้หรือไม่

2
สมมติฐานของการถดถอยแบบทวินามเชิงลบคืออะไร?
ฉันทำงานกับชุดข้อมูลขนาดใหญ่ (เป็นความลับดังนั้นฉันจึงไม่สามารถแบ่งปันได้มากเกินไป) และมาถึงข้อสรุปการถดถอยเชิงลบแบบทวินามก็เป็นสิ่งที่จำเป็น ฉันไม่เคยทำการถดถอยแบบ glm มาก่อนและฉันไม่สามารถหาข้อมูลที่ชัดเจนเกี่ยวกับสมมติฐานได้ พวกเขาเหมือนกันสำหรับ MLR หรือไม่ ฉันสามารถแปลงตัวแปรในลักษณะเดียวกันได้หรือไม่ (ฉันได้ค้นพบแล้วว่าการเปลี่ยนตัวแปรตามคือการโทรที่ไม่ดีเนื่องจากต้องเป็นจำนวนธรรมชาติ) ฉันได้พิจารณาแล้วว่าการแจกแจงทวินามลบจะช่วยในการกระจายตัวมากเกินไปในข้อมูลของฉัน (ความแปรปรวนอยู่ที่ประมาณ 2000 ค่าเฉลี่ยคือ 48) ขอบคุณสำหรับความช่วยเหลือ !!

6
อะไรคือความแตกต่างระหว่างการถดถอยโลจิสติกและเปอร์เซ็นตรอน
ฉันกำลังอ่านบันทึกการบรรยายของ Andrew Ng เกี่ยวกับ Machine Learning บันทึกแนะนำให้รู้จักกับการถดถอยโลจิสติกและจากนั้นเพื่อ perceptron ในขณะที่อธิบาย Perceptron บันทึกย่อบอกว่าเราเพิ่งเปลี่ยนนิยามของฟังก์ชันขีด จำกัด ที่ใช้สำหรับการถดถอยโลจิสติก หลังจากนั้นเราสามารถใช้แบบจำลอง Perceptron สำหรับการจำแนกประเภท ดังนั้นคำถามของฉันคือ - ถ้าจำเป็นต้องระบุและเราถือว่า Perceptron เป็นเทคนิคการจำแนกประเภทแล้วการถดถอยโลจิสติกคืออะไร? ใช้เพื่อให้ได้ความน่าจะเป็นของจุดข้อมูลที่เป็นหนึ่งในคลาสหรือไม่

5
จะหาค่าตัวประมาณกำลังสองน้อยที่สุดสำหรับการถดถอยเชิงเส้นหลายเส้นได้อย่างไร
ในกรณีที่เรียบง่ายเชิงเส้นถดถอยy=β0+β1xy=β0+β1xy=\beta_0+\beta_1xคุณสามารถได้รับมาอย่างน้อยประมาณตารางβ 1 = Σ ( x ฉัน - ˉ x ) ( Y ฉัน - ˉ Y )β^1=∑(xi−x¯)(yi−y¯)∑(xi−x¯)2β^1=∑(xi−x¯)(yi−y¯)∑(xi−x¯)2\hat\beta_1=\frac{\sum(x_i-\bar x)(y_i-\bar y)}{\sum(x_i-\bar x)^2}เช่นที่คุณไม่จำเป็นต้องรู้ β 0เพื่อประเมิน β 1β^0β^0\hat\beta_0β^1β^1\hat\beta_1 สมมติว่าฉันมีy=β1x1+β2x2y=β1x1+β2x2y=\beta_1x_1+\beta_2x_2 , วิธีการที่ฉันไม่ได้รับมาβ 1โดยไม่ต้องประเมินβ 2 ? หรือเป็นไปไม่ได้?β^1β^1\hat\beta_1β^2β^2\hat\beta_2

1
Cox Regression มีการแจกแจงแบบปัวซองหรือไม่?
ทีมเล็ก ๆ ของเรากำลังพูดคุยกันและติดอยู่ ไม่มีใครรู้ว่าการถดถอยของ Cox นั้นมีการแจกแจงแบบปัวซองหรือไม่ เรามีการถกเถียงกันว่าบางทีการถดถอยของค็อกซ์ที่มีความเสี่ยงเวลาคงที่จะมีความคล้ายคลึงกันกับการถดถอยปัวซองด้วยความแปรปรวนที่แข็งแกร่ง ความคิดใด ๆ

5
วิธีจัดการกับข้อมูลแบบลำดับชั้น / ซ้อนในการเรียนรู้ของเครื่อง
ฉันจะอธิบายปัญหาด้วยตัวอย่าง สมมติว่าคุณต้องการที่จะทำนายรายได้ของแต่ละบุคคลที่มีคุณลักษณะบางอย่าง: {อายุ, เพศ, ประเทศ, ภูมิภาค, เมือง} คุณมีชุดข้อมูลการฝึกอบรมเช่นนั้น train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
พิสูจน์ว่าสัมประสิทธิ์ในแบบจำลอง OLS เป็นไปตามการแจกแจงแบบ t ด้วย (nk) องศาอิสระ
พื้นหลัง สมมติว่าเรามีโมเดลกำลังสองน้อยที่สุดซึ่งเรามีค่าสัมประสิทธิ์ในแบบจำลองการถดถอยของเรา kkky=Xβ+ϵy=Xβ+ϵ\mathbf{y}=\mathbf{X}\mathbf{\beta} + \mathbf{\epsilon} โดยที่เป็นเวกเตอร์ของสัมประสิทธิ์ ,คือเมทริกซ์การออกแบบที่กำหนดโดยββ\mathbf{\beta}(k×1)(k×1)(k\times1)XX\mathbf{X} X=⎛⎝⎜⎜⎜⎜⎜⎜11⋮1x11x21xn1x12…⋱………x1(k−1)⋮⋮xn(k−1)⎞⎠⎟⎟⎟⎟⎟⎟X=(1x11x12…x1(k−1)1x21…⋮⋮⋱⋮1xn1……xn(k−1))\mathbf{X} = \begin{pmatrix} 1 & x_{11} & x_{12} & \dots & x_{1\;(k-1)} \\ 1 & x_{21} & \dots & & \vdots \\ \vdots & & \ddots & & \vdots \\ 1 & x_{n1} & \dots & \dots & x_{n\;(k-1)} \end{pmatrix} และข้อผิดพลาดคือ IID ปกติ …

10
การถดถอยของการเข้าใจผิดของนักการพนันหมายถึง
ในมือข้างหนึ่งผมมีความถดถอยไปหมายและในทางกลับกันผมมีความเชื่อที่ผิด gambler's ความผิดพลาดของนักพนันนั้นถูกนิยามโดยมิลเลอร์และซันจูร์โจ (2019) ว่า“ ความเชื่อที่ผิดที่ว่าลำดับแบบสุ่มมีแนวโน้มที่จะกลับรายการอย่างเป็นระบบนั่นคือแนวโน้มของผลลัพธ์ที่คล้ายกันนั้นมีแนวโน้มที่จะจบลงมากกว่า ครั้งในแถวจะคิดว่ามีแนวโน้มที่จะตกก้อยในการทดลองครั้งต่อไป ฉันมีผลงานที่ดีในเกมที่แล้วและจากการถดถอยถึงค่าเฉลี่ยฉันอาจจะมีประสิทธิภาพที่แย่ลงในเกมถัดไป แต่จากการเข้าใจผิดของนักการพนัน: พิจารณาความน่าจะเป็นที่สองต่อไปนี้โดยสมมติว่าเป็นเหรียญที่ยุติธรรม ความน่าจะเป็น 20 หัวจากนั้น 1 หาง = 0.520×0.5=0.5210.520×0.5=0.5210.5^{20} × 0.5 = 0.5^{21} ความน่าจะเป็น 20 หัวจากนั้น 1 หัว = 0.520×0.5=0.5210.520×0.5=0.5210.5^{20} × 0.5 = 0.5^{21} จากนั้น ... ลองพิจารณาตัวอย่างง่ายๆ: ชั้นเรียนของนักเรียนทำการทดสอบจริง / เท็จ 100 เรื่องในหัวข้อ สมมติว่านักเรียนทุกคนสุ่มเลือกคำถามทุกข้อ จากนั้นคะแนนของนักเรียนแต่ละคนจะได้รับการตระหนักถึงหนึ่งในชุดของตัวแปรสุ่มแบบอิสระและแบบกระจายซึ่งมีค่าเฉลี่ยที่คาดหวังไว้ที่ 50 โดยธรรมชาติแล้วนักเรียนบางคนจะได้คะแนนสูงกว่า 50 และอย่างมีนัยสำคัญต่ำกว่า 50 โดยบังเอิญ หากใช้เพียงคะแนนสูงสุด 10% …

1
ข้อผิดพลาดมาตรฐานคำนวณอย่างไรสำหรับค่าติดตั้งจากการถดถอยโลจิสติก
เมื่อคุณทำนายค่าที่ติดตั้งจากตัวแบบการถดถอยโลจิสติกจะคำนวณข้อผิดพลาดมาตรฐานอย่างไร ฉันหมายถึงค่าติดตั้งไม่ใช่สำหรับค่าสัมประสิทธิ์ (ซึ่งเกี่ยวข้องกับเมทริกซ์ข้อมูลฟิชเชอร์) ฉันค้นพบวิธีรับตัวเลขด้วยเท่านั้นR(เช่นที่นี่ในวิธีใช้ r-help หรือที่นี่ใน Stack Overflow) แต่ฉันไม่สามารถหาสูตรได้ pred <- predict(y.glm, newdata= something, se.fit=TRUE) หากคุณสามารถให้แหล่งข้อมูลออนไลน์ (ควรอยู่บนเว็บไซต์มหาวิทยาลัย) นั่นจะเป็นสิ่งที่ยอดเยี่ยม

3
การตีความการทำนายอย่างง่ายต่ออัตราต่อรองในการถดถอยโลจิสติก
ฉันค่อนข้างใหม่ในการใช้การถดถอยโลจิสติกและสับสนเล็กน้อยโดยความแตกต่างระหว่างการตีความของฉันของค่าต่อไปนี้ซึ่งฉันคิดว่าจะเหมือนกัน: ค่าเบต้าแบบยกกำลัง ทำนายความน่าจะเป็นของผลลัพธ์โดยใช้ค่าเบต้า นี่คือรุ่นที่เรียบง่ายของรุ่นที่ฉันใช้ซึ่งการขาดสารอาหารและการประกันภัยเป็นทั้งไบนารีและความมั่งคั่งยังคงต่อเนื่อง: Under.Nutrition ~ insurance + wealth แบบจำลองของฉัน (จริง) คืนค่าเบต้าเป็นเลขชี้กำลัง 0.8 สำหรับการประกันซึ่งฉันจะตีความว่า: "ความน่าจะเป็นของการได้รับอาหารไม่เพียงพอสำหรับผู้ประกันตนคือ 0.8 เท่าของความน่าจะเป็นของการได้รับอาหารไม่เพียงพอสำหรับบุคคลที่ไม่มีประกัน" อย่างไรก็ตามเมื่อฉันคำนวณความแตกต่างของความน่าจะเป็นของแต่ละบุคคลโดยการใส่ค่า 0 และ 1 ลงในตัวแปรประกันภัยและค่าเฉลี่ยของความมั่งคั่งความแตกต่างของการขาดสารอาหารเพียง 0.04 นั่นคือการคำนวณดังนี้: Probability Undernourished = exp(β0 + β1*Insurance + β2*Wealth) / (1+exp(β0 + β1*Insurance + β2*wealth)) ฉันจะซาบซึ้งจริง ๆ ถ้ามีใครสามารถอธิบายได้ว่าทำไมค่าเหล่านี้แตกต่างกันและการตีความที่ดีกว่า (โดยเฉพาะสำหรับค่าที่สอง) อาจจะเป็นอย่างไร การแก้ไขคำชี้แจงเพิ่มเติม เมื่อฉันเข้าใจแล้วความน่าจะเป็นที่ได้รับการเลี้ยงดูสำหรับบุคคลที่ไม่มีประกัน (ที่ B1 สอดคล้องกับการประกันภัย) คือ: Prob(Unins) …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.