คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว

1
ทำความเข้าใจกับการถดถอยเชิงลบ
ฉันกำลังมองหาวรรณกรรมเกี่ยวกับการถดถอยเชิงลบสันเขา ในระยะสั้นมันเป็นลักษณะทั่วไปของการถดถอยเชิงเส้นโดยใช้เชิงลบในสูตรตัวประมาณ:กรณีในเชิงบวกมีทฤษฎีที่ดี: เป็นฟังก์ชั่นการสูญเสียเป็นข้อ จำกัด เป็น Bayes ก่อน ... แต่ฉันรู้สึกหายไปกับรุ่นเชิงลบที่มีเพียงสูตรข้างต้น มันจะมีประโยชน์สำหรับสิ่งที่ฉันทำ แต่ฉันไม่สามารถตีความได้อย่างชัดเจนบีตา = ( X ⊤ X + λ ฉัน) - 1 X ⊤ Yλλ\lambdaβ^=(X⊤X+λI)−1X⊤y.β^=(X⊤X+λI)−1X⊤y.\hat\beta = ( X^\top X + \lambda I)^{-1} X^\top y. คุณรู้ข้อความเบื้องต้นเกี่ยวกับสันเขาเชิงลบหรือไม่? จะตีความได้อย่างไร?

1
ทำไม lm และ biglm ใน R จึงให้ค่า p ที่ต่างกันสำหรับข้อมูลเดียวกัน
นี่คือตัวอย่างเล็ก ๆ : MyDf<-data.frame(x=c(1,2,3,4), y=c(1.2, .7, -.5, -3)) ตอนนี้ด้วยbase::lm: > lm(y~x, data=MyDf) %>% summary Call: lm(formula = y ~ x, data = MyDf) Residuals: 1 2 3 4 -0.47 0.41 0.59 -0.53 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 3.0500 0.8738 3.491 0.0732 . x -1.3800 0.3191 -4.325 0.0495 …

2
ความแตกต่างระหว่าง 'ปกติ' การถดถอยเชิงเส้นและการเรียนรู้การถดถอยเชิงเส้นลึกคืออะไร?
ฉันต้องการทราบความแตกต่างระหว่างการถดถอยเชิงเส้นในการวิเคราะห์การเรียนรู้ของเครื่องปกติและการถดถอยเชิงเส้นในการตั้งค่า "การเรียนรู้ลึก" ขั้นตอนวิธีใดที่ใช้สำหรับการถดถอยเชิงเส้นในการตั้งค่าการเรียนรู้ลึก

2
ใช้สัมประสิทธิ์สหสัมพันธ์ของเพียร์สันเป็นเป้าหมายการเพิ่มประสิทธิภาพในการเรียนรู้ของเครื่อง
ในการเรียนรู้ของเครื่อง (สำหรับปัญหาการถดถอย) ฉันมักจะเห็นค่าเฉลี่ย - กำลังสอง - ข้อผิดพลาด (MSE) หรือค่าเฉลี่ย - ข้อผิดพลาด (แม่) ที่ใช้เป็นฟังก์ชันข้อผิดพลาดเพื่อลด (บวกกับข้อกำหนดการทำให้เป็นปกติ) ฉันสงสัยว่ามีสถานการณ์ที่การใช้สัมประสิทธิ์สหสัมพันธ์จะเหมาะสมกว่าหรือไม่ หากสถานการณ์ดังกล่าวมีอยู่แล้ว: ค่าสัมประสิทธิ์สหสัมพันธ์ภายใต้สถานการณ์ใดเป็นตัวชี้วัดที่ดีกว่าเมื่อเทียบกับ MSE / MAE ในสถานการณ์เหล่านี้ MSE / MAE ยังคงเป็นฟังก์ชั่นต้นทุนพร็อกซีที่ดีที่จะใช้หรือไม่? สัมประสิทธิ์สหสัมพันธ์เป็นไปได้สูงสุดหรือไม่ นี่เป็นฟังก์ชั่นวัตถุประสงค์ที่มั่นคงที่จะใช้หรือไม่? ฉันไม่พบกรณีที่มีการใช้สัมประสิทธิ์สหสัมพันธ์โดยตรงเป็นฟังก์ชันวัตถุประสงค์ในการปรับให้เหมาะสม ฉันจะขอบคุณถ้าคนสามารถชี้ให้ฉันข้อมูลในพื้นที่นี้

3
การถดถอยด้วยข้อมูลที่เบ้
กำลังพยายามคำนวณจำนวนการเข้าชมจากข้อมูลประชากรและบริการ ข้อมูลเบ้มาก histograms: แปลง qq (ซ้ายคือบันทึก): m <- lm(d$Visits~d$Age+d$Gender+city+service) m <- lm(log(d$Visits)~d$Age+d$Gender+city+service) cityและserviceเป็นตัวแปรปัจจัย ฉันได้ค่า p ต่ำ *** สำหรับตัวแปรทั้งหมด แต่ฉันยังได้ค่า r-squared ต่ำที่ 0.05 ด้วย ฉันควรทำอย่างไรดี? รุ่นอื่นจะทำงานเช่นเลขชี้กำลังหรืออะไรบางอย่าง

1
เหตุใดการวิเคราะห์อนุกรมเวลาจึงไม่ถือว่าเป็นอัลกอริทึมการเรียนรู้ของเครื่อง
เหตุใดการวิเคราะห์อนุกรมเวลาจึงไม่ถือว่าเป็นอัลกอริทึมการเรียนรู้ของเครื่อง (ต่างจากการถดถอยเชิงเส้น) การวิเคราะห์การถดถอยและอนุกรมเวลาเป็นวิธีการพยากรณ์ เหตุใดคนหนึ่งจึงคิดว่าเป็นอัลกอริธึมการเรียนรู้ แต่ไม่ใช่อีกข้อหนึ่ง

1
บางส่วนควรรวม
ต่อไปนี้เป็นรูปแบบที่สร้างขึ้นจากmtcarsชุดข้อมูล: > ols(mpg~wt+am+qsec, mtcars) Linear Regression Model ols(formula = mpg ~ wt + am + qsec, data = mtcars) Model Likelihood Discrimination Ratio Test Indexes Obs 32 LR chi2 60.64 R2 0.850 sigma 2.4588 d.f. 3 R2 adj 0.834 d.f. 28 Pr(> chi2) 0.0000 g 6.456 Residuals Min 1Q Median …

1
ทำไมไม่ถดถอยอย่างหนักทุกครั้ง?
ตัวอย่างของการแสดงหน้านี้ว่าการถดถอยอย่างง่ายได้รับผลกระทบอย่างเห็นได้ชัดโดยค่าผิดปกติและสามารถเอาชนะได้โดยใช้เทคนิคของการถดถอยที่แข็งแกร่ง: http://www.alastairsanderson.com/R/tutorials/robust-regression-in-R/ ฉันเชื่อว่า lmrob และ ltsReg เป็นเทคนิคการถดถอยที่มีประสิทธิภาพอื่น ๆ เหตุใดจึงไม่ควรทำการถดถอยที่มีประสิทธิภาพ (เช่น rlm หรือ rq) ทุกครั้งแทนที่จะทำการถดถอยง่าย (lm) มีข้อเสียของเทคนิคการถดถอยที่แข็งแกร่งเหล่านี้หรือไม่ ขอบคุณสำหรับความเข้าใจของคุณ

2
มิติ VC ของตัวแบบการถดถอย
ในชุดการเรียนรู้การบรรยายจากข้อมูลอาจารย์กล่าวว่ามิติ VC วัดความซับซ้อนของแบบจำลองว่ามีจุดแตกต่างกันอย่างไร ดังนั้นวิธีนี้ใช้งานได้ดีอย่างสมบูรณ์แบบสำหรับการจำแนกประเภทที่เราสามารถบอกได้ว่าไม่มีคะแนน N หากตัวแยกประเภทสามารถจำแนกคะแนน k ได้อย่างมีประสิทธิภาพการวัดขนาด VC จะเป็น K แต่ก็ไม่ชัดเจนสำหรับฉัน ?

1
การเชื่อมต่อระหว่างการทำให้เป็นมาตรฐานและวิธีการคูณตัวคูณ lagrange คืออะไร?
เพื่อป้องกันไม่ให้คน overfitting คนเพิ่มระยะ normalization (สัดส่วนกับผลรวมกำลังสองของพารามิเตอร์ของแบบจำลอง) ด้วยพารามิเตอร์ normalizationไปยังฟังก์ชันต้นทุนของการถดถอยเชิงเส้น พารามิเตอร์นี้เหมือนกับตัวคูณ lagrange หรือไม่? การทำให้เป็นมาตรฐานเป็นเช่นเดียวกับวิธีการของตัวคูณ lagrange หรือไม่? หรือวิธีการเหล่านี้เชื่อมต่อกันอย่างไร? λλλ\lambdaλλ\lambda

2
อะไรคือความแตกต่างระหว่างแบบผสมผลกระทบและแบบจำลองการถดถอยเชิงเส้น?
ใครช่วยอธิบายความแตกต่างระหว่างแบบผสมและการวิเคราะห์การถดถอยเชิงเส้นได้ไหม (ฉันมีความรู้เกี่ยวกับสถิติที่ จำกัด มาก)

2
มัน“ โอเค” ที่จะลงจุดเส้นถดถอยสำหรับข้อมูลอันดับ (Spearman correlation) หรือไม่?
ฉันมีข้อมูลที่ฉันคำนวณความสัมพันธ์ Spearman และต้องการเห็นภาพสำหรับสิ่งพิมพ์ ตัวแปรที่ขึ้นอยู่กับการจัดอันดับตัวแปรอิสระไม่ได้ สิ่งที่ฉันต้องการเห็นภาพนั้นเป็นแนวโน้มทั่วไปมากกว่าความชันจริงดังนั้นฉันจึงจัดอันดับความเป็นอิสระและใช้ความสัมพันธ์ / การถดถอยของสเปียร์แมน แต่เมื่อฉันวางแผนข้อมูลของฉันและกำลังจะแทรกลงในต้นฉบับของฉันฉันสะดุดกับคำสั่งนี้ (บนเว็บไซต์นี้ ): คุณจะแทบไม่เคยใช้เส้นถดถอยสำหรับคำอธิบายหรือทำนายอย่างใดอย่างหนึ่งเมื่อคุณทำสเปียร์แมนยศสัมพันธ์ดังนั้นไม่คำนวณเทียบเท่าของสายการถดถอย และหลังจากนั้น คุณสามารถสร้างกราฟข้อมูลความสัมพันธ์อันดับ Spearman ในลักษณะเดียวกับการถดถอยเชิงเส้นหรือสหสัมพันธ์ อย่าใส่เส้นถดถอยบนกราฟอย่างไรก็ตาม; มันจะทำให้เข้าใจผิดที่จะวางเส้นถดถอยเชิงเส้นบนกราฟเมื่อคุณวิเคราะห์ด้วยความสัมพันธ์อันดับ ประเด็นก็คือเส้นการถดถอยนั้นไม่แตกต่างจากตอนที่ฉันไม่ได้จัดอันดับความเป็นอิสระและคำนวณสหสัมพันธ์ของเพียร์สัน แนวโน้มเหมือนกัน แต่เนื่องจากค่าธรรมเนียมที่สูงเกินไปสำหรับกราฟิกสีในสมุดรายวันที่ฉันไปด้วยการแสดงเอกรงค์และจุดข้อมูลที่แท้จริงจะทับซ้อนกันมากจนไม่เป็นที่รู้จัก แน่นอนว่าฉันสามารถหลีกเลี่ยงปัญหานี้ได้ด้วยการทำแปลงสองแบบ: แบบหนึ่งสำหรับจุดข้อมูล (อันดับ) และอีกแบบสำหรับเส้นการถดถอย (ไม่จัดอันดับ) แต่ถ้าปรากฎว่าแหล่งข้อมูลที่ฉันอ้างนั้นผิดหรือปัญหา ไม่เป็นปัญหาในกรณีของฉันมันจะทำให้ชีวิตของฉันง่ายขึ้น (ฉันเห็นคำถามนี้ด้วย แต่ก็ไม่ได้ช่วยฉัน) แก้ไขสำหรับข้อมูลเพิ่มเติม: ตัวแปรอิสระบนแกน x แสดงถึงจำนวนของคุณสมบัติและตัวแปรที่ขึ้นต่อกันบนแกน y แสดงถึงอันดับหากอัลกอริทึมการจำแนกประเภทเมื่อเปรียบเทียบกับประสิทธิภาพของพวกเขา ตอนนี้ฉันมีอัลกอริธึมที่เทียบเคียงได้โดยเฉลี่ย แต่สิ่งที่ฉันอยากจะพูดกับพล็อตของฉันก็คือ: "ในขณะที่ตัวแยกประเภท A ได้รับฟีเจอร์ที่ดีกว่ายิ่งมีฟีเจอร์ตัวแยกประเภท B จะดีกว่า แก้ไข 2 เพื่อรวมแปลงของฉัน: อันดับของอัลกอริทึมถูกพล็อตเมื่อเทียบกับจำนวนฟีเจอร์ อันดับของอัลกอริทึมที่ถูกจับคู่กับจำนวนอันดับของฟีเจอร์ ดังนั้นเพื่อทำซ้ำคำถามจากชื่อ: การลงจุดเส้นถดถอยสำหรับข้อมูลอันดับของ Spearman …

2
เหตุใด R ใช้เวลานานในการปรับให้พอดีกับโมเดลด้วยปัจจัยหลายระดับ
ฉันพอดีกับโมเดลที่มีหลายระดับและใช้เวลานาน R เพื่อให้พอดีกับโมเดลนั้น ทำไมนี้ ตัวอย่างเช่นถ้าฉันพอดีกับการถดถอยเพื่อทำนายเงินเดือนของผู้เล่นและรวมถึงตัวทำนายปัจจัยสำหรับเชื้อชาติของผู้เล่นทุกคนนั่นจะใช้เวลานานกว่าการปรับแบบจำลองให้เหมาะกับเงินเดือนของผู้เล่นด้วยตัวทำนายต่อเนื่องเช่นผู้เล่น ความสูง

1
การเปรียบเทียบค่าสัมประสิทธิ์การถดถอยของตัวแบบเดียวกันในชุดข้อมูลที่ต่างกัน
ฉันกำลังประเมินสารทำความเย็น (ก๊าซ) สองรายการที่ใช้ในระบบทำความเย็นเดียวกัน ฉันมีอุณหภูมิการดูดอิ่มตัว ( SSS ) อุณหภูมิกลั่น ( DDD ) และข้อมูลแอมแปร์ ( YYY ) สำหรับการประเมินผล มีชุดข้อมูลสอง (2) ชุด สารทำความเย็นที่ 1 ( R1R1R_1 ) และสารทำความเย็นที่สอง ( R2R2R_2 ) ฉันใช้แบบจำลองเชิงเส้นหลายตัวแปร ( SSS & DDD ) แบบจำลองพหุนามลำดับที่ 3 สำหรับการวิเคราะห์การถดถอย ฉันต้องการกำหนดจำนวนแอมแปร์ที่น้อยลง / มากขึ้น (หรือการวัดประสิทธิภาพที่คล้ายกันบางตัว) โดยเฉลี่ยโดยคิดเป็นเปอร์เซ็นต์โดยสารทำความเย็นตัวที่สอง ความคิดแรกของฉันคือ: กำหนดรุ่นที่จะใช้: Y= b0+ b1S+ b2D + b3SD …

1
การทดสอบที่แน่นอนของฟิชเชอร์และการกระจาย hypergeometric
ฉันต้องการที่จะเข้าใจการทดสอบที่แม่นยำของฟิชเชอร์มากขึ้นดังนั้นฉันจึงคิดค้นตัวอย่างของเล่นต่อไปนี้โดยที่ f และ m สอดคล้องกับเพศชายและเพศหญิงและ n และ y สอดคล้องกับ "การบริโภคโซดา" เช่นนี้: > soda_gender f m n 0 5 y 5 0 เห็นได้ชัดว่านี่คือการทำให้เข้าใจง่ายมาก แต่ฉันไม่ต้องการให้บริบทเข้ามาขวางทาง ที่นี่ฉันเพิ่งสันนิษฐานว่าผู้ชายไม่ดื่มโซดาและหญิงดื่มโซดาและต้องการดูว่าวิธีการทางสถิติมาถึงข้อสรุปเดียวกัน เมื่อฉันทำการทดสอบฟิชเชอร์ที่แน่นอนใน R ฉันจะได้ผลลัพธ์ต่อไปนี้: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.