สถิติและข้อมูลขนาดใหญ่ regression

4

การถดถอยเชิงเส้นอย่างรวดเร็วแข็งแกร่งต่อค่าผิดปกติ

ฉันกำลังจัดการกับข้อมูลเชิงเส้นที่มีค่าผิดปกติซึ่งบางส่วนอยู่ที่ 5 ส่วนเบี่ยงเบนมาตรฐานห่างจากเส้นการถดถอยโดยประมาณ ฉันกำลังมองหาเทคนิคการถดถอยเชิงเส้นที่ลดอิทธิพลของจุดเหล่านี้ จนถึงตอนนี้สิ่งที่ฉันทำคือการประมาณค่าเส้นถดถอยกับข้อมูลทั้งหมดแล้วทิ้งจุดข้อมูลที่มีค่ากำลังสองเหลือมาก (พูดยอด 10%) และทำซ้ำการถดถอยซ้ำโดยไม่มีจุดเหล่านั้น ในวรรณคดีมีวิธีการที่เป็นไปได้มากมาย: สี่เหลี่ยมจัตุรัสที่ถูกตัดทอนน้อยที่สุดการถดถอยแบบควอไทล์เอ็ม - ตัวประมาณ ฯลฯ ฉันไม่รู้จริง ๆ ว่าวิธีใดที่ฉันควรลองดังนั้นฉันกำลังมองหาคำแนะนำ สิ่งสำคัญสำหรับฉันคือวิธีการที่เลือกควรเร็วเนื่องจากการคำนวณที่ถดถอยจะถูกคำนวณในแต่ละขั้นตอนของการปรับให้เหมาะสม ขอบคุณมาก!

50 regression linear-model outliers robust fused-lasso

1

การเข้ารหัสดัมมี่เทียบกับหนึ่งใน Scikit เรียนรู้

มีวิธีการเข้ารหัสตัวแปรเด็ดขาดสองวิธี กล่าวว่าหนึ่งตัวแปรเด็ดขาดมีค่าn การเข้ารหัสแบบ one-hotจะแปลงเป็นตัวแปรnในขณะที่การเข้ารหัสแบบจำลองจะแปลงเป็นตัวแปรn-1 ถ้าเรามีตัวแปรเด็ดขาดkแต่ละตัวมีค่าn การเข้ารหัสฮอตหนึ่งจบลงด้วยตัวแปรknในขณะที่การเข้ารหัสดัมมี่ลงท้ายด้วยตัวแปรkn-k ฉันได้ยินมาว่าสำหรับการเข้ารหัสที่ร้อนแรงเพียงครั้งเดียวการสกัดกั้นอาจนำไปสู่ปัญหา collinearity ซึ่งทำให้ตัวแบบไม่ดัง บางคนเรียกมันว่า " กับดักตัวแปรจำลอง " คำถามของฉัน: โมเดลการถดถอยเชิงเส้นของ Scikit-Learn ช่วยให้ผู้ใช้ปิดใช้งานการสกัดกั้น ดังนั้นสำหรับการเข้ารหัสที่ร้อนแรงฉันควรตั้งค่า fit_intercept = False เสมอหรือไม่ สำหรับการเข้ารหัสแบบสุ่มควรตั้งค่า fit_intercept เป็น True หรือไม่ ฉันไม่เห็น "คำเตือน" บนเว็บไซต์ เนื่องจากการเข้ารหัสแบบร้อนแรงสร้างตัวแปรมากขึ้นมันมีระดับความอิสระมากกว่าการเข้ารหัสแบบจำลองหรือไม่?

50 regression categorical-data data-transformation scikit-learn data-preprocessing

2

มีความแตกต่างระหว่าง 'การควบคุมสำหรับ' และ 'ละเว้น' ตัวแปรอื่น ๆ ในการถดถอยหลายครั้งหรือไม่?

สัมประสิทธิ์ของตัวแปรอธิบายในการถดถอยหลายครั้งจะบอกเราว่าความสัมพันธ์ของตัวแปรอธิบายนั้นกับตัวแปรตาม ทั้งหมดนี้ในขณะที่ 'ควบคุม' สำหรับตัวแปรอธิบายอื่น ๆ ฉันได้ดูอย่างไร: ในขณะที่มีการคำนวณสัมประสิทธิ์แต่ละตัวตัวแปรอื่น ๆ จะไม่นำมาพิจารณาดังนั้นฉันจึงถือว่าพวกมันถูกเพิกเฉย ดังนั้นฉันถูกต้องเมื่อฉันคิดว่าคำว่า 'ควบคุม' และ 'ละเว้น' สามารถใช้แทนกันได้?

50 regression multiple-regression

4

ทำไม ANOVA จึงเทียบเท่ากับการถดถอยเชิงเส้น

ฉันอ่านว่า ANOVA และการถดถอยเชิงเส้นเป็นสิ่งเดียวกัน จะเป็นไปได้อย่างไรในการพิจารณาว่าเอาต์พุตของ ANOVA คือค่าบางตัวและค่าบางส่วนที่คุณสรุปได้ว่าตัวอย่างนั้นมีความหมายเหมือนกันหรือต่างกันพีFFFพีpp แต่สมมติว่าค่าเฉลี่ยไม่เท่ากัน (ปฏิเสธสมมติฐานว่าง), ANOVA จะบอกอะไรคุณเกี่ยวกับสัมประสิทธิ์ของตัวแบบเชิงเส้น การถดถอยเชิงเส้นเหมือนกับ ANOVA เป็นอย่างไร

50 regression anova

4

การถดถอยการทดสอบ t และ ANOVA ทุกรุ่นของโมเดลเชิงเส้นทั่วไปเป็นอย่างไร

มีวิธีการทางสถิติพื้นฐานเหมือนกันทุกเวอร์ชั่นอย่างไร

49 regression self-study anova generalized-linear-model t-test

7

ผลของการตอบสนองการสลับและตัวแปรอธิบายในการถดถอยเชิงเส้นอย่างง่าย

สมมติว่ามีความสัมพันธ์ "จริง" ระหว่างyyyกับxxxเช่นy=ax+b+ϵy=ax+b+ϵy = ax + b + \epsilonโดยที่aaaและbbbเป็นค่าคงที่และϵϵ\epsilonคือเสียงรบกวนปกติ เมื่อฉันสุ่มสร้างข้อมูลจากรหัส R ว่าx <- 1:100; y <- ax + b + rnorm(length(x))แล้วเหมาะสมกับรูปแบบเหมือนy ~ xที่ผมเห็นได้ชัดว่าได้รับการประมาณการที่ดีพอสมควรสำหรับและขaaabbb ถ้าฉันสลับบทบาทของตัวแปรในขณะ(x ~ y)นั้นจากนั้นเขียนผลลัพธ์ใหม่เพื่อให้yyyเป็นฟังก์ชันของxxxความชันที่ได้จะเป็นทางลาดชันเสมอ (อาจเป็นลบมากกว่าหรือเป็นบวกมากกว่า) โดยประมาณจากการy ~ xถดถอย ฉันพยายามที่จะเข้าใจว่าทำไมถึงเป็นเช่นนั้นและจะขอบคุณถ้าใครสามารถให้สัญชาตญาณฉันว่าเกิดอะไรขึ้นที่นั่น

48 regression

7

จะเริ่มต้นด้วยสถิติสำหรับนักพัฒนาที่มีประสบการณ์

ในช่วงครึ่งแรกของปี 2558 ฉันเรียนหลักสูตร Machine Learning (โดย Andrew Ng หลักสูตร GREAT) และเรียนรู้พื้นฐานของการเรียนรู้ของเครื่อง (การถดถอยเชิงเส้น, การถดถอยโลจิสติก, SVM, Neuronal Networks ... ) นอกจากนี้ฉันยังเป็นนักพัฒนาเป็นเวลา 10 ปีดังนั้นการเรียนรู้ภาษาการเขียนโปรแกรมใหม่จะไม่เป็นปัญหา เมื่อเร็ว ๆ นี้ฉันเริ่มเรียนรู้ R เพื่อที่จะใช้อัลกอริทึมการเรียนรู้ของเครื่อง อย่างไรก็ตามฉันได้ตระหนักว่าถ้าฉันต้องการเรียนรู้ต่อไปฉันจะต้องมีความรู้ด้านสถิติอย่างเป็นทางการมากขึ้นในปัจจุบันฉันมีความรู้นอกระบบ แต่มีข้อ จำกัด อย่างเช่นฉันไม่สามารถระบุได้ว่าแบบจำลองเชิงเส้นแบบใด จะดีกว่า (ปกติฉันมักจะใช้ R-Square สำหรับมัน แต่เห็นได้ชัดว่าไม่ใช่ความคิดที่ดีมาก) ดังนั้นสำหรับฉันดูเหมือนว่าจะค่อนข้างชัดเจนว่าฉันต้องเรียนรู้พื้นฐานของสถิติ (ฉันศึกษาว่าในสถาบันเดียว แต่ลืมไปแล้วส่วนใหญ่) ที่ฉันควรเรียนรู้โปรดทราบว่าฉันไม่ต้องการหลักสูตรที่ครบวงจรจริง ๆ เพียงบางอย่าง ภายในหนึ่งเดือนให้ฉันรู้มากพอฉันจะกระตือรือร้นและเรียนรู้เพิ่มเติม :) จนถึงตอนนี้ฉันได้อ่าน " สถิติไร้น้ำตา " แล้วมีคำแนะนำอื่น ๆ อีกไหม?

47 r regression machine-learning references

11

การถดถอยเชิงเส้นอย่างง่ายสามารถทำได้โดยไม่ต้องใช้แปลงและพีชคณิตเชิงเส้น

ฉันตาบอดอย่างสมบูรณ์และมาจากพื้นหลังการเขียนโปรแกรม สิ่งที่ฉันพยายามทำคือการเรียนรู้การเรียนรู้ของเครื่องและเมื่อต้องการทำสิ่งนี้ฉันต้องเรียนรู้เกี่ยวกับการถดถอยเชิงเส้นก่อน คำอธิบายทั้งหมดบนอินเทอร์เน็ตที่ฉันกำลังค้นหาเกี่ยวกับเรื่องนี้พล็อตข้อมูลก่อน ฉันกำลังมองหาคำอธิบายที่ใช้งานได้จริงของการถดถอยเชิงเส้นที่ไม่ได้ขึ้นอยู่กับกราฟและแปลง นี่คือความเข้าใจของฉันเกี่ยวกับเป้าหมายของการถดถอยเชิงเส้นอย่างง่าย: การถดถอยเชิงเส้นอย่างง่ายกำลังพยายามค้นหาสูตรที่เมื่อคุณให้Xแล้วจะให้การประมาณที่ใกล้เคียงที่สุดแก่Yคุณ ดังนั้นที่ฉันเข้าใจมันสิ่งที่ต้องทำคือการเปรียบเทียบตัวทำนาย (ตัวอย่างเช่นพื้นที่ของบ้านในตารางฟุต) กับตัวแปรอิสระ (ราคา) ในตัวอย่างของฉันคุณอาจสร้างวิธีที่ไม่ได้มองเห็นเพื่อให้ได้สูตรที่ดีที่สุดในการคำนวณราคาของบ้านจากพื้นที่ ตัวอย่างเช่นคุณอาจได้รับพื้นที่และราคา 1,000 หลังในละแวกนั้นและแบ่งราคาออกเป็นพื้นที่ใช่ไหม ผลลัพธ์ (อย่างน้อยในอิหร่านที่ฉันอาศัยอยู่) จะมีความแปรปรวนเล็กน้อยมาก ดังนั้นคุณอาจได้รับสิ่งนี้: Price = 2333 Rials * Area of the house แน่นอนว่าคุณจะต้องผ่านบ้านทั้งหมด 1,000 หลังในชุดข้อมูลของคุณวางพื้นที่ในสูตรข้างต้นเปรียบเทียบราคากับราคาจริงจัดตารางผลลัพธ์ (ฉันเดาว่าจะป้องกันไม่ให้ผลต่างกันยกเลิก) จากนั้นรับตัวเลขแล้วเล่นต่อ2333ไปเรื่อยๆ ด้วยเครื่องหมายเพื่อลดข้อผิดพลาด แน่นอนว่านี่คือตัวเลือกกำลังดุร้ายซึ่งอาจใช้เวลานานในการคำนวณข้อผิดพลาดและมาถึงตัวเลือกที่ดีที่สุด แต่คุณเห็นสิ่งที่ฉันกำลังพูด ฉันไม่ได้พูดอะไรเกี่ยวกับกราฟเส้นหรือจุดหรือพล็อตหรือวิธีที่ดีที่สุดในการปรับเส้นให้พอดีกับข้อมูลที่คุณมีอยู่ แล้วทำไมคุณต้องใช้พล็อตกระจายและพีชคณิตเชิงเส้นสำหรับสิ่งนี้ ไม่มีวิธีที่ไม่ใช่ภาพหรือ? ก่อนอื่นฉันคิดถูกหรือไม่? ถ้าไม่ฉันชอบที่จะได้รับการแก้ไข แม้ว่าฉันจะเป็นหรือไม่มีสูตรวิธีใดที่จะไม่เล่นกับพีชคณิตเชิงเส้นหรือไม่? ฉันจะซาบซึ้งจริง ๆ ถ้าฉันได้รับตัวอย่างพร้อมคำอธิบายเพื่อที่ฉันจะได้ทำพร้อมกับข้อความเพื่อทดสอบความเข้าใจของฉัน

47 regression intuition

2

เส้นโค้ง overfitting ข้อมูลหรือไม่

ปัญหาของฉัน : เมื่อเร็ว ๆ นี้ฉันได้พบกับนักสถิติที่แจ้งให้ฉันทราบว่าเส้นโค้งนั้นมีประโยชน์สำหรับการสำรวจข้อมูลเท่านั้นและอาจมีการ overfitting ดังนั้นจึงไม่มีประโยชน์ในการทำนาย เขาชอบสำรวจด้วยพหุนามอย่างง่าย ๆ ... เนื่องจากฉันเป็นแฟนตัวยงของเส้นโค้งและสิ่งนี้ขัดกับสัญชาตญาณของฉันฉันสนใจที่จะค้นหาว่าข้อโต้แย้งเหล่านี้มีเหตุผลเพียงใดและถ้ามีกลุ่มต่อต้านจำนวนมาก - นักเคลื่อนไหวออกไปที่นั่น? ข้อมูลประกอบ : ฉันพยายามติดตาม Frank Harrell กลยุทธ์การสร้างแบบจำลองการถดถอย (1) เมื่อฉันสร้างแบบจำลอง เขาให้เหตุผลว่าลูกบาศก์ splines ที่ จำกัด เป็นเครื่องมือที่ถูกต้องสำหรับการสำรวจตัวแปรต่อเนื่อง นอกจากนี้เขายังระบุว่าชื่อพหุนามน่าสงสารในการสร้างแบบจำลองความสัมพันธ์บางอย่างเช่นเกณฑ์ลอการิทึม (2) สำหรับการทดสอบความเป็นเชิงเส้นของแบบจำลองเขาแนะนำการทดสอบ ANOVA สำหรับเส้นโค้ง: H0: β2= β3= … = βk - 1= 0H0:β2=β3=…=βk−1=0H_0: \beta_2 = \beta_3 = … = \beta_{k-1} = 0 ฉัน …

47 regression splines

5

หากการทดสอบ t-test และ ANOVA สำหรับสองกลุ่มนั้นเท่ากันทำไมสมมติฐานของพวกเขาจึงไม่เท่ากัน?

ฉันแน่ใจว่าฉันมีสิ่งนี้ล้อมรอบหัวของฉันทั้งหมด แต่ฉันก็ไม่สามารถคิดออก t-test เปรียบเทียบการแจกแจงปกติสองรายการโดยใช้การแจกแจง Z นั่นเป็นเหตุผลที่มีการสันนิษฐานของปกติในข้อมูล ANOVA นั้นเทียบเท่ากับการถดถอยเชิงเส้นพร้อมตัวแปรจำลองและใช้ผลรวมของกำลังสองเหมือน OLS นั่นเป็นเหตุผลว่าทำไมจึงมีข้อสันนิษฐานเกี่ยวกับภาวะปกติของ ResidualS ฉันใช้เวลาหลายปี แต่ฉันคิดว่าในที่สุดฉันก็เข้าใจข้อเท็จจริงพื้นฐานเหล่านั้นแล้ว เหตุใดจึงต้องทดสอบ t-test เทียบเท่า ANOVA กับสองกลุ่ม พวกเขาจะเท่าเทียมกันได้อย่างไรถ้าพวกเขาไม่คิดแม้แต่เรื่องเดียวกันกับข้อมูล

47 distributions regression normality-assumption t-test anova

5

การทำความเข้าใจความถดถอย - บทบาทของตัวแบบ

แบบจำลองการถดถอยสามารถใช้งานได้อย่างไรหากคุณไม่ทราบว่าฟังก์ชั่นที่คุณพยายามรับพารามิเตอร์นั้นเป็นอย่างไร ฉันเห็นงานวิจัยชิ้นหนึ่งที่กล่าวว่าแม่ที่เลี้ยงลูกด้วยนมแม่มีโอกาสน้อยที่จะเป็นโรคเบาหวานในภายหลัง การวิจัยครั้งนี้มาจากการสำรวจมารดา 1,000 คนและควบคุมปัจจัยอื่น ๆ และใช้แบบจำลองเชิงเส้น ตอนนี้นี่หมายความว่าพวกเขาคำนึงถึงปัจจัยทั้งหมดที่กำหนดความน่าจะเป็นของโรคเบาหวานในฟังก์ชั่นที่ดี (แทนได้อย่างน่าสันนิษฐาน) ที่แปลอย่างประณีตในรูปแบบเชิงเส้นที่มีท่อนซุงและไม่ว่าเต้านมผู้หญิง ฉันขาดอะไรบางอย่างฉันแน่ใจแต่ว่าพวกเขารู้รูปแบบได้อย่างไร

46 regression modeling epidemiology log-linear

4

เมทริกซ์ตัดกันคืออะไร?

สิ่งที่ว่าคือความคมชัดเมทริกซ์ (คำที่เกี่ยวข้องกับการวิเคราะห์ทำนายเด็ดขาดเป็นพิเศษ) และวิธีการว่าจะตรงกันข้ามเมทริกซ์ที่ระบุ? คือคอลัมน์คืออะไรแถวคืออะไรข้อ จำกัด ของเมทริกซ์นั้นคืออะไรและจำนวนในคอลัมน์jและแถวiหมายถึงอะไร ฉันพยายามตรวจสอบเอกสารและเว็บ แต่ดูเหมือนว่าทุกคนใช้มัน แต่ก็ไม่มีการต่อต้านใด ๆ ฉันสามารถย้อนกลับ - วิศวกรความคมชัดที่กำหนดไว้ล่วงหน้าที่มีอยู่ แต่ฉันคิดว่าคำนิยามควรจะใช้ได้โดยไม่ว่า > contr.treatment(4) 2 3 4 1 0 0 0 2 1 0 0 3 0 1 0 4 0 0 1 > contr.sum(4) [,1] [,2] [,3] 1 1 0 0 2 0 1 0 3 0 …

46 regression categorical-data definition contrasts categorical-encoding

3

การแปลความหมายของตัวทำนายการแปลงสภาพบันทึกและ / หรือการตอบสนอง

ฉันสงสัยว่ามันจะสร้างความแตกต่างในการตีความไม่ว่าจะเป็นเพียงขึ้นอยู่กับทั้งขึ้นอยู่กับและเป็นอิสระหรือตัวแปรอิสระเท่านั้นที่ถูกเปลี่ยนเข้าสู่ระบบ พิจารณากรณีของ log(DV) = Intercept + B1*IV + Error ฉันสามารถตีความ IV เป็นเปอร์เซ็นต์เพิ่มขึ้น แต่จะเปลี่ยนแปลงได้อย่างไรเมื่อฉันมี log(DV) = Intercept + B1*log(IV) + Error หรือเมื่อฉันมี DV = Intercept + B1*log(IV) + Error ?

46 regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model

3

ความเข้าใจผิดที่ Y ต้องแจกจ่ายตามปกติมาจากไหน

แหล่งที่เชื่อถือได้ดูเหมือนจะอ้างว่าตัวแปรตามต้องกระจายตามปกติ: รุ่นสมมติฐาน: YYYมีการกระจายตามปกติข้อผิดพลาดที่มีการกระจายตามปกติei∼N(0,σ2)ei∼N(0,σ2)e_i \sim N(0,\sigma^2)และอิสระและXXXได้รับการแก้ไขและความแปรปรวนคงที่σ2σ2\sigma^2 2 การวิเคราะห์ข้อมูลที่ไม่ต่อเนื่องของ Penn State, STAT 504 ประการที่สองการวิเคราะห์การถดถอยเชิงเส้นกำหนดให้ตัวแปรทั้งหมดเป็นแบบหลายตัวแปรปกติ สถิติสรุปข้อสมมติฐานของการถดถอยเชิงเส้น สิ่งนี้เหมาะสมเมื่อตัวแปรตอบกลับมีการแจกแจงแบบปกติ Wikipedia, โมเดลเชิงเส้นทั่วไป มีคำอธิบายที่ดีเกี่ยวกับความเข้าใจผิดว่าทำไมหรือทำไมถึงเกิดการแพร่กระจาย? เป็นที่รู้จักหรือไม่? ที่เกี่ยวข้อง การถดถอยเชิงเส้นและสมมติฐานเกี่ยวกับตัวแปรตอบสนอง

45 regression least-squares linear-model dependent-variable

3

ผลของการมีตัวทำนายที่สัมพันธ์กันในตัวแบบการถดถอยหลายแบบคืออะไร?

ฉันเรียนรู้ในชั้นเรียนโมเดลเชิงเส้นของฉันว่าหากตัวทำนายสองตัวมีความสัมพันธ์กันและทั้งสองอย่างรวมอยู่ในรูปแบบหนึ่งจะไม่มีนัยสำคัญ ตัวอย่างเช่นสมมติขนาดของบ้านและจำนวนห้องนอนมีความสัมพันธ์ เมื่อทำนายค่าใช้จ่ายของบ้านโดยใช้ตัวทำนายสองตัวนี้หนึ่งในนั้นสามารถทิ้งได้เพราะทั้งคู่ให้ข้อมูลเหมือนกันจำนวนมาก โดยสังหรณ์ใจสิ่งนี้สมเหตุสมผล แต่ฉันมีคำถามทางเทคนิคเพิ่มเติม: ผลกระทบนี้แสดงให้เห็นอย่างไรในค่า p ของสัมประสิทธิ์การถดถอยเมื่อรวมเพียงหนึ่งหรือรวมทั้งตัวทำนายทั้งสองในตัวแบบ? ความแปรปรวนของสัมประสิทธิ์การถดถอยได้รับผลกระทบอย่างไรจากการรวมทั้งตัวทำนายทั้งสองตัวในแบบจำลองหรือแค่มีตัวเดียว? ฉันจะรู้ได้อย่างไรว่าตัวทำนายแบบใดที่เลือกให้มีความสำคัญน้อยกว่า การรวมเพียงหนึ่งหรือรวมทั้งตัวทำนายทั้งสองเปลี่ยนค่า / ความแปรปรวนของต้นทุนที่คาดการณ์ของฉันได้อย่างไร

45 regression multiple-regression p-value linear-model multicollinearity

คำถามติดแท็ก regression