สถิติและข้อมูลขนาดใหญ่ regression

6

ทำไม L1 จึงเป็นแบบอย่างสำหรับรุ่นที่กระจัดกระจาย

ฉันกำลังอ่านหนังสือเกี่ยวกับการถดถอยเชิงเส้น มีประโยคบางส่วนเกี่ยวกับบรรทัดฐาน L1 และ L2 ฉันรู้ว่าพวกเขาเพียงแค่ไม่เข้าใจว่าทำไมมาตรฐาน L1 สำหรับรุ่นที่กระจัดกระจาย ใครสามารถใช้คำอธิบายง่ายๆ?

97 regression lasso regularization ridge-regression

10

เหตุใดอนุกรมเวลาจึงต้องหยุดนิ่ง

ฉันเข้าใจว่าอนุกรมเวลาที่อยู่กับที่เป็นค่าคงที่และความแปรปรวนคงที่ตลอดเวลา มีใครช่วยอธิบายหน่อยได้ไหมว่าทำไมเราต้องทำให้แน่ใจว่าชุดข้อมูลของเราอยู่กับที่ก่อนที่เราจะสามารถเรียกใช้โมเดล ARIMA หรือ ARM ที่แตกต่างกันได้ สิ่งนี้ยังนำไปใช้กับโมเดลการถดถอยปกติที่ความสัมพันธ์อัตโนมัติและ / หรือเวลาไม่ใช่ปัจจัยหรือไม่?

92 regression time-series stationarity

5

ทำไม ANOVA จึงถูกสอน / ใช้ราวกับว่ามันเป็นวิธีการวิจัยที่แตกต่างเมื่อเทียบกับการถดถอยเชิงเส้น?

ANOVA เทียบเท่ากับการถดถอยเชิงเส้นด้วยการใช้ตัวแปรจำลองที่เหมาะสม ข้อสรุปยังคงเหมือนเดิมไม่ว่าคุณจะใช้ ANOVA หรือการถดถอยเชิงเส้น ในแง่ของความเท่าเทียมมีเหตุผลใดที่ใช้ ANOVA แทนการถดถอยเชิงเส้น? หมายเหตุ: ฉันสนใจฟังเหตุผลทางเทคนิคเป็นพิเศษสำหรับการใช้ ANOVA แทนการถดถอยเชิงเส้น แก้ไข นี่คือตัวอย่างหนึ่งที่ใช้การวิเคราะห์ความแปรปรวนแบบทางเดียว สมมติว่าคุณต้องการทราบว่าความสูงเฉลี่ยของชายและหญิงเหมือนกันหรือไม่ เพื่อทดสอบสมมติฐานของคุณคุณจะต้องรวบรวมข้อมูลจากตัวอย่างแบบสุ่มของชายและหญิง (พูด 30 ข้อ) และทำการวิเคราะห์ความแปรปรวนร่วม (เช่นผลรวมของกำลังสองสำหรับเพศและข้อผิดพลาด) เพื่อตัดสินว่ามีผลกระทบหรือไม่ คุณสามารถใช้การถดถอยเชิงเส้นเพื่อทดสอบสิ่งต่อไปนี้: กำหนด: หากผู้ตอบเป็นเพศชายและ0 เป็นอย่างอื่น ความสูง= สกัดกั้น+ β ∗ เพศ+ ข้อผิดพลาด โดยที่: ข้อผิดพลาด∼ N ( 0 , σ 2 )Gender=1Gender=1\text{Gender} = 1000Height=Intercept+β∗Gender+errorHeight=Intercept+β∗Gender+error \text{Height} = \text{Intercept} + \beta * \text{Gender} …

91 regression anova

11

การถดถอยเชิงเส้นควรเรียกว่า“ การเรียนรู้ของเครื่อง” เมื่อใด

ในการสัมมนาที่ผ่านมาบทคัดย่อของผู้พูดอ้างว่าพวกเขาใช้การเรียนรู้ของเครื่อง ในระหว่างการพูดคุยสิ่งเดียวที่เกี่ยวข้องกับการเรียนรู้ของเครื่องคือพวกเขาทำการถดถอยเชิงเส้นในข้อมูลของพวกเขา หลังจากการคำนวณค่าสัมประสิทธิ์ที่เหมาะสมที่สุดในพื้นที่พารามิเตอร์ 5D พวกเขาเปรียบเทียบค่าสัมประสิทธิ์เหล่านี้ในระบบหนึ่งกับค่าสัมประสิทธิ์ที่เหมาะสมที่สุดของระบบอื่น ๆ เมื่อใดที่การเรียนรู้ของเครื่องถดถอยเชิงเส้นตรงข้ามกับการหาเส้นที่เหมาะสมที่สุด (บทคัดย่อของผู้วิจัยทำให้เข้าใจผิดหรือไม่) ด้วยการเรียนรู้ด้วยความสนใจทั้งหมดได้รับการรวบรวมเมื่อเร็ว ๆ นี้ดูเหมือนว่าสิ่งสำคัญที่จะทำให้ความแตกต่างดังกล่าว คำถามของฉันเป็นแบบนี้ยกเว้นคำถามนั้นถามถึงคำจำกัดความของ "การถดถอยเชิงเส้น" ในขณะที่ฉันถามเมื่อการถดถอยเชิงเส้น (ซึ่งมีแอปพลิเคชันจำนวนมาก) อาจถูกเรียกว่า "การเรียนรู้ด้วยเครื่อง" อย่างเหมาะสม ชี้แจง ฉันไม่ได้ถามเมื่อการถดถอยเชิงเส้นเหมือนกับการเรียนรู้ของเครื่อง ตามที่บางคนได้ชี้ให้เห็นอัลกอริทึมเดียวไม่ได้เป็นสาขาของการศึกษา ฉันถามว่าถูกต้องหรือไม่ที่จะบอกว่าสิ่งหนึ่งกำลังทำการเรียนรู้ของเครื่องเมื่ออัลกอริทึมที่ใช้อยู่นั้นเป็นเพียงการถดถอยเชิงเส้น เรื่องตลกทั้งหมด (ดูความคิดเห็น) หนึ่งในเหตุผลที่ฉันถามเรื่องนี้ก็เพราะมันผิดจรรยาบรรณที่จะบอกว่าหนึ่งคือการเรียนรู้ของเครื่องเพื่อเพิ่มดาวสีทองสองสามชื่อของคุณถ้าพวกเขาไม่ได้เรียนรู้ด้วยเครื่องจริงๆ (นักวิทยาศาสตร์หลายคนคำนวณชนิดของสายที่ดีที่สุดเหมาะสำหรับการทำงานของพวกเขาบางส่วน แต่นี้ไม่ได้หมายความว่าพวกเขากำลังทำกลไกการเรียนรู้.) บนมืออื่น ๆ ที่มีอย่างชัดเจนสถานการณ์เมื่อการถดถอยเชิงเส้นจะถูกนำมาใช้เป็นส่วนหนึ่งของการเรียนรู้เครื่อง ฉันกำลังมองหาผู้เชี่ยวชาญเพื่อช่วยจำแนกสถานการณ์เหล่านี้ ;-)

90 regression machine-learning multiple-regression terminology definition

4

PCA และสัดส่วนของความแปรปรวนอธิบาย

โดยทั่วไปสิ่งที่มีความหมายโดยบอกว่าเศษส่วนของความแปรปรวนในการวิเคราะห์เช่น PCA อธิบายโดยองค์ประกอบหลักแรก ใครสามารถอธิบายสิ่งนี้อย่างสังหรณ์ใจ แต่ยังให้คำจำกัดความทางคณิตศาสตร์ที่แม่นยำของสิ่งที่ "แปรปรวนอธิบาย" หมายถึงในแง่ของการวิเคราะห์องค์ประกอบหลัก (PCA)?xxx สำหรับการถดถอยเชิงเส้นอย่างง่าย r-squared ของเส้นพอดีที่ดีที่สุดจะถูกอธิบายเสมอตามสัดส่วนของความแปรปรวนที่อธิบาย แต่ฉันไม่แน่ใจว่าจะต้องทำอะไร สัดส่วนความแปรปรวนตรงนี้เป็นเพียงการขยายส่วนเบี่ยงเบนของคะแนนจากเส้นที่พอดีที่สุดหรือไม่?

90 regression pca linear-model dimensionality-reduction

1

การตีความพล็อต. lm ()

ฉันมีคำถามเกี่ยวกับการตีความกราฟที่สร้างขึ้นโดยพล็อต (lm) ในอาร์ฉันสงสัยว่าพวกคุณจะบอกวิธีการตีความสเกลตำแหน่งและพล็อตที่เหลือ? ความคิดเห็นใด ๆ ที่จะได้รับการชื่นชม สมมติว่ามีความรู้พื้นฐานเกี่ยวกับสถิติการถดถอยและเศรษฐมิติ

89 r regression data-visualization residuals outliers

9

มีคำอธิบายที่เข้าใจได้ง่ายหรือไม่ว่าทำไมความสัมพันธ์หลายระดับเป็นปัญหาในการถดถอยเชิงเส้น?

wiki กล่าวถึงปัญหาที่เกิดขึ้นเมื่อmulticollinearityเป็นปัญหาในการถดถอยเชิงเส้น ปัญหาพื้นฐานคือความสัมพันธ์ระหว่างกันหลายค่าทำให้การประมาณค่าพารามิเตอร์ไม่เสถียรซึ่งทำให้ยากที่จะประเมินผลของตัวแปรอิสระต่อตัวแปรตาม ผมเข้าใจเหตุผลทางเทคนิคที่อยู่เบื้องหลังปัญหา (อาจจะไม่สามารถที่จะกลับป่วยปรับอากาศฯลฯ ) แต่ฉันกำลังมองหาง่ายขึ้น (อาจเรขาคณิต?) คำอธิบายสำหรับปัญหานี้X ′ XX′XX′XX' XX′XX′XX' X มีรูปแบบทางเรขาคณิตหรือคำอธิบายรูปแบบอื่น ๆ ที่เข้าใจได้ง่ายว่าทำไมความสัมพันธ์หลากหลายรูปแบบเป็นปัญหาในบริบทของการถดถอยเชิงเส้น?

85 regression intuition multicollinearity

17

รวมถึงการมีปฏิสัมพันธ์ แต่ไม่ใช่ผลกระทบหลักในแบบจำลอง

มันเคยถูกต้องหรือไม่ที่จะรวมการโต้ตอบสองทางในแบบจำลองโดยไม่รวมถึงเอฟเฟกต์หลัก ๆ ? ถ้าสมมติฐานของคุณเกี่ยวกับการมีปฏิสัมพันธ์เพียงอย่างเดียวคุณยังจำเป็นต้องใส่เอฟเฟกต์หลัก ๆ หรือไม่?

85 regression modeling interaction regression-coefficients

2

เมื่อใดจึงควรใช้วิธีการทำให้เป็นมาตรฐานสำหรับการถดถอย

ในสถานการณ์ใดที่เราควรพิจารณาใช้วิธีการทำให้เป็นมาตรฐาน (สันเขา, บาศหรือการถดถอยมุมน้อยที่สุด) แทนที่จะเป็น OLS? ในกรณีนี้จะช่วยคัดท้ายการสนทนาความสนใจหลักของฉันคือการปรับปรุงความแม่นยำในการทำนาย

83 regression least-squares lasso ridge-regression fused-lasso

8

เส้นที่พอดีที่สุดดูไม่เหมือนแบบพอดี ทำไม?

ดูกราฟ Excel นี้: แนวความรู้สึกที่ดีที่สุด 'สามัญสำนึก' จะปรากฏเป็นเส้นแนวตั้งเกือบตรงผ่านจุดศูนย์กลางของจุด (แก้ไขด้วยมือด้วยสีแดง) อย่างไรก็ตามเส้นแนวโน้มเชิงเส้นตามที่ Excel ตัดสินใจเป็นเส้นสีดำในแนวทแยงแสดง เหตุใด Excel จึงสร้างบางสิ่งที่ (ต่อสายตามนุษย์) ดูเหมือนว่าผิด ฉันจะสร้างเส้นที่พอดีที่สุดที่ดูเป็นธรรมชาติได้ง่ายขึ้น (เช่นบางอย่างเช่นเส้นสีแดง) ได้อย่างไร ปรับปรุง 1.สเปรดชีต Excel ที่มีข้อมูลและกราฟสามารถใช้ได้ที่นี่: ข้อมูลตัวอย่าง , CSV ใน Pastebin เทคนิคการถดถอยของ type1 และ type2 มีอยู่ในฟังก์ชั่น excel หรือไม่ อัปเดต 2.ข้อมูลแสดงถึงพาราไกลเดอร์ปีนเขาในความร้อนในขณะที่ล่องลอยไปกับสายลม วัตถุประสงค์สุดท้ายคือการตรวจสอบความแรงของลมและทิศทางแตกต่างกันไปตามความสูง ฉันเป็นวิศวกรไม่ใช่นักคณิตศาสตร์หรือนักสถิติดังนั้นข้อมูลในคำตอบเหล่านี้ทำให้ฉันมีพื้นที่มากขึ้นสำหรับการวิจัย

82 regression excel intuition

5

“ โซลูชั่นแบบปิด” หมายความว่าอย่างไร

ฉันเจอคำว่า "วิธีแก้ปัญหาแบบปิด" ค่อนข้างบ่อย โซลูชันแบบปิดหมายความว่าอย่างไร วิธีการหนึ่งที่กำหนดว่ามีวิธีการแก้ปัญหาแบบปิดสำหรับปัญหาที่กำหนด? การค้นหาออนไลน์ฉันพบข้อมูลบางอย่าง แต่ไม่มีสิ่งใดในบริบทของการพัฒนาตัวแบบ / วิธีแก้ปัญหาเชิงสถิติหรือความน่าจะเป็น ฉันเข้าใจความถดถอยเป็นอย่างดีดังนั้นหากมีใครสามารถอธิบายแนวคิดโดยอ้างอิงจากการถดถอยหรือการปรับตัวแบบมันจะง่ายต่อการบริโภค :)

82 regression machine-learning probability terminology stochastic-processes

3

เชือกในการวิเคราะห์การถดถอยคืออะไร?

ฉันกำลังมองหาความหมายที่ไม่ใช่ทางเทคนิคของเชือกและสิ่งที่มันใช้

81 regression lasso regularization shrinkage

3

ตัวอย่างที่ไม่สมดุลย์มีความสำคัญหรือไม่เมื่อทำการถดถอยโลจิสติก

โอเคดังนั้นฉันคิดว่าฉันมีตัวอย่างที่ดีพอโดยคำนึงถึงกฎ 20: 1 นิ้วหัวแม่มือ: ตัวอย่างที่ค่อนข้างใหญ่ (N = 374) สำหรับตัวแปรตัวทำนายผู้สมัครทั้งหมด 7 คน ปัญหาของฉันคือสิ่งต่อไปนี้: ไม่ว่าชุดตัวแปรพยากรณ์ใดที่ฉันใช้การจำแนกไม่เคยดีไปกว่าความจำเพาะ 100% และความไว 0% อย่างไรก็ตามไม่น่าพอใจจริง ๆ แล้วนี่อาจเป็นผลลัพธ์ที่ดีที่สุดที่เป็นไปได้เนื่องจากชุดของตัวแปรตัวทำนายผู้สมัคร (ซึ่งฉันไม่สามารถเบี่ยงเบน) แต่ฉันไม่สามารถช่วยได้ แต่คิดว่าฉันทำได้ดีกว่านี้ฉันจึงสังเกตเห็นว่าหมวดหมู่ของตัวแปรตามนั้นค่อนข้างสมดุลไม่สมดุลเกือบ 4: 1 ตัวอย่างย่อยที่สมดุลสามารถปรับปรุงการจำแนกประเภทได้หรือไม่

81 regression logistic sample-size unbalanced-classes

6

ความแตกต่างระหว่างช่วงความมั่นใจและช่วงการทำนาย

สำหรับช่วงเวลาการคาดการณ์ในการถดถอยเชิงเส้นคุณยังคงใช้เพื่อสร้างช่วงเวลา นอกจากนี้คุณยังใช้วิธีนี้ในการสร้างความเชื่อมั่นของx_0] ความแตกต่างระหว่างสองคืออะไรE[Y| x0]E^[ Y| x]= β0^+ β^1xE^[Y|x]=β0^+β^1x\hat{E}[Y|x] = \hat{\beta_0}+\hat{\beta}_{1}xE[ Y| x0]E[Y|x0]E[Y|x_0]

80 regression confidence-interval predictive-models prediction-interval

5

วิธีคำนวณพื้นที่ใต้เส้นโค้ง (AUC) หรือสถิติ c ด้วยมือ

ฉันสนใจในการคำนวณพื้นที่ภายใต้เส้นโค้ง (AUC) หรือ c-statistic ด้วยมือสำหรับแบบจำลองการถดถอยแบบโลจิสติกไบนารี ตัวอย่างเช่นในชุดข้อมูลการตรวจสอบความถูกต้องฉันมีค่าจริงสำหรับตัวแปรตาม, การเก็บรักษา (1 = เก็บไว้; 0 = ไม่เก็บไว้), เช่นเดียวกับสถานะการเก็บรักษาที่คาดการณ์ไว้สำหรับการสังเกตแต่ละครั้งที่สร้างขึ้นโดยการวิเคราะห์การถดถอย สร้างโดยใช้ชุดการฝึกอบรม (ซึ่งจะอยู่ในช่วงตั้งแต่ 0 ถึง 1) ความคิดเริ่มต้นของฉันคือการระบุจำนวนของการจำแนกประเภทของโมเดลที่ถูกต้องและหารจำนวนการสังเกตที่ถูกต้องด้วยจำนวนการสังเกตทั้งหมดเพื่อคำนวณ c-statistic โดย "ถูกต้อง" หากสถานะการเก็บรักษาที่แท้จริงของการสังเกต = 1 และสถานะการเก็บข้อมูลที่คาดการณ์คือ> 0.5 แสดงว่าเป็นการจำแนกประเภท "ถูกต้อง" นอกจากนี้หากสถานะการเก็บรักษาที่แท้จริงของการสังเกต = 0 และสถานะการเก็บข้อมูลที่คาดการณ์ไว้คือ <0.5 แสดงว่าเป็นหมวดหมู่ "ถูกต้อง" ด้วย ฉันถือว่า "เน็คไท" จะเกิดขึ้นเมื่อค่าที่คาดการณ์ = 0.5 แต่ปรากฏการณ์นั้นไม่เกิดขึ้นในชุดข้อมูลการตรวจสอบความถูกต้องของฉัน ในทางตรงกันข้ามการจำแนกประเภท "ไม่ถูกต้อง" จะเป็นถ้าสถานะการเก็บรักษาที่แท้จริงของการสังเกต = 1 และสถานะการเก็บข้อมูลที่คาดการณ์ไว้คือ …

78 regression logistic classification roc auc

คำถามติดแท็ก regression