สถิติและข้อมูลขนาดใหญ่ linear

3

PCA ถือเป็นกระบวนการเชิงเส้นอย่างไรก็ตาม: P C A (X) ≠ P C A ( X1) + P C A ( X2) + … + P C A ( Xn) ,PCA(X)≠PCA(X1)+PCA(X2)+…+PCA(Xn),\mathrm{PCA}(X)\neq \mathrm{PCA}(X_1)+\mathrm{PCA}(X_2)+\ldots+\mathrm{PCA}(X_n), ที่ n นี้คือจะบอกว่า eigenvectors ที่ได้รับจากการฝึกอบรมใน PCAS ข้อมูลX ฉันไม่สรุปให้เท่ากับ eigenvectors ที่ได้จาก PCA ในผลรวมของข้อมูลการฝึกอบรมXฉัน แต่ไม่ใช่นิยามของฟังก์ชันเชิงเส้นfที่:X= X1+ X2+ … + XnX=X1+X2+…+XnX=X_1+X_2+\ldots+X_nXผมXiX_iXผมXiX_iฉff ฉ( x + y) …

35 pca linear

3

การตัดสินใจเป็นตอแบบจำลองเชิงเส้นหรือไม่?

ตอการตัดสินใจเป็นต้นไม้การตัดสินใจที่มีเพียงหนึ่งแยก นอกจากนี้ยังสามารถเขียนเป็นฟังก์ชั่นตามเข็มนาฬิกา ตัวอย่างเช่นสมมติว่าเป็นเวกเตอร์และเป็นองค์ประกอบแรกของในการตั้งค่าการถดถอยการตัดสินใจบางอย่างอาจทำให้ตอx 1 xxxxx1x1x_1xxx ฉ( x ) = { 35x1≤ 2x1> 2ฉ(x)={3x1≤25x1>2f(x)= \begin{cases} 3& x_1\leq 2 \\ 5 & x_1 > 2 \\ \end{cases} แต่มันเป็นโมเดลเชิงเส้นหรือไม่? สามารถเขียนเป็นที่ไหน คำถามนี้อาจฟังดูแปลกเพราะดังที่ได้กล่าวไว้ในคำตอบและความคิดเห็นหากเราพล็อตฟังก์ชั่นตามลำดับมันไม่ใช่เส้น โปรดดูหัวข้อถัดไปสำหรับสาเหตุที่ฉันถามคำถามนี้ฉ( x ) = βTxฉ(x)=βTxf(x)=\beta^T x แก้ไข: เหตุผลที่ฉันถามคำถามนี้คือการถดถอยโลจิสติกเป็นโมเดลเชิงเส้น (ทั่วไป) และขอบเขตการตัดสินใจเป็นเส้นเช่นกันสำหรับตอการตัดสินใจ หมายเหตุเรามีคำถามนี้ด้วย: เหตุใดการถดถอยแบบลอจิสติกจึงเป็นโมเดลเชิงเส้น . ในทางกลับกันดูเหมือนว่าไม่เป็นความจริงที่ตอการตัดสินใจเป็นแบบจำลองเชิงเส้น อีกเหตุผลที่ฉันถามนี้เนื่องจากคำถามนี้: ในการส่งเสริมหากผู้เรียนพื้นฐานเป็นแบบจำลองเชิงเส้นแบบจำลองสุดท้ายเป็นเพียงแบบจำลองเชิงเส้นอย่างง่ายหรือไม่? โดยที่ถ้าเราใช้โมเดลเชิงเส้นเป็นผู้เรียนพื้นฐานเราจะไม่ได้อะไรมากไปกว่าการถดถอยเชิงเส้น แต่ถ้าเราเลือกผู้เรียนพื้นฐานเป็นตอการตัดสินใจเราจะได้แบบจำลองที่น่าสนใจมาก นี่คือตัวอย่างหนึ่งของการตัดสินใจตอการส่งเสริมการถดถอยด้วย 2 คุณสมบัติและ 1 …

19 machine-learning cart linear boosting

1

ในการถดถอยเชิงเส้นแบบหลายจุดเหตุใดพล็อตของจุดที่คาดการณ์ไม่ได้อยู่ในแนวเส้นตรง

ฉันใช้การถดถอยเชิงเส้นหลายเส้นเพื่ออธิบายความสัมพันธ์ระหว่าง Y และ X1, X2 จากทฤษฎีฉันเข้าใจว่าการถดถอยหลายครั้งถือว่าความสัมพันธ์เชิงเส้นระหว่าง Y กับแต่ละ X (Y และ X1, Y และ X2) ฉันไม่ได้ใช้การแปลง X ใด ๆ ดังนั้นฉันได้โมเดลที่มี R = 0.45 และ X สำคัญทั้งหมด (P <0.05) จากนั้นฉันวางแผน Y กับ X1 ฉันไม่เข้าใจว่าเพราะเหตุใดวงกลมสีแดงที่เป็นตัวทำนายของแบบจำลองจึงไม่ก่อตัวเป็นเส้น อย่างที่ฉันพูดไปก่อนหน้านี้ฉันคาดว่าแต่ละคู่ของ Y และ X จะถูกต่อด้วยเส้น พล็อตถูกสร้างในไพ ธ อนด้วยวิธีนี้: fig, ax = plt.subplots() plt.plot(x['var1'], ypred, 'o', validation['var1'], validation['y'], …

16 regression multiple-regression python linear

1

ตัวประมาณที่ไม่ลำเอียงอื่น ๆ กว่า BLUE (โซลูชัน OLS) สำหรับแบบจำลองเชิงเส้น

สำหรับโมเดลเชิงเส้นโซลูชัน OLS ให้ตัวประมาณค่าแบบไม่เอนเอียงเชิงเส้นที่ดีที่สุดสำหรับพารามิเตอร์ แน่นอนว่าเราสามารถแลกเปลี่ยนอคติเพื่อลดความแปรปรวนได้เช่นการถดถอยของสัน แต่คำถามของฉันเกี่ยวกับการไม่มีอคติ มีตัวประมาณอื่น ๆ ที่ค่อนข้างใช้กันทั่วไปซึ่งไม่เอนเอียง แต่มีความแปรปรวนสูงกว่าพารามิเตอร์ประมาณ OLS หรือไม่ ถ้าฉันมีชุดข้อมูลขนาดใหญ่ฉันสามารถย่อยตัวอย่างและคาดการณ์พารามิเตอร์ด้วยข้อมูลน้อยลงและเพิ่มความแปรปรวน ฉันคิดว่านี่อาจเป็นประโยชน์ในเชิงสมมุติฐาน นี่เป็นคำถามเกี่ยวกับวาทศิลป์มากกว่าเพราะเมื่อฉันอ่านเกี่ยวกับตัวประมาณค่าสีน้ำเงินแล้วไม่มีตัวเลือกที่แย่กว่านี้ ฉันเดาว่าการให้ทางเลือกที่แย่กว่านั้นอาจช่วยให้ผู้คนเข้าใจพลังของตัวประมาณค่า BLUE ได้ดีขึ้น

15 regression least-squares linear unbiased-estimator blue

5

เหตุใดข้อสันนิษฐานเรื่อง Normality ในการถดถอยเชิงเส้น

คำถามของฉันง่ายมาก: ทำไมเราถึงเลือกตามปกติเนื่องจากการแจกแจงที่ข้อผิดพลาดตามมาในข้อสันนิษฐานของการถดถอยเชิงเส้น? ทำไมเราไม่เลือกคนอื่นเหมือนเครื่องแบบเสื้อหรืออะไร?

15 regression mathematical-statistics normal-distribution error linear

5

เหตุใดการถดถอยเชิงเส้นจึงใช้ฟังก์ชันต้นทุนตามระยะทางแนวดิ่งระหว่างสมมติฐานและจุดข้อมูลอินพุต

สมมติว่าเรามีจุดข้อมูลอินพุต (ตัวทำนายผล) และเอาต์พุต (ตอบกลับ) A, B, C, D, E และเราต้องการให้เส้นตรงผ่านจุดต่างๆ นี่เป็นปัญหาง่าย ๆ ในการอธิบายคำถาม แต่สามารถขยายไปยังมิติที่สูงขึ้นได้เช่นกัน คำชี้แจงปัญหา แบบที่ดีที่สุดในปัจจุบันหรือสมมติฐานจะถูกแสดงด้วยเส้นสีดำด้านบน ลูกศรสีน้ำเงิน ( →→\color{blue}\rightarrow ) แสดงระยะทางแนวตั้งระหว่างจุดข้อมูลกับจุดที่เหมาะสมที่สุดในปัจจุบันโดยการวาดเส้นแนวตั้งจากจุดจนถึงจุดตัดกับเส้น ลูกศรสีเขียว ( ) ถูกวาดเช่นนั้นในแนวตั้งฉากกับสมมติฐานปัจจุบันที่จุดตัดดังนั้นจึงแสดงระยะห่างน้อยที่สุดระหว่างจุดข้อมูลและสมมติฐานปัจจุบัน สำหรับจุด A และ B เส้นที่ลากขึ้นมานั้นจะเป็นแนวตั้งกับการคาดเดาที่ดีที่สุดในปัจจุบันและคล้ายกับเส้นที่แนวตั้งกับแกน x สำหรับจุดสองจุดนี้เส้นสีฟ้าและสีเขียวทับซ้อนกัน แต่ไม่ใช้สำหรับจุด C, D และ E→→\color{green}\rightarrow หลักการกำลังสองน้อยสุดกำหนดฟังก์ชันต้นทุนสำหรับการถดถอยเชิงเส้นโดยการลากเส้นแนวตั้งผ่านจุดข้อมูล (A, B, C, D หรือ E) ไปยังสมมติฐานที่คาดการณ์ ( ) ในรอบการฝึกอบรมที่กำหนดและแสดงด้วย→→\color{blue}\rightarrow CostFunction=∑Ni=1(yi−hθ(xi))2CostFunction=∑i=1N(yi−hθ(xi))2Cost Function …

14 regression linear fitting cost-maximization

5

การถดถอยเชิงเส้นมีความหมายทางสถิติอย่างไร แต่มีค่า r กำลังสองต่ำมาก

ฉันเข้าใจว่าหมายความว่าแบบจำลองนั้นไม่ดีในการทำนายจุดข้อมูลแต่ละจุด แต่ได้สร้างแนวโน้มที่มั่นคง (เช่น y ขึ้นไปเมื่อ x เพิ่มขึ้น)

14 regression inference r-squared linear

2

เหตุใดการถดถอยเชิงเส้นจึงมีข้อสันนิษฐานเกี่ยวกับส่วนที่เหลือ แต่แบบจำลองเชิงเส้นทั่วไปมีสมมติฐานในการตอบสนอง

ทำไมการถดถอยเชิงเส้นและโมเดลทั่วไปจึงมีสมมติฐานที่ไม่สอดคล้องกัน? ในการถดถอยเชิงเส้นเราถือว่าส่วนที่เหลือมาจาก Gaussian ในการถดถอยอื่น ๆ (การถดถอยโลจิสติกส์การถดถอยพิษ) เราคิดว่าการตอบสนองนั้นมาจากการแจกแจงบางส่วน (ทวินามการเป็นพิษ ฯลฯ ) เหตุใดบางครั้งจึงถือว่าเวลาที่เหลืออยู่และเวลาอื่น ๆ เป็นเพราะเราต้องการได้มาซึ่งคุณสมบัติที่แตกต่างกันหรือไม่? แก้ไข: ฉันคิดว่าเครื่องหมาย 999 แสดงสองรูปแบบที่เท่ากัน อย่างไรก็ตามฉันมีข้อสงสัยเพิ่มเติมอีกหนึ่งข้อเกี่ยวกับ iid: คำถามอื่น ๆ ของฉัน มีข้อสมมติฐานในเรื่องการถดถอยโลจิสติกหรือไม่? แสดงโมเดลเชิงเส้นทั่วไปไม่มีสมมติฐาน iid (อิสระ แต่ไม่เหมือนกัน) นั่นคือความจริงที่ว่าสำหรับการถดถอยเชิงเส้นหากเราตั้งสมมติฐานว่ามีส่วนที่เหลือเราจะมี iid แต่ถ้าเราตั้งสมมติฐานในการตอบสนองเราจะมีตัวอย่างที่เป็นอิสระ แต่ไม่เหมือนกัน (Gaussian แตกต่างกัน )μμ\mu

14 regression generalized-linear-model assumptions linear

3

การถดถอยเชิงเส้นสิ่งที่สถิติ F, R กำลังสองและข้อผิดพลาดมาตรฐานที่เหลือบอกเรา?

ฉันสับสนจริง ๆ เกี่ยวกับความแตกต่างของความหมายเกี่ยวกับบริบทของการถดถอยเชิงเส้นของเงื่อนไขต่อไปนี้: สถิติ F R กำลังสอง ข้อผิดพลาดมาตรฐานที่เหลือ ฉันพบwebstie นี้ซึ่งให้ข้อมูลเชิงลึกที่ดีกับฉันเกี่ยวกับเงื่อนไขต่าง ๆ ที่เกี่ยวข้องกับการถดถอยเชิงเส้นอย่างไรก็ตามเงื่อนไขดังกล่าวข้างต้นดูเหมือนจะค่อนข้างมาก (เท่าที่ฉันเข้าใจ) ฉันจะอ้างอิงสิ่งที่ฉันอ่านและสิ่งที่ทำให้ฉันสับสน: ข้อผิดพลาดมาตรฐานที่เหลือคือการวัดคุณภาพของการถดถอยเชิงเส้น ....... ข้อผิดพลาดมาตรฐานที่เหลือคือจำนวนเฉลี่ยที่การตอบสนอง (dist) จะเบี่ยงเบนจากเส้นการถดถอยที่แท้จริง 1.นี่คือระยะทางเฉลี่ยของค่าสังเกตจากเส้น lm จริงหรือไม่ สถิติ R-squared ให้การวัดความแม่นยำของแบบจำลองที่เหมาะสมกับข้อมูลจริง 2.ตอนนี้ฉันสับสนเพราะถ้า RSE บอกเราว่าจุดสังเกตที่เราเบี่ยงเบนไปจากเส้นถดถอยไกลแค่ไหน RSE ต่ำบอกจริง ๆ ว่า "แบบจำลองของคุณเหมาะสมกับจุดข้อมูลที่สังเกต" -> ดีอย่างไร รุ่นพอดีดังนั้นความแตกต่างระหว่าง R กำลังสองและ RSE คืออะไร? สถิติ F เป็นตัวบ่งชี้ที่ดีว่ามีความสัมพันธ์ระหว่างตัวทำนายของเรากับตัวแปรตอบสนองหรือไม่ 3.จริงหรือไม่ที่เราสามารถมีค่า F ระบุความสัมพันธ์ที่แข็งแกร่งที่ไม่ใช่เชิงเส้นเพื่อให้ RSE ของเราสูงและ R กำลังสองของเราต่ำ

14 linear-model nonlinear-regression linear f-statistic

6

การถดถอยเชิงเส้นเมื่อ Y ถูก จำกัด และไม่ต่อเนื่อง

คำถามตรงไปตรงมา: มันเหมาะสมที่จะใช้การถดถอยเชิงเส้นเมื่อ Y ถูก จำกัด และไม่ต่อเนื่อง (เช่นคะแนนทดสอบ 1 ~ 100, อันดับหนึ่งที่กำหนดไว้ล่วงหน้า 1 ~ 17)? ในกรณีนี้มันเป็น "ไม่ดี" ที่จะใช้การถดถอยเชิงเส้นหรือมันผิดทั้งหมดที่จะใช้หรือไม่

14 regression multiple-regression least-squares linear bounds

4

ในการถดถอยเชิงเส้นเหตุใดตัวแปรตอบสนองจึงต้องต่อเนื่อง

ฉันรู้ว่าในการถดถอยเชิงเส้นตัวแปรตอบสนองจะต้องต่อเนื่อง แต่ทำไมถึงเป็นเช่นนั้น? ฉันไม่สามารถหาข้อมูลออนไลน์ที่อธิบายได้ว่าทำไมฉันไม่สามารถใช้ข้อมูลแยกสำหรับตัวแปรตอบกลับ

13 regression linear

2

ส่วนเบี่ยงเบนมาตรฐาน r, r กำลังสองและส่วนที่เหลือบอกอะไรเราเกี่ยวกับความสัมพันธ์เชิงเส้น

พื้นหลังเล็ก ๆ ฉันกำลังทำการตีความการวิเคราะห์การถดถอย แต่ฉันสับสนกับความหมายของ r, r กำลังสองและส่วนเบี่ยงเบนมาตรฐานที่เหลือ ฉันรู้คำจำกัดความ: ลักษณะเฉพาะ r วัดความแข็งแรงและทิศทางของความสัมพันธ์เชิงเส้นระหว่างตัวแปรสองตัวบนสเปลตเตอร์ล็อต R-squared เป็นการวัดทางสถิติว่าข้อมูลอยู่ใกล้กับเส้นการถดถอยที่เหมาะสมหรือไม่ ค่าเบี่ยงเบนมาตรฐานส่วนที่เหลือเป็นคำทางสถิติที่ใช้อธิบายความเบี่ยงเบนมาตรฐานของจุดที่เกิดขึ้นรอบฟังก์ชันเชิงเส้นและเป็นการประมาณความแม่นยำของตัวแปรตามที่วัด ( ไม่ทราบว่าหน่วยคืออะไรข้อมูลใด ๆ เกี่ยวกับหน่วยที่นี่จะเป็นประโยชน์ ) (ที่มา: ที่นี่ ) คำถาม แม้ว่าฉันจะ "เข้าใจ" ลักษณะของตัวละคร แต่ฉันเข้าใจว่าเงื่อนไขเหล่านี้รบกวนการสรุปเกี่ยวกับชุดข้อมูล ฉันจะแทรกตัวอย่างเล็ก ๆ น้อย ๆ ที่นี่บางทีนี่อาจเป็นคำแนะนำในการตอบคำถามของฉัน ( อย่าลังเลที่จะใช้ตัวอย่างของคุณเอง!) ตัวอย่าง นี่ไม่ใช่คำถามวิธีการทำงานอย่างไรก็ตามฉันค้นหาในหนังสือของฉันเพื่อรับตัวอย่างง่ายๆ (ชุดข้อมูลปัจจุบันที่ฉันกำลังวิเคราะห์ซับซ้อนเกินไปและใหญ่เกินกว่าจะแสดงได้ที่นี่) สุ่มเลือกแปลง 20 แปลงขนาด 20x4 เมตรในไร่ข้าวโพดขนาดใหญ่ สำหรับแต่ละแปลงความหนาแน่นของพืช (จำนวนพืชในแปลง) และน้ำหนักเฉลี่ยของซัง (กรัมของเมล็ดต่อซัง) ผลลัพธ์เป็น givin ในตารางต่อไปนี้: (ที่มา: …

13 r regression regression-coefficients linear pearson-r

3

วิธีการรันการถดถอยเชิงเส้นในแบบคู่ขนาน / กระจายสำหรับการตั้งค่าข้อมูลขนาดใหญ่?

ฉันกำลังทำงานกับปัญหาการถดถอยเชิงเส้นที่มีขนาดใหญ่มากด้วยขนาดข้อมูลที่ใหญ่จนพวกเขาต้องถูกเก็บไว้ในกลุ่มของเครื่อง มันจะใหญ่เกินไปที่จะรวมตัวอย่างทั้งหมดไว้ในหน่วยความจำของเครื่องเดียว (แม้แต่ดิสก์) เมื่อต้องการถดถอยข้อมูลเหล่านี้ฉันกำลังคิดถึงวิธีการแบบขนานนั่นคือเรียกใช้การถดถอยในแต่ละกล่องแล้วคำนวณค่าเบต้าตามสถิติของแต่ละเบต้าแต่ละตัว (อาจเป็นค่าเฉลี่ยหรือค่ามัธยฐาน) สิ่งนี้สมเหตุสมผลหรือไม่? ถ้าเป็นเช่นนั้นวิธีการที่ฉันควรจะได้รับทั้งหมดที่คาดว่าจะR2R2R^2จากแต่ละR2R2R^2 ?

13 regression linear large-data

5

การถดถอยเชิงเส้นล้าสมัยหรือไม่ [ปิด]

ปิด คำถามนี้เป็นคำถามความคิดเห็นตาม ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้สามารถตอบข้อเท็จจริงและการอ้างอิงได้โดยแก้ไขโพสต์นี้ ปิดให้บริการใน2 ปีที่ผ่านมา ขณะนี้ฉันอยู่ในชั้นเรียนการถดถอยเชิงเส้น แต่ฉันไม่สามารถสั่นคลอนความรู้สึกว่าสิ่งที่ฉันกำลังเรียนรู้ไม่เกี่ยวข้องในสถิติที่ทันสมัยหรือการเรียนรู้ของเครื่อง เหตุใดจึงใช้เวลามากกับการอนุมานในการถดถอยเชิงเส้นแบบง่าย ๆ หรือหลายครั้งเมื่อชุดข้อมูลที่น่าสนใจมากมายในสมัยนี้ละเมิดข้อสันนิษฐานที่ไม่สมจริงหลายประการของการถดถอยเชิงเส้น ทำไมไม่สอนการอนุมานเกี่ยวกับเครื่องมือที่ทันสมัยและยืดหยุ่นกว่าเช่นการถดถอยโดยใช้เครื่องเวกเตอร์สนับสนุนหรือกระบวนการ Gaussian แม้ว่าจะซับซ้อนกว่าการหาไฮเปอร์เพลนในอวกาศ แต่สิ่งนี้จะไม่ให้ภูมิหลังที่ดีกว่าสำหรับการจัดการปัญหาวันสมัยใหม่หรือไม่?

12 regression machine-learning linear teaching

4

เบาะแสว่าปัญหาเหมาะสมอย่างยิ่งสำหรับการถดถอยเชิงเส้น

ฉันเรียนรู้การถดถอยเชิงเส้นโดยใช้รู้เบื้องต้นเกี่ยวกับการวิเคราะห์การถดถอยเชิงเส้นโดยอจิกและ Vining ฉันต้องการเลือกโครงการวิเคราะห์ข้อมูล ฉันมีความคิดที่ไร้เดียงสาว่าการถดถอยเชิงเส้นนั้นเหมาะสมเมื่อผู้ต้องสงสัยคนหนึ่งเท่านั้นที่มีความสัมพันธ์เชิงเส้นตรงระหว่างตัวแปรอธิบายและตัวแปรตอบสนอง แต่มีแอพพลิเคชั่นในโลกแห่งความจริงไม่มากนักที่ดูเหมือนจะตรงตามเกณฑ์นี้ แต่การถดถอยเชิงเส้นค่อนข้างแพร่หลาย แง่มุมของโครงการที่นักสถิติที่มีประสบการณ์กำลังคิดอยู่ว่าพวกเขาอยู่ในรองเท้าของฉันหรือไม่โดยมองหาคำถาม + ข้อมูลที่เหมาะสมกับการถดถอยเชิงเส้น

12 regression data-transformation model linear regression-strategies

คำถามติดแท็ก linear