สถิติและข้อมูลขนาดใหญ่ regression

3

วิธีการทดสอบความสัมพันธ์ของข้อมูลส่วนบุคคลอัตโนมัติได้อย่างไร

ฉันมีเมทริกซ์ที่มีสองคอลัมน์ที่มีราคามากมาย (750) ในภาพด้านล่างผมพล็อตส่วนที่เหลือของการถดถอยเชิงเส้นดังนี้ lm(prices[,1] ~ prices[,2]) ดูภาพดูเหมือนว่าจะเป็นระบบอัตโนมัติที่สัมพันธ์กันอย่างมากกับส่วนที่เหลือ อย่างไรก็ตามฉันจะทดสอบได้อย่างไรว่าค่าความสัมพันธ์แบบอัตโนมัติของสารตกค้างเหล่านั้นมีความแข็งแรงหรือไม่? ฉันควรใช้วิธีใด ขอขอบคุณ!

23 r regression correlation autocorrelation

3

ค่าสูงหรือเปล่าประโยชน์?

คำถามนี้ถูกโยกย้ายจาก Stack Overflow เพราะสามารถตอบได้ในการตรวจสอบข้าม อพยพ 3 ปีที่แล้ว ในสถิติเราทำการถดถอยเชิงเส้นซึ่งเป็นจุดเริ่มต้นของมัน โดยทั่วไปแล้วเรารู้ว่ายิ่งยิ่งสูง แต่ยิ่งมีสถานการณ์ที่สูงจะเป็นตัวอย่างที่ไร้ประโยชน์หรือไม่?R 2R2R2R^2R2R2R^2

23 regression r-squared

2

ป่าสุ่มสำหรับการถดถอยหลายตัวแปร

ฉันมีปัญหาการถดถอยหลายเอาท์พุทที่มีคุณสมบัติเข้าและเอาท์พุท เอาต์พุตมีโครงสร้างความสัมพันธ์ที่ไม่เป็นเชิงเส้นที่ซับซ้อนdxdxd_xdYdYd_y ฉันต้องการใช้ป่าสุ่มในการถดถอย เท่าที่ฉันสามารถบอกได้ป่าสุ่มสำหรับการถดถอยจะทำงานกับผลลัพธ์เดียวดังนั้นฉันจะต้องฝึกป่าสุ่มdYdYd_y - หนึ่งป่าสำหรับแต่ละผลผลิต สิ่งนี้จะละเว้นความสัมพันธ์ของพวกเขา มีส่วนขยายไปยังฟอเรสต์แบบสุ่มที่คำนึงถึงความสัมพันธ์ของผลผลิตหรือไม่ บางทีบางอย่างเช่นGaussian ถดถอยกระบวนการสำหรับการเรียนรู้หลายงาน

23 regression multivariate-analysis random-forest

7

การประมาณการแจกแจงโดยพิจารณาจากเปอร์เซนต์ไทล์

ฉันสามารถใช้วิธีการใดในการอนุมานการกระจายหากฉันรู้ว่ามีเปอร์เซนต์สามเปอร์เซ็นต์เท่านั้น ตัวอย่างเช่นฉันรู้ว่าในชุดข้อมูลหนึ่งเปอร์เซนต์ไทล์ที่ห้าคือ 8,135 เปอร์เซ็นไทล์ที่ 50 คือ 11,259 และเปอร์เซ็นไทล์ 95 ที่ 23,611 ฉันต้องการที่จะไปจากจำนวนอื่นใดที่จะเป็นเปอร์เซ็นต์ของมัน ไม่ใช่ข้อมูลของฉันและเป็นสถิติทั้งหมดที่ฉันมี เป็นที่ชัดเจนว่าการกระจายไม่ปกติ ข้อมูลอื่นที่ฉันมีเพียงอย่างเดียวคือข้อมูลนี้แสดงถึงเงินทุนรัฐบาลต่อหัวสำหรับเขตการศึกษาต่างๆ ฉันรู้เพียงพอเกี่ยวกับสถิติที่จะรู้ว่าปัญหานี้ไม่มีวิธีการแก้ปัญหาที่ชัดเจน แต่ไม่เพียงพอที่จะรู้ว่าจะค้นหาการคาดเดาที่ดีได้อย่างไร การแจกแจงแบบบันทึกปกติจะเหมาะสมหรือไม่? เครื่องมือใดที่ฉันสามารถใช้เพื่อทำการถดถอย (หรือฉันต้องทำเอง)

23 r regression quantiles

2

ทำไมแลมบ์ดา“ ภายในข้อผิดพลาดมาตรฐานเดียวจากค่าต่ำสุด” จึงเป็นค่าที่แนะนำสำหรับแลมบ์ดาในการถดถอยแบบตาข่ายแบบยืดหยุ่น?

ฉันเข้าใจว่าแลมบ์ดามีบทบาทอย่างไรในการถดถอยแบบยืดหยุ่น และฉันสามารถเข้าใจได้ว่าเหตุใดจึงเลือก lambda.min ค่าของ lambda ที่ลดข้อผิดพลาดที่ตรวจสอบข้ามได้ คำถามของฉันอยู่ที่ไหนในวรรณคดีสถิติมันแนะนำให้ใช้ lambda.1se นั่นคือค่าของแลมบ์ดาที่ผิดพลาดลดขนาด CV บวกข้อผิดพลาดมาตรฐานหนึ่ง ? ฉันดูเหมือนจะไม่พบการอ้างอิงที่เป็นทางการหรือแม้แต่เหตุผลว่าทำไมสิ่งนี้จึงมักมีคุณค่าอย่างมาก ฉันเข้าใจว่ามันเป็นกฎเกณฑ์ที่เข้มงวดยิ่งขึ้นและจะทำให้พารามิเตอร์หดตัวลงสู่ศูนย์ แต่ฉันไม่แน่ใจว่าเงื่อนไขใดที่ lambda.1se เป็นตัวเลือกที่ดีกว่า lambda.min มีคนช่วยอธิบายได้ไหม

23 regression cross-validation regularization glmnet elastic-net

6

การจัดการกับ regressors สัมพันธ์

ในการถดถอยเชิงเส้นแบบหลายครั้งพร้อมตัวถดถอยความสัมพันธ์สูงกลยุทธ์ที่ดีที่สุดที่จะใช้คืออะไร มันเป็นวิธีการที่ถูกต้องตามกฎหมายในการเพิ่มผลิตภัณฑ์ของ regressors สัมพันธ์ทั้งหมดหรือไม่

23 regression multicollinearity

5

เมื่อ A และ B เกี่ยวข้องกับตัวแปรเชิงบวกพวกเขาสามารถมีผลตรงกันข้ามกับตัวแปรผลลัพธ์ C ได้หรือไม่?

A มีความสัมพันธ์เชิงบวกกับ B. C คือผลลัพธ์ของ A และ B แต่ผลของ A ต่อ C นั้นเป็นลบและผลของ B ต่อ C นั้นเป็นบวก เกิดขึ้นได้ไหม?

22 regression correlation

1

การลงโทษสะพานเทียบกับการทำให้เป็นมาตรฐานสุทธิยืดหยุ่น

ฟังก์ชันการลงโทษและการประมาณค่าบางอย่างนั้นได้รับการศึกษาอย่างดีเช่น LASSO ( L1L1L_1 ) และ Ridge ( L2L2L_2 ) และการเปรียบเทียบเหล่านี้ในการถดถอยอย่างไร ฉันได้อ่านเกี่ยวกับบทลงโทษของบริดจ์ซึ่งเป็นบทลงโทษทั่วไป เปรียบเทียบกับ LASSO ซึ่งมี\ gamma = 1และ Ridge กับ\ gamma = 2ทำให้เป็นกรณีพิเศษ∑∥βj∥γ∑‖βj‖γ\sum \|\beta_{j}\|^{\gamma}γ=1γ=1\gamma = 1γ=2γ=2\gamma = 2 Wenjiang [ 1 ] เปรียบเทียบการลงโทษสะพานเมื่อγ≥1γ≥1\gamma \geq 1กับ LASSO แต่ฉันไม่พบการเปรียบเทียบกับการวางตัวแบบยืดหยุ่นสุทธิการรวมกันของการลงโทษ LASSO และแนวสันเขาให้เป็น∑λ2∥β∥2+λ1∥β∥1∑λ2‖β‖2+λ1‖β‖1\sum \lambda_{2} \|\beta\|^{2}+\lambda_{1}\|\beta\|_{1}{1} นี่เป็นคำถามที่น่าสนใจเพราะ Elastic Net และ Bridge เฉพาะนี้มีรูปแบบข้อ จำกัด ที่คล้ายกัน เปรียบเทียบวงกลมหน่วยเหล่านี้โดยใช้การวัดที่แตกต่างกัน …

22 regression lasso regularization ridge-regression elastic-net

2

ทำไม Laplace จึงผลิตสารละลายแบบเบาบาง?

ฉันดูวรรณกรรมเกี่ยวกับการทำให้เป็นระเบียบและมักจะเห็นย่อหน้าที่เชื่อมโยงการควบคุม L2 กับ Gaussian ก่อนและ L1 กับ Laplace โดยมีศูนย์เป็นศูนย์ ฉันรู้ว่านักบวชเหล่านี้มีหน้าตาเป็นอย่างไร แต่ฉันไม่เข้าใจว่ามันแปลอย่างไรเช่นตุ้มน้ำหนักในตัวแบบเชิงเส้น ใน L1 ถ้าฉันเข้าใจอย่างถูกต้องเราคาดหวังว่าการแก้ปัญหาแบบกระจัดกระจายนั่นคือน้ำหนักบางส่วนจะถูกผลักจนเหลือศูนย์ และใน L2 เราจะได้น้ำหนักเล็ก ๆ แต่ไม่ให้น้ำหนักเป็นศูนย์ แต่ทำไมมันเกิดขึ้น? โปรดแสดงความคิดเห็นหากฉันต้องการให้ข้อมูลเพิ่มเติมหรือชี้แจงเส้นทางการคิดของฉัน

22 regression bayesian prior regularization laplace-distribution

2

การคำนวณพีชคณิตเชิงเส้นอย่างน้อยกำลังสองน้อยที่สุด

เพื่อเป็นการตอบคำถามเกี่ยวกับโมเดลเชิงเส้นผสมใน R และเพื่อเป็นการอ้างอิงสำหรับผู้สนใจรักการเริ่มต้น / ขั้นกลางทางสถิติฉันตัดสินใจที่จะโพสต์ในฐานะ "Q & A-style" อิสระขั้นตอนที่เกี่ยวข้องกับการคำนวณ "คู่มือ" ของ ค่าสัมประสิทธิ์และค่าทำนายของการถดถอยเชิงเส้นอย่างง่าย ตัวอย่างคือชุดข้อมูล R ที่สร้างขึ้นmtcarsและจะถูกตั้งค่าเป็นไมล์ต่อแกลลอนที่ใช้โดยยานพาหนะที่ทำหน้าที่เป็นตัวแปรอิสระซึ่งควบคุมน้ำหนักของรถ (ตัวแปรต่อเนื่อง) และจำนวนกระบอกสูบเป็น ปัจจัยที่มีสามระดับ (4, 6 หรือ 8) โดยไม่มีการโต้ตอบ แก้ไข: ถ้าคุณมีความสนใจในคำถามนี้แน่นอนคุณจะพบคำตอบที่มีรายละเอียดและความพึงพอใจในเรื่องนี้โพสต์โดยแมทธิว Drury นอก CV

22 r regression linear-model lm

2

“ การถดถอยอันดับที่ลดลง” คืออะไรเกี่ยวกับ?

ฉันได้อ่านองค์ประกอบของการเรียนรู้ทางสถิติแล้วและฉันไม่สามารถเข้าใจได้ว่าส่วนที่ 3.7 "การหดตัวและการเลือกหลายผลลัพธ์" นั้นเกี่ยวกับอะไร มันพูดเกี่ยวกับ RRR (การถดถอยลดอันดับ) และฉันสามารถเข้าใจได้ว่าหลักฐานเป็นเรื่องเกี่ยวกับโมเดลเชิงเส้นหลายตัวแปรแบบทั่วไปที่ไม่ทราบค่าสัมประสิทธิ์ นั่นเป็นสิ่งเดียวที่ฉันเข้าใจ คณิตศาสตร์ที่เหลืออยู่นั้นเกินกว่าฉัน มันไม่ได้ช่วยให้ผู้เขียนพูดว่า 'ใคร ๆ ก็สามารถแสดง' และทิ้งสิ่งต่าง ๆ ไว้เป็นแบบฝึกหัดได้ ใครช่วยกรุณาอธิบายสิ่งที่เกิดขึ้นที่นี่อย่างสังหรณ์ใจ? บทนี้ควรพูดถึงวิธีการใหม่ ๆ หรือไม่? หรืออะไร?

22 regression multivariate-analysis dimensionality-reduction regularization reduced-rank-regression

2

bootstrapping ใน R ทำงานอย่างไร

ฉันได้ดูแพ็คเกจการบูตใน R และในขณะที่ฉันพบไพรเมอร์จำนวนมากเกี่ยวกับวิธีใช้มันฉันยังไม่พบสิ่งใดที่อธิบายสิ่งที่เกิดขึ้น "เบื้องหลัง" ตัวอย่างเช่นในตัวอย่างนี้คู่มือแสดงวิธีการใช้สัมประสิทธิ์การถดถอยมาตรฐานเป็นจุดเริ่มต้นสำหรับการถดถอย bootstrap แต่ไม่ได้อธิบายว่าขั้นตอนการ bootstrap กำลังทำอยู่เพื่อให้ได้สัมประสิทธิ์การถดถอย bootstrap ดูเหมือนว่ามีกระบวนการวนซ้ำบางอย่างที่เกิดขึ้น แต่ฉันไม่สามารถเข้าใจได้อย่างชัดเจนว่าเกิดอะไรขึ้น

22 r regression bootstrap regression-coefficients

2

การถดถอยสำหรับรูปแบบของ ?

ฉันมีชุดข้อมูลซึ่งเป็นสถิติจากฟอรัมสนทนาทางเว็บ ฉันกำลังดูจำนวนการตอบกลับที่คาดว่าจะมี โดยเฉพาะฉันได้สร้างชุดข้อมูลที่มีรายการของการตอบหัวข้อแล้วจำนวนของหัวข้อที่มีการตอบกลับจำนวนนั้น "num_replies","count" 0,627568 1,156371 2,151670 3,79094 4,59473 5,39895 6,30947 7,23329 8,18726 หากฉันพล็อตชุดข้อมูลบนพล็อตการบันทึกล็อกฉันจะได้รับสิ่งที่เป็นเส้นตรง: (นี่คือการกระจาย Zipfian ) วิกิพีเดียบอกว่าเส้นตรงในแปลงเข้าสู่ระบบเข้าสู่ระบบบ่งบอกถึงฟังก์ชั่นที่สามารถสร้างแบบจำลองโดย monomial ของแบบฟอร์มที่ k และในความเป็นจริงฉันได้ฟังฟังก์ชั่นดังกล่าว:Y= a xkY=axky = ax^k lines(data$num_replies, 480000 * data$num_replies ^ -1.62, col="green") เห็นได้ชัดว่าดวงตาของฉันไม่แม่นยำเท่ากับอาร์ดังนั้นฉันจะได้ R เพื่อให้พอดีกับพารามิเตอร์ของโมเดลนี้สำหรับฉันได้อย่างแม่นยำมากขึ้นได้อย่างไร? ฉันลองการถดถอยพหุนาม แต่ฉันไม่คิดว่า R พยายามปรับเลขชี้กำลังเป็นพารามิเตอร์ - ชื่อที่เหมาะสมสำหรับรุ่นที่ฉันต้องการคืออะไร แก้ไข: ขอบคุณสำหรับคำตอบทุกคน ตามที่แนะนำตอนนี้ฉันได้จัดวางโมเดลเชิงเส้นตรงกับบันทึกของข้อมูลอินพุตโดยใช้สูตรนี้: data <- read.csv(file="result.txt") # Avoid …

22 r regression nonlinear-regression

3

แบบจำลองเสถียรภาพเมื่อจัดการกับขนาดใหญ่ปัญหาเล็ก

บทนำ: ฉันมีชุดข้อมูลที่มีคลาสสิก "ปัญหาใหญ่, ปัญหาเล็ก" จำนวนตัวอย่างที่มีอยู่n = 150 ในขณะที่จำนวนผู้ทำนายที่เป็นไปได้p = 400 ผลลัพธ์เป็นตัวแปรต่อเนื่อง ฉันต้องการค้นหาคำอธิบาย "สำคัญ" ที่สุดนั่นคือผู้ที่ดีที่สุดในการอธิบายผลลัพธ์และช่วยสร้างทฤษฎี หลังจากการวิจัยในหัวข้อนี้ฉันพบว่า LASSO และ Elastic Net มักใช้ในกรณีของ p ขนาดใหญ่, n ขนาดเล็ก บางส่วนของการพยากรณ์ของฉันมีความสัมพันธ์และฉันต้องการที่จะรักษาการจัดกลุ่มของพวกเขาในการประเมินความสำคัญดังนั้นฉันเลือกใช้สำหรับยืดหยุ่นสุทธิ ฉันคิดว่าฉันสามารถใช้ค่าสัมบูรณ์ของสัมประสิทธิ์การถดถอยเป็นตัวชี้วัดสำคัญ (โปรดแก้ไขให้ฉันถ้าฉันผิดชุดข้อมูลของฉันเป็นมาตรฐาน) ปัญหา: เนื่องจากตัวอย่างจำนวนน้อยของฉันฉันจะสร้างแบบจำลองที่เสถียรได้อย่างไร แนวทางปัจจุบันของฉันคือค้นหาพารามิเตอร์การปรับแต่งที่ดีที่สุด (แลมบ์ดาและอัลฟ่า) ในการค้นหากริดบน 90% ของชุดข้อมูลที่มีการตรวจสอบความถูกต้องข้าม 10 เท่าโดยเฉลี่ยคะแนน MSE จากนั้นฉันจะฝึกโมเดลด้วยพารามิเตอร์การปรับที่ดีที่สุดทั้งชุดข้อมูล 90% ฉันสามารถประเมินโมเดลของฉันโดยใช้ R กำลังสองในส่วนของ 10% ของชุดข้อมูล (ซึ่งบัญชีตัวอย่างเพียง 15 ตัวอย่าง) เมื่อเรียกใช้โพรซีเดอร์นี้ซ้ำ ๆ ฉันพบความแปรปรวนจำนวนมากในการประเมิน …

22 regression cross-validation model-selection feature-selection elastic-net

4

เหตุใดการถดถอยเชิงเส้นและ ANOVA จึงให้ค่า

ฉันพยายามใส่ข้อมูลอนุกรมเวลาหนึ่งชุด (โดยไม่ทำซ้ำ) โดยใช้แบบจำลองการถดถอย ข้อมูลมีลักษณะดังนี้: > xx.2 value time treat 1 8.788269 1 0 2 7.964719 6 0 3 8.204051 12 0 4 9.041368 24 0 5 8.181555 48 0 6 8.041419 96 0 7 7.992336 144 0 8 7.948658 1 1 9 8.090211 6 1 10 8.031459 12 1 11 …

22 r regression statistical-significance anova p-value

คำถามติดแท็ก regression