คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว

3
เหตุใดจึงปรับ R-squared น้อยกว่า R-squared หากปรับ R-squared ทำนายว่าแบบจำลองดีกว่า
เท่าที่ฉันเข้าใจอธิบายว่าตัวแบบทำนายการสังเกตได้ดีเพียงใด Adjusted R 2คือสิ่งที่คำนึงถึงการสังเกตมากขึ้น (หรือองศาอิสระ) ดังนั้น Adjusted R 2จะทำนายโมเดลได้ดีขึ้นหรือไม่ แล้วทำไมนี้จะน้อยกว่าR 2 ? ดูเหมือนว่ามันควรจะมากขึ้นR2R2R^2R2R2R^2R2R2R^2R2R2R^2

1
ggplot คำนวณช่วงความเชื่อมั่นสำหรับการถดถอยอย่างไร
แพ็คเกจการลงจุด R ggplot2 มีฟังก์ชั่นที่ยอดเยี่ยมที่เรียกว่าstat_smoothสำหรับการลงจุดเส้นถดถอย (หรือเส้นโค้ง) ด้วยแถบความเชื่อมั่นที่เกี่ยวข้อง อย่างไรก็ตามฉันมีเวลายากที่จะหาว่าแถบความเชื่อมั่นนี้จะถูกสร้างขึ้นได้อย่างไรในทุกครั้งที่มีการถดถอย (หรือ "วิธี") ฉันจะหาข้อมูลนี้ได้อย่างไร

7
ฟอเรสต์แบบสุ่มมีมากเกินไป
ฉันกำลังพยายามใช้ Random Forest Regression ใน Scikits-Learn ปัญหาคือฉันได้รับข้อผิดพลาดการทดสอบที่สูงมาก: train MSE, 4.64, test MSE: 252.25. นี่คือลักษณะที่ข้อมูลของฉัน: (สีน้ำเงิน: ข้อมูลจริง, สีเขียว: คาดการณ์): ฉันใช้ 90% สำหรับการฝึกอบรมและ 10% สำหรับการทดสอบ นี่คือรหัสที่ฉันใช้หลังจากลองชุดพารามิเตอร์หลายชุด: rf = rf = RandomForestRegressor(n_estimators=10, max_features=2, max_depth=1000, min_samples_leaf=1, min_samples_split=2, n_jobs=-1) test_mse = mean_squared_error(y_test, rf.predict(X_test)) train_mse = mean_squared_error(y_train, rf.predict(X_train)) print("train MSE, %.4f, test MSE: %.4f" % (train_mse, …

1
การถดถอยข้อผิดพลาดในตัวแปร: ใช้ได้กับพูลข้อมูลจากสามไซต์หรือไม่
ฉันเพิ่งมีลูกค้ามาให้ฉันทำการวิเคราะห์ bootstrap เพราะผู้ตรวจสอบ FDA บอกว่าการถดถอยข้อผิดพลาดในตัวแปรของพวกเขาไม่ถูกต้องเพราะเมื่อรวบรวมข้อมูลจากไซต์การวิเคราะห์รวมถึงการรวมข้อมูลจากสามไซต์ที่สองไซต์รวมตัวอย่างบางอย่าง เหมือน. พื้นหลัง ลูกค้ามีวิธีการทดสอบใหม่ที่ต้องการแสดงคือ "เทียบเท่า" กับวิธีที่ได้รับอนุมัติแล้ว วิธีการของพวกเขาคือการเปรียบเทียบผลลัพธ์ของทั้งสองวิธีที่ใช้กับตัวอย่างเดียวกัน สามไซต์ถูกใช้เพื่อทำการทดสอบ ข้อผิดพลาดในตัวแปร (Deming regression) ถูกนำไปใช้กับข้อมูลในแต่ละไซต์ แนวคิดก็คือว่าหากการถดถอยแสดงให้เห็นว่าพารามิเตอร์ของความชันนั้นใกล้เคียงกับ 1 และการสกัดกั้นใกล้ 0 นี่จะแสดงให้เห็นว่าเทคนิคการทดสอบทั้งสองนั้นให้ผลลัพธ์เกือบเหมือนกันดังนั้นจึงควรได้รับการอนุมัติวิธีการใหม่ ที่ไซต์ 1 มีตัวอย่าง 45 รายการให้พวกเขาสังเกตการณ์ 45 คู่ ไซต์ที่ 2 มี 40 ตัวอย่างและไซต์ 3, 43 ตัวอย่าง พวกเขาทำการแยก Deming regressions สามครั้งแยกกัน (สมมติว่ามีอัตราส่วน 1 สำหรับข้อผิดพลาดในการวัดสำหรับสองวิธี) ดังนั้นอัลกอริธึมจึงลดผลรวมของระยะทางยกฉากตั้งฉาก ในการส่งลูกค้าของพวกเขาชี้ให้เห็นว่าตัวอย่างบางส่วนที่ใช้ในไซต์ 1 และ 2 เหมือนกัน ในการทบทวนผู้ตรวจสอบของ …

3
ขั้นตอนอัตโนมัติสำหรับการเลือกชุดย่อยของจุดข้อมูลที่มีความสัมพันธ์มากที่สุด?
มีขั้นตอนมาตรฐานบางอย่าง (ซึ่งอาจอ้างอิงถึงการอ้างอิง) สำหรับการเลือกเซ็ตย่อยของจุดข้อมูลจากพูลขนาดใหญ่ที่มีความสัมพันธ์ที่แข็งแกร่งที่สุด (ตามสองมิติ)? ตัวอย่างเช่นสมมติว่าคุณมี 100 จุดข้อมูล คุณต้องการเซตย่อย 40 คะแนนโดยมีความสัมพันธ์ที่แข็งแกร่งที่สุดเท่าที่เป็นไปได้ในมิติ X และ Y ฉันรู้ว่าการเขียนโค้ดเพื่อทำสิ่งนี้จะค่อนข้างตรงไปตรงมา แต่ฉันสงสัยว่ามีแหล่งอ้างอิงใดหรือไม่

2
วิธีการเลือกระหว่างสูตรAdjustedแตกต่างกันอย่างไร
ฉันมีในใจสูตร R - squared ปรับเสนอโดย: Ezekiel (1930) ซึ่งฉันเชื่อว่าเป็นสิ่งที่ใช้ใน SPSS R2adjusted=1−(N−1)(N−p−1)(1−R2)Radjusted2=1−(N−1)(N−p−1)(1−R2)R^2_{\rm adjusted} = 1 - \frac{(N-1)}{(N-p-1)} (1-R^2) Olkin และแพรตต์ (1958) R2unbiased=1−(N−3)(1−R2)(N−p−1)−2(N−3)(1−R2)2(N−p−1)(N−p+1)Runbiased2=1−(N−3)(1−R2)(N−p−1)−2(N−3)(1−R2)2(N−p−1)(N−p+1)R^2_{\rm unbiased} = 1 - \frac{(N-3)(1-R^2)}{(N-p-1)} - \frac{2(N-3)(1-R^2)^2}{(N-p-1)(N-p+1)} ภายใต้สถานการณ์ใด (ถ้ามี) ผมจะชอบ 'ปรับ' เป็น 'เป็นกลาง' ?R2R2R^2 อ้างอิง Ezekiel, M. (1930) วิธีการวิเคราะห์ความสัมพันธ์ John Wiley and Sons, นิวยอร์ก Olkin I. แพรตต์เจดับบลิว (1958) การประมาณค่าสัมประสิทธิ์สหสัมพันธ์แบบไม่เอนเอียง พงศาวดารของสถิติคณิตศาสตร์ …

2
จะเลือกระดับนัยสำคัญสำหรับชุดข้อมูลขนาดใหญ่ได้อย่างไร
ฉันทำงานกับชุดข้อมูลโดยมี N ประมาณ 200,000 ในการถดถอยฉันเห็นค่านัยสำคัญน้อยมาก << 0.001 ที่เกี่ยวข้องกับขนาดเอฟเฟกต์ที่เล็กมากเช่น r = 0.028 สิ่งที่ฉันอยากรู้คือมีวิธีหลักการในการตัดสินใจเลือกขีด จำกัด นัยสำคัญที่เหมาะสมเมื่อเทียบกับขนาดตัวอย่างหรือไม่ มีข้อควรพิจารณาอื่น ๆ ที่สำคัญเกี่ยวกับการตีความขนาดของเอฟเฟกต์กับตัวอย่างขนาดใหญ่เช่นนี้หรือไม่?

5
อะไรคือสาเหตุของการใช้การแปลงแบบรูทของข้อมูล
มีเหตุผลอะไรที่ฉันคิดว่าจะแปลงข้อมูลด้วยสแควร์รูท? ฉันหมายถึงสิ่งที่ฉันสังเกตอยู่เสมอคือค่า R ^ 2 เพิ่มขึ้น แต่นี่อาจเป็นเพราะศูนย์กลางข้อมูล! ความคิดใด ๆ ที่ชื่นชม!

5
วิธีสร้างแบบจำลองราคา
ฉันถามคำถามนี้ในเว็บไซต์ matemathics stackexchange และแนะนำให้ถามที่นี่ ฉันกำลังทำงานในโครงการงานอดิเรกและต้องการความช่วยเหลือเกี่ยวกับปัญหาต่อไปนี้ บริบทนิดหน่อย สมมติว่ามีชุดของรายการพร้อมคำอธิบายคุณสมบัติและราคา ลองนึกภาพรายการรถยนต์และราคา รถยนต์ทุกคันมีรายการคุณสมบัติเช่นขนาดเครื่องยนต์สีพลังม้ารุ่นปี ฯลฯ สำหรับแต่ละยี่ห้อมีดังนี้: Ford: V8, green, manual, 200hp, 2007, $200 V6, red, automatic, 140hp, 2010, $300 V6, blue, manual, 140hp, 2005, $100 ... ยิ่งไปกว่านั้นรายการรถยนต์ที่มีราคาจะถูกเผยแพร่พร้อมช่วงเวลาหนึ่งซึ่งหมายความว่าเราสามารถเข้าถึงข้อมูลราคาในอดีตได้ อาจไม่รวมถึงรถยนต์คันเดียวกันทุกประการ ปัญหา ฉันต้องการที่จะเข้าใจวิธีการกำหนดราคาสำหรับรถใด ๆ ตามข้อมูลฐานนี้ที่สำคัญที่สุดคือรถยนต์ที่ไม่ได้อยู่ในรายการเริ่มต้น Ford, v6, red, automatic, 130hp, 2009 สำหรับรถด้านบนมันเกือบจะเหมือนกันกับหนึ่งในรายการเพียงเล็กน้อยแตกต่างกันในพลังม้าและปี ราคานี้สิ่งที่จำเป็น? สิ่งที่ฉันกำลังมองหาคือสิ่งที่ใช้งานได้จริงและเรียบง่าย แต่ฉันอยากจะได้ยินเกี่ยวกับวิธีการที่ซับซ้อนมากขึ้นในการสร้างแบบจำลองเช่นนี้ สิ่งที่ฉันได้ลอง นี่คือสิ่งที่ฉันกำลังทดลองด้วย: 1) …

4
ช่วงความเชื่อมั่นสำหรับพารามิเตอร์การถดถอย: Bayesian vs. Classical
จากสองอาร์เรย์ x และ y ความยาวทั้งสอง n ฉันพอดีกับโมเดล y = a + b * x และต้องการคำนวณช่วงความมั่นใจ 95% สำหรับความชัน นี่คือ (b - delta, b + delta) ซึ่ง b ถูกพบในวิธีปกติและ delta = qt(0.975,df=n-2)*se.slope และ se.slope เป็นข้อผิดพลาดมาตรฐานในความชัน วิธีการหนึ่งที่จะได้รับข้อผิดพลาดมาตรฐานของความลาดชันจาก R summary(lm(y~x))$coef[2,2]คือ ทีนี้สมมติว่าฉันเขียนความน่าจะเป็นของความชันที่ให้ x กับ y คูณนี่ด้วย "แบน" ก่อนแล้วใช้เทคนิค MCMC เพื่อวาดตัวอย่างmจากการกระจายหลัง กำหนด lims = quantile(m,c(0.025,0.975)) คำถามของฉัน: …

5
สามารถใช้การถดถอยหลายครั้งเพื่อคาดการณ์ส่วนประกอบหลัก (PC) จากพีซีอื่น ๆ ได้หรือไม่?
ไม่นานมานี้ผู้ใช้ในรายชื่อผู้รับจดหมาย R-help ถามเกี่ยวกับความสมบูรณ์ของการใช้คะแนน PCA ในการถดถอย ผู้ใช้พยายามใช้คะแนน PC เพื่ออธิบายการเปลี่ยนแปลงในพีซีเครื่องอื่น (ดูการสนทนาแบบเต็มได้ที่นี่ ) คำตอบคือไม่ไม่เสียงเพราะพีซีตั้งฉากกัน บางคนสามารถอธิบายรายละเอียดเพิ่มเติมได้เล็กน้อยว่าทำไมถึงเป็นเช่นนั้น?
15 regression  pca 

5
เหตุใดข้อสันนิษฐานเรื่อง Normality ในการถดถอยเชิงเส้น
คำถามของฉันง่ายมาก: ทำไมเราถึงเลือกตามปกติเนื่องจากการแจกแจงที่ข้อผิดพลาดตามมาในข้อสันนิษฐานของการถดถอยเชิงเส้น? ทำไมเราไม่เลือกคนอื่นเหมือนเครื่องแบบเสื้อหรืออะไร?

5
ความต้องการของสมมติฐานในการถดถอยเชิงเส้นคืออะไร?
ในการถดถอยเชิงเส้นเราทำสมมติฐานดังต่อไปนี้ ค่าเฉลี่ยของการตอบสนอง ในแต่ละชุดค่าของตัวทำนายเป็นฟังก์ชันเชิงเส้นของตัวทำนายE(Yi)E(Yi)E(Y_i)(x1i,x2i,…)(x1i,x2i,…)(x_{1i}, x_{2i},…) ข้อผิดพลาดεiεiε_iเป็นอิสระ ข้อผิดพลาดεiεiε_iที่แต่ละชุดของค่าของตัวทำนาย(x1i,x2i,…)(x1i,x2i,…)(x_{1i}, x_{2i},…)มีการกระจายตามปกติ ข้อผิดพลาดεiεiε_iที่แต่ละชุดของค่าของตัวทำนาย (x1i,x2i,…)(x1i,x2i,…)(x_{1i}, x_{2i},…)มีค่าความแปรปรวนเท่ากัน (แทนσ2σ2σ2 ) อีกวิธีหนึ่งที่เราสามารถแก้ปัญหาการถดถอยเชิงเส้นคือผ่านสมการปกติซึ่งเราสามารถเขียนเป็น θ=(XTX)−1XTYθ=(XTX)−1XTY\theta = (X^TX)^{-1}X^TY จากมุมมองทางคณิตศาสตร์สมการข้างต้นต้องการXTXXTXX^TXที่จะกลับด้านได้ ดังนั้นทำไมเราจึงจำเป็นต้องมีข้อสมมติฐานเหล่านี้ ฉันถามเพื่อนร่วมงานไม่กี่คนและพวกเขากล่าวว่าการได้รับผลลัพธ์ที่ดีและสมการปกติเป็นขั้นตอนวิธีเพื่อให้บรรลุ แต่ในกรณีนั้นสมมติฐานเหล่านี้มีประโยชน์อย่างไร การสนับสนุนพวกเขาช่วยในการสร้างแบบจำลองที่ดีขึ้นอย่างไร

4
การพิสูจน์สูตรเทียบเท่าของการถดถอยสัน
ฉันได้อ่านหนังสือยอดนิยมที่สุดในการเรียนรู้เชิงสถิติ 1- องค์ประกอบของการเรียนรู้ทางสถิติ 2- เบื้องต้นเกี่ยวกับการเรียนรู้ทางสถิติ ทั้งสองพูดถึงว่าการถดถอยของสันมีสองสูตรที่เทียบเท่า มีหลักฐานทางคณิตศาสตร์ที่เข้าใจได้ของผลลัพธ์นี้หรือไม่? ฉันยังผ่านการตรวจสอบข้ามแต่ฉันไม่สามารถหาหลักฐานที่ชัดเจนได้ที่นั่น นอกจากนี้ LASSO จะเพลิดเพลินกับการพิสูจน์ชนิดเดียวกันหรือไม่

2
โครงข่ายประสาทเทียมเทียบกับทุกอย่างอื่น
ฉันไม่ได้พบคำตอบที่น่าพอใจนี้จากGoogle แน่นอนถ้าข้อมูลที่ฉันมีนั้นเป็นของคำสั่งซื้อหลายล้านรายการการเรียนรู้อย่างลึกซึ้งเป็นวิธี และฉันได้อ่านว่าเมื่อฉันไม่มีข้อมูลขนาดใหญ่แล้วอาจเป็นการดีกว่าถ้าใช้วิธีอื่นในการเรียนรู้ของเครื่อง เหตุผลที่ได้รับคือความพอดี การเรียนรู้ของเครื่อง: เช่นการดูข้อมูลการแยกคุณลักษณะการสร้างฟีเจอร์ใหม่จากสิ่งที่รวบรวม ฯลฯ สิ่งต่าง ๆ เช่นการลบตัวแปรที่มีความสัมพันธ์สูง ฯลฯ การเรียนรู้ของเครื่องทั้งหมด 9 หลา และฉันสงสัยว่า: ทำไมเครือข่ายประสาทที่มีเลเยอร์ที่ซ่อนอยู่หนึ่งชั้นนั้นไม่ใช่ยาครอบจักรวาลเพื่อแก้ไขปัญหาการเรียนรู้ของเครื่อง? พวกมันคือตัวประมาณสากลการจัดการที่มากเกินไปสามารถจัดการได้ด้วย dropout, l2 normalization, l1 normalization, batch-normalization ความเร็วการฝึกอบรมไม่ใช่ปัญหาถ้าเรามีตัวอย่างการฝึกอบรมเพียง 50,000 ตัวอย่าง เวลาทดสอบดีกว่าให้เราบอกว่าป่าสุ่ม ดังนั้นทำไมไม่ - ทำความสะอาดข้อมูล, กำหนดค่าที่หายไปตามปกติ, จัดทำข้อมูล, จัดทำมาตรฐานข้อมูล, โยนมันไปยังเครือข่ายประสาทเทียมโดยใช้เลเยอร์ที่ซ่อนอยู่หนึ่งชั้นและใช้การทำให้เป็นมาตรฐานจนกว่าคุณจะเห็นว่า พวกเขาไปยังจุดสิ้นสุด ไม่มีปัญหาเรื่องการไล่ระดับสีหรือการไล่ระดับสีหายไปเนื่องจากเป็นเพียงเครือข่าย 2 ชั้น หากต้องการเลเยอร์ลึกนั่นหมายความว่าจะต้องเรียนรู้คุณลักษณะแบบลำดับชั้นและอัลกอริธึมการเรียนรู้ของเครื่องอื่นก็ไม่ดีเช่นกัน ตัวอย่างเช่น SVM เป็นเครือข่ายประสาทเทียมที่มีการสูญเสียบานพับเท่านั้น ตัวอย่างที่บางอัลกอริทึมการเรียนรู้ของเครื่องอื่นจะมีประสิทธิภาพสูงกว่าเครือข่ายนิวรัล 2 ชั้น (อาจจะ 3? คุณสามารถให้ลิงค์กับปัญหาและฉันจะฝึกอบรมโครงข่ายประสาทเทียมที่ดีที่สุดที่ฉันสามารถทำได้และเราสามารถดูได้ว่าเครือข่ายประสาท 2 ชั้นหรือ …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.