คำถามติดแท็ก error

ข้อผิดพลาดของการประมาณการหรือการทำนายคือการเบี่ยงเบนจากมูลค่าที่แท้จริงซึ่งอาจไม่สามารถสังเกตได้ (เช่นพารามิเตอร์การถดถอย) หรือสามารถสังเกตได้ (เช่นการรับรู้ในอนาคต) ใช้แท็ก [ข้อความแสดงข้อผิดพลาด] เพื่อสอบถามเกี่ยวกับข้อผิดพลาดของซอฟต์แวร์

2
การเผยแพร่ข้อผิดพลาด SD vs SE
ฉันมีการวัดลักษณะนิสัยแบบ 3 ถึง 5 ข้อต่อบุคคลในสองเงื่อนไขที่แตกต่างกัน (A และ B) ฉันวางแผนค่าเฉลี่ยสำหรับแต่ละบุคคลในแต่ละสภาพและฉันจะใช้ข้อผิดพลาดมาตรฐาน ( เช่น ,กับ = จำนวนวัด) เป็นแถบข้อผิดพลาด NSD/N−−√SD/NSD/\sqrt{N}NNN ตอนนี้ฉันต้องการพล็อตความแตกต่างระหว่างการวัดเฉลี่ยต่อบุคคลในสภาพ A และเงื่อนไข B ฉันรู้ว่าฉันสามารถระบุข้อผิดพลาดที่แพร่กระจายได้: SD=SD2A+SD2B−−−−−−−−−−√SD=SDA2+SDB2SD=\sqrt{SD_A^2+SD_B^2} แต่ฉันจะเผยแพร่ข้อผิดพลาดมาตรฐานได้อย่างไร (เนื่องจากฉันจัดการกับค่าเฉลี่ยของการวัด) แทนที่จะเป็นค่าเบี่ยงเบนมาตรฐาน มันสมเหตุสมผลหรือไม่?

1
การแก้ไขความไม่แม่นยำของสัญญาณนาฬิกาแบบกระจายตามปกติ
ฉันมีการทดสอบซึ่งดำเนินการกับคอมพิวเตอร์หลายร้อยเครื่องกระจายไปทั่วโลกที่วัดการเกิดเหตุการณ์บางอย่าง เหตุการณ์แต่ละเหตุการณ์นั้นขึ้นอยู่กับอีกเหตุการณ์หนึ่งดังนั้นฉันจึงสามารถสั่งในลำดับที่เพิ่มขึ้นแล้วคำนวณความแตกต่างของเวลา เหตุการณ์ควรจะมีการแจกแจงแบบทวีคูณ แต่เมื่อทำการพล็อตฮิสโตแกรมนี่คือสิ่งที่ฉันได้รับ: ความไม่แน่ชัดของนาฬิกาที่คอมพิวเตอร์ทำให้เกิดเหตุการณ์บางอย่างที่จะได้รับมอบหมายเวลาประทับก่อนหน้าของเหตุการณ์ที่พวกเขาขึ้นอยู่กับ ฉันสงสัยว่าการซิงโครไนซ์นาฬิกาสามารถถูกกล่าวหาได้หรือไม่ว่าจุดสูงสุดของ PDF ไม่เป็น 0 (ว่าพวกเขาเปลี่ยนทุกอย่างไปทางขวา) หรือไม่ หากความแตกต่างของนาฬิกามีการกระจายตามปกติฉันสามารถสมมติว่าเอฟเฟกต์จะชดเชยให้กันและใช้เวลาต่างกันที่คำนวณได้หรือไม่?

2
เหตุใดเราใช้เหลือเพื่อทดสอบสมมติฐานเกี่ยวกับข้อผิดพลาดในการถดถอย
สมมติว่าเรามีรูปแบบ Yi=β0+β1Xi1+β2Xi2+⋯+βkXik+ϵiYi=β0+β1Xi1+β2Xi2+⋯+βkXik+ϵiY_i = \beta_0 + \beta_1X_{i1} + \beta_2X_{i2} + \dots + \beta_kX_{ik} + \epsilon_i. การถดถอยมีข้อสมมติฐานหลายประการเช่นข้อผิดพลาด ϵiϵi\epsilon_iควรกระจายตามปกติด้วยค่าเฉลี่ยศูนย์และความแปรปรวนคงที่ ฉันได้รับการสอนให้ตรวจสอบสมมติฐานเหล่านี้โดยใช้พล็อต QQ ปกติเพื่อทดสอบความเป็นไปได้ของส่วนที่เหลือei=Yi−Y^iei=Yi−Y^ie_i = Y_i - \hat{Y}_i และส่วนที่เหลือเทียบกับพล็อตที่ติดตั้งเพื่อตรวจสอบว่าส่วนที่เหลือแตกต่างกันไปรอบ ๆ ศูนย์ด้วยความแปรปรวนคงที่ อย่างไรก็ตามการทดสอบเหล่านี้ทั้งหมดเกี่ยวกับส่วนที่เหลือไม่ใช่ข้อผิดพลาด จากสิ่งที่ฉันเข้าใจข้อผิดพลาดหมายถึงการเบี่ยงเบนของการสังเกตแต่ละครั้งจากค่าเฉลี่ยที่แท้จริงของพวกเขา ดังนั้นเราสามารถเขียนϵi=Yi−E[Yi]ϵi=Yi−E[Yi]\epsilon_i = Y_i - \mathbb{E}[Y_i]. เราไม่สามารถสังเกตเห็นข้อผิดพลาดเหล่านี้ได้ * * * * คำถามของฉันคือสิ่งนี้: สิ่งที่เหลืออยู่ของงานทำอย่างไรในการเลียนแบบข้อผิดพลาด? หากสมมติฐานปรากฏว่าพอใจในส่วนที่เหลือหมายความว่าพวกเขามีความพึงพอใจต่อข้อผิดพลาดด้วยหรือไม่? มีวิธีอื่น ๆ (ดีกว่า) ในการทดสอบสมมติฐานเช่นการปรับโมเดลให้เหมาะกับชุดข้อมูลการทดสอบและรับส่วนที่เหลือจากที่นั่นหรือไม่? * นอกจากนี้สิ่งนี้ไม่ต้องการให้มีการระบุรุ่นอย่างถูกต้องหรือไม่? นั่นคือการตอบสนองจะมีความสัมพันธ์กับผู้ทำนายX1,X2,X1,X2,X_1, X_2, ฯลฯ …

2
การประมาณขนาดของการตัดกันของหลาย ๆ ชุดโดยใช้ตัวอย่างหนึ่งชุด
ฉันกำลังทำงานกับอัลกอริทึมที่ต้องการคำนวณขนาดของชุดที่สร้างโดยจุดตัดของชุดอย่างน้อย 2 ชุด โดยเฉพาะอย่างยิ่ง: Z= |A0∩ … ∩An|z=|A0∩…∩An| z = \left |A_0 \cap \ldots \cap A_n \right | ชุดที่ถูก intersected สร้างขึ้นโดยแบบสอบถาม SQL และในความพยายามที่จะทำให้สิ่งต่าง ๆ รวดเร็วฉันได้รับการนับของแต่ละแบบสอบถามก่อนเวลาแล้วนำชุดที่มีจำนวนต่ำสุด ( ) และใช้ ID เหล่านั้นเป็นขอบเขตบน ข้อความค้นหาขนาดใหญ่ที่เหลือดังนั้นการแยกจึงมีประสิทธิภาพ:A0A0A_0 Z= | (A0∩A1) ∩ … ∩ (A0∩An) |z=|(A0∩A1)∩…∩(A0∩An)| z = \left |\left ( A_0 \cap A_1 \right ) \cap …
10 error  sample 

1
เลือก Priors ตามข้อผิดพลาดการวัด
คุณคำนวณค่าที่เหมาะสมก่อนว่าคุณมีข้อผิดพลาดในการวัดของเครื่องมืออย่างไร ย่อหน้านี้มาจากหนังสือของ Cressie "สถิติสำหรับข้อมูล Spatio-Temporal": มักจะเป็นกรณีที่ข้อมูลก่อนหน้านี้บางส่วนมีอยู่เกี่ยวกับความแปรปรวนของการวัด - ข้อผิดพลาดทำให้สามารถระบุรูปแบบพารามิเตอร์ที่มีข้อมูลที่ค่อนข้างยุติธรรม ตัวอย่างเช่นถ้าเราสมมติว่าข้อผิดพลาดการวัดที่เป็นอิสระตามเงื่อนไขคือ iid Gau(0,σ2ϵ)Gau(0,σϵ2)Gau(0, \sigma_{\epsilon}^2)จากนั้นเราควรระบุข้อมูลก่อน σ2ϵσϵ2\sigma_{\epsilon}^2. สมมติว่าเราสนใจอุณหภูมิของอากาศแวดล้อมและเราเห็นว่าข้อกำหนดของผู้ผลิตเครื่องมือระบุว่า "ผิดพลาด"±0.1°C±0.1°C±0.1°C. สมมติว่า "ข้อผิดพลาด" นี้สอดคล้องกับ 2 ส่วนเบี่ยงเบนมาตรฐาน (สมมติฐานที่ควรตรวจสอบ!) เราอาจระบุให้มีค่าเฉลี่ยก่อนหน้า . เนื่องจากข้อกำหนดของผู้ผลิตเครื่องมือเราจะถือว่าการกระจายที่มีจุดสูงสุดที่ชัดเจนและค่อนข้างแคบที่ 0.0025 (เช่นแกมมาผกผัน) อันที่จริงเราสามารถแก้ไขได้ที่ 0.0025; อย่างไรก็ตามข้อผิดพลาดของตัวแบบข้อมูลอาจมีองค์ประกอบอื่นที่มีความไม่แน่นอนเช่นกัน (มาตรา 7.1) เพื่อหลีกเลี่ยงปัญหาในการระบุตัวตนที่เป็นไปได้กับข้อผิดพลาดของกระบวนการแบบจำลองมันเป็นสิ่งสำคัญมากที่ผู้สร้างแบบจำลองจะลดความไม่แน่นอนให้มากที่สุดเท่าที่วิทยาศาสตร์อนุญาตรวมถึงการศึกษาด้านการออกแบบข้อมูลσ2ϵσϵ2\sigma_{\epsilon}^{2}(0.1/2)2=0.0025(0.1/2)2=0.0025(0.1/2)^2 = 0.0025 ไม่มีใครรู้ว่าขั้นตอนทั่วไปที่จะได้รับค่าของก่อนหน้าตามที่อธิบายไว้ข้างต้น (แม้ว่าย่อหน้าเท่านั้นหมายถึงการได้รับค่าเฉลี่ยก่อนหน้า)?

1
เมื่อใดกฎการให้คะแนนที่เหมาะสมจะมีการประมาณค่าทั่วไปในการจัดหมวดหมู่ที่ดีกว่า
วิธีการทั่วไปในการแก้ปัญหาการจำแนกประเภทคือการระบุคลาสของแบบจำลองผู้สมัครแล้วทำการเลือกรูปแบบโดยใช้ขั้นตอนบางอย่างเช่นการตรวจสอบความถูกต้องข้าม โดยปกติคนหนึ่งเลือกรุ่นที่มีความถูกต้องสูงสุดหรือบางฟังก์ชั่นที่เกี่ยวข้องที่ข้อมูลปัญหาถอดรหัสเฉพาะเช่น\FβFβ\text{F}_\beta สมมติว่าเป้าหมายสุดท้ายคือการสร้างลักษณนามที่แม่นยำ (ซึ่งคำจำกัดความความถูกต้องอีกครั้งขึ้นอยู่กับปัญหา) ในสถานการณ์ที่ดีกว่าในการเลือกรูปแบบโดยใช้กฎการให้คะแนนที่เหมาะสมเมื่อเทียบกับสิ่งที่ไม่เหมาะสมเช่นความแม่นยำ ฯลฯ นอกจากนี้เราจะไม่สนใจปัญหาของความซับซ้อนของแบบจำลองและสมมติว่าเราพิจารณาทุกโมเดลที่มีโอกาสเท่ากัน ก่อนหน้านี้ฉันจะบอกว่าไม่เคย การจำแนกเป็นปัญหาง่ายกว่าการถดถอย [1], [2] และเราสามารถหาขอบเขตที่แคบกว่าสำหรับอดีตได้มากกว่าในภายหลัง ( ) นอกจากนี้ยังมีกรณีเมื่อพยายามที่จะถูกต้องตรงกับความน่าจะได้ผลในการที่ไม่ถูกต้องขอบเขตการตัดสินใจหรืออิง อย่างไรก็ตามจากการสนทนาที่นี่และรูปแบบการลงคะแนนของชุมชนเกี่ยวกับปัญหาดังกล่าวฉันได้ตั้งคำถามกับมุมมองนี้* * * *∗* Devroye, Luc ทฤษฎีความน่าจะเป็นของการจดจำรูปแบบ ฉบับ 31. สปริงเกอร์, 1996. มาตรา 6.7 Kearns, Michael J. และ Robert E. Schapire การเรียนรู้ที่ไม่มีการแจกแจงอย่างมีประสิทธิภาพเกี่ยวกับแนวคิดความน่าจะเป็น รากฐานของวิทยาศาสตร์คอมพิวเตอร์, 1990. การดำเนินการ, การประชุมวิชาการประจำปีครั้งที่ 31 IEEE, 1990 ( ∗ )(∗)(*)ข้อความนี้อาจจะเลอะเทอะเล็กน้อย ฉันหมายถึงเฉพาะที่ได้รับข้อมูลฉลากของรูปแบบด้วยและดูเหมือนจะง่ายต่อการประเมินขอบเขตการตัดสินใจมากกว่าการประมาณความน่าจะเป็นแบบมีเงื่อนไขอย่างแม่นยำS= { (x1,Y1) , …

2
Optimism bias - การประเมินความผิดพลาดโดยประมาณ
หนังสือองค์ประกอบของการเรียนรู้เชิงสถิติ (มีให้ใน PDF ออนไลน์) กล่าวถึงอคติที่เหมาะสม (7.21, หน้า 229) มันระบุว่าอคติในแง่ดีคือความแตกต่างระหว่างข้อผิดพลาดการฝึกอบรมและข้อผิดพลาดในตัวอย่าง (ข้อผิดพลาดสังเกตว่าถ้าเราตัวอย่างค่าผลลัพธ์ใหม่ที่แต่ละจุดฝึกอบรมเดิม) (ต่อด้านล่าง) ถัดไปจะระบุอคติเชิงบวกนี้ ( ) เท่ากับความแปรปรวนร่วมของค่า y ที่เราประมาณและค่า y ที่แท้จริง (สูตรต่อด้านล่าง) ฉันมีปัญหาในการทำความเข้าใจว่าทำไมสูตรนี้บ่งบอกถึงการมองในแง่ดี อย่างไร้เดียงสาฉันจะคิดว่าความแปรปรวนร่วมที่แข็งแกร่งระหว่างจริงและทำนายเพียงอธิบายความถูกต้อง - ไม่มองในแง่ดี แจ้งให้เราทราบหากมีคนสามารถช่วยได้มาของสูตรหรือแบ่งปันสัญชาตญาณ ωω\omegayyyyyy

3
RMSE คืออะไรที่ทำให้เป็นมาตรฐานด้วยค่าเฉลี่ยที่สังเกตได้ที่เรียกว่า
ฉันใช้Root Mean Squared Error(RMSE) เพื่อวัดความแม่นยำของค่าที่ทำนายโดยใช้แบบจำลอง ฉันเข้าใจว่าค่าที่ส่งคืนใช้หน่วยวัดของฉัน (แทนที่จะเป็นเปอร์เซ็นต์) อย่างไรก็ตามฉันต้องการเสนอราคาเป็นเปอร์เซ็นต์ วิธีการที่ฉันใช้คือการทำให้RMSEค่าเฉลี่ยของการสังเกตของฉันเป็นมาตรฐาน มีคำศัพท์RMSE/meanหรือไม่?

1
การแพร่กระจายของข้อผิดพลาดโดยใช้ชุดลำดับที่ 2 ของ Taylor
ฉันกำลังอ่านข้อความ "สถิติคณิตศาสตร์และการวิเคราะห์ข้อมูล" โดย John Rice เรามีความกังวลกับการใกล้เคียงกับค่าที่คาดหวังและความแปรปรวนของตัวแปรสุ่มYเราสามารถที่จะคำนวณมูลค่าที่คาดหวังและความแปรปรวนของตัวแปรสุ่มและเรารู้ว่าความสัมพันธ์Y = กรัม (X) ดังนั้นจึงเป็นไปได้ที่จะใกล้เคียงกับค่าที่คาดหวังและความแปรปรวนของYโดยใช้การขยายตัวของซีรีส์เทย์เลอร์กรัมเกี่ยวกับ\ mu_XYYYXXXY=g(X)Y=g(X)Y = g(X)YYYgggμXμX\mu_X บนหน้า 162 เขารายการสมการ 3 ค่าที่คาดหวังของYYYโดยใช้การขยายอนุกรมลำดับที่ 1 ของเทย์เลอร์ มันเป็น: μY≈g(μX)μY≈g(μX)\mu_Y \approx g(\mu_X)mu_X) นี้จะเรียกว่าต่อมาในคำถามของฉันเป็นE(Y1)E(Y1)E(Y_1)(Y_1) ความแปรปรวนของYYYโดยใช้การขยายอนุกรมลำดับที่ 1 ของเทย์เลอร์ มันเป็น: σ2Y≈σ2X(g′(μX))2σY2≈σX2(g′(μX))2\sigma_Y^2 \approx \sigma_X^2 (g'(\mu_X))^2 2 นี้จะเรียกว่าต่อมาในคำถามของฉันเป็นVar(Y1)Var(Y1)Var(Y_1)(Y_1) ค่าที่คาดหวังของYYYโดยใช้การขยายอนุกรมลำดับที่ 2 ของเทย์เลอร์ มันเป็นμY≈g(μX)+12σ2Xg′′(μX)μY≈g(μX)+12σX2g″(μX)\mu_Y \approx g(\mu_X) + \frac12 \sigma_X^2 g''(\mu_X)mu_X) นี้จะเรียกว่าต่อมาในคำถามของฉันเป็นE(Y2)E(Y2)E(Y_2)(Y_2) โปรดทราบว่ามีการแสดงออกที่แตกต่างกันสองประการสำหรับYYYเพราะเราใช้คำสั่งที่แตกต่างกันสองคำในการขยายซีรี่ส์เทย์เลอร์ สมการที่ 1 และ …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.