สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

1
เหตุใดการถดถอยนี้จึงไม่ล้มเหลวเนื่องจากความสัมพันธ์ระหว่างกันที่สมบูรณ์แบบแม้ว่าตัวแปรหนึ่งจะเป็นการรวมเชิงเส้นของตัวแปรอื่น ๆ
วันนี้ฉันกำลังเล่นกับชุดข้อมูลขนาดเล็กและดำเนินการถดถอย OLS ง่าย ๆ ซึ่งฉันคาดว่าจะล้มเหลวเนื่องจากมีความหลากหลายทางสมบูรณ์แบบ อย่างไรก็ตามมันไม่ได้ นี่ก็หมายความว่าความเข้าใจของฉันเกี่ยวกับความหลากสีเป็นสิ่งที่ผิด คำถามของฉันคือที่ไหนผมผิดหรือเปล่า? ฉันคิดว่าฉันสามารถแสดงให้เห็นว่าหนึ่งในตัวแปรของฉันคือการรวมกันเชิงเส้นของคนอื่น ๆ สิ่งนี้ควรนำไปสู่เมทริกซ์การถดถอยที่ไม่มีอันดับเต็มดังนั้นค่าสัมประสิทธิ์ไม่ควรถูกระบุ ฉันสร้างชุดข้อมูลที่ทำซ้ำได้ขนาดเล็ก(รหัสด้านล่าง) : exporter importer flow dist intraUS 1 Canada Canada 996.8677 6.367287 0 2 Florida Canada 995.8219 9.190562 0 3 Texas Canada 1001.6475 4.359063 0 4 Mexico Canada 1002.4371 7.476649 0 5 Canada Florida 1002.8789 5.389223 0 6 Florida …

2
ควรหยุดการปรับแต่งโมเดลเมื่อใด
ฉันเรียนสถิติจากหนังสือหลายเล่มในช่วง 3 ปีที่ผ่านมาและขอบคุณเว็บไซต์นี้ที่ฉันได้เรียนรู้มากมาย อย่างไรก็ตามคำถามพื้นฐานหนึ่งข้อยังคงไม่ได้รับคำตอบสำหรับฉัน อาจมีคำตอบที่ง่ายหรือยากมาก แต่ฉันรู้ว่าต้องใช้ความเข้าใจอย่างลึกซึ้งเกี่ยวกับสถิติ เมื่อปรับแบบจำลองให้สอดคล้องกับข้อมูลไม่ว่าจะเป็นวิธีการแบบประจำหรือแบบเบย์เราขอเสนอแบบจำลองซึ่งอาจประกอบด้วยรูปแบบการทำงานสำหรับความน่าจะเป็นรูปแบบก่อนหน้าหรือเคอร์เนล (ไม่ใช่พารามิเตอร์) เป็นต้นปัญหาคือโมเดลใด ๆ เหมาะกับตัวอย่างที่มีระดับดี เราสามารถค้นหาแบบจำลองที่ดีกว่าหรือแย่กว่าเสมอเมื่อเทียบกับสิ่งที่อยู่ในมือ ในบางจุดที่เราหยุดและเริ่มต้นการสรุปสรุปพารามิเตอร์ของประชากรรายงานช่วงความเชื่อมั่นคำนวณความเสี่ยง ฯลฯ ดังนั้นไม่ว่าข้อสรุปใดที่เราวาดจะมีเงื่อนไขตามแบบจำลองที่เราตัดสินใจเลือกเสมอ แม้ว่าเราจะใช้เครื่องมือในการประมาณระยะทาง KL ที่คาดหวังเช่น AIC, MDL เป็นต้น แต่ก็ไม่ได้พูดอะไรเกี่ยวกับตำแหน่งที่เรายืนอยู่บนพื้นฐานแบบสัมบูรณ์ แต่เพียงปรับปรุงการประมาณค่าแบบสัมพันธ์ ตอนนี้สมมติว่าเราต้องการกำหนดขั้นตอนตามขั้นตอนเพื่อนำไปใช้กับชุดข้อมูลใด ๆ เมื่อสร้างแบบจำลอง เราควรระบุอะไรเป็นกฏการหยุด? อย่างน้อยเราสามารถผูกข้อผิดพลาดของแบบจำลองซึ่งจะทำให้เรามีจุดหยุดตามวัตถุประสงค์ (ซึ่งแตกต่างจากการหยุดการฝึกอบรมโดยใช้ตัวอย่างการตรวจสอบความถูกต้องเนื่องจากมันให้จุดหยุดภายในคลาสโมเดลที่ประเมินมากกว่า wrt DGP จริง)

2
หาก "ข้อผิดพลาดมาตรฐาน" และ "ช่วงความมั่นใจ" วัดความแม่นยำของการวัดแล้วการวัดความถูกต้องคืออะไร
ในหนังสือ "ชีวสถิติสำหรับหุ่น" ในหน้า 40 ฉันอ่าน: ข้อผิดพลาดมาตรฐาน (ตัวย่อ SE) เป็นวิธีหนึ่งในการระบุความแม่นยำในการประมาณการหรือการวัดของคุณ และ ช่วงความเชื่อมั่นเป็นอีกวิธีหนึ่งในการระบุความแม่นยำของการประมาณหรือการวัดบางสิ่ง แต่ไม่มีการเขียนอะไรเพื่อแสดงความแม่นยำของการวัด คำถาม:จะระบุได้อย่างไรว่าการวัดบางอย่างนั้นแม่นยำแค่ไหน? วิธีใดที่ใช้สำหรับสิ่งนั้น เพื่อไม่ให้สับสนกับความแม่นยำและความแม่นยำของการทดสอบ: https://en.wikipedia.org/wiki/Accuracy_and_precision#In_binary_classification

2
ไฟล์ PDF ของ
สมมติว่าเป็น iid จากโดยไม่ทราบและX1,X2,...,XnX1,X2,...,XnX_1, X_2,...,X_nN(μ,σ2)N(μ,σ2)N(\mu,\sigma^2)μ∈Rμ∈R\mu \in \mathcal Rσ2>0σ2>0\sigma^2>0 ให้ S คือค่าเบี่ยงเบนมาตรฐานที่นี่Z=X1−X¯S,Z=X1−X¯S,Z=\frac{X_1-\bar{X}}{S}, มันสามารถแสดงให้เห็นว่า มีไฟล์ LebesgueZZZ f(z)=n−−√Γ(n−12)π−−√(n−1)Γ(n−22)[1−nz2(n−1)2]n/2−2I(0,(n−1)/n√)(|Z|)f(z)=nΓ(n−12)π(n−1)Γ(n−22)[1−nz2(n−1)2]n/2−2I(0,(n−1)/n)(|Z|)f(z)=\frac{\sqrt{n} \Gamma\left(\frac{n-1}{2}\right)}{\sqrt{\pi}(n-1)\Gamma\left(\frac{n-2}{2}\right)}\left[1-\frac{nz^2}{(n-1)^2}\right]^{n/2-2}I_{(0,(n-1)/\sqrt{n})}(|Z|) คำถามของฉันคือวิธีการรับ pdf นี้ คำถามคือจากที่นี่ในตัวอย่าง 3.3.4 เพื่อหา UMVUE ของP(X1≤c)P(X1≤c)P(X_1 \le c)ค) ฉันเข้าใจตรรกะและขั้นตอนเพื่อค้นหา UMVUE แต่ไม่รู้วิธีรับ PDF ผมคิดว่าคำถามนี้ยังเกี่ยวข้องกับเรื่องนี้อย่างใดอย่างหนึ่ง ขอบคุณมากสำหรับความช่วยเหลือหรือชี้ไปที่การอ้างอิงใด ๆ ที่เกี่ยวข้องจะได้รับการจัดสรร
15 self-study  umvue 

5
อะไรคือการกระจายของลูกเต๋าหลายเหลี่ยมที่ม้วนตัวทั้งหมดในคราวเดียว
นำของแข็ง 5 Platonic ออกจากชุดลูกเต๋า Dungeons & Dragons เหล่านี้ประกอบด้วยลูกเต๋า 4 ด้าน, 6 ด้าน (ธรรมเนียม), 8-sided, 12-sided และ 20-sided ทั้งหมดเริ่มต้นที่หมายเลข 1 และนับขึ้น 1 ด้วยจำนวนทั้งหมด รีดพวกเขาทั้งหมดในครั้งเดียวนำผลรวมของพวกเขา (ผลรวมขั้นต่ำคือ 5, สูงสุดคือ 50) ทำหลาย ๆ ครั้ง การกระจายคืออะไร? เห็นได้ชัดว่าพวกเขามีแนวโน้มไปสู่จุดต่ำสุดเนื่องจากมีตัวเลขที่ต่ำกว่าสูงกว่า แต่จะมีจุดเปลี่ยนที่เด่นในแต่ละเขตของการตายของแต่ละคนหรือไม่? [แก้ไข: เห็นได้ชัดว่าสิ่งที่ดูเหมือนไม่ชัดเจน ตามที่ผู้วิจารณ์คนหนึ่งกล่าวว่าค่าเฉลี่ยคือ (5 + 50) /2=27.5 ฉันไม่ได้คาดหวังสิ่งนี้ ฉันยังอยากเห็นกราฟ] [แก้ไข 2: มันสมเหตุสมผลมากกว่าที่จะเห็นว่าการกระจายของ n ลูกเต๋าเหมือนกันกับแต่ละลูกเต๋าแยกกันรวมกัน]

1
ทำความเข้าใจเกี่ยวกับการแยกส่วนประกอบ QR
ฉันมีตัวอย่างการทำงาน (ใน R) ว่าฉันพยายามที่จะเข้าใจเพิ่มเติม ฉันใช้ Limma เพื่อสร้างแบบจำลองเชิงเส้นและฉันพยายามที่จะเข้าใจสิ่งที่เกิดขึ้นทีละขั้นตอนในการคำนวณการเปลี่ยนแปลงการพับ ฉันส่วนใหญ่พยายามคิดว่าเกิดอะไรขึ้นกับการคำนวณค่าสัมประสิทธิ์ จากสิ่งที่ฉันสามารถหาได้พบว่าการย่อยสลาย QR ใช้เพื่อให้ได้ค่าสัมประสิทธิ์ดังนั้นฉันจึงต้องมองหาคำอธิบายหรือวิธีการดูสมการทีละขั้นตอนในการคำนวณหรือทีละขั้นตอนสำหรับรหัส qr () ใน R เพื่อติดตามตัวเอง ใช้ข้อมูลต่อไปนี้: expression_data <- c(1.27135202935009, 1.41816160331787, 1.2572772420417, 1.70943398046296, 1.30290218641586, 0.632660015122616, 1.73084258791384, 0.863826352944684, 0.62481665344628, 0.356064235030147, 1.31542028558644, 0.30549909383238, 0.464963176430548, 0.132181421105667, -0.284799809563931, 0.216198538884642, -0.0841133304341238, -0.00184472290008803, -0.0924271878885008, -0.340291804468472, -0.236829711453303, 0.0529690806587626, 0.16321956624511, -0.310513510587778, -0.12970035111176, -0.126398635780533, 0.152550803185228, -0.458542514769473, 0.00243517688116406, -0.0190192219685527, 0.199329876859774, …

1
ความยาวของลำดับที่เป็นไปได้สำหรับ RNN ถึงรุ่นคืออะไร
ฉันกำลังมองหาการใช้ LSTM ( หน่วยความจำระยะสั้นระยะยาว ) ของเครือข่ายประสาทกำเริบ (RNN) สำหรับการสร้างแบบจำลองข้อมูลชุดเวลา เมื่อความยาวของข้อมูลเพิ่มขึ้นความซับซ้อนของเครือข่ายจะเพิ่มขึ้น ดังนั้นฉันจึงสงสัยว่าจะมีความยาวของลำดับอย่างไรกับโมเดลที่มีความแม่นยำดี ฉันต้องการใช้ LSTM รุ่นที่ค่อนข้างเรียบง่ายโดยไม่ยากที่จะใช้วิธีการที่ทันสมัย การสังเกตการณ์แต่ละครั้งใน Timeseries ของฉันมีตัวแปรตัวเลข 4 ตัวและจำนวนการสังเกตจะอยู่ที่ประมาณ 100,000 ถึง 1.000.000

1
ที่ระดับอะไรคือการทดสอบ
ความเป็นมา:ข้ามอย่างปลอดภัย - อยู่ที่นี่เพื่อการอ้างอิงและทำให้คำถามถูกต้อง การเปิดอ่านบทความนี้: "การทดสอบไคสแควร์ที่มีชื่อเสียงของคาร์ลเพียร์สันได้มาจากสถิติอื่นที่เรียกว่าสถิติซีตามการแจกแจงแบบปกติรุ่นที่ง่ายที่สุดของχ2χ2\chi^2สามารถแสดงให้เห็นว่าเป็นคณิตศาสตร์ในทางคณิตศาสตร์เหมือนกับการทดสอบซีที่เทียบเท่า ในทุกสถานการณ์สำหรับทุกเจตนารมณ์และวัตถุประสงค์ "ไคสแควร์" อาจเรียกว่า "ซีสแควร์" ค่าวิกฤตของχ2χ2\chi^2สำหรับระดับอิสระหนึ่งระดับคือจตุรัสของค่าวิกฤตที่สอดคล้องกันของซี " นี้ได้รับการยืนยันหลายครั้งใน CV ( ที่นี่ , ที่นี่ , ที่นี่และอื่น ๆ ) และแน่นอนเราสามารถพิสูจน์ได้ว่าχ21dfχ1df2\chi^2_{1\,df}เทียบเท่ากับX2X2X^2ด้วยX∼N(0,1)X∼N(0,1)X\sim N(0,1): สมมติว่าX∼N(0,1)X∼N(0,1)X \sim N(0,1)และY=X2Y=X2Y=X^2และค้นหาความหนาแน่นของYYYโดยใช้วิธีcdfcdfcdf : ) ปัญหาคือเราไม่สามารถรวมความหนาแน่นของการแจกแจงแบบปกติในรูปแบบปิด แต่เราสามารถแสดงได้:p(Y≤y)=p(X2≤y)=p(−y√≤x≤y√)p(Y≤y)=p(X2≤y)=p(−y≤x≤y)p(Y \leq y) = p(X^2 \leq y)= p(-\sqrt{y} \leq x \leq \sqrt{y}) รับอนุพันธ์:FX(y)=FX(y√)−FX(−y√).FX(y)=FX(y)−FX(−y). F_X(y) = F_X(\sqrt{y})- F_X(-\sqrt[]{y}). fX(y)=F′X(y√)12y√+F′X(−y−−−√)12y√.fX(y)=FX′(y)12y+FX′(−y)12y. f_X(y)= F_X'(\sqrt{y})\,\frac{1}{2\sqrt{y}}+ F_X'(\sqrt{-y})\,\frac{1}{2\sqrt{y}}. …

7
คุณทำอะไรเพื่อจำกฎของ Bayes?
ฉันคิดว่าวิธีที่ดีในการจำสูตรคือคิดถึงสูตรเช่นนี้: ความน่าจะเป็นที่เหตุการณ์บางเหตุการณ์ A มีผลลัพธ์เฉพาะเมื่อผลลัพธ์ของเหตุการณ์ B อิสระ = ความน่าจะเป็นของผลลัพธ์ทั้งสองที่เกิดขึ้นพร้อมกัน / สิ่งที่เราพูดถึงความน่าจะเป็นของเหตุการณ์ A ผลลัพธ์ที่ต้องการคือถ้าเราไม่รู้ผลลัพธ์ของเหตุการณ์ B เป็นตัวอย่างให้พิจารณาการทดสอบโรค: หากเรามีผู้ป่วยที่ทดสอบผลบวกต่อโรคและเรารู้ว่า: 40% ของผู้ป่วยที่ทดสอบเป็นบวกในการทดสอบของเรา 60% ของคนทุกคนมีโรคนี้ และ 26% ของทุกคนผ่านการทดสอบเชิงบวกสำหรับโรคนี้; จากนั้นจะเป็นดังนี้: 1) 24% ของผู้คนทั้งหมดที่เราทดสอบตัวอย่างเป็นบวกและมีโรคความหมาย 24 จาก 26 คนที่ทดสอบในเชิงบวกมีโรค ดังนั้น 2) มีโอกาส 92.3% ที่ผู้ป่วยรายนี้มีโรค
15 bayesian  bayes 

1
การทำให้เป็นมาตรฐานสำหรับโมเดล ARIMA
ฉันตระหนักถึง LASSO, สันและชนิดยืดหยุ่นสุทธิของการทำให้เป็นระเบียบในแบบจำลองการถดถอยเชิงเส้น คำถาม: การประมาณแบบลงโทษนี้ (หรือคล้ายกัน) สามารถนำไปใช้กับแบบจำลอง ARIMA (ที่มีส่วน MA ที่ไม่ว่างเปล่า) ได้หรือไม่? pmaxpmaxp_{max}qmaxqmaxq_{max}p⩽pmaxp⩽pmaxp \leqslant p_{max}q⩽qmaxq⩽qmaxq \leqslant q_{max} คำถามเพิ่มเติมของฉันคือ: เราสามารถรวมคำทั้งหมดได้สูงสุด ( , ) แต่จะลงโทษขนาดของสัมประสิทธิ์ (อาจเป็นไปได้จนหมดศูนย์) มันสมเหตุสมผลไหมpmaxpmaxp_{max}qmaxqmaxq_{max} ถ้าเป็นเช่นนั้นมีการนำไปใช้ใน R หรือซอฟต์แวร์อื่น ๆ หรือไม่? ถ้าไม่ปัญหาคืออะไร โพสต์ที่เกี่ยวข้องบ้างที่สามารถพบได้ที่นี่

4
การทำเหมืองข้อความ: วิธีจัดกลุ่มข้อความ (เช่นบทความข่าว) ด้วยปัญญาประดิษฐ์ได้อย่างไร
ฉันได้สร้างเครือข่ายนิวรัล (MLP (เชื่อมต่อเต็ม), Elman (กำเริบ) สำหรับงานที่แตกต่างกันเช่นการเล่นโป่ง, การจำแนกตัวเลขหลักที่เขียนด้วยลายมือและสิ่งต่าง ๆ ... นอกจากนี้ฉันพยายามสร้างโครงข่ายประสาทเทียมแบบแรกเช่นสำหรับการจำแนกบันทึกย่อที่เขียนด้วยลายมือหลายหลัก แต่ฉันใหม่สมบูรณ์ในการวิเคราะห์และจัดกลุ่มข้อความเช่นในการรับรู้ภาพ / การจัดกลุ่มงานหนึ่งสามารถพึ่งพาอินพุตมาตรฐานเช่นรูปภาพขนาด 25x25 RGB หรือเฉดสีเทาและอื่น ๆ ... มีคุณสมบัติมากมายที่คาดการณ์ไว้ล่วงหน้า สำหรับการทำเหมืองข้อความตัวอย่างเช่นบทความข่าวคุณมีขนาดของการป้อนข้อมูลที่เปลี่ยนแปลงตลอดเวลา (คำต่าง ๆ ประโยคที่แตกต่างความยาวข้อความที่แตกต่างกัน ... ) เราจะใช้เครื่องมือขุดข้อความที่ทันสมัยโดยใช้ปัญญาประดิษฐ์โดยเฉพาะอย่างยิ่งโครงข่ายประสาทเทียม / SOM ได้อย่างไร? น่าเสียดายที่ฉันไม่สามารถหาบทแนะนำง่าย ๆ สำหรับการเริ่มต้นได้ เอกสารทางวิทยาศาสตร์ที่ซับซ้อนยากที่จะอ่านและไม่ใช่ตัวเลือกที่ดีที่สุดสำหรับการเรียนรู้หัวข้อ (ตามความเห็นของฉัน) ฉันได้อ่านบทความเกี่ยวกับ MLPs, เทคนิคการออกกลางคัน, โครงข่ายประสาทเทียมและอื่น ๆ แล้ว แต่ฉันไม่สามารถหาพื้นฐานเกี่ยวกับการทำเหมืองข้อความได้ - ทั้งหมดที่ฉันพบนั้นอยู่ในระดับที่สูงเกินไปสำหรับทักษะการทำเหมืองข้อความที่ จำกัด

2
ANOVA ใช้มาตรการซ้ำ ๆ : สมมติฐานด้านภาวะปกติคืออะไร?
ฉันสับสนเกี่ยวกับสมมติฐานเชิงบรรทัดฐานในการวัดซ้ำ ANOVA โดยเฉพาะอย่างยิ่งฉันสงสัยว่าสิ่งที่เป็นบรรทัดฐานควรจะพึงพอใจ ในการอ่านวรรณกรรมและคำตอบเกี่ยวกับประวัติฉันพบคำศัพท์ที่แตกต่างกันสามข้อของข้อสันนิษฐานนี้ ตัวแปรตามภายในแต่ละเงื่อนไข (ซ้ำ) ควรกระจายตามปกติ มันมักจะระบุว่า rANOVA มีสมมติฐานเช่นเดียวกับ ANOVA รวมถึงความกลม นั่นคือการเรียกร้องในสนามของสถิติการค้นพบเช่นเดียวกับในวิกิพีเดียบทความในเรื่องและข้อความของโลว์รีย์ ควรกระจายความแตกต่างระหว่างคู่ที่เป็นไปได้ทั้งหมดหรือไม่? ฉันพบคำสั่งนี้หลายคำตอบใน CV ( 1 , 2 ) โดยการเปรียบเทียบ rANOVA กับt-test ที่จับคู่สิ่งนี้อาจดูเข้าใจได้ง่าย เกณฑ์ปกติหลายตัวแปรควรมีความพึงพอใจ Wikipedia และแหล่งข้อมูลนี้พูดถึงสิ่งนี้ นอกจากนี้ฉันรู้ว่า ranova สามารถสลับกับ MANOVA ซึ่งอาจได้รับการอ้างสิทธิ์นี้ สิ่งเหล่านี้เทียบเท่ากันหรือไม่? ฉันรู้ว่ากฎเกณฑ์หลายตัวแปรหมายความว่าชุดค่าผสมเชิงเส้นใด ๆของ DV จะถูกกระจายตามปกติดังนั้น 3. จะรวม 2 ตามธรรมชาติถ้าฉันเข้าใจอย่างถูกต้องหลัง หากสิ่งเหล่านี้ไม่เหมือนกันข้อสันนิษฐานที่แท้จริงของ rANOVA คืออะไร คุณสามารถให้การอ้างอิงได้หรือไม่? ดูเหมือนว่าฉันมีการสนับสนุนมากที่สุดสำหรับการเรียกร้องครั้งแรก อย่างไรก็ตามคำตอบนี้ไม่ตรงกับคำตอบปกติ แบบผสมเชิงเส้น เนื่องจากคำใบ้ของ …

1
ตัวประมาณที่ไม่ลำเอียงอื่น ๆ กว่า BLUE (โซลูชัน OLS) สำหรับแบบจำลองเชิงเส้น
สำหรับโมเดลเชิงเส้นโซลูชัน OLS ให้ตัวประมาณค่าแบบไม่เอนเอียงเชิงเส้นที่ดีที่สุดสำหรับพารามิเตอร์ แน่นอนว่าเราสามารถแลกเปลี่ยนอคติเพื่อลดความแปรปรวนได้เช่นการถดถอยของสัน แต่คำถามของฉันเกี่ยวกับการไม่มีอคติ มีตัวประมาณอื่น ๆ ที่ค่อนข้างใช้กันทั่วไปซึ่งไม่เอนเอียง แต่มีความแปรปรวนสูงกว่าพารามิเตอร์ประมาณ OLS หรือไม่ ถ้าฉันมีชุดข้อมูลขนาดใหญ่ฉันสามารถย่อยตัวอย่างและคาดการณ์พารามิเตอร์ด้วยข้อมูลน้อยลงและเพิ่มความแปรปรวน ฉันคิดว่านี่อาจเป็นประโยชน์ในเชิงสมมุติฐาน นี่เป็นคำถามเกี่ยวกับวาทศิลป์มากกว่าเพราะเมื่อฉันอ่านเกี่ยวกับตัวประมาณค่าสีน้ำเงินแล้วไม่มีตัวเลือกที่แย่กว่านี้ ฉันเดาว่าการให้ทางเลือกที่แย่กว่านั้นอาจช่วยให้ผู้คนเข้าใจพลังของตัวประมาณค่า BLUE ได้ดีขึ้น

2
คำถามเกี่ยวกับการแลกเปลี่ยนอคติแปรปรวน
ฉันพยายามที่จะเข้าใจการแลกเปลี่ยนอคติความแปรปรวนความสัมพันธ์ระหว่างอคติของตัวประมาณและอคติของตัวแบบและความสัมพันธ์ระหว่างความแปรปรวนของตัวประมาณและความแปรปรวนของตัวแบบ ฉันมาถึงข้อสรุปเหล่านี้: เรามีแนวโน้มที่จะทำให้ข้อมูลมีค่ามากเกินไปเมื่อเราละเลยอคติของตัวประมาณนั่นคือเมื่อเราตั้งเป้าหมายที่จะลดอคติของแบบจำลองให้น้อยที่สุดโดยละเลยความแปรปรวนของแบบจำลอง (กล่าวอีกนัยหนึ่งคือเรามุ่งที่จะลดความแปรปรวนของ ความเอนเอียงของตัวประมาณเช่นกัน) ในทางกลับกันเรามีแนวโน้มที่จะลดข้อมูลเมื่อเราเพิกเฉยความแปรปรวนของตัวประมาณนั่นคือเมื่อเรามุ่งที่จะลดความแปรปรวนของตัวแบบที่ละเลยความเอนเอียงของแบบจำลอง (กล่าวอีกนัยหนึ่งคือเรามุ่งที่จะลดอคติของ ตัวประมาณโดยไม่พิจารณาความแปรปรวนของตัวประมาณด้วย) ข้อสรุปของฉันถูกต้องหรือไม่?

1
วิธีตอบสนองต่อผู้ตรวจสอบที่ขอค่า p ในโมเดลหลายระดับแบบเบย์?
เราถูกผู้ตรวจสอบขอให้จัดทำค่า p เพื่อทำความเข้าใจกับการประมาณการแบบจำลองในแบบจำลองหลายระดับแบบเบย์ของเรา แบบจำลองเป็นแบบอย่างของการสังเกตหลายครั้งต่อผู้เข้าร่วมในการทดสอบ เราประเมินโมเดลด้วยสแตนเพื่อให้เราสามารถคำนวณสถิติหลังเพิ่มเติมได้อย่างง่ายดาย ขณะนี้เรากำลังรายงาน (ภาพและในตาราง) การประมาณค่าเฉลี่ยและปริมาณ 0.025 และ 0.975 การตอบสนองของฉันจนถึงขณะนี้จะรวมถึง: ค่า P ไม่สอดคล้องกับตัวแบบเบย์เช่นP( X| θ)≠P( θ | X) .P(X|θ)≠P(θ|X).P(X|\theta) \neq P(\theta|X). จากหลังเราสามารถคำนวณความน่าจะเป็นของพารามิเตอร์ที่มีขนาดใหญ่กว่า (เล็กกว่า) ได้มากกว่า 0 ซึ่งดูเหมือนเป็นค่า p แบบดั้งเดิมเล็กน้อย คำถามของฉันคือว่านี่คือการตอบสนองที่สามารถตอบสนองผู้ตรวจสอบหรือมันจะทำให้เกิดความสับสนมากขึ้น? อัปเดต 10 ตุลาคม: เราเขียนบทความใหม่พร้อมคำแนะนำในใจ กระดาษได้รับการยอมรับดังนั้นฉันจะย้ำความคิดเห็นก่อนหน้าของฉันว่านี่เป็นคำแนะนำที่เป็นประโยชน์จริงๆ!

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.