คำถามติดแท็ก proof

ทฤษฎีทางคณิตศาสตร์ของสถิติเกี่ยวข้องกับคำจำกัดความที่เป็นทางการและผลลัพธ์ทั่วไป

5
นักสถิติตกลงกันว่าจะใช้ (n-1) เป็นตัวประมาณค่าที่เป็นกลางสำหรับความแปรปรวนของประชากรโดยไม่มีการจำลองอย่างไร
สูตรสำหรับการคำนวณความแปรปรวนมีในตัวส่วน:(n−1)(n−1)(n-1) s2=∑Ni=1(xi−x¯)2n−1s2=∑i=1N(xi−x¯)2n−1s^2 = \frac{\sum_{i=1}^N (x_i - \bar{x})^2}{n-1} ฉันสงสัยอยู่เสมอว่าทำไม อย่างไรก็ตามการอ่านและดูวิดีโอดีๆสองสามเรื่องเกี่ยวกับ "ทำไม" ดูเหมือนว่าเป็นตัวประมาณค่าความแปรปรวนของประชากรที่ไม่เอนเอียง ในขณะที่ประเมินต่ำเกินไปและประเมินค่าความแปรปรวนของประชากรมากเกินไป(n−1)(n−1)(n-1)nnn(n−2)(n−2)(n-2) สิ่งที่ฉันอยากรู้ก็คือว่าในยุคที่ไม่มีคอมพิวเตอร์ตัวเลือกนี้เกิดขึ้นได้อย่างไร มีหลักฐานทางคณิตศาสตร์จริง ๆ ที่พิสูจน์สิ่งนี้หรือว่าเป็นเชิงประจักษ์และนักสถิติได้ทำการคำนวณจำนวนมากด้วยมือเพื่อมากับ "คำอธิบายที่ดีที่สุด" ในเวลานั้น? นักสถิติใช้สูตรนี้อย่างไรในต้นศตวรรษที่ 19 ด้วยความช่วยเหลือของคอมพิวเตอร์ ด้วยตนเองหรือมีมากเกินกว่าที่เห็นได้หรือไม่

1
ความแตกต่างของ KL ระหว่าง Gaussians หลายตัวแปร
ฉันมีปัญหาในการรับสูตร divergence ของ KL โดยสมมติว่ามีการแจกแจงปกติหลายตัวแปรสองตัว ฉันทำคดี univariate ค่อนข้างง่าย อย่างไรก็ตามมันก็ค่อนข้างนานแล้วที่ฉันเอาสถิติทางคณิตศาสตร์มาก่อน ฉันแน่ใจว่าฉันแค่คิดถึงบางสิ่งที่เรียบง่าย นี่คือสิ่งที่ฉันมี ... สมมติว่าทั้งและเป็นไฟล์ PDF ของการแจกแจงแบบปกติที่มีค่าเฉลี่ยและและความแปรปรวนและตามลำดับ ระยะทาง Kullback-Leibler จากถึงคือ:pppμ 1 μ 2 Σ 1 Σ 2 q pqqqμ1μ1\mu_1μ2μ2\mu_2Σ1Σ1\Sigma_1Σ2Σ2\Sigma_2qqqppp ∫[บันทึก( p ( x ) ) - บันทึก( q( x ) ) ] p ( x ) d x∫[log⁡(p(x))−log⁡(q(x))] p(x) dx\int \left[\log( p(x)) …

8
เป็นไปได้หรือไม่ที่จะพิสูจน์สมมติฐานว่าง?
คำถามดังกล่าวเป็นไปได้หรือไม่ที่จะพิสูจน์สมมติฐานว่าง? จากความเข้าใจของฉันเกี่ยวกับสมมติฐานที่ จำกัด คำตอบคือไม่ แต่ฉันไม่สามารถอธิบายได้อย่างแม่นยำ คำถามมีคำตอบที่ชัดเจนหรือไม่?

3
R: การสุ่มฟอเรสต์การโยน NaN / Inf ในข้อผิดพลาด“ การเรียกฟังก์ชันต่างประเทศ” แม้จะไม่มีชุดข้อมูลของ NaN [ปิด]
ฉันใช้คาเร็ตเพื่อรันฟอเรสต์แบบสุ่มที่ผ่านการตรวจสอบความถูกต้องข้ามชุดข้อมูล ตัวแปร Y เป็นปัจจัย ไม่มีชุดข้อมูลของ NaN, Inf's หรือ NA ในชุดข้อมูลของฉัน อย่างไรก็ตามเมื่อใช้ป่าสุ่มฉันได้รับ Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs …

4
ปัญหาเกี่ยวกับการพิสูจน์ความคาดหวังตามเงื่อนไขว่าเป็นตัวพยากรณ์ที่ดีที่สุด
ฉันมีปัญหากับการพิสูจน์ E(Y|X)∈argming(X)E[(Y−g(X))2]E(Y|X)∈arg⁡ming(X)E[(Y−g(X))2]E(Y|X) \in \arg \min_{g(X)} E\Big[\big(Y - g(X)\big)^2\Big] ซึ่งน่าจะเปิดเผยความเข้าใจผิดที่คาดการณ์ไว้อย่างลึกซึ้งและความคาดหวังตามเงื่อนไข หลักฐานที่ฉันรู้จะเป็นดังนี้ (สามารถพบหลักฐานอีกรุ่นหนึ่งได้ที่นี่ ) ===หาเรื่องนาทีก.( X)E[ ( Y)- กรัม( x ) )2]หาเรื่องนาทีก.( X)E[ ( Y)- E( Y| X) + E( Y| X) - g( X) )2]หาเรื่องนาทีก.( x )E[ ( Y)- E( Y| X) )2+ 2 ( Y)- E( Y| X) ) ( …

3
พิสูจน์ว่าขณะสร้างฟังก์ชันทำหน้าที่พิจารณาการแจกแจงความน่าจะเป็นแบบไม่ซ้ำกัน
ข้อความของ Wackerly et al ได้กล่าวถึงทฤษฎีบทนี้ว่า "ให้และแสดงถึงช่วงเวลาที่สร้างฟังก์ชันของตัวแปรสุ่ม X และ Y ตามลำดับหากมีทั้งฟังก์ชันสร้างและสำหรับค่าทั้งหมดของ t ดังนั้น X และ Y จะมีการแจกแจงความน่าจะเป็นแบบเดียวกัน " โดยไม่มีการพิสูจน์ว่าเกินขอบเขตของข้อความ Scheaffer Young ยังมีทฤษฎีบทเดียวกันโดยไม่มีข้อพิสูจน์ ฉันไม่มีสำเนาของ Casella แต่การค้นหาหนังสือของ Google ดูเหมือนจะไม่พบทฤษฎีบทอยู่m y ( t ) m x ( t ) = m y ( t )ม.x( t )mx(t)m_x(t)ม.Y( t )my(t)m_y(t)ม.x( t ) = mY( t …

2
ตัวแปรสุ่มแบบสม่ำเสมอเป็นผลรวมของตัวแปรสุ่มสองตัว
นำมาจากGrimmet และ Stirzaker : แสดงว่าไม่สามารถเป็นกรณีที่U = X + YU=X+YU=X+Yที่มีการกระจายอย่างสม่ำเสมอบน [0,1] และและมีความเป็นอิสระและกระจายตัวเหมือนกัน คุณไม่ควรสรุปว่า X และ Y เป็นตัวแปรต่อเนื่องคุณUUX XXYYY หลักฐานที่เรียบง่ายโดยขัดแย้งพอเพียงสำหรับกรณีที่ ,ถูกสมมติว่าไม่ต่อเนื่องโดยการโต้เถียงว่าเป็นไปได้เสมอที่จะหาและเช่นนั้นในขณะที่')X XXY YYu uuu ′u′u' P ( U ≤ u + u ′ ) ≥ P ( U ≤ u ) P(U≤u+u′)≥P(U≤u)P(U\leq u+u') \geq P(U\leq u)P ( X + Y ≤ u …

4
พิสูจน์ความเท่าเทียมกันของสองสูตรต่อไปนี้สำหรับ Spearman correlation
จากวิกิพีเดียความสัมพันธ์อันดับของ Spearman คำนวณโดยการแปลงตัวแปรXiXiX_iและYiYiY_iเป็นตัวแปรอันดับxixix_iและyiyiy_iแล้วคำนวณความสัมพันธ์ของ Pearson ระหว่างตัวแปรอันดับ: อย่างไรก็ตามบทความจะกล่าวต่อไปว่าหากไม่มีความสัมพันธ์ระหว่างตัวแปรXiXiX_iและYiYiY_iสูตรข้างต้นจะเทียบเท่ากับ โดยที่di=yi−xidi=yi−xid_i = y_i - x_i , ความแตกต่างของอันดับ ใครสามารถให้หลักฐานนี้ได้โปรด ฉันไม่สามารถเข้าถึงหนังสืออ้างอิงตามบทความวิกิพีเดีย

2
สืบทอดการกระจายปัวซอง
เมื่อไม่นานมานี้ฉันได้พบกับการแจกแจงปัวซองแบบกระจายตัว แต่ฉันสับสนเล็กน้อยว่ามันจะเกิดขึ้นได้อย่างไร การกระจายมอบให้โดย: P(X=x,Y=y)=e−(θ1+θ2+θ0)θx1x!θy2y!∑i=0min(x,y)(xi)(yi)i!(θ0θ1θ2)iP(X=x,Y=y)=e−(θ1+θ2+θ0)θ1xx!θ2yy!∑i=0min(x,y)(xi)(yi)i!(θ0θ1θ2)iP(X = x, Y = y) = e^{-(\theta_{1}+\theta_{2}+\theta_{0})} \displaystyle\frac{\theta_{1}^{x}}{x!}\frac{\theta_{2}^{y}}{y!} \sum_{i=0}^{min(x,y)}\binom{x}{i}\binom{y}{i}i!\left(\frac{\theta_{0}}{\theta_{1}\theta_{2}}\right)^{i} จากสิ่งที่ฉันสามารถรวบรวมได้θ0θ0\theta_{0}เทอมคือการวัดความสัมพันธ์ระหว่างXXXและYYY ; ดังนั้นเมื่อXXXและYYYเป็นอิสระθ0=0θ0=0\theta_{0} = 0และการกระจายจะกลายเป็นผลคูณของการแจกแจงแบบปัวซองแบบสองตัวแปร แบริ่งในใจ, สับสนของฉันคือการบอกกล่าวกับคำบวก - ฉันสมมติว่าในระยะนี้จะอธิบายถึงความสัมพันธ์ระหว่างXXXและYYYY ดูเหมือนว่าฉันว่า summand ถือเป็นผลคูณของฟังก์ชันการแจกแจงแบบทวินามที่น่าจะเป็นของ "ความสำเร็จ" โดย(θ0θ1θ2)(θ0θ1θ2)\left(\frac{\theta_{0}}{\theta_{1}\theta_{2}}\right)และความน่าจะเป็นของ "ความล้มเหลว" มอบให้โดยi!1min(x,y)−ii!1min(x,y)−ii!^{\frac{1}{min(x,y)-i}}เพราะ(i!1min(x,y)−i!)(min(x,y)−i)=i!(i!1min(x,y)−i!)(min(x,y)−i)=i!\left(i!^{\frac{1}{min(x,y)-i!}}\right)^{(min(x,y)-i)} = i!แต่ฉันสามารถออกไปได้ด้วยสิ่งนี้ ใครช่วยให้ความช่วยเหลือเกี่ยวกับวิธีการที่จะได้รับการกระจาย? นอกจากนี้ถ้ามันสามารถรวมอยู่ในคำตอบใด ๆ ว่ารูปแบบนี้อาจขยายไปยังสถานการณ์หลายตัวแปร (พูดว่าตัวแปรสุ่มสามตัวหรือมากกว่า) นั่นจะดีมาก! (ในที่สุดฉันได้ตั้งข้อสังเกตว่ามีคำถามที่คล้ายกันที่โพสต์ก่อนหน้านี้ ( ทำความเข้าใจเกี่ยวกับการแจกแจงปัวซอง bivariate ) แต่ที่มาไม่ได้สำรวจจริง ๆ )

2
ผลรวมของสองผลิตภัณฑ์ปกติคือ Laplace
เห็นได้ชัดว่าเป็นกรณีที่ถ้าแล้วXผม∼ N( 0 , 1 )Xi∼N(0,1)X_i \sim N(0,1) X1X2+ X3X4∼ L a p l a c e ( 0 , 1 )X1X2+X3X4∼Laplace(0,1)X_1 X_2 + X_3 X_4 \sim \mathrm{Laplace(0,1)} ฉันเคยเห็นเอกสารเกี่ยวกับรูปแบบสมการกำลังสองที่กำหนดเองซึ่งส่งผลให้เกิดการแสดงออกที่ไม่ใช่ไคสแควร์ที่น่ากลัว ความสัมพันธ์แบบเรียบง่ายข้างต้นดูเหมือนจะไม่ชัดเจนสำหรับฉันดังนั้น (ถ้าเป็นจริง!) ใครบ้างที่มีข้อพิสูจน์เรื่องง่าย ๆ ข้างต้น?

3
คำอธิบายของสูตรสำหรับค่ามัธยฐานที่ใกล้ที่สุดถึงจุดกำเนิดของตัวอย่าง N จากลูกบอลหน่วย
ในองค์ประกอบของการเรียนรู้ทางสถิติมีการนำเสนอปัญหาเพื่อเน้นประเด็นที่มี k-nn ในพื้นที่มิติสูง มีจุดข้อมูลจุดที่กระจายอย่างสม่ำเสมอในบอลหน่วย -dimensionalหน้าNNNppp ระยะทางเฉลี่ยจากแหล่งกำเนิดถึงจุดข้อมูลที่ใกล้เคียงที่สุดจะได้รับจากการแสดงออก: d(p,N)=(1−(12)1N)1pd(p,N)=(1−(12)1N)1pd(p,N) = \left(1-\left(\frac{1}{2}\right)^\frac{1}{N}\right)^\frac{1}{p} เมื่อสูตรแบ่งครึ่งรัศมีของลูกบอลออกไปและฉันเห็นว่าจุดที่ใกล้ที่สุดเข้ามาใกล้เส้นขอบเป็นจึงทำให้สัญชาตญาณหลัง knn สลายตัวในมิติสูง แต่ฉันไม่สามารถเข้าใจได้ว่าทำไมสูตรนี้จึงขึ้นอยู่กับเอ็นp → ∞N=1N=1N=1p→∞p→∞p \rightarrow \infty หนังสือเล่มนี้กล่าวถึงปัญหานี้เพิ่มเติมโดยระบุว่า: "... การทำนายนั้นยากกว่าใกล้ขอบของตัวอย่างการฝึกอบรมเราต้องคาดการณ์จากจุดตัวอย่างที่อยู่ใกล้เคียงแทนการสอดแทรกระหว่างพวกเขา" ดูเหมือนว่าจะเป็นข้อความที่ลึกซึ้ง แต่ฉันไม่สามารถเข้าใจความหมายของมันได้ ทุกคนสามารถพูดคำซ้ำ?

1
สูตรการประมาณค่าถดถอยแบบ Quantile
ฉันได้เห็นการเป็นตัวแทนที่แตกต่างกันสองแบบของตัวประมาณการถดถอยแบบควอไทล์ซึ่ง ได้แก่ Q(βq)=∑i:yi≥x′iβnq∣yi−x′iβq∣+∑i:yi&lt;x′iβn(1−q)∣yi−x′iβq∣Q(βq)=∑i:yi≥xi′βnq∣yi−xi′βq∣+∑i:yi&lt;xi′βn(1−q)∣yi−xi′βq∣Q(\beta_{q}) = \sum^{n}_{i:y_{i}\geq x'_{i}\beta} q\mid y_i - x'_i \beta_q \mid + \sum^{n}_{i:y_{i}< x'_{i}\beta} (1-q)\mid y_i - x'_i \beta_q \mid และ Q(βq)=∑i=1nρq(yi−x′iβq),ρq(u)=ui(q−1(ui&lt;0))Q(βq)=∑i=1nρq(yi−xi′βq),ρq(u)=ui(q−1(ui&lt;0))Q(\beta_q) = \sum^{n}_{i=1} \rho_q (y_i - x'_i \beta_q), \hspace{1cm} \rho_q(u) = u_i(q - 1(u_i < 0 )) ที่\ ใครช่วยบอกวิธีการแสดงความเท่าเทียมกันของการแสดงออกทั้งสองนี้? นี่คือสิ่งที่ฉันพยายามจนถึงตอนนี้โดยเริ่มจากนิพจน์ที่สองui=yi−x′iβqui=yi−xi′βqu_i = y_i - x'_i \beta_q คำถาม( βQ)= ∑i …

3
คำถามเกี่ยวกับการพิสูจน์สมการปกติ
คุณจะพิสูจน์ได้อย่างไรว่าสมการปกติ: (XTX)β=XTY(XTX)β=XTY(X^TX)\beta = X^TYมีวิธีแก้ปัญหาหนึ่งวิธีหรือมากกว่าโดยไม่มีสมมติฐานว่า X กลับด้านได้? สิ่งเดียวที่ฉันคาดเดาก็คือมันมีบางอย่างที่เกี่ยวข้องกับการผกผันทั่วไป แต่ฉันก็หลงทางไปหมด
11 regression  proof 

1
แสดงว่าถ้า
ปัจจุบันติดอยู่ที่นี่ฉันรู้ว่าฉันควรใช้ค่าเบี่ยงเบนเฉลี่ยของการแจกแจงทวินาม แต่ฉันไม่สามารถหา

3
แนวคิดของ 'การพิสูจน์ทางสถิติ'
เมื่อข่าวพูดถึงสิ่งที่ 'พิสูจน์ทางสถิติ' พวกเขาใช้แนวคิดทางสถิติที่ถูกต้องกำหนดอย่างถูกต้องใช้มันผิดหรือแค่ใช้รูปแบบโอออกซีซอน ฉันจินตนาการว่า 'การพิสูจน์ทางสถิติ' ไม่ใช่สิ่งที่ดำเนินการเพื่อพิสูจน์สมมติฐานหรือการพิสูจน์ทางคณิตศาสตร์ แต่เป็นการทดสอบทางสถิติมากกว่า
10 inference  proof 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.