คำถามติดแท็ก self-study

แบบฝึกหัดประจำจากตำราหลักสูตรหรือแบบทดสอบที่ใช้สำหรับชั้นเรียนหรือเรียนด้วยตนเอง นโยบายของชุมชนนี้คือ "ให้คำแนะนำที่เป็นประโยชน์" สำหรับคำถามดังกล่าวแทนที่จะตอบเต็ม

1
คำถามที่เกี่ยวข้องกับ Borel-Cantelli Lemma
บันทึก: Borel-Cantelli Lemma กล่าวว่า ∑n=1∞P(An)<∞⇒P(limsupAn)=0∑n=1∞P(An)<∞⇒P(limsupAn)=0\sum_{n=1}^\infty P(A_n) \lt \infty \Rightarrow P(\lim\sup A_n)=0 ∑n=1∞P(An)=∞ and An's are independent⇒P(limsupAn)=1∑n=1∞P(An)=∞ and An's are independent⇒P(limsupAn)=1\sum_{n=1}^\infty P(A_n) =\infty \textrm{ and } A_n\textrm{'s are independent} \Rightarrow P(\lim\sup A_n)=1 จากนั้น ถ้า∑n=1∞P(AnAcn+1)<∞∑n=1∞P(AnAn+1c)<∞\sum_{n=1}^\infty P(A_nA_{n+1}^c )\lt \infty โดยใช้ Borel-Cantelli Lemma ฉันต้องการที่จะแสดงให้เห็นว่า ประการแรก limn→∞P(An)limn→∞P(An)\lim_{n\to \infty}P(A_n)ที่มีอยู่ และประการที่สอง limn→∞P(An)=P(limsupAn)limn→∞P(An)=P(limsupAn)\lim_{n\to \infty}P(A_n) =P(\lim\sup A_n) โปรดช่วยฉันแสดงสองส่วนนี้ ขอขอบคุณ.

1
เหตุใด R's lm () จึงส่งกลับค่าสัมประสิทธิ์ที่แตกต่างจากตำราของฉัน
พื้นหลัง ฉันพยายามที่จะเข้าใจตัวอย่างแรกในหลักสูตรเกี่ยวกับแบบจำลองที่เหมาะสม (ดังนั้นนี่อาจดูเรียบง่ายอย่างน่าหัวเราะ) ฉันทำการคำนวณด้วยมือและพวกมันจับคู่ตัวอย่าง แต่เมื่อฉันทำซ้ำใน R สัมประสิทธิ์ของโมเดลจะดับ ฉันคิดว่าความแตกต่างอาจเกิดจากหนังสือเรียนที่ใช้ความแปรปรวนประชากร ( ) ในขณะที่ R อาจใช้ความแปรปรวนตัวอย่าง ( ) แต่ฉันไม่เห็นว่าจะใช้ที่ใดในการคำนวณ ตัวอย่างเช่นหาก ใช้บางส่วนส่วนช่วยเหลือในบันทึกย่อ:S 2σ2σ2\sigma^2S2S2S^2lm()var()var() ตัวส่วน n - 1 ถูกใช้ซึ่งให้ค่าประมาณที่ไม่เอนเอียงของความแปรปรวน (ร่วม) สำหรับการสังเกต iid ฉันดูที่รหัสสำหรับทั้งlm()และlm.fit()และไม่ใช้var()แต่lm.fit()ส่งผ่านข้อมูลนั้นเพื่อรวบรวมรหัส C ( z <- .Call(C_Cdqrls, x, y, tol, FALSE)) ซึ่งฉันไม่สามารถเข้าถึงได้ คำถาม ทุกคนสามารถอธิบายได้หรือไม่ว่าเหตุใด R จึงให้ผลลัพธ์ที่ต่างกัน แม้ว่าจะมีความแตกต่างในการใช้กลุ่มตัวอย่างเทียบกับความแปรปรวนของประชากรทำไมค่าสัมประสิทธิ์ประมาณต่างกัน ข้อมูล พอดีกับเส้นเพื่อทำนายขนาดรองเท้าจากเกรดในโรงเรียน # model data mod.dat <- …
13 r  regression  self-study  lm 

1
MLE ของพารามิเตอร์ตำแหน่งในการแจกแจง Cauchy
หลังจากอยู่ตรงกลางทั้งสองวัด x และ −xสามารถสันนิษฐานได้ว่าเป็นอิสระจากการสังเกต Cauchy กระจายด้วยฟังก์ชันความหนาแน่นของความน่าจะเป็น: ฉ( x : θ ) =f(x:θ)=f(x :\theta) = ,-∞&lt;x&lt;∞1π( 1 + ( x - θ )2)1π(1+(x−θ)2)1\over\pi (1+(x-\theta)^2) , - ∞ &lt; x &lt; ∞,−∞&lt;x&lt;∞, -∞ < x < ∞ แสดงให้เห็นว่าถ้า MLE ของเป็น 0 แต่ถ้ามีสองแห่งคือเท่ากับ±θ x 2 &gt; 1 θ √x2≤ 1x2≤1x^2≤ 1θθ\thetax2&gt; 1x2&gt;1x^2>1θθ\thetax2- 1-----√x2−1\sqrt …

4
การทำพล็อตค่าเฉลี่ยในฮิสโตแกรมนั้นเหมาะสมหรือไม่?
"โอเค" เพื่อเพิ่มเส้นแนวตั้งลงในฮิสโตแกรมเพื่อให้เห็นภาพค่าเฉลี่ยหรือไม่ ดูเหมือนว่าจะโอเคสำหรับฉัน แต่ฉันไม่เคยเห็นสิ่งนี้มาในตำราและสิ่งที่ชอบดังนั้นฉันสงสัยว่าจะมีการประชุมบางประเภทที่จะไม่ทำอย่างนั้นหรือ กราฟเป็นกระดาษคำฉันแค่ต้องการให้แน่ใจว่าฉันจะไม่ละเมิดกฎสถิติที่สำคัญที่ไม่ได้พูด :)

1
2SLS นั้นได้รับการจำแนกโดยชอบธรรม
ในเศรษฐมิติที่ไม่เป็นอันตรายส่วนใหญ่: สหายของนักประจักษ์ (Angrist and Pischke, 2009: หน้า 209) ฉันได้อ่านสิ่งต่อไปนี้: ( ... ) ในความเป็นจริง 2SLS เพียงระบุ (พูด, ประมาณการ Wald ง่าย) จะอยู่ที่ประมาณเป็นกลาง นี่เป็นเรื่องยากที่จะแสดงอย่างเป็นทางการเพราะ 2SLS ที่เพิ่งระบุมีช่วงเวลาไม่นาน (เช่นการกระจายตัวตัวอย่างมีหางอ้วน) อย่างไรก็ตามถึงแม้จะมีเครื่องมือที่อ่อนแอ แต่ 2SLS ที่เพิ่งได้รับการระบุก็ยังมีศูนย์กลางอยู่ที่ควร ดังนั้นเราจึงกล่าวว่า 2SLS ที่เพิ่งระบุมีค่ามัธยฐาน ( ... ) แม้ว่าผู้เขียนบอกว่า 2SLS เพียงระบุเป็นค่ามัธยฐาน-เป็นกลางพวกเขาไม่พิสูจน์มันมิได้ให้การอ้างอิงถึงหลักฐาน ที่หน้า 213 พวกเขากล่าวถึงข้อเสนออีกครั้ง แต่ไม่มีการอ้างอิงถึงข้อพิสูจน์ นอกจากนี้ฉันไม่สามารถหาแรงจูงใจสำหรับข้อเสนอในบันทึกการบรรยายของพวกเขาเกี่ยวกับตัวแปรเครื่องมือจาก MIT , หน้า 22 เหตุผลอาจเป็นไปได้ว่าเรื่องที่เป็นเท็จตั้งแต่พวกเขาปฏิเสธมันในข้อความในบล็อกของพวกเขา อย่างไรก็ตาม 2SLS ที่เพิ่งได้รับการระบุนั้นมีค่ามัธยฐานโดยประมาณโดยประมาณพวกเขาเขียน …

1
สถิติที่เพียงพอต่อความสำเร็จร่วมกัน: เครื่องแบบ (a, b)
Letเป็นตัวอย่างที่สุ่มจากการกระจายชุดบนที่&lt;bให้และเป็นสถิติการสั่งซื้อที่ใหญ่ที่สุดและเล็กที่สุด แสดงให้เห็นว่าสถิติเป็นสถิติที่เพียงพอสมบูรณ์ร่วมกันสำหรับพารามิเตอร์B) X=(x1,x2,…xn)X=(x1,x2,…xn)\mathbf{X}= (x_1, x_2, \dots x_n)(a,b)(a,b)(a,b)a&lt;ba&lt;ba < bY1Y1Y_1YnYnY_n(Y1,Yn)(Y1,Yn)(Y_1, Y_n)θ=(a,b)θ=(a,b)\theta = (a, b) ไม่มีปัญหาสำหรับฉันที่จะแสดงความพอเพียงโดยใช้การแยกตัวประกอบ คำถาม:ฉันจะแสดงความสมบูรณ์ได้อย่างไร โดยเฉพาะอย่างยิ่งฉันต้องการคำใบ้ ความพยายาม:ฉันสามารถแสดงหมายถึงสำหรับการแจกชุดพารามิเตอร์แบบเดียว แต่ฉันติดอยู่กับการแจกชุดพารามิเตอร์ทั้งสองE[g(T(x))]=0E[g(T(x))]=0\mathbb E[g(T(x))] = 0g(T(x))=0g(T(x))=0g(T(x)) = 0 ฉันลองเล่นกับและใช้การกระจายแบบร่วมของและแต่ฉันไม่แน่ใจว่าถ้าฉันไปในทิศทางที่ถูกต้องเนื่องจากแคลคูลัสกำลังทำให้ฉันสะดุดE[g(Y1,Yn)]E[g(Y1,Yn)]\mathbb E[g(Y_1, Y_n)]Y1Y1Y_1YnYnY_n

1
Pdf ของกำลังสองของตัวแปรสุ่มปกติมาตรฐาน [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน4 ปีที่แล้ว ฉันมีปัญหานี้ที่ฉันจะต้องพบกับรูปแบบไฟล์ PDF ของ 2 ทั้งหมดที่ผมรู้ก็คือว่ามีการกระจาย(0,1) สิ่งที่ชนิดของการกระจายคือ ? เช่นเดียวกับ ? ฉันจะหา pdf ได้อย่างไร X N ( 0 , 1 ) Y = X 2 XY=X2Y=X2Y = X^2XXXN(0,1)N(0,1)N(0,1)Y=X2Y=X2Y = X^2XXX

2
คุณสังเกตหัว k จากการโยน n เหรียญยุติธรรมหรือไม่
ฉันถูกถามคำถามนี้ด้วยในการสัมภาษณ์ มีคำตอบ "ถูกต้อง" หรือไม่?( n , k ) = ( 400 , 220 )(n,k)=(400,220)(n, k) = (400, 220) สมมติกลมๆมี IID และความน่าจะเป็นของหัวคือpการกระจายจำนวนหัวในการทอย 400 ครั้งควรใกล้เคียงกับ Normal (200, 10 ^ 2) ดังนั้น 220 หัวเป็น 2 ส่วนเบี่ยงเบนมาตรฐานจากค่าเฉลี่ย ความน่าจะเป็นของการสังเกตผลลัพธ์ดังกล่าว (เช่น 2 SDs เพิ่มเติมจากค่าเฉลี่ยในทิศทางใดทิศทางหนึ่ง) น้อยกว่า 5% เล็กน้อยp = 0.5p=0.5p=0.5 ผู้สัมภาษณ์บอกฉันว่า "ถ้าฉันสังเกตอะไร&gt; = 2 SDs จากค่าเฉลี่ยฉันสรุปได้ว่ามีบางอย่างเกิดขึ้นฉันจะพนันกับเหรียญที่ยุติธรรม" นั่นคือเหตุผล …

1
หลายระดับของการถดถอยเชิงเส้นแบบอิสระ
องศาอิสระในการถดถอยหลายครั้งเท่ากับโดยที่kคือจำนวนของตัวแปรยังไม่มีข้อความ- k - 1N−k−1N-k-1kkk ไม่ได้แก่ ตัวแปรการตอบสนอง (เช่นY )? ตัวอย่างเช่นในโมเดลY = B 0 + B 1 X 1 + B 2 X 2แล้วk = 3 (เช่น 1 df แต่ละรายการสำหรับY , X 1 , &amp; X 2 ) หรือไม่kkkYYYY=B0+B1X1+B2X2Y=B0+B1X1+B2X2Y = B_0 + B_1X_1 + B_2X_2k=3k=3k = 3YYYX1X1X_1X2X2X_2

1
โดยทั่วไปแล้วการอนุมานทำได้ยากกว่าการคาดการณ์หรือไม่
คำถามของฉันมาจากข้อเท็จจริงต่อไปนี้ ฉันได้อ่านโพสต์บล็อกการบรรยายรวมถึงหนังสือเกี่ยวกับการเรียนรู้ของเครื่อง ความประทับใจของฉันคือผู้ปฏิบัติงานการเรียนรู้ด้วยเครื่องดูเหมือนจะไม่สนใจสิ่งต่าง ๆ ที่นักสถิติ / นักเศรษฐศาสตร์สนใจ โดยเฉพาะผู้ปฏิบัติงานการเรียนรู้ด้วยเครื่องเน้นความแม่นยำในการทำนายมากกว่าการอนุมาน ตัวอย่างหนึ่งเกิดขึ้นเมื่อฉันเรียนรู้การใช้งานเครื่องจักรของ Andrew Ng บน Coursera เมื่อเขาพูดถึง Simple Linear Model เขาไม่ได้พูดถึงคุณสมบัติ BLUE ของตัวประมาณค่าหรือวิธีการที่ heteroskedasticity เขามุ่งเน้นไปที่การนำทางลาดลงและแนวคิดของการตรวจสอบข้าม / เส้นโค้ง ROC หัวข้อเหล่านี้ไม่ได้กล่าวถึงในชั้นเรียนเศรษฐมิติ / สถิติของฉัน อีกตัวอย่างหนึ่งเกิดขึ้นเมื่อฉันเข้าร่วมการแข่งขัน Kaggle ฉันอ่านรหัสและความคิดของคนอื่น ส่วนใหญ่ของผู้เข้าร่วมเพียงแค่โยนทุกอย่างลงใน SVM / random forest / XGBoost ยังมีอีกตัวอย่างหนึ่งที่เกี่ยวกับการเลือกแบบจำลองตามลำดับ เทคนิคนี้ใช้กันอย่างแพร่หลายอย่างน้อยออนไลน์และ Kaggle หนังสือเรียนรู้ด้วยเครื่องจักรคลาสสิกจำนวนมากยังครอบคลุมเช่นการเรียนรู้สถิติเบื้องต้น อย่างไรก็ตามตามคำตอบนี้ (ซึ่งค่อนข้างน่าเชื่อถือ) การเลือกรุ่นแบบขั้นตอนต้องเผชิญกับปัญหาจำนวนมากโดยเฉพาะอย่างยิ่งเมื่อมันลงมาที่ "การค้นพบรูปแบบที่แท้จริง" ดูเหมือนว่ามีความเป็นไปได้เพียงสองอย่างเท่านั้น: ผู้เรียนรู้การเรียนรู้ด้วยเครื่องทั้งสองไม่รู้จักปัญหาแบบขั้นตอนหรือพวกเขาทำ แต่พวกเขาไม่สนใจ ดังนั้นนี่คือคำถามของฉัน: …

5
เมื่อและอย่างอิสระ
Y X ∼ χ 2 ( n - 1 ) Y ∼ เบต้า( nXXXและมีการกระจายตัวแปรสุ่มแบบอิสระโดยที่และขวา) การกระจายของคืออะไร?YYYX∼χ2(n−1)X∼χ(n−1)2X\sim\chi^2_{(n-1)}Y∼Beta(n2−1,n2−1)Y∼Beta(n2−1,n2−1)Y\sim\text{Beta}\left(\frac{n}{2}-1,\frac{n}{2}-1\right)Z=(2Y−1)X−−√Z=(2Y−1)XZ=(2Y-1)\sqrt X ความหนาแน่นรอยต่อของได้รับจาก(X,Y)(X,Y)(X,Y) fX,Y(x,y)=fX(x)fY(y)=e−x2xn−12−12n−12Γ(n−12)⋅yn2−2(1−y)n2−2B(n2−1,n2−1)1{x&gt;0,0&lt;y&lt;1}fX,Y(x,y)=fX(x)fY(y)=e−x2xn−12−12n−12Γ(n−12)⋅yn2−2(1−y)n2−2B(n2−1,n2−1)1{x&gt;0,0&lt;y&lt;1}f_{X,Y}(x,y)=f_X(x)f_Y(y)=\frac{e^{-\frac{x}{2}}x^{\frac{n-1}{2}-1}}{2^{\frac{n-1}{2}}\Gamma\left(\frac{n-1}{2}\right)}\cdot\frac{y^{\frac{n}{2}-2}(1-y)^{\frac{n}{2}-2}}{B\left(\frac{n}{2}-1,\frac{n}{2}-1\right)}\mathbf1_{\{x>0\,,\,00\,,\,|z|<w\}} ไฟล์ PDF ส่วนขอบของนั้นคือ ซึ่งไม่ได้นำพาฉันไปทุกที่ฉZ ( Z ) = ∫ ∞ | z | f Z , W ( z , w )ZZZfZ(z)=∫∞|z|fZ,W(z,w)dwfZ(z)=∫|z|∞fZ,W(z,w)dwf_Z(z)=\displaystyle\int_{|z|}^\infty f_{Z,W}(z,w)\,\mathrm{d}w อีกครั้งในขณะที่ค้นหาฟังก์ชันการกระจายของฟังก์ชันเบต้า / แกมม่าที่ไม่สมบูรณ์จะปรากฏขึ้น:ZZZ FZ(z)=Pr(Z≤z)FZ(z)=Pr(Z≤z)F_Z(z)=\Pr(Z\le z) =Pr((2Y−1)X−−√≤z)=∬(2y−1)x√≤zfX,Y(x,y)dxdy=Pr((2Y−1)X≤z)=∬(2y−1)x≤zfX,Y(x,y)dxdy\quad\qquad=\Pr((2Y-1)\sqrt X\le z)=\displaystyle\iint_{(2y-1)\sqrt{x}\le z}f_{X,Y}(x,y)\,\mathrm{d}x\,\mathrm{d}y …

2
ระเบียบและการทำให้เป็นมาตรฐานคืออะไร
ฉันได้ยินคำเหล่านี้มากขึ้นเรื่อย ๆ เมื่อฉันเรียนรู้การเรียนรู้ด้วยเครื่อง ในความเป็นจริงบางคนได้รับรางวัลเหรียญฟิลด์จากการทำงานเป็นปกติของสมการ ดังนั้นฉันคิดว่านี่เป็นคำที่นำตัวเองจากฟิสิกส์เชิงสถิติ / คณิตศาสตร์ไปสู่การเรียนรู้ของเครื่อง โดยธรรมชาติแล้วคนจำนวนมากที่ฉันถามก็ไม่สามารถอธิบายได้โดยสัญชาตญาณ ฉันรู้ว่าวิธีการต่าง ๆ เช่นความช่วยเหลือแบบดรอปเอาท์ในการทำให้เป็นมาตรฐาน (=&gt; พวกเขาบอกว่ามันลดการ overfitting แต่ฉันไม่เข้าใจว่ามันคืออะไร: ถ้ามันลดการ overfitting เท่านั้นทำไมไม่เพียงเรียกมันว่า anti-overfitting method =&gt; ฉันคิดอะไรมากกว่านี้ดังนั้นคำถามนี้) ฉันจะขอบคุณจริงๆ (ฉันเดาว่าชุมชน ML ไร้เดียงสาก็คงจะเหมือนกัน!) ถ้าคุณสามารถอธิบายได้: คุณจะกำหนดความสม่ำเสมอได้อย่างไร ระเบียบคืออะไร การทำให้เป็นมาตรฐานเป็นวิธีที่ทำให้มั่นใจได้ว่าเป็นเรื่องปกติหรือไม่? คือการจับภาพของระเบียบ? เหตุใดวิธีการรวมกลุ่มเช่นการออกกลางคันวิธีการทำให้เป็นมาตรฐานทั้งหมดจึงอ้างว่ากำลังทำให้เป็นมาตรฐาน ทำไม (ความสม่ำเสมอ / การทำให้เป็นมาตรฐาน) เหล่านี้เกิดขึ้นในการเรียนรู้ของเครื่อง? ขอบคุณมาก ๆ สำหรับความช่วยเหลือของคุณ.

3
ผลรวมของตัวแปรไม่ต่อเนื่องและตัวแปรสุ่มต่อเนื่องต่อเนื่องหรือผสมกันหรือไม่?
ถ้าเป็นต่อเนื่องและเป็นตัวแปรสุ่มต่อเนื่องแล้วสิ่งที่เราสามารถพูดเกี่ยวกับการกระจายของ ? มันต่อเนื่องหรือผสมกันY X + YXXXYYYX+ YX+YX+Y แล้วผลิตภัณฑ์ล่ะ?XYXYXY

2
วิธีการคำนวณน้ำหนักเกณฑ์ฟิชเชอร์
ฉันกำลังศึกษาการจดจำรูปแบบและการเรียนรู้ของเครื่องและฉันพบคำถามต่อไปนี้ พิจารณาปัญหาการจำแนกประเภทสองระดับที่มีความน่าจะเป็นคลาสก่อนหน้าเท่ากับP(D1)=P(D2)=12P(D1)=P(D2)=12P(D_1)=P(D_2)= \frac{1}{2} และการแจกแจงอินสแตนซ์ในแต่ละคลาสที่กำหนดโดย p(x|D1)=N([00],[2001]),p(x|D1)=N([00],[2001]), p(x|D_1)= {\cal N} \left( \begin{bmatrix} 0 \\0 \end{bmatrix}, \begin{bmatrix} 2 & 0 \\ 0 & 1 \end{bmatrix} \right), p(x|D2)=N([44],[1001]).p(x|D2)=N([44],[1001]). p(x|D_2)= {\cal N} \left( \begin{bmatrix} 4 \\ 4 \end{bmatrix}, \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix} \right). วิธีการคำนวณน้ำหนักเกณฑ์ฟิชเชอร์ อัปเดต 2:น้ำหนักที่คำนวณได้จากหนังสือของฉันคือ: W=[−43−29]W=[−43−29]W=\begin{bmatrix} \frac{-4}{3} \\ \frac{-2}{9} …

2
วิธีค้นหาเมื่อคือฟังก์ชันความหนาแน่นของความน่าจะเป็น
ฉันจะแก้ปัญหานี้ได้อย่างไร ฉันต้องการสมการระดับกลาง บางทีคำตอบคือ(x)−tf(x)−tf(x)-tf(x) ddt[∫∞txf(x)dx]ddt[∫t∞xf(x)dx] \frac{d}{dt} \left [\int_t^\infty xf(x)\,dx \right ] f(x)f(x)f(x)เป็นฟังก์ชันความหนาแน่นของความน่าจะเป็น กล่าวคือและ\ lim \ limit_ {x \ to \ infty} F (x) = 1limx→∞f(x)=0limx→∞f(x)=0\lim\limits_{x \to \infty} f(x) = 0limx→∞F(x)=1limx→∞F(x)=1\lim\limits_{x \to \infty} F(x) = 1 แหล่งที่มา: http://www.actuaries.jp/lib/collection/books/H22/H22A.pdf p.40 ลองใช้สมการกลางด้านล่าง: ddt[∫∞txf(x)dx]=ddt[[xF(x)]∞t−∫∞tF(x)dx]??ddt[∫t∞xf(x)dx]=ddt[[xF(x)]t∞−∫t∞F(x)dx]?? \frac{d}{dt} \left [\int_t^\infty xf(x)\,dx \right ] = \frac{d}{dt} \left [\left [xF(x) …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.