คำถามติดแท็ก probability

ความน่าจะเป็นให้คำอธิบายเชิงปริมาณของเหตุการณ์ที่เกิดขึ้นโดยเฉพาะ

1
ฟังก์ชั่นสร้างโมเมนต์
คำถามนี้เกิดขึ้นจากคำถามที่ถามเกี่ยวกับหน้าที่สร้างช่วงเวลา (MGF) สมมติว่าXXXเป็นตัวแปรสุ่มที่ไม่มีขอบเขตหมายถึงการรับค่าใน [−σ,σ][−σ,σ][-\sigma, \sigma]และให้G(t)=E[etX]G(t)=E[etX]G(t) = E[e^{tX}]เป็น MGF จากที่ถูกผูกไว้ใช้ในการพิสูจน์ของความไม่เท่าเทียมกันของ Hoeffdingเรามีที่ G(t)=E[etX]≤eσ2t2/2G(t)=E[etX]≤eσ2t2/2G(t) = E[e^{tX}] \leq e^{\sigma^2t^2/2} ที่ด้านขวาเป็นที่จดจำได้เป็น MGF ของตัวแปรสุ่มศูนย์เฉลี่ยปกติที่มีค่าเบี่ยงเบนมาตรฐานσσσ\sigmaตอนนี้ส่วนเบี่ยงเบนมาตรฐานของXXXจะไม่ใหญ่กว่าσσ\sigmaด้วยค่าสูงสุดที่เกิดขึ้นเมื่อXXXเป็นตัวแปรสุ่มแบบแยกโดยสิ้นเชิงเช่น P{X=σ}=P{X=−σ}=12P{X=σ}=P{X=−σ}=12P\{X = \sigma\} = P\{X = -\sigma\} = \frac{1}{2} . ดังนั้นขอบเขตที่อ้างถึงสามารถถูกคิดว่าเป็นการกล่าวว่า MGF ของตัวแปรสุ่มที่มีค่าศูนย์ซึ่งหมายถึงขอบเขตXXXถูกล้อมรอบด้วย MGF ของตัวแปรสุ่มค่าเฉลี่ยศูนย์ที่มีค่าเบี่ยงเบนมาตรฐานเท่ากับค่าเบี่ยงเบนมาตรฐานที่เป็นไปได้สูงสุดที่XXXสามารถ มี. คำถามของฉันคือ: นี่เป็นผลที่รู้จักกันดีของผลประโยชน์อิสระที่ใช้ในสถานที่อื่นนอกเหนือจากการพิสูจน์ความไม่เท่าเทียมของ Hoeffding และถ้าเป็นเช่นนั้นเป็นที่ทราบกันหรือไม่ว่าจะขยายไปถึงตัวแปรสุ่มด้วยค่าที่ไม่ใช่ศูนย์ ผลที่แจ้งคำถามนี้จะช่วยให้ช่วงไม่สมมาตร[a,b][a,b][a,b]สำหรับXXXกับ< 0 < Bแต่ไม่ยืนยันในE [ X ] = 0 ผูกพันเป็น G ( …

5
ซอฟต์แวร์ (หรือ webapps) สำหรับการสอนสถิติเด็กหรือความน่าจะเป็น?
ฉันต้องการ (ในอนาคตอันไกล) เพื่อสอนสถิติแก่เด็ก ๆ สำหรับเรื่องนั้นฉันยินดีที่จะรู้เกี่ยวกับซอฟต์แวร์ (เห็นได้ชัดว่าฉันกำลังพุ่งเข้าหา FOSS) หรือ webapps ซึ่งมีประโยชน์ในการอธิบายความคิดทางสถิติ / ความน่าจะเป็นสำหรับเด็ก ๆ (หรือผู้ใหญ่สำหรับเรื่องนั้น) สิ่งนี้สามารถใช้ได้ทั้งโดยผู้สอนเด็ก ๆ หรือทั้งสองอย่าง รูปแบบที่แนะนำของคำตอบ: ชื่อซอฟต์แวร์สิ่งที่ช่วยสอนใครควรใช้ลิงค์

1
Caret glmnet กับ cv.glmnet
ดูเหมือนจะมีความสับสนมากในการเปรียบเทียบการใช้glmnetภายในcaretเพื่อค้นหาแลมบ์ดาที่ดีที่สุดและใช้cv.glmnetในการทำงานเดียวกัน มีการตั้งคำถามมากมายเช่น: โมเดลการจำแนกประเภท train.glmnet vs. cv.glmnet วิธีที่เหมาะสมในการใช้ glmnet กับคาเร็ตคืออะไร? การตรวจสอบข้าม `glmnet 'โดยใช้` คาเร็ต' แต่ไม่ได้รับคำตอบซึ่งอาจเป็นเพราะความสามารถในการทำซ้ำของคำถาม ตามคำถามแรกฉันให้ตัวอย่างที่คล้ายกัน แต่มีคำถามเดียวกัน: ทำไม lambdas โดยประมาณแตกต่างกันอย่างไร library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to …

1
GAM กับ LOESS และ splines
บริบท : ผมอยากจะวาดเส้นใน scatterplot ที่ไม่ปรากฏพาราดังนั้นฉันใช้geom_smooth()ในในggplot Rมันจะส่งคืนโดยอัตโนมัติที่geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the smoothing method.ฉันรวบรวม GAM มาสำหรับโมเดลเสริมทั่วไปและใช้ลูกบาศก์อิสระ การรับรู้ต่อไปนี้ถูกต้องหรือไม่ ดินเหลืองคาดการณ์การตอบสนองที่ค่าเฉพาะ เส้นโค้งเป็นการประมาณที่เชื่อมต่อฟังก์ชั่นที่แตกต่างกันที่เหมาะสมกับข้อมูล (ซึ่งประกอบเป็นแบบจำลองการเติมทั่วไป) และลูกบาศก์ Splines เป็นประเภทของเส้นโค้งที่ใช้เฉพาะที่นี่ ในที่สุดควรใช้ splines เมื่อใดควรใช้ LOESS เมื่อใด

2
ผลลัพธ์ของการทำนายการถดถอยโลจิสติก
ฉันสร้าง Logistic Regression โดยใช้รหัสต่อไปนี้: full.model.f = lm(Ft_45 ~ ., LOG_D) base.model.f = lm(Ft_45 ~ IP_util_E2pl_m02_flg) step(base.model.f, scope=list(upper=full.model.f, lower=~1), direction="forward", trace=FALSE) ฉันได้ใช้ผลลัพธ์เพื่อสร้างโมเดลสุดท้าย: final.model.f = lm(Ft_45 ~ IP_util_E2pl_m02_flg + IP_util_E2_m02_flg + AE_NumVisit1_flg + OP_NumVisit1_m01_flg + IP_TotLoS_m02 + Ft1_45 + IP_util_E1_m05_flg + IP_TotPrNonElecLoS_m02 + IP_util_E2pl_m03_flg + LTC_coding + OP_NumVisit0105_m03_flg + OP_NumVisit11pl_m03_flg + AE_ArrAmb_m02_flg) …

2
ข้อใดที่ใหญ่ที่สุดของตัวแปรสุ่มแบบกระจายทั่วไป
ฉันมีตัวแปรสุ่มx_0, มีการแจกแจงแบบปกติที่มีค่าเฉลี่ยและความแปรปรวน1 RVs มีการกระจายตามปกติที่มีค่าเฉลี่ยและความแปรปรวน1ทุกอย่างเป็นอิสระร่วมกันX0,X1,…,XnX0,X1,…,XnX_0,X_1,\dots,X_nX0X0X_0μ>0μ>0\mu>0111X1,…,XnX1,…,XnX_1,\dots,X_n000111 Letหมายถึงกรณีที่เป็นที่ใหญ่ที่สุดของเหล่านี้คือX_n) ฉันต้องการที่จะคำนวณหรือประมาณการ\ Pr [E] ฉันกำลังมองหาการแสดงออกสำหรับ\ Pr [E]เป็นหน้าที่ของ\ หมู่, nหรือประมาณการที่เหมาะสมหรือประมาณสำหรับ\ Pr [E]EEEX0X0X_0X0>max(X1,…,Xn)X0>max(X1,…,Xn)X_0 > \max(X_1,\dots,X_n)Pr[E]Pr[E]\Pr[E]Pr[E]Pr[E]\Pr[E]μ,nμ,n\mu,nPr[E]Pr[E]\Pr[E] ในใบสมัครของฉันnnnได้รับการแก้ไข ( n=61n=61n=61 ) และฉันต้องการค้นหาค่าที่เล็กที่สุดสำหรับμμ\muที่ทำให้Pr[E]≥0.99Pr[E]≥0.99\Pr[E] \ge 0.99แต่ฉันอยากรู้เกี่ยวกับคำถามทั่วไปเช่นกัน

3
ทฤษฎีขีด จำกัด กลางกับกฎหมายจำนวนมาก
ทฤษฎีบทขีด จำกัด กลางระบุว่าค่าเฉลี่ยของตัวแปร iid เมื่อไปไม่มีที่สิ้นสุดจะแจกแจงแบบปกติNNN สิ่งนี้ทำให้เกิดคำถามสองข้อ: เราสามารถอนุมานกฎของคนจำนวนมากได้หรือไม่? หากกฎหมายจำนวนมากกล่าวว่าค่าเฉลี่ยของกลุ่มตัวอย่างของค่าตัวแปรสุ่มที่เท่ากับที่แท้จริงหมายถึงเป็นไปที่อินฟินิตี้แล้วมันดูเหมือนว่าแข็งแกร่งยิ่งขึ้นที่จะบอกว่า (ขณะที่เซ็นทรัล จำกัด กล่าวว่า) ว่าค่าที่จะกลายเป็นโดยที่คือส่วนเบี่ยงเบนมาตรฐาน มันยุติธรรมแล้วหรือที่จะบอกว่าขีด จำกัด กลางแสดงถึงกฎหมายจำนวนมาก?μμ\muNNNN(μ,σ)N(μ,σ)\mathcal N(\mu, \sigma)σσ\sigma ทฤษฎีขีด จำกัด กลางใช้กับชุดค่าผสมเชิงเส้นของตัวแปรหรือไม่?

3
จะคำนวณความน่าจะเป็นที่เกี่ยวข้องกับคะแนน Z ขนาดใหญ่อย่างไร้เหตุผลได้อย่างไร
แพคเกจซอฟต์แวร์สำหรับการตรวจจับแรงจูงใจเครือข่ายสามารถให้คะแนน Z สูงมาก (สูงสุดที่ฉันเคยเห็นคือ 600,000+ แต่คะแนน Z มากกว่า 100 นั้นเป็นเรื่องธรรมดา) ฉันวางแผนที่จะแสดงว่าคะแนน Z เหล่านี้เป็นของปลอม คะแนน Z ขนาดใหญ่สอดคล้องกับความน่าจะเป็นที่ต่ำมาก ค่าของความน่าจะเป็นที่เกี่ยวข้องจะได้รับเช่นหน้าแจกวิกิพีเดียตามปกติ (และอาจเป็นตำราสถิติทุกเล่ม) สำหรับคะแนน Z ถึง 6 ดังนั้น ... คำถาม : เราคำนวณฟังก์ชันข้อผิดพลาดได้อย่างไรสำหรับ n มากถึง 1,000,000 พูด?1−erf(n/2–√)1−erf(n/2)1-\mathrm{erf}(n/\sqrt{2}) ฉันโดยเฉพาะอย่างยิ่งหลังจากแพคเกจที่ใช้งานแล้วสำหรับนี้ (ถ้าเป็นไปได้) สิ่งที่ดีที่สุดที่ฉันเคยพบคือ WolframAlpha ซึ่งสามารถคำนวณได้สำหรับ n = 150 ( ที่นี่ )

3
การประมาณขนาดประชากรจากความถี่ของรายการซ้ำและตัวอย่างที่ไม่ซ้ำกัน
มีบริการบนเว็บที่ฉันสามารถขอข้อมูลเกี่ยวกับรายการแบบสุ่ม สำหรับทุกคำขอแต่ละรายการมีโอกาสเท่ากับการส่งคืน ฉันสามารถขอรายการและบันทึกจำนวนรายการซ้ำและไม่ซ้ำกันได้ ฉันจะใช้ข้อมูลนี้เพื่อประมาณจำนวนรายการทั้งหมดได้อย่างไร

3
ระเบิดอยู่ที่ไหน: จะประเมินความน่าจะเป็นอย่างไร, ผลรวมแถวและคอลัมน์ที่ได้รับ?
คำถามนี้ได้รับแรงบันดาลใจจากมินิเกมจาก Pokemon Soulsilver: ลองนึกภาพมี 15 ระเบิดซ่อนอยู่ในพื้นที่ 5x6 นี้ (แก้ไข: สูงสุด 1 ระเบิด / เซลล์): ทีนี้คุณจะประเมินความน่าจะเป็นในการหาลูกระเบิดในสนามที่ระบุโดยรวมของแถว / คอลัมน์อย่างไร หากคุณดูที่คอลัมน์ 5 (จำนวนระเบิดทั้งหมด = 5) คุณอาจคิดว่า: ภายในคอลัมน์นี้โอกาสที่จะพบระเบิดในแถวที่ 2 นั้นเพิ่มเป็นสองเท่าของโอกาสที่จะพบหนึ่งในแถวที่ 1 สมมติฐาน (ผิด) นี้ของสัดส่วนโดยตรงซึ่งโดยทั่วไปสามารถอธิบายได้ว่าเป็นการวาดมาตรฐานการดำเนินการทดสอบอิสระ (เช่นใน Chi-Square) ในบริบทที่ไม่ถูกต้องจะนำไปสู่การประมาณดังต่อไปนี้: อย่างที่คุณเห็นสัดส่วนโดยตรงจะนำไปสู่การประมาณความน่าจะเป็นมากกว่า 100% และก่อนหน้านั้นจะผิด ดังนั้นฉันจึงทำการจำลองการคำนวณของพีชคณิตที่เป็นไปได้ทั้งหมดซึ่งนำไปสู่ ​​276 ความเป็นไปได้ที่ไม่ซ้ำกันของการวางระเบิด 15 ครั้ง (ผลรวมของแถวและคอลัมน์ที่กำหนด) นี่คือค่าเฉลี่ยของโซลูชัน 276 รายการ: นี่เป็นวิธีแก้ไขที่ถูกต้อง แต่เนื่องจากงานคำนวณเลขชี้กำลังฉันต้องการค้นหาวิธีการประมาณค่า คำถามของฉันคือตอนนี้: มีวิธีการทางสถิติที่จัดตั้งขึ้นเพื่อประเมินสิ่งนี้หรือไม่? ฉันสงสัยว่านี่เป็นปัญหาที่ทราบแล้วมันถูกเรียกอย่างไรและหากมีเอกสาร …

2
การรวมกันเชิงเส้นของตัวแปรสุ่มปกติหลายตัวแปรแบบพึ่งพาหลายตัวแปร
สมมติว่าเรามีสองเวกเตอร์ของตัวแปรสุ่มทั้งเป็นปกติเช่นและSigma_Y) เราสนใจการกระจายตัวของการรวมกันเชิงเส้นของพวกเขาโดยที่และคือเมทริกซ์คือเวกเตอร์ ถ้าและมีความเป็นอิสระ,T) คำถามคือในกรณีที่ขึ้นอยู่กับสมมติว่าเรารู้ว่าความสัมพันธ์ของทั้งคู่ใด ๆY_i) ขอบคุณ.X∼N(μX,ΣX)X∼N(μX,ΣX)X \sim N(\mu_X, \Sigma_X)Y∼N(μY,ΣY)Y∼N(μY,ΣY)Y \sim N(\mu_Y, \Sigma_Y)Z=AX+BY+CZ=AX+BY+CZ = A X + B Y + CAAABBBCCCXXXYYYZ∼N(AμX+BμY+C,AΣXAT+BΣYBT)Z∼N(AμX+BμY+C,AΣXAT+BΣYBT)Z \sim N(A \mu_X + B \mu_Y + C, A \Sigma_X A^T + B \Sigma_Y B^T)(Xi,Yi)(Xi,Yi)(X_i, Y_i) ด้วยความปรารถนาดี Ivan

3
จะได้รับการตีความความน่าจะเป็นของ AUC อย่างไร
ทำไมพื้นที่ภายใต้ ROC โค้งความน่าจะเป็นที่ตัวจําแนกจะจัดอันดับอินสแตนซ์ "บวก" ที่เลือกแบบสุ่ม (จากการทำนายที่ดึงมา) สูงกว่าแบบสุ่ม "บวก" ที่เลือกโดยสุ่ม (จากชั้นบวกดั้งเดิม) เราจะพิสูจน์คำแถลงนี้ได้อย่างไรในเชิงคณิตศาสตร์โดยใช้อินทิกรัลโดยให้ CDFs และ PDF ของการแจกแจงคลาสที่เป็นบวกและลบจริง
14 probability  roc  auc 

3
เมื่อเป็นตัวแปรต่อเนื่อง
ฉันรู้ว่าตัวแปรอย่างต่อเนื่อง 0P[X=x]=0P[X=x]=0P[X=x]=0 แต่ฉันไม่สามารถจินตนาการได้ว่าถ้ามีจำนวนเป็นไปได้ไม่ จำกัด และทำไมความน่าจะเป็นของพวกเขาถึงน้อยมาก?xP[X=x]=0P[X=x]=0P[X=x]=0xxx

2
เซ่นแชนนอน Divergence vs Kullback-Leibler Divergence?
ฉันรู้ว่า KL Divergence นั้นไม่สมมาตรและไม่สามารถถือได้ว่าเป็นเมตริกอย่างเคร่งครัด ถ้าเป็นเช่นนั้นเหตุใดจึงใช้เมื่อ JS Divergence เป็นไปตามคุณสมบัติที่จำเป็นสำหรับการวัด มีสถานการณ์ที่ KL divergence สามารถใช้ แต่ไม่ใช่ JS Divergence หรือในทางกลับกัน?

3
ความน่าจะเป็นที่เก็บรักษาไว้ภายใต้การแปลงฟังก์ชันหรือไม่
ฉันคิดว่านี่เป็นพื้นฐาน แต่บอกว่าฉันมีตัวแปรสุ่มคือความน่าจะเป็นเหมือนกับสำหรับฟังก์ชั่นต่อเนื่องมูลค่าจริงใด ๆ ?XXXP(X≤a)P(X≤a)P(X \leq a)P(f(X)≤f(a))P(f(X)≤f(a))P(f(X) \leq f(a))fff

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.