คำถามติดแท็ก normal-distribution

การแจกแจงแบบปกติหรือแบบเกาส์เซียนนั้นมีฟังก์ชั่นความหนาแน่นซึ่งเป็นเส้นโค้งรูประฆังแบบสมมาตร มันเป็นหนึ่งในการแจกแจงที่สำคัญที่สุดในสถิติ ใช้แท็ก [normality] เพื่อสอบถามเกี่ยวกับการทดสอบหา normality

3
จะคำนวณความน่าจะเป็นที่เกี่ยวข้องกับคะแนน Z ขนาดใหญ่อย่างไร้เหตุผลได้อย่างไร
แพคเกจซอฟต์แวร์สำหรับการตรวจจับแรงจูงใจเครือข่ายสามารถให้คะแนน Z สูงมาก (สูงสุดที่ฉันเคยเห็นคือ 600,000+ แต่คะแนน Z มากกว่า 100 นั้นเป็นเรื่องธรรมดา) ฉันวางแผนที่จะแสดงว่าคะแนน Z เหล่านี้เป็นของปลอม คะแนน Z ขนาดใหญ่สอดคล้องกับความน่าจะเป็นที่ต่ำมาก ค่าของความน่าจะเป็นที่เกี่ยวข้องจะได้รับเช่นหน้าแจกวิกิพีเดียตามปกติ (และอาจเป็นตำราสถิติทุกเล่ม) สำหรับคะแนน Z ถึง 6 ดังนั้น ... คำถาม : เราคำนวณฟังก์ชันข้อผิดพลาดได้อย่างไรสำหรับ n มากถึง 1,000,000 พูด?1−erf(n/2–√)1−erf(n/2)1-\mathrm{erf}(n/\sqrt{2}) ฉันโดยเฉพาะอย่างยิ่งหลังจากแพคเกจที่ใช้งานแล้วสำหรับนี้ (ถ้าเป็นไปได้) สิ่งที่ดีที่สุดที่ฉันเคยพบคือ WolframAlpha ซึ่งสามารถคำนวณได้สำหรับ n = 150 ( ที่นี่ )

2
ทำไมความแตกต่างยกกำลังสองจึงใช้กันทั่วไป
บ่อยครั้งที่ฉันตรวจสอบวิธีการทางสถิติและแนวคิดใหม่ ๆ ฉันพบความแตกต่างยกกำลังสอง เช่นเดียวกับตัวอย่าง r ของ Pearson ถูกตัดสินโดยใช้ความแตกต่างกำลังสองเฉลี่ยจากเส้นถดถอยที่จุดนั้นอยู่ สำหรับ ANOVA คุณกำลังดูผลรวมของกำลังสองและอื่น ๆ ตอนนี้ฉันเข้าใจแล้วว่าการยกกำลังทุกอย่างคุณต้องแน่ใจว่าข้อมูลที่มีค่าผิดจริง อย่างไรก็ตามทำไมเลขชี้กำลังจึงถูกใช้อย่างถูกต้อง 2 ทำไมไม่ใช้ 2.1 หรือ e หรือ pi หรืออะไรก็ตาม มีเหตุผลพิเศษว่าทำไม 2 ถูกใช้หรือเป็นเพียงแค่การประชุม? ฉันสงสัยว่าคำอธิบายอาจมีบางอย่างเกี่ยวกับเส้นโค้งระฆัง แต่ฉันค่อนข้างแน่ใจ

2
การรวมกันเชิงเส้นของตัวแปรสุ่มปกติหลายตัวแปรแบบพึ่งพาหลายตัวแปร
สมมติว่าเรามีสองเวกเตอร์ของตัวแปรสุ่มทั้งเป็นปกติเช่นและSigma_Y) เราสนใจการกระจายตัวของการรวมกันเชิงเส้นของพวกเขาโดยที่และคือเมทริกซ์คือเวกเตอร์ ถ้าและมีความเป็นอิสระ,T) คำถามคือในกรณีที่ขึ้นอยู่กับสมมติว่าเรารู้ว่าความสัมพันธ์ของทั้งคู่ใด ๆY_i) ขอบคุณ.X∼N(μX,ΣX)X∼N(μX,ΣX)X \sim N(\mu_X, \Sigma_X)Y∼N(μY,ΣY)Y∼N(μY,ΣY)Y \sim N(\mu_Y, \Sigma_Y)Z=AX+BY+CZ=AX+BY+CZ = A X + B Y + CAAABBBCCCXXXYYYZ∼N(AμX+BμY+C,AΣXAT+BΣYBT)Z∼N(AμX+BμY+C,AΣXAT+BΣYBT)Z \sim N(A \mu_X + B \mu_Y + C, A \Sigma_X A^T + B \Sigma_Y B^T)(Xi,Yi)(Xi,Yi)(X_i, Y_i) ด้วยความปรารถนาดี Ivan

2
การเริ่มต้นน้ำหนักของ CNN ซาเวียร์
ในบทช่วยสอนบางอย่างฉันพบว่ามีการระบุว่าการเริ่มต้นน้ำหนัก "ซาเวียร์" (กระดาษ: การทำความเข้าใจกับความยากลำบากในการฝึกอบรมเครือข่ายนิวรัล feedforward ลึก ) เป็นวิธีที่มีประสิทธิภาพในการเริ่มต้นน้ำหนักของเครือข่ายประสาท สำหรับเลเยอร์ที่เชื่อมต่ออย่างสมบูรณ์มีกฎง่ายๆในบทเรียนเหล่านี้: Var(W)=2nin+nout,simpler alternative:Var(W)=1ninVar(W)=2nin+nout,simpler alternative:Var(W)=1ninVar(W) = \frac{2}{n_{in} + n_{out}}, \quad \text{simpler alternative:} \quad Var(W) = \frac{1}{n_{in}} โดยที่คือความแปรปรวนของตุ้มน้ำหนักสำหรับเลเยอร์เริ่มต้นด้วยการแจกแจงแบบปกติและ ,คือจำนวนของเซลล์ประสาทในพาเรนต์และในเลเยอร์ปัจจุบันVar(W)Var(W)Var(W)ninninn_{in}noutnoutn_{out} มีกฎของหัวแม่มือคล้ายกันสำหรับเลเยอร์ convolutional? ฉันกำลังดิ้นรนเพื่อหาว่าอะไรจะดีที่สุดในการเริ่มต้นน้ำหนักของชั้น convolutional เช่นในเลเยอร์ที่มีรูปร่างของน้ำหนัก(5, 5, 3, 8)ดังนั้นขนาดเคอร์เนลคือการ5x5กรองสามช่องสัญญาณ (อินพุต RGB) และการสร้าง8แผนที่คุณลักษณะ ... จะถูก3พิจารณาว่าเป็นจำนวนเซลล์ประสาทอินพุตหรือไม่ หรือมากกว่า75 = 5*5*3เพราะอินพุตเป็น5x5แพตช์สำหรับแต่ละช่องสี ฉันจะยอมรับทั้งสองคำตอบที่เฉพาะเจาะจงเพื่อชี้แจงปัญหาหรือคำตอบ "ทั่วไป" มากกว่านี้เพื่ออธิบายกระบวนการทั่วไปของการค้นหาน้ำหนักเริ่มต้นที่ถูกต้องและการเชื่อมโยงแหล่งที่มาโดยเฉพาะ

1
เหตุใด MLE จึงสมเหตุสมผลเนื่องจากความน่าจะเป็นของตัวอย่างแต่ละรายการคือ 0
นี่เป็นความคิดแปลก ๆ ที่ฉันมีในขณะที่ตรวจสอบสถิติเก่า ๆ และด้วยเหตุผลบางอย่างที่ฉันไม่สามารถนึกถึงคำตอบได้ PDF แบบต่อเนื่องบอกความหนาแน่นของการสังเกตค่าในช่วงที่กำหนด กล่าวคือถ้ายกตัวอย่างเช่นความน่าจะเป็นที่เกิดขึ้นระหว่างและคือโดยที่คือ ความหนาแน่นของมาตรฐานปกติX∼ N( μ , σ2)X∼N(μ,σ2)X \sim N(\mu,\sigma^2)aaaขbb∫ขaϕ ( x ) dx∫abϕ(x)dx\int_a^{b}\phi(x)dxφϕ\phi เมื่อเราคิดถึงการประมาณค่าพารามิเตอร์ของ MLE ให้พูดถึงเราเขียนความหนาแน่นร่วมของ, พูดว่า , ตัวแปรสุ่มและแยกความแตกต่างของ log-likelihood wrt เป็น , ตั้งค่าเท่ากับ 0 และแก้ สำหรับ\การตีความมักจะได้รับคือ "ให้ข้อมูลซึ่งพารามิเตอร์ที่ทำให้ฟังก์ชั่นความหนาแน่นนี้เป็นไปได้มากที่สุด"μμ\muยังไม่มีข้อความNNX1. . Xยังไม่มีข้อความX1..XNX_1 .. X_Nμμ\muμμ\mu ส่วนที่กำลังดักฟังฉันคือ: เรามีความหนาแน่นของ rv และความน่าจะเป็นที่เราได้รับการกล่าวโดยเฉพาะตัวอย่างของเราคือ 0 อย่างแน่นอนทำไมมันถึงสมเหตุสมผลที่จะเพิ่มความหนาแน่นของข้อต่อให้สูงสุด ตั้งแต่นั้นมาความน่าจะเป็นที่จะสังเกตตัวอย่างจริงของเราคือ 0)?ยังไม่มีข้อความNN การหาเหตุผลเข้าข้างตนเองเดียวที่ฉันสามารถทำได้คือเราต้องการทำให้ PDF เป็นจุดสูงสุดเท่าที่เป็นไปได้รอบตัวอย่างที่เราสังเกตเพื่อให้อินทิกรัลในภูมิภาค (และความน่าจะเป็นของการสังเกตสิ่งในภูมิภาคนี้) …

5
การกระจายที่มีช่วงจาก 0 ถึง 1 และสูงสุดระหว่างพวกเขา?
มีการกระจายหรือฉันสามารถทำงานจากการกระจายอื่นเพื่อสร้างการกระจายเช่นนั้นในภาพด้านล่าง (ขอโทษสำหรับภาพวาดที่ไม่ดี)? โดยที่ฉันให้หมายเลข (0.2, 0.5 และ 0.9 ในตัวอย่าง) สำหรับตำแหน่งที่จุดสูงสุดควรเป็นและส่วนเบี่ยงเบนมาตรฐาน (ซิกม่า) ที่ทำให้ฟังก์ชันกว้างขึ้นหรือกว้างน้อยลง PS: เมื่อจำนวนที่กำหนดคือ 0.5 การแจกแจงเป็นการกระจายตัวแบบปกติ

1
การคำนวณอัจฉริยะของ Steve Hsu ในประเทศจีน
ในบล็อกของเขา Steve Hsu นักฟิสิกส์เขียนดังนี้: สมมติว่ามีการกระจายตัวตามปกติมีเพียงประมาณ 10,000 คนในสหรัฐอเมริกาที่แสดงที่ + 4SD และจำนวนใกล้เคียงกันในยุโรปดังนั้นนี่จึงเป็นประชากรที่ได้รับการคัดเลือก หากคุณคาดการณ์ตัวเลขเอเชียตะวันออกเฉียงใต้ของประชากร 1.3 พันล้านคนในประเทศจีนคุณจะได้รับบางอย่างเช่น 300,000 คนในระดับนี้ซึ่งค่อนข้างล้นเหลือ คุณสามารถอธิบายคำแถลงของสตีฟเป็นภาษาอังกฤษธรรมดา - สำหรับนักสถิติโดยใช้ตัวดำเนินการทางคณิตศาสตร์ทั่วไปเช่นและ ?-+++-−-

3
การถดถอยเชิงเส้น: การแจกแจงแบบไม่ปกติใด ๆ ที่แสดงเอกลักษณ์ของ OLS และ MLE?
คำถามนี้ได้รับแรงบันดาลใจจากการอภิปรายที่ยาวนานในความคิดเห็นที่นี่: การถดถอยเชิงเส้นใช้การกระจายแบบปกติอย่างไร ในรูปแบบการถดถอยเชิงเส้นตามปกติเพื่อความง่ายในการเขียนนี่มีเพียงตัวทำนายเดียว: โดยที่เป็นค่าคงที่ที่รู้จักกันและเป็นข้อผิดพลาดอิสระที่ไม่มีค่าเฉลี่ยศูนย์ หากเรายังถือว่าการแจกแจงปกติสำหรับข้อผิดพลาดตัวประมาณกำลังสองน้อยที่สุดและตัวประมาณความน่าจะเป็นสูงสุดของจะเหมือนกันx ฉันϵ ฉันβ 0 , β 1Yi=β0+β1xi+ϵiYi=β0+β1xi+ϵi Y_i = \beta_0 + \beta_1 x_i + \epsilon_i xixix_iϵiϵi\epsilon_iβ0,β1β0,β1\beta_0, \beta_1 ดังนั้นคำถามง่าย ๆ ของฉัน: มีการแจกแจงอื่น ๆ สำหรับข้อผิดพลาดเช่นนั้น mle เหมือนกันกับตัวประมาณค่า squaeres น้อยที่สุดหรือไม่? ความหมายหนึ่งแสดงให้เห็นได้ง่ายส่วนอีกเรื่องหนึ่งไม่เป็นเช่นนั้น

3
ความสัมพันธ์ระหว่างผลรวมของ Gaussian RVs และ Gaussian Mixture
ฉันรู้ว่าจำนวนของเกาส์คือเกาส์ ดังนั้นส่วนผสมของ Gaussians แตกต่างกันอย่างไร ฉันหมายถึงส่วนผสมของ Gaussians เป็นเพียงผลรวมของ Gaussians (ซึ่งแต่ละ Gaussian ถูกคูณด้วยสัมประสิทธิ์การผสมตามลำดับ) ใช่ไหม?

2
ผลรวมของสองผลิตภัณฑ์ปกติคือ Laplace
เห็นได้ชัดว่าเป็นกรณีที่ถ้าแล้วXผม∼ N( 0 , 1 )Xi∼N(0,1)X_i \sim N(0,1) X1X2+ X3X4∼ L a p l a c e ( 0 , 1 )X1X2+X3X4∼Laplace(0,1)X_1 X_2 + X_3 X_4 \sim \mathrm{Laplace(0,1)} ฉันเคยเห็นเอกสารเกี่ยวกับรูปแบบสมการกำลังสองที่กำหนดเองซึ่งส่งผลให้เกิดการแสดงออกที่ไม่ใช่ไคสแควร์ที่น่ากลัว ความสัมพันธ์แบบเรียบง่ายข้างต้นดูเหมือนจะไม่ชัดเจนสำหรับฉันดังนั้น (ถ้าเป็นจริง!) ใครบ้างที่มีข้อพิสูจน์เรื่องง่าย ๆ ข้างต้น?

3
ต้องการอัลกอริทึมในการคำนวณความน่าจะเป็นที่ข้อมูลนั้นเป็นตัวอย่างจากการแจกแจงแบบปกติเทียบกับการเข้าสู่ระบบแบบปกติ
สมมติว่าคุณมีชุดของค่าและคุณต้องการที่จะทราบว่ามีแนวโน้มที่พวกเขาถูกสุ่มตัวอย่างจากการแจกแจงแบบเกาส์ (ปกติ) หรือสุ่มตัวอย่างจากการแจกแจงแบบล็อกนอร์มหรือไม่? แน่นอนว่าคุณควรจะรู้อะไรบางอย่างเกี่ยวกับประชากรหรือเกี่ยวกับแหล่งที่มาของข้อผิดพลาดการทดลองดังนั้นจะมีข้อมูลเพิ่มเติมที่เป็นประโยชน์ในการตอบคำถาม แต่ที่นี่สมมติว่าเรามีเพียงชุดของตัวเลขและไม่มีข้อมูลอื่น ๆ ซึ่งมีแนวโน้มมากขึ้น: การสุ่มตัวอย่างจากเกาส์เซียนหรือการสุ่มตัวอย่างจากการแจกแจงแบบปกติ มีโอกาสมากแค่ไหน? สิ่งที่ฉันหวังคืออัลกอริธึมที่จะเลือกระหว่างสองรุ่นและหวังว่าจะได้ปริมาณเชิงปริมาณของแต่ละรุ่น

2
ทำไมแบบจำลองการวิเคราะห์แบบ "แบ่งแยก" ของเกาส์เซียนจึงถูกเรียกว่า
แบบจำลองการวิเคราะห์จำแนกแบบเกาส์เรียนรู้แล้วใช้กฎ Bayes เพื่อประเมิน ดังนั้นพวกเขาเป็นแบบจำลองกำเนิด ทำไมจึงเรียกว่าการวิเคราะห์จำแนก ถ้าเป็นเพราะในที่สุดเราก็ได้เส้นโค้งที่แยกแยะระหว่างชั้นเรียนนั่นก็เกิดขึ้นสำหรับทุกรุ่นกำเนิดP ( y | x ) = P ( x | y ) P p r i o r ( y )P( x | y)P(x|y)P(x|y)P( y| x)= P( x | y) Pp r i o r( y)Σก.∈ YP( x | g) Pp r i o …

1
การหาค่าเฉลี่ยที่แท้จริงจากการสังเกตที่มีเสียงดัง
ฉันมีชุดข้อมูลขนาดใหญ่ของฟอร์ม (mean, stdev) ฉันต้องการลดสิ่งนี้ให้เป็นค่าเฉลี่ยเดียว (ดีกว่า) และส่วนเบี่ยงเบนมาตรฐานขนาดเล็ก (หวังว่า) เห็นได้ชัดว่าฉันสามารถคำนวณอย่างไรก็ตามเรื่องนี้ไม่ได้ใช้เวลาในบัญชีความจริงที่ว่าบางส่วนของจุดข้อมูลที่ถูกต้องอย่างมีนัยสำคัญมากกว่าคนอื่น ๆ∑ dเสื้อm e a nยังไม่มีข้อความ∑datameanN\frac{\sum data_{mean}}{N} เพื่อให้ง่ายฉันต้องการ preform น้ำหนักเฉลี่ยของจุดข้อมูลเหล่านี้ แต่ไม่ทราบว่าฟังก์ชันน้ำหนักควรอยู่ในรูปของค่าเบี่ยงเบนมาตรฐาน

3
ความน่าจะเป็นที่การแจกแจงแบบปกติที่มีความแปรปรวนแบบไม่สิ้นสุดมีค่ามากกว่าค่าเฉลี่ยของมันคืออะไร
วันนี้ฉันถูกถามอะไรทำนองนี้ ผู้สัมภาษณ์ต้องการที่จะรู้ว่าความเป็นไปได้ที่ตัวเลือกเงินจะสิ้นสุดที่เงินเมื่อความผันผวนมีแนวโน้มที่จะไม่มีที่สิ้นสุด ฉันบอกว่า 0% เพราะการแจกแจงแบบปกติที่อยู่ภายใต้โมเดล Black-Scholes และสมมติฐานการเดินสุ่มจะมีความแปรปรวนไม่สิ้นสุด แล้วผมก็หาความน่าจะเป็นของค่าทั้งหมดจะเป็นศูนย์ ผู้สัมภาษณ์ของฉันบอกว่าคำตอบที่ถูกคือ 50% เพราะการแจกแจงแบบปกติจะยังคงสมมาตรและเกือบจะเหมือนกัน ดังนั้นเมื่อคุณรวมจากค่าเฉลี่ยถึง + อินฟินิตี้คุณจะได้รับ 50% ฉันยังไม่มั่นใจกับเหตุผลของเขา ถูกต้องใคร

11
ค่าเบี่ยงเบนมาตรฐานผิดอย่างสิ้นเชิงหรือไม่? คุณสามารถคำนวณ std สำหรับความสูงจำนวนและอื่น ๆ (จำนวนบวก) ได้อย่างไร
สมมติว่าฉันคำนวณความสูง (หน่วยเป็นซม.) และตัวเลขต้องสูงกว่าศูนย์ นี่คือรายการตัวอย่าง: 0.77132064 0.02075195 0.63364823 0.74880388 0.49850701 0.22479665 0.19806286 0.76053071 0.16911084 0.08833981 Mean: 0.41138725956196015 Std: 0.2860541519582141 ในตัวอย่างนี้ตามการแจกแจงปกติ 99.7% ของค่าต้องอยู่ระหว่าง± 3 เท่าของค่าเบี่ยงเบนมาตรฐานจากค่าเฉลี่ย อย่างไรก็ตามค่าเบี่ยงเบนมาตรฐานจะเป็นลบสองเท่า -2 x std calculation = 0.41138725956196015 - 0.2860541519582141 x 2 = -0,160721044354468 อย่างไรก็ตามตัวเลขของฉันต้องเป็นค่าบวก ดังนั้นพวกเขาต้องอยู่เหนือ 0 ฉันสามารถเพิกเฉยกับจำนวนลบได้ แต่ฉันสงสัยว่านี่เป็นวิธีที่ถูกต้องในการคำนวณความน่าจะเป็นโดยใช้ค่าเบี่ยงเบนมาตรฐาน มีใครช่วยให้ฉันเข้าใจถ้าฉันใช้สิ่งนี้ในวิธีที่ถูกต้อง? หรือฉันต้องเลือกวิธีอื่น ความจริงแล้วคณิตศาสตร์เป็นคณิตศาสตร์ มันไม่สำคัญว่าจะเป็นการแจกแจงแบบปกติหรือไม่ หากทำงานกับตัวเลขที่ไม่ได้ลงชื่อก็ควรทำงานกับตัวเลขบวกเช่นกัน! ฉันผิดหรือเปล่า? EDIT1: เพิ่มฮิสโตแกรม เพื่อความชัดเจนยิ่งขึ้นฉันได้เพิ่มฮิสโตแกรมข้อมูลจริงของฉัน …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.