สถิติและข้อมูลขนาดใหญ่ distributions

3

การคำนวณโหมดของข้อมูลที่สุ่มตัวอย่างจากการแจกแจงแบบต่อเนื่อง

อะไรคือวิธีที่ดีที่สุดในการปรับ 'โหมด' ของข้อมูลตัวอย่างจากการกระจายอย่างต่อเนื่อง? เนื่องจากโหมดนี้ไม่ได้กำหนดทางเทคนิค (ใช่ไหม) สำหรับการแจกแจงแบบต่อเนื่องฉันจึงถามว่า 'คุณจะพบคุณค่าที่พบได้บ่อยที่สุด' ได้อย่างไร? หากคุณถือว่าการกระจายตัวของผู้ปกครองนั้นเป็น gaussian คุณสามารถ bin ข้อมูลและหาว่าโหมดนั้นเป็นที่ตั้งของ bin ที่มีจำนวนมากที่สุด อย่างไรก็ตามคุณจะกำหนดขนาดถังขยะได้อย่างไร มีการใช้งานที่แข็งแกร่งหรือไม่? (เช่นแข็งแกร่งถึงค่าผิดปกติ) ฉันใช้python/ scipy/ numpyแต่ฉันสามารถแปลได้Rโดยไม่ยากเกินไป

12 distributions fitting mode

4

การวิเคราะห์ข้อมูลลมด้วย R

สวัสดีฉันกำลังทำการวิเคราะห์ข้อมูลลมเพื่อประเมินพลังงานจากกังหันลม ฉันใช้เวลา 10 ปีของข้อมูลลมและทำกราฟฮิสโตแกรม ขั้นตอนที่สองของฉันคือการกระจายข้อมูล Weibull ให้พอดีกับข้อมูล ฉันใช้ R พร้อมแพ็คเกจlmomเพื่อคำนวณรูปร่าง Weibul และมาตราส่วนนี่คือรหัสที่ฉันใช้: >library(lmom) wind.moments<-samlmu(as.numeric(pp$WS)) moments<-pelwei(wind.moments) x.wei<-rweibull(n=length(pp$WS), shape=moments["delta"], scale=moments["beta"]) hist(as.numeric(pp$WS), freq=FALSE) lines(density(x.wei), col="red", lwd=4) ดูเหมือนว่ามีความล่าช้าระหว่างข้อมูลและฟังก์ชันความหนาแน่น คุณช่วยฉันได้ไหม คำถามอื่นคือคุณสามารถช่วยฉันในการคำนวณพลังงานประจำปีจากฟังก์ชันความหนาแน่นได้หรือไม่ ขอบคุณ

12 r distributions

5

การเปรียบเทียบฟังก์ชันความหนาแน่นสะสมสองฟังก์ชัน

ฉันกำลังมองหาวิธีที่จะใช้เพื่อทดสอบความเท่าเทียมกันของฟังก์ชันความหนาแน่นสะสมสองฟังก์ชัน

12 distributions hypothesis-testing

5

เป็นไปได้ว่าตัวแปรสุ่มสองตัวจากตระกูลการแจกจ่ายเดียวกันมีความคาดหวังและความแปรปรวนเหมือนกัน แต่ช่วงเวลาที่สูงกว่าต่างกันหรือไม่

ฉันกำลังคิดถึงความหมายของครอบครัวในระดับตำแหน่ง ความเข้าใจของฉันคือสำหรับสมาชิกทุกคนในตระกูลมาตราส่วนตำแหน่งที่ตั้งที่มีพารามิเตอร์ตำแหน่งและมาตราส่วนจากนั้นการกระจายของไม่ขึ้นอยู่กับพารามิเตอร์ใด ๆ และมันก็เหมือนกันสำหรับทุกที่เป็นของตระกูลนั้นXXXaaabbbZ=(X- a ) / bZ=(X−a)/bZ =(X-a)/bXXX ดังนั้นคำถามของฉันคือคุณสามารถให้ตัวอย่างที่สุ่มสองตัวจากตระกูลการแจกจ่ายเดียวกันเป็นมาตรฐาน แต่ไม่ส่งผลให้ตัวแปรสุ่มที่มีการแจกแจงแบบเดียวกันได้หรือไม่ พูดว่าและมาจากตระกูลการแจกจ่ายเดียวกัน (โดยที่ครอบครัวฉันหมายถึงตัวอย่างเช่น Normal หรือ Gamma และอื่น ๆ .. ) กำหนด:XXXYYY Z1=X-μσZ1=X−μσZ_1 = \dfrac{X-\mu}{\sigma} Z2=Y-μσZ2=Y−μσZ_2 = \dfrac{Y-\mu}{\sigma} เรารู้ว่าทั้งสองและมีความคาดหวังเหมือนกันและแปรปรวน 1Z1Z1Z_1Z2Z2Z_2μZ= 0 , σ2Z= 1μZ=0,σZ2=1\mu_Z =0, \sigma^2_Z =1 แต่พวกเขาสามารถมีช่วงเวลาที่สูงขึ้นแตกต่างกันได้หรือไม่ ความพยายามของฉันที่จะตอบคำถามนี้คือถ้าการแจกแจงของและขึ้นอยู่กับพารามิเตอร์มากกว่า 2 ตัว และฉันกำลังคิดถึง general ทั่วไปที่มี 3 พารามิเตอร์XXXYYYt - s t ude n …

12 probability distributions mathematical-statistics random-variable moments

2

สัญชาตญาณกราฟิกของสถิติในนานา

ในโพสต์นี้คุณสามารถอ่านคำสั่ง: แบบจำลองมักจะถูกแทนที่ด้วยจุดบนมิติที่ จำกัดθθ\theta ในเรขาคณิตเชิงอนุพันธ์และสถิติโดย Michael K Murray และ John W Riceแนวคิดเหล่านี้อธิบายได้ในร้อยแก้วที่อ่านได้แม้จะไม่สนใจนิพจน์ทางคณิตศาสตร์ น่าเสียดายที่มีภาพประกอบไม่มาก กันไปสำหรับโพสต์นี้ใน MathOverflow ฉันต้องการขอความช่วยเหลือด้วยการนำเสนอด้วยภาพเพื่อใช้เป็นแผนที่หรือแรงจูงใจในการทำความเข้าใจหัวข้อที่เป็นทางการมากขึ้น อะไรคือจุดที่หลากหลาย อ้างจากการค้นหาออนไลน์นี้ดูเหมือนจะบ่งบอกว่ามันอาจเป็นจุดข้อมูลหรือพารามิเตอร์การกระจาย: สถิติเกี่ยวกับแมนิโฟลด์และเรขาคณิตข้อมูลเป็นสองวิธีที่แตกต่างกันซึ่งเรขาคณิตเชิงอนุพันธ์ตรงกับสถิติ ในขณะที่ในสถิติเกี่ยวกับแมนิโฟลด์มันเป็นข้อมูลที่วางอยู่บนท่อร่วมในเรขาคณิตข้อมูลข้อมูลอยู่ในแต่พารามิเตอร์ของฟังก์ชันความหนาแน่นของความน่าจะเป็นแบบพารามิเตอร์ที่น่าสนใจจะได้รับการปฏิบัติเหมือนนานา manifolds ดังกล่าวเรียกว่า manifolds ทางสถิติRnRnR^n ฉันวาดไดอะแกรมนี้โดยได้แรงบันดาลใจจากคำอธิบายของพื้นที่แทนเจนต์ที่นี่ : [ แก้ไขเพื่อแสดงความคิดเห็นด้านล่างเกี่ยวกับ :C∞C∞C^\infty ] บนนานาพื้นที่แทนเจนต์คือเซตของอนุพันธ์ที่เป็นไปได้ทั้งหมด ("ความเร็ว") ที่จุดเกี่ยวข้องกับ ทุกโค้งที่เป็นไปได้บนท่อร่วมไอวิ่งผ่าน นี่จะเห็นได้ว่าเป็นชุดของแผนที่จากทุกโค้งผ่านคือกำหนดเป็นองค์ประกอบ , ด้วยแสดงถึงเส้นโค้ง (ฟังก์ชั่นจากเส้นจริงถึงพื้นผิวของท่อร่วมพี∈ M (ψ: R → M )P P, C ∞ (T)→ R , ( …

12 distributions manifold-learning information-geometry topologies

2

pdf ของผลิตภัณฑ์ของตัวแปรสุ่มแบบอิสระทั้งสองชุด

ให้ ~และ ~เป็นสองตัวแปรสุ่มอิสระพร้อมการแจกแจงที่กำหนด การกระจายของคืออะไร?XXXยู( 0 , 2 )U(0,2)U(0,2)YYYยู( - 10 , 10 )U(−10,10)U(-10,10)V= XYV=XYV=XY ฉันได้ลองทำข้อตกลงโดยรู้ว่า h ( v ) = ∫Y= + ∞Y= - ∞1YฉY(y) fX( vY) dYh(v)=∫y=−∞y=+∞1yfY(y)fX(vy)dyh(v) = \int_{y=-\infty}^{y=+\infty}\frac{1}{y}f_Y(y) f_X\left (\frac{v}{y} \right ) dy นอกจากนี้เรายังรู้ว่า , ฉY( y) = 120fY(y)=120f_Y(y) = \frac{1}{20} h(v)=1h ( v ) = 120∫Y= 10Y= …

12 distributions random-variable

2

การกระจายความน่าจะเป็นสำหรับคลื่นไซน์ที่มีเสียงดัง

ฉันต้องการวิเคราะห์การกระจายความน่าจะเป็นของจุดสุ่มตัวอย่างจากฟังก์ชันการแกว่งเมื่อมีข้อผิดพลาดในการวัด ฉันได้คำนวณการแจกแจงความน่าจะเป็นสำหรับส่วน "ไม่มีเสียง" แล้ว (ฉันจะใส่ท้ายนี้) แต่ฉันไม่สามารถหาวิธีรวม "เสียง" ได้ การประมาณเชิงตัวเลข เพื่อให้ชัดเจนยิ่งขึ้นลองจินตนาการว่ามีฟังก์ชั่นซึ่งคุณสุ่มเลือกคะแนนจากในรอบเดียว หากคุณได้รับคะแนนในฮิสโตแกรมคุณจะได้รับบางสิ่งที่เกี่ยวข้องกับการแจกแจงy(x)=sin(x)y(x)=sin⁡(x)y(x) = \sin(x) ไม่มีเสียงดังรบกวน ตัวอย่างเช่นนี่คือและฮิสโตแกรมที่เกี่ยวข้องsin(x)sin(x)sin(x) พร้อมเสียงดัง ตอนนี้หากมีข้อผิดพลาดในการวัดบางอย่างมันจะเปลี่ยนรูปร่างของฮิสโตแกรม ตัวอย่างเช่น การคำนวณเชิงวิเคราะห์ ดังนั้นหวังว่าฉันจะทำให้คุณมั่นใจว่ามีความแตกต่างระหว่างสองอย่างนี้ตอนนี้ฉันจะเขียนวิธีคำนวณกรณี "ไม่มีเสียง": ไม่มีเสียงดังรบกวน y(x)=sin(x)y(x)=sin⁡(x) y(x) = \sin(x) จากนั้นถ้าเวลาที่เราสุ่มตัวอย่างกระจายอย่างสม่ำเสมอการแจกแจงความน่าจะเป็นสำหรับyyyจะต้องเป็นไปตาม: P(y)dy=dx2πP(y)dy=dx2π P(y) dy = \frac{dx}{2\pi} ตั้งแต่นั้นมา dxdy=ddy(arcsin(y))=11−y2−−−−−√dxdy=ddy(arcsin⁡(y))=11−y2\frac{dx}{dy} = \frac{d}{dy}\left(\arcsin(y)\right) = \frac{1}{\sqrt{1 - y^{2}}} และอื่น ๆ P(y)=12π1−y2−−−−−√P(y)=12π1−y2 P(y) = \frac{1}{2\pi\sqrt{1 - y^{2}}} ซึ่งการปรับมาตรฐานให้เหมาะสมนั้นเหมาะกับฮิสโตแกรมที่สร้างขึ้นในกรณี "ไม่มีเสียงรบกวน" …

12 distributions normal-distribution noise

1

การกระจายแบบไหนที่ส่งผลให้เพิ่มการแจกแจงพาเรโตสองครั้ง

ฉันสงสัยว่าผลการจัดจำหน่ายในสิ่งที่เพิ่มสอง (หรือมากกว่า) ชนิดหนึ่งในการกระจาย Pareto ของแบบฟอร์มalpha} จากการทดลองดูเหมือนว่ากฎหมายพลังงานสองโหมดซึ่งแสดงถึงความแตกต่างของอัลฟาx−αx−αx^{-\alpha}

12 distributions power-law pareto-distribution

1

ตัวอย่างที่ใช้งานง่ายของการสุ่มตัวอย่างที่สำคัญ

พื้นหลังของฉันคือวิทยาศาสตร์คอมพิวเตอร์ ฉันค่อนข้างใหม่สำหรับวิธีการสุ่มตัวอย่าง monte carlo และแม้ว่าฉันจะเข้าใจคณิตศาสตร์ฉันมีเวลายากลำบากในการหาตัวอย่างที่ใช้งานง่ายสำหรับการสุ่มตัวอย่างที่สำคัญ แม่นยำยิ่งขึ้นใครบางคนสามารถให้ตัวอย่างของ: การแจกแจงเริ่มต้นหนึ่งไม่สามารถสุ่มตัวอย่างได้ แต่สามารถประมาณได้ การแจกแจงที่สำคัญซึ่งสามารถสุ่มตัวอย่างและเพียงพอสำหรับการแจกแจงเริ่มต้นนี้

12 probability distributions sampling importance-sampling

1

การทดสอบที่แน่นอนของฟิชเชอร์และการกระจาย hypergeometric

ฉันต้องการที่จะเข้าใจการทดสอบที่แม่นยำของฟิชเชอร์มากขึ้นดังนั้นฉันจึงคิดค้นตัวอย่างของเล่นต่อไปนี้โดยที่ f และ m สอดคล้องกับเพศชายและเพศหญิงและ n และ y สอดคล้องกับ "การบริโภคโซดา" เช่นนี้: > soda_gender f m n 0 5 y 5 0 เห็นได้ชัดว่านี่คือการทำให้เข้าใจง่ายมาก แต่ฉันไม่ต้องการให้บริบทเข้ามาขวางทาง ที่นี่ฉันเพิ่งสันนิษฐานว่าผู้ชายไม่ดื่มโซดาและหญิงดื่มโซดาและต้องการดูว่าวิธีการทางสถิติมาถึงข้อสรุปเดียวกัน เมื่อฉันทำการทดสอบฟิชเชอร์ที่แน่นอนใน R ฉันจะได้ผลลัพธ์ต่อไปนี้: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 …

12 fishers-exact hypergeometric clustering supervised-learning modeling econometrics r regression residuals heteroscedasticity independence distributions self-study matlab libsvm self-study conditional-probability conditional-expectation hypothesis-testing self-study multiple-comparisons mode statistical-significance chi-squared multiple-comparisons maximum-likelihood poisson-process optimization uncertainty genetic-algorithms bayesian model-selection overfitting maximum-likelihood optimization approximation r prediction model-evaluation r machine-learning survival neural-networks cox-model machine-learning bayesian bayesian-network hierarchical-bayesian pooling

1

การแจกแจงแบบใดที่ไม่สัมพันธ์กันแสดงถึงความเป็นอิสระ?

การเตือนความทรงจำที่มีเกียรติในสถิติคือ "ความสัมพันธ์ไม่ได้หมายถึงความเป็นอิสระ" โดยปกติการแจ้งเตือนนี้จะเสริมด้วยคำสั่งที่ผ่อนคลายทางจิตวิทยา (และถูกต้องทางวิทยาศาสตร์) "เมื่อ แต่อย่างไรก็ตามทั้งสองตัวแปรมีการกระจายตามปกติร่วมกันแล้ว uncorrelatedness หมายถึงความเป็นอิสระ" ฉันสามารถเพิ่มจำนวนข้อยกเว้นที่มีความสุขจากหนึ่งเป็นสอง: เมื่อตัวแปรสองตัวถูกแจกจ่ายโดยBernoulliจากนั้นอีกครั้งความไม่สัมพันธ์กันหมายถึงความเป็นอิสระ ถ้าและเป็นสอง Bermoulli rv's,ซึ่งเรามีและคล้ายคลึงกับความแปรปรวนร่วมของพวกมันคือXXXYYYX∼ B ( qx) ,Y∼ B ( qY)X~B(Qx),Y~B(QY)X \sim B(q_x),\; Y \sim B(q_y)P( X= 1 ) = E( X) = qxP(X=1)=E(X)=QxP(X=1) = E(X) = q_xYYY Cov( X, วาย) = E( XY) - E( X) E( Y) = ∑SXYp …

12 probability distributions correlation mathematical-statistics independence

4

การทดสอบทางสถิติมาตรฐานคืออะไรเพื่อดูว่าข้อมูลเป็นไปตามการแจกแจงแบบเอ็กซ์โพเนนเชียลหรือการแจกแจงปกติ?

12 distributions hypothesis-testing normal-distribution

1

MLE สำหรับการกระจายสามเหลี่ยม?

เป็นไปได้หรือไม่ที่จะใช้ขั้นตอน MLE ปกติกับการแจกแจงสามเหลี่ยม? - ฉันกำลังพยายาม แต่ฉันดูเหมือนจะถูกบล็อกในขั้นตอนเดียวหรืออย่างอื่นในวิชาคณิตศาสตร์ตามวิธีการแจกแจงที่กำหนดไว้ ฉันพยายามใช้ความจริงที่ว่าฉันรู้จำนวนตัวอย่างด้านบนและด้านล่าง c (โดยไม่รู้ตัว c): ตัวเลขทั้งสองนี้คือ cn และ (1-c) n หาก n คือจำนวนตัวอย่างทั้งหมด อย่างไรก็ตามดูเหมือนว่าจะไม่ได้ช่วยในการสืบมา ช่วงเวลาของช่วงเวลาให้ตัวประมาณค่าสำหรับ c โดยไม่มีปัญหามาก อะไรคือลักษณะที่แน่นอนของการอุดตันของ MLE ที่นี่ (ถ้ามี) รายละเอียดเพิ่มเติม: ลองพิจารณาในและการแจกแจงที่นิยามไว้ในโดย: [ 0 , 1 ] [ 0 , 1 ]คคc[ 0 , 1 ][0,1][0,1][ 0 , 1 ][0,1][0,1] ฉ( x ; c …

12 distributions mathematical-statistics maximum-likelihood triangular-distribution

1

วิธีกำหนดการแจกแจงแบบนั้นมีความสัมพันธ์กับการจับฉลากจากการแจกแจงแบบอื่นที่กำหนดไว้ล่วงหน้าได้อย่างไร?

ฉันจะกำหนดกระจายของตัวแปรสุ่มดังกล่าวที่วาดจากมีความสัมพันธ์กับที่เป็นวาดเดียวจากการกระจายกับฟังก์ชันการกระจายสะสม ? Y ρ x 1 x 1 F X ( x )YYYYYYρρ\rhox1x1x_1x1x1x_1FX( x )FX(x)F_{X}(x)

12 distributions probability correlation random-variable conditional-probability

1

การกระจายบันทึกอย่างสม่ำเสมอหมายถึงอะไร

เมื่อมีคนบอกว่าข้อมูลถูกสุ่มตัวอย่างจากการกระจายอย่างสม่ำเสมอระหว่าง 128 ถึง 4,000 นั่นหมายความว่าอย่างไร มันแตกต่างจากการสุ่มตัวอย่างจากการแจกแจงแบบสม่ำเสมอหรือไม่? ดูกระดาษนี้: http://www.jmlr.org/papers/volume13/bergstra12a/bergstra12a.pdf ขอบคุณ!

12 machine-learning distributions uniform

คำถามติดแท็ก distributions