สถิติและข้อมูลขนาดใหญ่ distributions

3

สามารถสร้างการกระจายข้อต่อ 3D ได้อีกครั้งด้วยระยะขอบ 2 มิติหรือไม่

สมมติว่าเรารู้ว่า p (x, y), p (x, z) และ p (y, z), จริงไหมที่การกระจายข้อต่อ p (x, y, z) สามารถระบุได้? นั่นคือมีเพียง p (x, y, z) ที่เป็นไปได้ซึ่งมีระยะขอบเกินหรือไม่

14 distributions mathematical-statistics

3

คำจำกัดความของตระกูลของการแจกแจง?

ตระกูลการแจกแจงมีคำจำกัดความทางสถิติที่แตกต่างจากในสาขาอื่นหรือไม่? โดยทั่วไปแล้วตระกูลของเส้นโค้งคือชุดของเส้นโค้งซึ่งแต่ละชุดจะได้รับจากฟังก์ชั่นหรือ parametrization ซึ่งพารามิเตอร์หนึ่งตัวหรือมากกว่านั้นแตกต่างกันไป ครอบครัวดังกล่าวจะใช้สำหรับตัวอย่างเช่นในการอธิบายลักษณะของชิ้นส่วนอิเล็กทรอนิกส์ สำหรับสถิติตระกูลตามแหล่งเดียวคือผลลัพธ์ของการเปลี่ยนแปลงพารามิเตอร์รูปร่าง แล้วเราจะเข้าใจได้อย่างไรว่าการแจกแจงแกมม่านั้นมีพารามิเตอร์รูปร่างและขนาดและมีเพียงการกระจายแกมม่าทั่วไปเท่านั้นที่มีอยู่นอกจากนี้พารามิเตอร์ตำแหน่ง? สิ่งนี้ทำให้ครอบครัวเป็นผลมาจากการเปลี่ยนพารามิเตอร์ตำแหน่งที่ตั้งหรือไม่ ตามที่ @whuber ความหมายของครอบครัวนั้นโดยปริยาย"พารามิเตอร์" ของครอบครัวนั้นเป็นแผนที่ต่อเนื่องจากเซตย่อยของℝ nโดยมีโทโพโลยีปกติเข้าสู่พื้นที่ของการกระจายซึ่งเป็นภาพครอบครัวนั้นnn^n ครอบครัวที่ใช้ภาษาง่าย ๆ คืออะไรสำหรับการแจกแจงเชิงสถิติ? คำถามเกี่ยวกับความสัมพันธ์ระหว่างคุณสมบัติทางสถิติของการแจกแจงจากตระกูลเดียวกันได้สร้างความขัดแย้งอย่างมากสำหรับคำถามที่แตกต่างดังนั้นมันจึงคุ้มค่าที่จะสำรวจความหมาย ว่านี่ไม่ใช่คำถามง่าย ๆ ที่เกิดจากการใช้ในวลีexponential familyซึ่งไม่มีส่วนเกี่ยวข้องกับตระกูลของ curves แต่เกี่ยวข้องกับการเปลี่ยนรูปแบบ PDF ของการแจกแจงโดยการเปลี่ยนพารามิเตอร์ใหม่ไม่เพียง แต่พารามิเตอร์ แต่ยังทดแทนหน้าที่ของตัวแปรสุ่มอิสระ

14 distributions terminology parametric exponential-family

1

Jeffreys ก่อนหน้าสำหรับพารามิเตอร์หลายตัว

ในบางกรณี Jeffreys ก่อนหน้าสำหรับโมเดลหลายมิติเต็มรูปแบบจะถูกพิจารณาว่าไม่เพียงพอนี่เป็นตัวอย่างกรณีใน: (โดยที่ ε ∼ N ( 0 , σ 2 ) , โดยมี μและ σไม่ทราบ) โดยที่ก่อนหน้านี้ต้องการ (สำหรับ Jeffreys เต็มก่อนหน้า π ( μ , σ ) ∝ σ - 2 ): p ( μ , σ ) = π ( μ ) ⋅ π ( σ ) อัลฟ่าσ - …

14 distributions bayesian estimation prior jeffreys-prior

2

การสุ่มตัวอย่างจากการแจกแจง von Mises-Fisher ใน Python?

ฉันกำลังมองหาวิธีง่ายๆในการสุ่มตัวอย่างจากการแจกแจงหลายตัวแปร von Mises-Fisherใน Python ฉันได้ดูในโมดูลสถิติใน scipyและโมดูล numpyแต่พบการกระจาย von Mises univariate เท่านั้น มีรหัสอะไรบ้าง? ฉันยังไม่พบ เห็นได้ชัดว่า Wood (1994) ได้ออกแบบอัลกอริทึมสำหรับการสุ่มตัวอย่างจากการกระจาย vMF ตามลิงค์นี้แต่ฉันไม่พบกระดาษ - แก้ไขเพื่อความแม่นยำฉันสนใจอัลกอริทึมที่หายากในวรรณกรรม (เอกสารส่วนใหญ่เน้นที่ ) บทความ seminal (Wood, 1994) ไม่สามารถพบได้ฟรีสำหรับความรู้ของฉันS2S2S^2

14 distributions sampling python

2

การกระจายตัวของความแปรปรวนของตัวแปรกำลังสองและไคสแควร์?

ปัญหาต่อไปนี้เกิดขึ้นเมื่อเร็ว ๆ นี้ขณะวิเคราะห์ข้อมูล หากตัวแปรสุ่ม X ตามการแจกแจงปกติและ Y ตามการแจกแจงχ2nχn2\chi^2_n (ด้วย n dof) Z=X2+Y2Z=X2+Y2Z = X^2 + Y^2กระจายอย่างไร ถึงตอนนี้ฉันมากับ pdf ของY2Y2Y^2 : ψ2n(x)====∂F(x−−√)∂x(∫x√0tn/2−1⋅e−t/22n/2Γ(n/2)dt)′x12n/2Γ(n/2)⋅(x−−√)n/2−1⋅e−x√/2⋅(x−−√)′x12n/2−1Γ(n/2)⋅xn/4−1⋅e−x√/2ψn2(x)=∂F(x)∂x=(∫0xtn/2−1⋅e−t/22n/2Γ(n/2)dt)x′=12n/2Γ(n/2)⋅(x)n/2−1⋅e−x/2⋅(x)x′=12n/2−1Γ(n/2)⋅xn/4−1⋅e−x/2\begin{eqnarray} \psi^2_n(x) &=& \frac{\partial F(\sqrt{x})}{\partial x} \\ &=& \left( \int_0^{\sqrt{x}} \frac{t^{n/2-1}\cdot e^{-t/2}}{2^{n/2}\Gamma(n/2)} \mathrm{d}t \right)^\prime_x \\ &=& \frac{1}{2^{n/2}\Gamma(n/2)} \cdot \left( \sqrt{x} \right)^{n/2-1} \cdot e^{-\sqrt{x}/2} \cdot \left( \sqrt{x} \right)^\prime_x \\ &=& \frac{1}{2^{n/2-1}\Gamma(n/2)} …

14 probability distributions normal-distribution chi-squared convolution

5

วิธีปรับให้พอดีกับการแจกแจงแบบ Weibull กับข้อมูลอินพุตที่มีเลขศูนย์

ฉันกำลังพยายามสร้างอัลกอริทึมการทำนายที่มีอยู่โดยนักวิจัยที่เกษียณแล้ว ขั้นตอนแรกคือเพื่อให้พอดีกับข้อมูลที่สังเกตได้บางอย่างกับการแจกแจงแบบ Weibull เพื่อให้ได้รูปร่างและมาตราส่วนซึ่งจะใช้ในการทำนายค่าในอนาคต ฉันใช้ R เพื่อทำสิ่งนี้ นี่คือตัวอย่างของรหัสของฉัน: x<-c(23,19,37,38,40,36,172,48,113,90,54,104,90,54,157,51,77,78,144,34,29,45,16,15,37,218,170,44,121) f<-fitdistr(x, 'weibull') สิ่งนี้ทำงานได้ดียกเว้นว่ามีเลขศูนย์ใด ๆ ในอาร์เรย์อินพุตซึ่งทำให้มันล้มเหลวอย่างสมบูรณ์ สิ่งเดียวกันเกิดขึ้นใน SAS ดังที่ฉันเข้าใจแล้วนี่เป็นเพราะหนึ่งในขั้นตอนในการคำนวณการแจกแจงแบบ Weibull คือการบันทึกตามธรรมชาติซึ่งไม่ได้กำหนดไว้สำหรับ 0 มีวิธีที่เหมาะสมในการแก้ไขปัญหานี้หรือไม่? สิ่งที่ดีที่สุดที่ฉันเคยพบคือการเพิ่ม 1 ให้กับค่าอินพุตทั้งหมดของฉันให้พอดีกับเส้นโค้งแล้วลบหนึ่งค่าจากค่าที่คาดการณ์ไว้ของฉัน ("เลื่อน" เส้นโค้งขึ้นแล้วกลับลง 1) ซึ่งตรงกับข้อมูลที่คาดการณ์ไว้ก่อนหน้านี้ค่อนข้างดี แต่ดูเหมือนว่ามันจะต้องเป็นวิธีที่ผิดในการทำเช่นนั้น แก้ไข: ค่าในอาร์เรย์อินพุตจะถูกตรวจสอบข้อมูลในโลกแห่งความเป็นจริง (จำนวนการเกิดขึ้นของบางสิ่งบางอย่าง) เป็นระยะเวลาหลายปี ดังนั้นในบางปีจำนวนการเกิดขึ้นจึงเป็นศูนย์ ไม่ว่าจะเป็นวิธีที่ดีที่สุดหรือไม่ (ฉันยอมรับว่าอาจไม่ใช่) ผู้เขียนอัลกอริทึมดั้งเดิมอ้างว่าใช้การกระจาย Weibull และฉันต้องพยายามทำซ้ำกระบวนการของพวกเขา

14 distributions curve-fitting

3

การกระจายที่ถูกตัดทอนหมายความว่าอย่างไร

ในบทความวิจัยเกี่ยวกับการวิเคราะห์ความอ่อนไหวของตัวแบบสมการเชิงอนุพันธ์สามัญของระบบไดนามิกผู้เขียนให้การแจกแจงของพารามิเตอร์แบบจำลองเป็นการแจกแจงแบบปกติ (Mean = 1e-4, std = 3e-5) ถูกตัดให้อยู่ในช่วง [0.5e -4 1.5e-4] จากนั้นเขาใช้ตัวอย่างจากการแจกแจงแบบตัดปลายนี้เพื่อจำลองสถานการณ์ของแบบจำลอง การกระจายแบบตัดปลายและตัวอย่างจากการกระจายแบบตัดปลายหมายความว่าอย่างไร ฉันสามารถสร้างวิธีนี้ได้สองวิธี: ตัวอย่างจากการแจกแจงแบบปกติ แต่ไม่ต้องสนใจค่าสุ่มทั้งหมดที่อยู่นอกช่วงที่ระบุก่อนการจำลอง ได้รับการกระจาย "ปกติที่ถูกตัดทอน" เป็นพิเศษและรับตัวอย่างจากมัน แนวทางที่ถูกต้องและเท่าเทียมกันเหล่านี้หรือไม่ ผมเชื่อว่าในกรณีแรกหากมีการพล็อตทดลอง CDF / pdf ของกลุ่มตัวอย่างก็จะดูไม่เหมือนการกระจายปกติเพราะโค้งไม่ขยายไปถึง± ∞±∞\pm\infty ∞

14 distributions simulation truncation

3

วิธีการปรับขนาดไวโอลินสำหรับการเปรียบเทียบ?

ฉันกำลังพยายามวาดไวโอลินและสงสัยว่ามีวิธีปฏิบัติที่ดีที่สุดที่ยอมรับได้สำหรับการปรับขนาดพวกมันข้ามกลุ่มหรือไม่ นี่คือสามตัวเลือกที่ฉันได้ลองใช้mtcarsชุดข้อมูลR (Motor Trend Cars จากปี 1973 พบได้ที่นี่ ) ความกว้างเท่ากัน ดูเหมือนจะเป็นสิ่งที่กระดาษต้นฉบับ * ทำและสิ่งที่ R vioplotทำ ( ตัวอย่าง ) ดีสำหรับการเปรียบเทียบรูปร่าง พื้นที่ที่เท่าเทียมกัน ให้ความรู้สึกถูกต้องเนื่องจากแต่ละพล็อตเป็นพล็อตความน่าจะเป็นดังนั้นพื้นที่ของแต่ละอันควรเท่ากับ 1.0 ในพื้นที่ประสานงานบางแห่ง ดีสำหรับการเปรียบเทียบความหนาแน่นภายในแต่ละกลุ่ม แต่ดูเหมือนจะเหมาะสมกว่าหากมีการวางทับ พื้นที่ถ่วงน้ำหนัก ชอบพื้นที่เท่ากัน แต่ถ่วงน้ำหนักตามจำนวนการสังเกต 6 สูบค่อนข้างบางลงเนื่องจากมีรถยนต์น้อยกว่า ดีสำหรับการเปรียบเทียบความหนาแน่นข้ามกลุ่ม * พล็อตไวโอลิน: Synergis พล็อตกล่องความหนาแน่นของการติดตาม (DOI: 10.2307 / 2685478)

14 distributions data-visualization nonparametric

4

การแจกแจงของข้อผิดพลาดมีผลต่อการกระจายของการตอบสนองอย่างไร

ดังนั้นเมื่อฉันคิดว่าปกติแล้วข้อผิดพลาดจะถูกกระจายในการถดถอยเชิงเส้นมันหมายความว่าอะไรสำหรับตัวแปรตอบสนอง ?yyy

14 regression distributions

2

การคำนวณค่า p จากการแจกแจงโดยพลการ

ฉันหวังว่านี่ไม่ใช่คำถามงี่เง่า สมมติว่าฉันมีการกระจายอย่างต่อเนื่องโดยพลการ ฉันมีสถิติด้วยและฉันต้องการใช้การแจกแจงแบบสุ่มนี้เพื่อรับค่า p สำหรับสถิตินี้ ฉันรู้ว่าใน R มันง่ายที่จะทำสิ่งนี้ตราบใดที่การกระจายของคุณเหมาะกับหนึ่งในตัวเช่นถ้าเป็นเรื่องปกติ แต่มีวิธีง่ายๆในการทำเช่นนี้กับการแจกแจงแบบใดก็ตามโดยไม่ต้องตั้งสมมติฐานอย่างนั้นหรือ

14 r distributions p-value

2

จำนวนการเชื่อมต่อเป็น Gaussian ได้อย่างไรถ้าไม่สามารถลบได้?

ฉันกำลังวิเคราะห์เครือข่ายสังคมออนไลน์ (ไม่ใช่เสมือน) และฉันกำลังสังเกตการเชื่อมต่อระหว่างผู้คน หากบุคคลนั้นเลือกบุคคลอื่นเพื่อเชื่อมต่อแบบสุ่มจำนวนการเชื่อมต่อภายในกลุ่มบุคคลจะกระจายตามปกติอย่างน้อยตามหนังสือที่ฉันกำลังอ่าน เราจะรู้ได้อย่างไรว่าการแจกแจงเป็นแบบเกาส์ (ปกติ) มีการแจกแจงอื่น ๆ เช่น Poisson, Rice, Rayliegh เป็นต้นปัญหาของการแจกแจงแบบเกาส์ในทางทฤษฎีคือค่าจากถึง+ ∞ (แม้ว่าความน่าจะเป็นเป็นศูนย์) และจำนวนการเชื่อมต่อไม่สามารถลบได้−∞−∞-\infty+∞+∞+\infty ไม่มีใครรู้ว่าการกระจายใดที่สามารถคาดหวังในกรณีที่แต่ละคนเป็นอิสระ (สุ่ม) หยิบคนอื่นเพื่อเชื่อมต่อกับ?

14 distributions networks central-limit-theorem

2

การดำเนินงานเกี่ยวกับวิชาตรีโกณมิติเกี่ยวกับส่วนเบี่ยงเบนมาตรฐาน

การบวกการลบการคูณและการหารของตัวแปรสุ่มปกติมีความหมายที่ดี แต่การดำเนินการเกี่ยวกับวิชาตรีโกณมิติ? ยกตัวอย่างเช่นสมมติว่าฉันพยายามหามุมของสามเหลี่ยมลิ่ม (จำลองเป็นสามเหลี่ยมมุมฉาก) โดยมีสอง catheti ที่มีมิติd1d1d_1และd2d2d_2ทั้งคู่อธิบายว่าเป็นการแจกแจงแบบปกติ ทั้งสัญชาตญาณและการจำลองบอกว่าการกระจายที่เกิดเป็นเรื่องปกติที่มีค่าเฉลี่ยขวา) แต่มีวิธีคำนวณการกระจายตัวของมุมที่เกิดขึ้นหรือไม่? การอ้างอิงเกี่ยวกับที่ฉันจะหาคำตอบ?arctan(mean(d1)mean(d2))arctan⁡(mean(d1)mean(d2))\arctan\left(\frac{\text{mean}(d_1)}{\text{mean}(d_2)}\right) (สำหรับบริบทฉันกำลังทำงานกับความอดทนทางสถิติของชิ้นส่วนเครื่องจักรแรงกระตุ้นแรกของฉันคือการจำลองกระบวนการทั้งหมดเพียงแค่ตรวจสอบว่าผลลัพธ์สุดท้ายนั้นเป็นเรื่องปกติพอสมควรและคำนวณค่าเบี่ยงเบนมาตรฐาน แต่ฉันสงสัยว่า หากอาจมีวิธีวิเคราะห์เชิง neater)

14 distributions normal-distribution circular-statistics saddlepoint-approximation

4

มีคำถามเกี่ยวกับ KL divergence หรือไม่

ฉันกำลังเปรียบเทียบการแจกแจงสองแบบกับการกระจายของ KL ซึ่งให้ผลตอบแทนเป็นตัวเลขที่ไม่ได้มาตรฐานซึ่งตามที่ฉันอ่านเกี่ยวกับการวัดนี้คือปริมาณข้อมูลที่ต้องใช้เพื่อเปลี่ยนสมมติฐานหนึ่งไปเป็นอีกสมมติฐานหนึ่ง ฉันมีสองคำถาม: a) มีวิธีในการหาจำนวนความแตกต่างของ KL เพื่อให้การตีความมีความหมายมากกว่าเช่นขนาดของเอฟเฟกต์หรือ R ^ 2 หรือไม่? รูปแบบของมาตรฐานใด ๆ b) ใน R เมื่อใช้ KLdiv (แพ็คเกจ flexmix) เราสามารถตั้งค่า 'esp' (มาตรฐาน esp = 1e-4) ที่ตั้งค่าคะแนนทั้งหมดที่เล็กกว่า esp ถึงมาตรฐานบางอย่างเพื่อให้เสถียรภาพเชิงตัวเลข ฉันได้เล่นกับค่า esp ที่แตกต่างกันและสำหรับชุดข้อมูลของฉันฉันได้รับความแตกต่าง KL ที่ใหญ่ขึ้นเรื่อย ๆ ในจำนวนที่ฉันเลือกน้อยลง เกิดอะไรขึ้น? ฉันคาดหวังว่ายิ่ง esp ยิ่งน้อยผลลัพธ์ก็น่าเชื่อถือมากขึ้นเพราะพวกเขาปล่อยให้ 'คุณค่าที่แท้จริง' มากขึ้นกลายเป็นส่วนหนึ่งของสถิติ ไม่มี? ฉันต้องเปลี่ยน esp เพราะไม่เช่นนั้นจะไม่คำนวณสถิติ แต่แสดงเป็น NA ในตารางผลลัพธ์ …

14 distributions kullback-leibler information-geometry

1

Caret glmnet กับ cv.glmnet

ดูเหมือนจะมีความสับสนมากในการเปรียบเทียบการใช้glmnetภายในcaretเพื่อค้นหาแลมบ์ดาที่ดีที่สุดและใช้cv.glmnetในการทำงานเดียวกัน มีการตั้งคำถามมากมายเช่น: โมเดลการจำแนกประเภท train.glmnet vs. cv.glmnet วิธีที่เหมาะสมในการใช้ glmnet กับคาเร็ตคืออะไร? การตรวจสอบข้าม `glmnet 'โดยใช้` คาเร็ต' แต่ไม่ได้รับคำตอบซึ่งอาจเป็นเพราะความสามารถในการทำซ้ำของคำถาม ตามคำถามแรกฉันให้ตัวอย่างที่คล้ายกัน แต่มีคำถามเดียวกัน: ทำไม lambdas โดยประมาณแตกต่างกันอย่างไร library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to …

14 r caret glmnet machine-learning neural-networks maximum softmax probability distributions mathematical-statistics random-variable cdf statistical-significance variance expected-value ratio sample-size reliability tolerance-interval wilcoxon-signed-rank self-study variance sampling mean machine-learning svm libsvm self-study sampling ranks data-visualization histogram machine-learning classification normal-distribution mathematical-statistics maximum-likelihood mixture predictive-models prediction seasonality

1

Kolmogorov – Smirnov test กับ t-test

ฉันมีความยากลำบากในการเข้าใจการตีความของการทดสอบ KS ตัวอย่าง 2 ตัวและมันแตกต่างจากการทดสอบแบบปกติระหว่าง 2 กลุ่ม ให้บอกว่าฉันมีชายและหญิงทำงานบางอย่างและฉันรวบรวมคะแนนจากงานนั้น เป้าหมายสูงสุดของฉันคือการพิจารณาว่าเพศชายและเพศหญิงปฏิบัติงานต่างกันหรือไม่ สิ่งหนึ่งที่ฉันทำได้คือทดสอบระหว่าง 2 กลุ่ม อีกสิ่งหนึ่งที่ฉันทำได้คือคำนวณ ECDF สำหรับชายและหญิงพล็อตและทำการทดสอบ KS 2 ตัวอย่าง ฉันจะได้รับสิ่งนี้: การทดสอบ KS สมมติฐานว่างสำหรับการทดสอบ KS คือการแจกแจงคะแนนต่อเนื่อง 2 ชุดมาจากประชากรเดียวกัน เมื่อทำการทดสอบ KS ฉันได้รับ: D = 0.18888, p-value = 0.04742 ก่อนอื่นฉันต้องการตรวจสอบว่าการตีความผลลัพธ์ของฉันถูกต้อง ที่นี่ฉันจะปฏิเสธสมมติฐานว่างและบอกว่าการแจกแจงคะแนนชายและหญิงมาจากประชากรที่แตกต่างกัน หรือกล่าวอีกนัยหนึ่งการกระจายของคะแนนชายและหญิงนั้นแตกต่างกัน โดยเฉพาะอย่างยิ่งเพศชายมักจะมีโอกาสสูงที่จะได้คะแนนต่ำกว่าในงานนี้และนั่นคือความแตกต่างระหว่าง 2 เพศที่ฉันตีความจากเนื้อเรื่อง t-test ตอนนี้ที่การทดสอบจะทดสอบความแตกต่างระหว่างชายและหญิงหมายถึงตัวแปรคะแนน ให้จินตนาการถึงกรณีที่การแสดงของผู้ชายนั้นแย่กว่าผู้หญิงในงานนี้ ในกรณีดังกล่าวการกระจายของคะแนนชายจะมุ่งไปที่ค่าเฉลี่ยต่ำในขณะที่การแจกแจงคะแนนหญิงจะอยู่กึ่งกลางค่าเฉลี่ยสูง สถานการณ์นี้จะสอดคล้องกับพล็อตด้านบนเนื่องจากผู้ชายจะมีโอกาสสูงที่จะได้รับคะแนนต่ำกว่า หากการทดสอบเสื้อยืดออกมามีนัยสำคัญฉันจะสรุปได้ว่าคะแนนผู้หญิงโดยเฉลี่ยสูงกว่าเพศชายอย่างมีนัยสำคัญ หรือในแง่ของประชากรคะแนนหญิงมาจากประชากรที่มีค่าเฉลี่ยสูงกว่าประชากรชายซึ่งฟังดูคล้ายกับข้อสรุปของแคนซัสว่ามาจากประชากรที่แตกต่างกัน ความแตกต่างคืออะไร? ดังนั้นข้อสรุปฉันจะวาดทั้งใน …

14 distributions t-test interpretation kolmogorov-smirnov

คำถามติดแท็ก distributions