คำถามติดแท็ก distributions

การแจกแจงเป็นการอธิบายทางคณิตศาสตร์ของความน่าจะเป็นหรือความถี่

3
สามารถสร้างการกระจายข้อต่อ 3D ได้อีกครั้งด้วยระยะขอบ 2 มิติหรือไม่
สมมติว่าเรารู้ว่า p (x, y), p (x, z) และ p (y, z), จริงไหมที่การกระจายข้อต่อ p (x, y, z) สามารถระบุได้? นั่นคือมีเพียง p (x, y, z) ที่เป็นไปได้ซึ่งมีระยะขอบเกินหรือไม่

3
คำจำกัดความของตระกูลของการแจกแจง?
ตระกูลการแจกแจงมีคำจำกัดความทางสถิติที่แตกต่างจากในสาขาอื่นหรือไม่? โดยทั่วไปแล้วตระกูลของเส้นโค้งคือชุดของเส้นโค้งซึ่งแต่ละชุดจะได้รับจากฟังก์ชั่นหรือ parametrization ซึ่งพารามิเตอร์หนึ่งตัวหรือมากกว่านั้นแตกต่างกันไป ครอบครัวดังกล่าวจะใช้สำหรับตัวอย่างเช่นในการอธิบายลักษณะของชิ้นส่วนอิเล็กทรอนิกส์ สำหรับสถิติตระกูลตามแหล่งเดียวคือผลลัพธ์ของการเปลี่ยนแปลงพารามิเตอร์รูปร่าง แล้วเราจะเข้าใจได้อย่างไรว่าการแจกแจงแกมม่านั้นมีพารามิเตอร์รูปร่างและขนาดและมีเพียงการกระจายแกมม่าทั่วไปเท่านั้นที่มีอยู่นอกจากนี้พารามิเตอร์ตำแหน่ง? สิ่งนี้ทำให้ครอบครัวเป็นผลมาจากการเปลี่ยนพารามิเตอร์ตำแหน่งที่ตั้งหรือไม่ ตามที่ @whuber ความหมายของครอบครัวนั้นโดยปริยาย"พารามิเตอร์" ของครอบครัวนั้นเป็นแผนที่ต่อเนื่องจากเซตย่อยของℝ nโดยมีโทโพโลยีปกติเข้าสู่พื้นที่ของการกระจายซึ่งเป็นภาพครอบครัวนั้นnn^n ครอบครัวที่ใช้ภาษาง่าย ๆ คืออะไรสำหรับการแจกแจงเชิงสถิติ? คำถามเกี่ยวกับความสัมพันธ์ระหว่างคุณสมบัติทางสถิติของการแจกแจงจากตระกูลเดียวกันได้สร้างความขัดแย้งอย่างมากสำหรับคำถามที่แตกต่างดังนั้นมันจึงคุ้มค่าที่จะสำรวจความหมาย ว่านี่ไม่ใช่คำถามง่าย ๆ ที่เกิดจากการใช้ในวลีexponential familyซึ่งไม่มีส่วนเกี่ยวข้องกับตระกูลของ curves แต่เกี่ยวข้องกับการเปลี่ยนรูปแบบ PDF ของการแจกแจงโดยการเปลี่ยนพารามิเตอร์ใหม่ไม่เพียง แต่พารามิเตอร์ แต่ยังทดแทนหน้าที่ของตัวแปรสุ่มอิสระ

1
Jeffreys ก่อนหน้าสำหรับพารามิเตอร์หลายตัว
ในบางกรณี Jeffreys ก่อนหน้าสำหรับโมเดลหลายมิติเต็มรูปแบบจะถูกพิจารณาว่าไม่เพียงพอนี่เป็นตัวอย่างกรณีใน: (โดยที่ ε ∼ N ( 0 , σ 2 ) , โดยมี μและ σไม่ทราบ) โดยที่ก่อนหน้านี้ต้องการ (สำหรับ Jeffreys เต็มก่อนหน้า π ( μ , σ ) ∝ σ - 2 ): p ( μ , σ ) = π ( μ ) ⋅ π ( σ ) อัลฟ่าσ - …

2
การสุ่มตัวอย่างจากการแจกแจง von Mises-Fisher ใน Python?
ฉันกำลังมองหาวิธีง่ายๆในการสุ่มตัวอย่างจากการแจกแจงหลายตัวแปร von Mises-Fisherใน Python ฉันได้ดูในโมดูลสถิติใน scipyและโมดูล numpyแต่พบการกระจาย von Mises univariate เท่านั้น มีรหัสอะไรบ้าง? ฉันยังไม่พบ เห็นได้ชัดว่า Wood (1994) ได้ออกแบบอัลกอริทึมสำหรับการสุ่มตัวอย่างจากการกระจาย vMF ตามลิงค์นี้แต่ฉันไม่พบกระดาษ - แก้ไขเพื่อความแม่นยำฉันสนใจอัลกอริทึมที่หายากในวรรณกรรม (เอกสารส่วนใหญ่เน้นที่ ) บทความ seminal (Wood, 1994) ไม่สามารถพบได้ฟรีสำหรับความรู้ของฉันS2S2S^2

2
การกระจายตัวของความแปรปรวนของตัวแปรกำลังสองและไคสแควร์?
ปัญหาต่อไปนี้เกิดขึ้นเมื่อเร็ว ๆ นี้ขณะวิเคราะห์ข้อมูล หากตัวแปรสุ่ม X ตามการแจกแจงปกติและ Y ตามการแจกแจงχ2nχn2\chi^2_n (ด้วย n dof) Z=X2+Y2Z=X2+Y2Z = X^2 + Y^2กระจายอย่างไร ถึงตอนนี้ฉันมากับ pdf ของY2Y2Y^2 : ψ2n(x)====∂F(x−−√)∂x(∫x√0tn/2−1⋅e−t/22n/2Γ(n/2)dt)′x12n/2Γ(n/2)⋅(x−−√)n/2−1⋅e−x√/2⋅(x−−√)′x12n/2−1Γ(n/2)⋅xn/4−1⋅e−x√/2ψn2(x)=∂F(x)∂x=(∫0xtn/2−1⋅e−t/22n/2Γ(n/2)dt)x′=12n/2Γ(n/2)⋅(x)n/2−1⋅e−x/2⋅(x)x′=12n/2−1Γ(n/2)⋅xn/4−1⋅e−x/2\begin{eqnarray} \psi^2_n(x) &=& \frac{\partial F(\sqrt{x})}{\partial x} \\ &=& \left( \int_0^{\sqrt{x}} \frac{t^{n/2-1}\cdot e^{-t/2}}{2^{n/2}\Gamma(n/2)} \mathrm{d}t \right)^\prime_x \\ &=& \frac{1}{2^{n/2}\Gamma(n/2)} \cdot \left( \sqrt{x} \right)^{n/2-1} \cdot e^{-\sqrt{x}/2} \cdot \left( \sqrt{x} \right)^\prime_x \\ &=& \frac{1}{2^{n/2-1}\Gamma(n/2)} …

5
วิธีปรับให้พอดีกับการแจกแจงแบบ Weibull กับข้อมูลอินพุตที่มีเลขศูนย์
ฉันกำลังพยายามสร้างอัลกอริทึมการทำนายที่มีอยู่โดยนักวิจัยที่เกษียณแล้ว ขั้นตอนแรกคือเพื่อให้พอดีกับข้อมูลที่สังเกตได้บางอย่างกับการแจกแจงแบบ Weibull เพื่อให้ได้รูปร่างและมาตราส่วนซึ่งจะใช้ในการทำนายค่าในอนาคต ฉันใช้ R เพื่อทำสิ่งนี้ นี่คือตัวอย่างของรหัสของฉัน: x<-c(23,19,37,38,40,36,172,48,113,90,54,104,90,54,157,51,77,78,144,34,29,45,16,15,37,218,170,44,121) f<-fitdistr(x, 'weibull') สิ่งนี้ทำงานได้ดียกเว้นว่ามีเลขศูนย์ใด ๆ ในอาร์เรย์อินพุตซึ่งทำให้มันล้มเหลวอย่างสมบูรณ์ สิ่งเดียวกันเกิดขึ้นใน SAS ดังที่ฉันเข้าใจแล้วนี่เป็นเพราะหนึ่งในขั้นตอนในการคำนวณการแจกแจงแบบ Weibull คือการบันทึกตามธรรมชาติซึ่งไม่ได้กำหนดไว้สำหรับ 0 มีวิธีที่เหมาะสมในการแก้ไขปัญหานี้หรือไม่? สิ่งที่ดีที่สุดที่ฉันเคยพบคือการเพิ่ม 1 ให้กับค่าอินพุตทั้งหมดของฉันให้พอดีกับเส้นโค้งแล้วลบหนึ่งค่าจากค่าที่คาดการณ์ไว้ของฉัน ("เลื่อน" เส้นโค้งขึ้นแล้วกลับลง 1) ซึ่งตรงกับข้อมูลที่คาดการณ์ไว้ก่อนหน้านี้ค่อนข้างดี แต่ดูเหมือนว่ามันจะต้องเป็นวิธีที่ผิดในการทำเช่นนั้น แก้ไข: ค่าในอาร์เรย์อินพุตจะถูกตรวจสอบข้อมูลในโลกแห่งความเป็นจริง (จำนวนการเกิดขึ้นของบางสิ่งบางอย่าง) เป็นระยะเวลาหลายปี ดังนั้นในบางปีจำนวนการเกิดขึ้นจึงเป็นศูนย์ ไม่ว่าจะเป็นวิธีที่ดีที่สุดหรือไม่ (ฉันยอมรับว่าอาจไม่ใช่) ผู้เขียนอัลกอริทึมดั้งเดิมอ้างว่าใช้การกระจาย Weibull และฉันต้องพยายามทำซ้ำกระบวนการของพวกเขา

3
การกระจายที่ถูกตัดทอนหมายความว่าอย่างไร
ในบทความวิจัยเกี่ยวกับการวิเคราะห์ความอ่อนไหวของตัวแบบสมการเชิงอนุพันธ์สามัญของระบบไดนามิกผู้เขียนให้การแจกแจงของพารามิเตอร์แบบจำลองเป็นการแจกแจงแบบปกติ (Mean = 1e-4, std = 3e-5) ถูกตัดให้อยู่ในช่วง [0.5e -4 1.5e-4] จากนั้นเขาใช้ตัวอย่างจากการแจกแจงแบบตัดปลายนี้เพื่อจำลองสถานการณ์ของแบบจำลอง การกระจายแบบตัดปลายและตัวอย่างจากการกระจายแบบตัดปลายหมายความว่าอย่างไร ฉันสามารถสร้างวิธีนี้ได้สองวิธี: ตัวอย่างจากการแจกแจงแบบปกติ แต่ไม่ต้องสนใจค่าสุ่มทั้งหมดที่อยู่นอกช่วงที่ระบุก่อนการจำลอง ได้รับการกระจาย "ปกติที่ถูกตัดทอน" เป็นพิเศษและรับตัวอย่างจากมัน แนวทางที่ถูกต้องและเท่าเทียมกันเหล่านี้หรือไม่ ผมเชื่อว่าในกรณีแรกหากมีการพล็อตทดลอง CDF / pdf ของกลุ่มตัวอย่างก็จะดูไม่เหมือนการกระจายปกติเพราะโค้งไม่ขยายไปถึง± ∞±∞\pm\infty ∞

3
วิธีการปรับขนาดไวโอลินสำหรับการเปรียบเทียบ?
ฉันกำลังพยายามวาดไวโอลินและสงสัยว่ามีวิธีปฏิบัติที่ดีที่สุดที่ยอมรับได้สำหรับการปรับขนาดพวกมันข้ามกลุ่มหรือไม่ นี่คือสามตัวเลือกที่ฉันได้ลองใช้mtcarsชุดข้อมูลR (Motor Trend Cars จากปี 1973 พบได้ที่นี่ ) ความกว้างเท่ากัน ดูเหมือนจะเป็นสิ่งที่กระดาษต้นฉบับ * ทำและสิ่งที่ R vioplotทำ ( ตัวอย่าง ) ดีสำหรับการเปรียบเทียบรูปร่าง พื้นที่ที่เท่าเทียมกัน ให้ความรู้สึกถูกต้องเนื่องจากแต่ละพล็อตเป็นพล็อตความน่าจะเป็นดังนั้นพื้นที่ของแต่ละอันควรเท่ากับ 1.0 ในพื้นที่ประสานงานบางแห่ง ดีสำหรับการเปรียบเทียบความหนาแน่นภายในแต่ละกลุ่ม แต่ดูเหมือนจะเหมาะสมกว่าหากมีการวางทับ พื้นที่ถ่วงน้ำหนัก ชอบพื้นที่เท่ากัน แต่ถ่วงน้ำหนักตามจำนวนการสังเกต 6 สูบค่อนข้างบางลงเนื่องจากมีรถยนต์น้อยกว่า ดีสำหรับการเปรียบเทียบความหนาแน่นข้ามกลุ่ม * พล็อตไวโอลิน: Synergis พล็อตกล่องความหนาแน่นของการติดตาม (DOI: 10.2307 / 2685478)

4
การแจกแจงของข้อผิดพลาดมีผลต่อการกระจายของการตอบสนองอย่างไร
ดังนั้นเมื่อฉันคิดว่าปกติแล้วข้อผิดพลาดจะถูกกระจายในการถดถอยเชิงเส้นมันหมายความว่าอะไรสำหรับตัวแปรตอบสนอง ?yyy

2
การคำนวณค่า p จากการแจกแจงโดยพลการ
ฉันหวังว่านี่ไม่ใช่คำถามงี่เง่า สมมติว่าฉันมีการกระจายอย่างต่อเนื่องโดยพลการ ฉันมีสถิติด้วยและฉันต้องการใช้การแจกแจงแบบสุ่มนี้เพื่อรับค่า p สำหรับสถิตินี้ ฉันรู้ว่าใน R มันง่ายที่จะทำสิ่งนี้ตราบใดที่การกระจายของคุณเหมาะกับหนึ่งในตัวเช่นถ้าเป็นเรื่องปกติ แต่มีวิธีง่ายๆในการทำเช่นนี้กับการแจกแจงแบบใดก็ตามโดยไม่ต้องตั้งสมมติฐานอย่างนั้นหรือ

2
จำนวนการเชื่อมต่อเป็น Gaussian ได้อย่างไรถ้าไม่สามารถลบได้?
ฉันกำลังวิเคราะห์เครือข่ายสังคมออนไลน์ (ไม่ใช่เสมือน) และฉันกำลังสังเกตการเชื่อมต่อระหว่างผู้คน หากบุคคลนั้นเลือกบุคคลอื่นเพื่อเชื่อมต่อแบบสุ่มจำนวนการเชื่อมต่อภายในกลุ่มบุคคลจะกระจายตามปกติอย่างน้อยตามหนังสือที่ฉันกำลังอ่าน เราจะรู้ได้อย่างไรว่าการแจกแจงเป็นแบบเกาส์ (ปกติ) มีการแจกแจงอื่น ๆ เช่น Poisson, Rice, Rayliegh เป็นต้นปัญหาของการแจกแจงแบบเกาส์ในทางทฤษฎีคือค่าจากถึง+ ∞ (แม้ว่าความน่าจะเป็นเป็นศูนย์) และจำนวนการเชื่อมต่อไม่สามารถลบได้−∞−∞-\infty+∞+∞+\infty ไม่มีใครรู้ว่าการกระจายใดที่สามารถคาดหวังในกรณีที่แต่ละคนเป็นอิสระ (สุ่ม) หยิบคนอื่นเพื่อเชื่อมต่อกับ?

2
การดำเนินงานเกี่ยวกับวิชาตรีโกณมิติเกี่ยวกับส่วนเบี่ยงเบนมาตรฐาน
การบวกการลบการคูณและการหารของตัวแปรสุ่มปกติมีความหมายที่ดี แต่การดำเนินการเกี่ยวกับวิชาตรีโกณมิติ? ยกตัวอย่างเช่นสมมติว่าฉันพยายามหามุมของสามเหลี่ยมลิ่ม (จำลองเป็นสามเหลี่ยมมุมฉาก) โดยมีสอง catheti ที่มีมิติd1d1d_1และd2d2d_2ทั้งคู่อธิบายว่าเป็นการแจกแจงแบบปกติ ทั้งสัญชาตญาณและการจำลองบอกว่าการกระจายที่เกิดเป็นเรื่องปกติที่มีค่าเฉลี่ยขวา) แต่มีวิธีคำนวณการกระจายตัวของมุมที่เกิดขึ้นหรือไม่? การอ้างอิงเกี่ยวกับที่ฉันจะหาคำตอบ?arctan(mean(d1)mean(d2))arctan⁡(mean(d1)mean(d2))\arctan\left(\frac{\text{mean}(d_1)}{\text{mean}(d_2)}\right) (สำหรับบริบทฉันกำลังทำงานกับความอดทนทางสถิติของชิ้นส่วนเครื่องจักรแรงกระตุ้นแรกของฉันคือการจำลองกระบวนการทั้งหมดเพียงแค่ตรวจสอบว่าผลลัพธ์สุดท้ายนั้นเป็นเรื่องปกติพอสมควรและคำนวณค่าเบี่ยงเบนมาตรฐาน แต่ฉันสงสัยว่า หากอาจมีวิธีวิเคราะห์เชิง neater)

4
มีคำถามเกี่ยวกับ KL divergence หรือไม่
ฉันกำลังเปรียบเทียบการแจกแจงสองแบบกับการกระจายของ KL ซึ่งให้ผลตอบแทนเป็นตัวเลขที่ไม่ได้มาตรฐานซึ่งตามที่ฉันอ่านเกี่ยวกับการวัดนี้คือปริมาณข้อมูลที่ต้องใช้เพื่อเปลี่ยนสมมติฐานหนึ่งไปเป็นอีกสมมติฐานหนึ่ง ฉันมีสองคำถาม: a) มีวิธีในการหาจำนวนความแตกต่างของ KL เพื่อให้การตีความมีความหมายมากกว่าเช่นขนาดของเอฟเฟกต์หรือ R ^ 2 หรือไม่? รูปแบบของมาตรฐานใด ๆ b) ใน R เมื่อใช้ KLdiv (แพ็คเกจ flexmix) เราสามารถตั้งค่า 'esp' (มาตรฐาน esp = 1e-4) ที่ตั้งค่าคะแนนทั้งหมดที่เล็กกว่า esp ถึงมาตรฐานบางอย่างเพื่อให้เสถียรภาพเชิงตัวเลข ฉันได้เล่นกับค่า esp ที่แตกต่างกันและสำหรับชุดข้อมูลของฉันฉันได้รับความแตกต่าง KL ที่ใหญ่ขึ้นเรื่อย ๆ ในจำนวนที่ฉันเลือกน้อยลง เกิดอะไรขึ้น? ฉันคาดหวังว่ายิ่ง esp ยิ่งน้อยผลลัพธ์ก็น่าเชื่อถือมากขึ้นเพราะพวกเขาปล่อยให้ 'คุณค่าที่แท้จริง' มากขึ้นกลายเป็นส่วนหนึ่งของสถิติ ไม่มี? ฉันต้องเปลี่ยน esp เพราะไม่เช่นนั้นจะไม่คำนวณสถิติ แต่แสดงเป็น NA ในตารางผลลัพธ์ …

1
Caret glmnet กับ cv.glmnet
ดูเหมือนจะมีความสับสนมากในการเปรียบเทียบการใช้glmnetภายในcaretเพื่อค้นหาแลมบ์ดาที่ดีที่สุดและใช้cv.glmnetในการทำงานเดียวกัน มีการตั้งคำถามมากมายเช่น: โมเดลการจำแนกประเภท train.glmnet vs. cv.glmnet วิธีที่เหมาะสมในการใช้ glmnet กับคาเร็ตคืออะไร? การตรวจสอบข้าม `glmnet 'โดยใช้` คาเร็ต' แต่ไม่ได้รับคำตอบซึ่งอาจเป็นเพราะความสามารถในการทำซ้ำของคำถาม ตามคำถามแรกฉันให้ตัวอย่างที่คล้ายกัน แต่มีคำถามเดียวกัน: ทำไม lambdas โดยประมาณแตกต่างกันอย่างไร library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to …

1
Kolmogorov – Smirnov test กับ t-test
ฉันมีความยากลำบากในการเข้าใจการตีความของการทดสอบ KS ตัวอย่าง 2 ตัวและมันแตกต่างจากการทดสอบแบบปกติระหว่าง 2 กลุ่ม ให้บอกว่าฉันมีชายและหญิงทำงานบางอย่างและฉันรวบรวมคะแนนจากงานนั้น เป้าหมายสูงสุดของฉันคือการพิจารณาว่าเพศชายและเพศหญิงปฏิบัติงานต่างกันหรือไม่ สิ่งหนึ่งที่ฉันทำได้คือทดสอบระหว่าง 2 กลุ่ม อีกสิ่งหนึ่งที่ฉันทำได้คือคำนวณ ECDF สำหรับชายและหญิงพล็อตและทำการทดสอบ KS 2 ตัวอย่าง ฉันจะได้รับสิ่งนี้: การทดสอบ KS สมมติฐานว่างสำหรับการทดสอบ KS คือการแจกแจงคะแนนต่อเนื่อง 2 ชุดมาจากประชากรเดียวกัน เมื่อทำการทดสอบ KS ฉันได้รับ: D = 0.18888, p-value = 0.04742 ก่อนอื่นฉันต้องการตรวจสอบว่าการตีความผลลัพธ์ของฉันถูกต้อง ที่นี่ฉันจะปฏิเสธสมมติฐานว่างและบอกว่าการแจกแจงคะแนนชายและหญิงมาจากประชากรที่แตกต่างกัน หรือกล่าวอีกนัยหนึ่งการกระจายของคะแนนชายและหญิงนั้นแตกต่างกัน โดยเฉพาะอย่างยิ่งเพศชายมักจะมีโอกาสสูงที่จะได้คะแนนต่ำกว่าในงานนี้และนั่นคือความแตกต่างระหว่าง 2 เพศที่ฉันตีความจากเนื้อเรื่อง t-test ตอนนี้ที่การทดสอบจะทดสอบความแตกต่างระหว่างชายและหญิงหมายถึงตัวแปรคะแนน ให้จินตนาการถึงกรณีที่การแสดงของผู้ชายนั้นแย่กว่าผู้หญิงในงานนี้ ในกรณีดังกล่าวการกระจายของคะแนนชายจะมุ่งไปที่ค่าเฉลี่ยต่ำในขณะที่การแจกแจงคะแนนหญิงจะอยู่กึ่งกลางค่าเฉลี่ยสูง สถานการณ์นี้จะสอดคล้องกับพล็อตด้านบนเนื่องจากผู้ชายจะมีโอกาสสูงที่จะได้รับคะแนนต่ำกว่า หากการทดสอบเสื้อยืดออกมามีนัยสำคัญฉันจะสรุปได้ว่าคะแนนผู้หญิงโดยเฉลี่ยสูงกว่าเพศชายอย่างมีนัยสำคัญ หรือในแง่ของประชากรคะแนนหญิงมาจากประชากรที่มีค่าเฉลี่ยสูงกว่าประชากรชายซึ่งฟังดูคล้ายกับข้อสรุปของแคนซัสว่ามาจากประชากรที่แตกต่างกัน ความแตกต่างคืออะไร? ดังนั้นข้อสรุปฉันจะวาดทั้งใน …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.