คำถามติดแท็ก distributions

การแจกแจงเป็นการอธิบายทางคณิตศาสตร์ของความน่าจะเป็นหรือความถี่

1
เป็นไปได้หรือไม่ที่จะรวม
ประการแรกฉันคิดว่ามีการรวมกฎเพื่อบูรณาการเชิงวิเคราะห์เพื่อแก้ปัญหานี้เมื่อเทียบกับการวิเคราะห์เชิงตัวเลข (เช่นสี่เหลี่ยมคางหมูกฎ Gauss-Legendre หรือ Simpson) หรือไม่ ฉันมีฟังก์ชั่นโดยที่ g ( x ; μ , σ ) = 1ฉ( x ) = x g( x ; μ , σ)f(x)=xg(x;μ,σ)\newcommand{\rd}{\mathrm{d}}f(x) = x g(x; \mu, \sigma) เป็นฟังก์ชั่นความหนาแน่นของความน่าจะเป็นของการกระจาย lognormal กับพารามิเตอร์μและσ ด้านล่างนี้ฉันจะย่อเครื่องหมายเป็นg(x)และใช้G(x)สำหรับฟังก์ชันการแจกแจงสะสมก.( x ; μ , σ) = 1σx 2 π--√อี- 12 σ2( บันทึก( x ) …

4
การทดสอบเพื่อเปรียบเทียบองค์ประกอบชุมชนคืออะไร
หวังว่าคำถาม newbie นี้เป็นคำถามที่เหมาะสมสำหรับเว็บไซต์นี้: สมมติว่าฉันต้องการเปรียบเทียบองค์ประกอบของชุมชนนิเวศวิทยาที่สองไซต์ A, B. ฉันรู้ว่าทั้งสามไซต์มีสุนัขแมววัวและนกดังนั้นฉันจึงลองชิมความอุดมสมบูรณ์ของพวกเขาในแต่ละไซต์ (ฉันไม่มี " คาดว่า "ความอุดมสมบูรณ์ของสัตว์แต่ละตัวในแต่ละไซต์) ถ้าฉันนับให้พูดว่าสัตว์แต่ละตัวห้าตัวในแต่ละไซต์ A และ B นั้น "คล้ายกัน" มาก แต่ถ้าฉันเจอสุนัข 100 ตัวแมว 5 ตัววัว 2 ตัวและนก 3 ตัวที่ไซต์ A. สุนัข 5 ตัวแมว 3 ตัววัว 75 ตัวและนก 2 ตัวที่ไซต์ B จากนั้นฉันจะบอกว่าไซต์ A และ B นั้นแตกต่างกัน แม้ว่าจะมีองค์ประกอบสปีชีส์เดียวกันแน่นอน (ฉันอ่านดัชนีโซเรนเซนและเบรย์ - เคอร์ติส แต่ดูเหมือนว่าพวกเขาจะพิจารณาว่ามี / ไม่มีสุนัขแมว …

2
ฉันจะกำหนดพารามิเตอร์ weibull จากข้อมูลได้อย่างไร
ฉันมีฮิสโตแกรมของข้อมูลความเร็วลมซึ่งมักแสดงโดยใช้การแจกแจงแบบ Weibull ฉันต้องการคำนวณรูปร่างของ weibull และสเกลแฟคเตอร์ที่เหมาะสมที่สุดกับฮิสโตแกรม ฉันต้องการโซลูชันเชิงตัวเลข (ตรงข้ามกับโซลูชันกราฟิก ) เนื่องจากเป้าหมายคือการกำหนดรูปแบบ weibull โดยทางโปรแกรม แก้ไข: เก็บตัวอย่างทุก 10 นาทีความเร็วลมเฉลี่ยตลอด 10 นาที ตัวอย่างรวมถึงความเร็วลมสูงสุดและต่ำสุดที่บันทึกไว้ในแต่ละช่วงเวลาซึ่งจะถูกละเว้นในปัจจุบัน แต่ฉันต้องการรวมไว้ในภายหลัง ความกว้างของช่องเก็บคือ 0.5 m / s

1
การรักษาค่าผิดปกติที่ผลิตโดย Kurtosis
ฉันสงสัยว่าใครสามารถช่วยฉันเกี่ยวกับข้อมูลเกี่ยวกับ Kurtosis (เช่นมีวิธีแปลงข้อมูลของคุณเพื่อลดหรือไม่) ฉันมีชุดข้อมูลแบบสอบถามที่มีเคสและตัวแปรจำนวนมาก สำหรับตัวแปรบางตัวของฉันข้อมูลแสดงค่า kurtosis ที่ค่อนข้างสูง (เช่นการกระจายตัวของเลปโตคูเทอริก) ซึ่งมาจากข้อเท็จจริงที่ว่าผู้เข้าร่วมจำนวนมากให้คะแนนเดียวกันกับตัวแปร ฉันมีขนาดตัวอย่างขนาดใหญ่เป็นพิเศษดังนั้นตามทฤษฎีบทขีด จำกัด กลางการฝ่าฝืนกฎเกณฑ์ก็ควรจะดี อย่างไรก็ตามปัญหาคือความจริงที่ว่าระดับสูงโดยเฉพาะอย่างยิ่งของ Kurtosis กำลังผลิตจำนวนของค่าผิดปกติที่ไม่เปลี่ยนแปลงในชุดข้อมูลของฉัน ดังนั้นแม้ว่าฉันจะแปลงข้อมูลหรือลบ / ปรับค่าผิดปกติระดับสูงของ kurtosis หมายความว่าคะแนนสูงสุดต่อไปจะกลายเป็นค่าผิดปกติโดยอัตโนมัติ ฉันมุ่งหวังที่จะใช้ (การวิเคราะห์ฟังก์ชั่นจำแนก) DFA นั้นมีความแข็งแกร่งในการออกจากภาวะปกติหากการละเมิดนั้นเกิดจากความเบ้และไม่ใช่ค่าผิดปกติ นอกจากนี้ DFA ยังได้รับการกล่าวถึงว่าได้รับอิทธิพลจากค่าผิดปกติในข้อมูล (Tabachnick & Fidel) โดยเฉพาะ มีความคิดเห็นเกี่ยวกับวิธีแก้ไขปัญหานี้อย่างไร? (ความคิดเริ่มต้นของฉันคือวิธีการควบคุม Kurtosis แต่มันไม่ได้เป็นสิ่งที่ดีถ้าตัวอย่างส่วนใหญ่ของฉันให้คะแนนคล้ายกัน?)

2
ค่ามัธยฐานของการแจกแจงทีไม่ใช่แบบศูนย์กลางคืออะไร?
ค่ามัธยฐานของคืออะไรการแจกแจงทีไม่ใช่กลางที่ไม่ใช่ศูนย์กลางพารามิเตอร์ ? นี่อาจเป็นคำถามที่สิ้นหวังเพราะ CDF ดูเหมือนจะแสดงเป็นผลรวมไม่สิ้นสุดและฉันไม่สามารถหาข้อมูลใด ๆ เกี่ยวกับฟังก์ชั่น CDF ที่ตรงกันข้ามδ≠0δ≠0\delta \ne 0

3
วิธีการประมาณพารามิเตอร์สำหรับการกระจาย Zipf ตัดทอนจากตัวอย่างข้อมูล?
ฉันมีปัญหากับพารามิเตอร์การประมาณสำหรับ Zipf สถานการณ์ของฉันมีดังต่อไปนี้: ฉันมีชุดตัวอย่าง (วัดจากการทดลองที่สร้างการโทรที่ควรทำตามการแจกแจงแบบ Zipf) ฉันต้องแสดงให้เห็นว่าเครื่องกำเนิดนี้สร้างสายด้วยการกระจาย zipf จริงๆ ฉันอ่านคำถาม & คำตอบนี้แล้วจะคำนวณค่าสัมประสิทธิ์ของกฎหมายของ Zipf จากความถี่สูงสุดหนึ่งชุดได้อย่างไร แต่ฉันไปถึงผลลัพธ์ที่ไม่ดีเพราะฉันใช้การแจกแจงที่ถูกตัดทอน ตัวอย่างเช่นถ้าฉันตั้งค่า "s" เป็น "0.9" สำหรับกระบวนการสร้างถ้าฉันพยายามประเมินค่า "s" ตามที่เขียนไว้ใน Q&A ที่รายงานฉันได้รับ "s" เท่ากับ 0.2 ca ฉันคิดว่านี่เป็นเพราะความจริงที่ว่าฉันใช้การกระจาย TRUNCATED (ฉันต้อง จำกัด zipf ด้วยจุดที่ถูกตัดทอนมันถูกตัดทอน) ฉันจะประมาณค่าพารามิเตอร์ด้วยการกระจาย zipf ที่ถูกตัดทอนได้อย่างไร

2
การทดสอบไคสแควร์เพื่อความเท่าเทียมกันของการแจกแจง: มีศูนย์กี่ตัวที่ทนได้?
ฉันกำลังเปรียบเทียบการกลายพันธุ์สองกลุ่มแต่ละกลุ่มสามารถมีฟีโนไทป์ที่แตกต่างกันเพียงหนึ่งใน 21 ชนิด ฉันต้องการดูว่าการกระจายตัวของผลลัพธ์เหล่านี้คล้ายกันระหว่างสองกลุ่มหรือไม่ ฉันพบการทดสอบออนไลน์ ที่คำนวณ "การทดสอบไคสแควร์เพื่อความเท่าเทียมของการแจกแจง" และให้ผลลัพธ์ที่น่าเชื่อถือแก่ฉัน อย่างไรก็ตามฉันมีเลขศูนย์สองสามตัวในตารางนี้ฉันสามารถใช้ไคสแควร์ในกรณีนี้ได้หรือไม่? นี่คือตารางที่มีสองกลุ่มและจำนวนฟีโนไทป์โดยเฉพาะ: 2 1 2 3 1 6 1 4 13 77 7 27 0 1 0 4 0 2 2 7 2 3 1 5 1 9 2 6 0 3 3 0 1 3 0 3 1 0 1 2 …

4
พล็อต QQ เชิงปริมาณ
qq-plot สามารถใช้เพื่อให้เห็นภาพว่าการแจกแจงสองแบบที่เหมือนกันนั้นมีความคล้ายคลึงกันอย่างไร (เช่นการแสดงภาพความคล้ายคลึงกันของการแจกแจงกับการแจกแจงแบบปกติ มีสถิติใดบ้างที่สร้างจุดประสงค์และการวัดเชิงตัวเลขที่แสดงถึงความคล้ายคลึงกันมากกว่า (ควรอยู่ในรูปแบบปกติ (0 <= x <= 1)) ค่าสัมประสิทธิ์ Gini เป็นตัวอย่างที่ใช้ในเศรษฐศาสตร์เมื่อทำงานกับเส้นโค้ง Lorenz; มีบางอย่างสำหรับแผนการ QQ

4
วิธีการมองหาหุบเขาในกราฟ?
ฉันกำลังตรวจสอบข้อมูลความครอบคลุมจีโนมซึ่งโดยทั่วไปเป็นจำนวนเต็ม (ไม่กี่ล้านค่า) ของจำนวนเต็มแต่ละคนบอกว่าตำแหน่งนี้ในจีโนมดีแค่ไหน (หรือ "ลึก") ฉันต้องการค้นหา "หุบเขา" ในข้อมูลนี้นั่นคือภูมิภาคที่ "ต่ำ" อย่างมีนัยสำคัญมากกว่าสภาพแวดล้อมโดยรอบ โปรดทราบว่าขนาดของหุบเขาที่ฉันกำลังมองหาอาจมีตั้งแต่ 50 ฐานไปจนถึงสองสามพันแห่ง คุณอยากจะแนะนำกระบวนทัศน์ประเภทใดในการค้นหาหุบเขาเหล่านั้น UPDATE ตัวอย่างกราฟิกสำหรับข้อมูล: อัพเดท 2 การกำหนดว่าหุบเขาคืออะไรแน่นอนว่าเป็นหนึ่งในคำถามที่ฉันต้องดิ้นรน นี่คือสิ่งที่ชัดเจนสำหรับฉัน: แต่มีบางสถานการณ์ที่ซับซ้อนมากขึ้น โดยทั่วไปมีหลักเกณฑ์ 3 ข้อที่ฉันพิจารณา: 1. ความครอบคลุม (โดยเฉลี่ย? สูงสุด) ในหน้าต่างที่เกี่ยวข้องกับค่าเฉลี่ยทั่วโลก 2. ความครอบคลุม (... ) ในหน้าต่างที่เกี่ยวกับบริเวณโดยรอบ 3. วิธีการที่มีขนาดใหญ่เป็นหน้าต่าง: หากฉันเห็นความคุ้มครองที่ต่ำมากสำหรับช่วงสั้น ๆ เป็นที่น่าสนใจถ้าฉันเห็นความคุ้มครองที่ต่ำมากสำหรับช่วงยาวก็ยังน่าสนใจถ้าฉันเห็นความคุ้มครองต่ำอย่างอ่อนโยนสำหรับช่วงสั้นก็ไม่น่าสนใจจริงๆ แต่ถ้าฉันเห็นการครอบคลุมที่ต่ำอย่างอ่อนโยนเป็นเวลานาน - มันคือ .. ดังนั้นมันจึงเป็นการรวมกันของความยาวของ sapn และความครอบคลุม ยิ่งฉันปล่อยให้ความคุ้มครองสูงเท่าไหร่และยิ่งคิดว่าเป็นหุบเขา ขอบคุณ เดฟ

3
การแพร่กระจายของ
ในการออกกำลังกายเป็นประจำฉันพยายามค้นหาการกระจายของโดยที่ และเป็นอิสระจากตัวแปรสุ่มX2+Y2−−−−−−−√X2+Y2\sqrt{X^2+Y^2}XXXYYYU(0,1)U(0,1) U(0,1) ความหนาแน่นรอยต่อของคือ (X,Y)(X,Y)(X,Y)fX,Y(x,y)=10&lt;x,y&lt;1fX,Y(x,y)=10&lt;x,y&lt;1f_{X,Y}(x,y)=\mathbf 1_{0\cos^{-1}\left(\frac{1}{z}\right)cosθcos⁡θ\cos\thetaθ∈[0,π2]θ∈[0,π2]\theta\in\left[0,\frac{\pi}{2}\right]zsinθ&lt;1⟹θ&lt;sin−1(1z)zsin⁡θ&lt;1⟹θ&lt;sin−1⁡(1z)z\sin\theta<1\implies\theta<\sin^{-1}\left(\frac{1}{z}\right)sinθsin⁡θ\sin\thetaθ∈[0,π2]θ∈[0,π2]\theta\in\left[0,\frac{\pi}{2}\right] ดังนั้นสำหรับเรามีขวา)1&lt;z&lt;2–√1&lt;z&lt;21< z<\sqrt 2cos−1(1z)&lt;θ&lt;sin−1(1z)cos−1⁡(1z)&lt;θ&lt;sin−1⁡(1z)\cos^{-1}\left(\frac{1}{z}\right)<\theta<\sin^{-1}\left(\frac{1}{z}\right) ค่าสัมบูรณ์ของการแปลงจาโคเบียนคือ|J|=z|J|=z|J|=z ดังนั้นความหนาแน่นรอยต่อของจึงถูกกำหนดโดย(Z,Θ)(Z,Θ)(Z,\Theta) fZ,Θ(z,θ)=z1{z∈(0,1),θ∈(0,π/2)}⋃{z∈(1,2√),θ∈(cos−1(1/z),sin−1(1/z))}fZ,Θ(z,θ)=z1{z∈(0,1),θ∈(0,π/2)}⋃{z∈(1,2),θ∈(cos−1⁡(1/z),sin−1⁡(1/z))}f_{Z,\Theta}(z,\theta)=z\mathbf 1_{\{z\in(0,1),\,\theta\in\left(0,\pi/2\right)\}\bigcup\{z\in(1,\sqrt2),\,\theta\in\left(\cos^{-1}\left(1/z\right),\sin^{-1}\left(1/z\right)\right)\}} เมื่อรวมเข้ากับเราได้รับ pdf ของเป็นθθ\thetaZZZ fZ(z)=πz210&lt;z&lt;1+(πz2−2zcos−1(1z))11&lt;z&lt;2√fZ(z)=πz210&lt;z&lt;1+(πz2−2zcos−1⁡(1z))11&lt;z&lt;2f_Z(z)=\frac{\pi z}{2}\mathbf 1_{0\sqrt 2 \end{cases} ซึ่งดูเหมือนว่าการแสดงออกที่ถูกต้อง การแยกสำหรับกรณีที่ถึงแม้ว่าจะแสดงนิพจน์ซึ่งไม่ทำให้ PDF ง่ายขึ้นเท่าที่ฉันได้รับมาFZFZF_Z1&lt;z&lt;2–√1&lt;z&lt;21< z<\sqrt 2 ในที่สุดฉันคิดว่าฉันมีภาพที่ถูกต้องสำหรับ CDF: สำหรับ :0&lt;z&lt;10&lt;z&lt;10<z<1 และสำหรับ :1&lt;z&lt;2–√1&lt;z&lt;21<z<\sqrt 2 ส่วนที่แรเงาควรระบุพื้นที่ของพื้นที่{(x,y):0&lt;x,y&lt;1,x2+y2≤z2}{(x,y):0&lt;x,y&lt;1,x2+y2≤z2}\left\{(x,y):0<x,y< 1\,,\,x^2+y^2\le z^2\right\} ภาพให้ผลตอบแทนทันที FZ(z)=Pr(−z2−X2−−−−−−−√≤Y≤z2−X2−−−−−−−√)=⎧⎩⎨⎪⎪⎪⎪πz24z2−1−−−−−√+∫1z2−1√z2−x2−−−−−−√dx, if 0&lt;z&lt;1, if 1&lt;z&lt;2–√FZ(z)=Pr(−z2−X2≤Y≤z2−X2)={πz24, if 0&lt;z&lt;1z2−1+∫z2−11z2−x2dx, if 1&lt;z&lt;2\begin{align} F_Z(z)&=\Pr\left(-\sqrt{z^2-X^2}\le Y\le\sqrt{z^2-X^2}\right) \\&=\begin{cases}\frac{\pi …

3
กำลังคำนวณการแจกแจงจากค่าต่ำสุดค่าเฉลี่ยและค่าสูงสุด
สมมติว่าฉันมีชุดข้อมูลขั้นต่ำค่าเฉลี่ยและสูงสุดของชุดข้อมูลพูด 10, 20 และ 25 มีวิธีการ: สร้างการกระจายจากข้อมูลเหล่านี้และ รู้ว่าร้อยละของประชากรที่น่าจะอยู่เหนือหรือต่ำกว่าค่าเฉลี่ย แก้ไข: ตามคำแนะนำของ Glen สมมติว่าเรามีขนาดตัวอย่าง 200

3
ปกติหารด้วยให้การแจกแจงแบบที - พิสูจน์ได้
ให้และ(s)Z∼N(0,1)Z∼N(0,1)Z \sim N(0,1)W∼χ2(s)W∼χ2(s)W \sim \chi^2(s) หากและมีการกระจายอย่างอิสระแล้วตัวแปรดังต่อไปนี้การกระจายกับองศาอิสระsZZZWWWY=ZW/s√Y=ZW/sY = \frac{Z}{\sqrt{W/s}}tttsss ฉันกำลังมองหาหลักฐานของความจริงนี้การอ้างอิงที่ดีพอถ้าคุณไม่ต้องการที่จะเขียนอาร์กิวเมนต์ที่สมบูรณ์

4
รูปแบบประวัติเหตุการณ์แบบไม่ต่อเนื่อง (การอยู่รอด) ใน R
ฉันกำลังพยายามปรับโมเดลที่ไม่ต่อเนื่องใน R แต่ฉันไม่แน่ใจว่าจะทำอย่างไร ฉันได้อ่านแล้วว่าคุณสามารถจัดระเบียบตัวแปรตามในแถวต่างกันหนึ่งตัวสำหรับแต่ละการสังเกตเวลาและการใช้glmฟังก์ชั่นที่มีลิงค์ logit หรือ cloglog ในแง่นี้ฉันมีสามคอลัมน์: ID, Event(1 หรือ 0 ในแต่ละช่วงเวลา) และTime Elapsed(ตั้งแต่จุดเริ่มต้นของการสังเกต) รวมทั้ง covariates อื่น ๆ ฉันจะเขียนรหัสเพื่อให้พอดีกับรุ่นได้อย่างไร ตัวแปรตามคืออะไร ฉันเดาว่าฉันสามารถใช้Eventเป็นตัวแปรตามและรวมTime Elapsedอยู่ใน covariates แต่สิ่งที่เกิดขึ้นกับID? ฉันต้องการมันไหม ขอบคุณ
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 


3
มีขีด จำกัด สูงสุดของจำนวนช่วงเวลาในฮิสโตแกรมหรือไม่?
ฉันได้อ่านหลายบทความและเนื้อหาจากหนังสือที่อธิบายถึงวิธีการเลือกที่ดีจำนวนของช่วง (ถังขยะ) สำหรับ histogram ของชุดข้อมูล แต่ฉันสงสัยว่าถ้ามีความยากสูงสุดจำนวนช่วงเวลาที่อยู่กับจำนวนของคะแนนใน ชุดข้อมูลหรือเกณฑ์อื่น ๆ ความเป็นมา:เหตุผลที่ฉันถามคือฉันพยายามเขียนซอฟต์แวร์ตามขั้นตอนจากรายงานการวิจัย ขั้นตอนหนึ่งในกระบวนการนี้คือการสร้างฮิสโตแกรมหลาย ๆ อันจากชุดข้อมูลจากนั้นเลือกความละเอียดที่เหมาะสมที่สุดตามฟังก์ชั่นลักษณะ (กำหนดโดยผู้เขียนบทความ) ปัญหาของฉันคือผู้เขียนไม่ได้กล่าวถึงขอบเขตบนสำหรับช่วงเวลาที่จะทดสอบ (ฉันมีหลายร้อยชุดข้อมูลในการวิเคราะห์และแต่ละคนสามารถมีความแตกต่างกัน "ที่ดีที่สุด" จำนวนของถังขยะ. นอกจากนี้มันเป็นสิ่งสำคัญที่ดีที่สุดจำนวนถังขยะจะถูกเลือกเพื่อให้ตนเองดูที่ผลลัพธ์และการเลือกที่ดีจะไม่ งาน.) การกำหนดจำนวนช่วงเวลาสูงสุดเพียงเพื่อให้เป็นจำนวนคะแนนในชุดข้อมูลเป็นแนวทางที่ดีหรือมีเกณฑ์อื่น ๆ ที่มักใช้ในสถิติหรือไม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.