คำถามติดแท็ก distributions

การแจกแจงเป็นการอธิบายทางคณิตศาสตร์ของความน่าจะเป็นหรือความถี่

4
มีระยะทางน่าจะเป็นที่รักษาคุณสมบัติทั้งหมดของตัวชี้วัดหรือไม่?
ในการศึกษาระยะทาง Kullback – Leibler มีสองสิ่งที่เราเรียนรู้อย่างรวดเร็วคือมันไม่เคารพทั้งความไม่เท่าเทียมกันของสามเหลี่ยมและสมมาตรซึ่งเป็นคุณสมบัติที่จำเป็นของเมตริก คำถามของฉันคือว่ามีฟังก์ชั่นการวัดความหนาแน่นของความน่าจะเป็นที่ตอบสนองข้อ จำกัด ทั้งหมดของการวัดหรือไม่

2
ฟังก์ชันความหนาแน่นของความน่าจะเป็นเอนโทรปีสูงสุดคืออะไรสำหรับตัวแปรต่อเนื่องที่เป็นบวกของค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐาน
การกระจายเอนโทรปีสูงสุดสำหรับตัวแปรต่อเนื่องเชิงบวกคืออะไรในช่วงเวลาที่หนึ่งและสอง ตัวอย่างเช่นการแจกแจงแบบเกาส์คือการแจกแจงแบบเอนโทรปีสูงสุดสำหรับตัวแปรที่ไม่ได้ จำกัด เนื่องจากค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานและการแจกแจงแกมมาเป็นการแจกแจงแบบเอนโทรปีสูงสุดสำหรับตัวแปรบวกโดยให้ค่าเฉลี่ยและค่าเฉลี่ยของลอการิทึม

4
Boxplot เทียบเท่ากับการแจกของหนัก
สำหรับข้อมูลที่กระจายตามปกติประมาณกล่องแปลงเป็นวิธีที่ดีในการมองเห็นค่ามัธยฐานและการแพร่กระจายของข้อมูลได้อย่างรวดเร็วเช่นเดียวกับการปรากฏตัวของค่าผิดปกติใด ๆ อย่างไรก็ตามสำหรับการแจกแจงแบบเทลด์ที่หนักกว่านั้นจำนวนมากของคะแนนจะแสดงเป็นค่าผิดปกติเนื่องจากค่าผิดปกติถูกกำหนดว่าอยู่นอกปัจจัยคงที่ของ IQR และสิ่งนี้เกิดขึ้นแน่นอนบ่อยครั้งมากขึ้นด้วยการแจกแจงแบบหนา ดังนั้นสิ่งที่ผู้คนใช้ในการมองเห็นข้อมูลประเภทนี้? มีอะไรที่ดัดแปลงเพิ่มเติมหรือไม่ ฉันใช้ ggplot กับ R ถ้ามันสำคัญ

2
รู้จัก Var (X), วิธีคำนวณ Var (1 / X)?
หากฉันมีเพียงฉันจะคำนวณอย่างไรV a r ( 1)Var(X)Var(X)\mathrm{Var}(X)Var(1X)Var(1X)\mathrm{Var}(\frac{1}{X}) ฉันไม่ได้มีข้อมูลใด ๆ เกี่ยวกับการกระจายของดังนั้นผมจึงไม่สามารถใช้การเปลี่ยนแปลงหรือวิธีการอื่นใดที่ใช้น่าจะเป็นของการกระจายXXXXXXX

1
การจัดกึ่งกลางจำเป็นเมื่อทำการสแตรปป์ตัวอย่างหมายถึงอะไร?
เมื่ออ่านเกี่ยวกับวิธีประมาณการกระจายตัวของค่าเฉลี่ยตัวอย่างฉันเจอวิธีการบูตแบบไม่มีพารามิเตอร์ เห็นได้ชัดว่าเราสามารถประมาณการกระจายตัวของโดยการกระจายของˉ X ∗ n - ˉ X nโดยที่ˉ X ∗ nหมายถึงค่าเฉลี่ยตัวอย่างของตัวอย่างบูตตัวอย่างX¯n- μX¯n−μ\bar{X}_n-\muX¯* * * *n- X¯nX¯n∗−X¯n\bar{X}_n^*-\bar{X}_nX¯* * * *nX¯n∗\bar{X}_n^* คำถามของฉันคือ: ฉันต้องการจุดศูนย์กลางหรือไม่ เพื่ออะไร? ฉันไม่สามารถประมาณโดยP ( ˉ X ∗ n ≤ x ) ได้ใช่ไหมP ( X)¯n≤ x )P(X¯n≤x)\mathbb{P}\left(\bar{X}_n \leq x\right)P ( X)¯* * * *n≤ x )P(X¯n∗≤x)\mathbb{P}\left(\bar{X}_n^* \leq x\right)

1
การได้รับ Negentropy ติดขัด
ดังนั้นคำถามนี้มีส่วนเกี่ยวข้องบ้าง แต่ฉันพยายามอย่างพยายามทำให้ตรงไปตรงมาที่สุด เป้าหมาย:เรื่องสั้นสั้น ๆ มีการกำเนิดของการปฏิเสธที่ไม่เกี่ยวข้องกับการสั่งซื้อที่สูงขึ้นและฉันพยายามที่จะเข้าใจว่ามันได้รับมาอย่างไร พื้นหลัง: (ฉันเข้าใจทั้งหมดนี้) ฉันศึกษาด้วยตนเองหนังสือ'การวิเคราะห์องค์ประกอบอิสระ'พบได้ที่นี่ (คำถามนี้มาจากหัวข้อ 5.6 ในกรณีที่คุณมีหนังสือ - 'การประมาณค่าเอนโทรปีของฟังก์ชันที่ไม่ใช่พหุนาม') เรามีซึ่งเป็นตัวแปรสุ่มและเราต้องการประมาณค่าลบจากการสังเกตบางอย่างที่เรามี รูปแบบไฟล์ PDF ของจะได้รับโดยซีตา) Negentropy เป็นเพียงความแตกต่างระหว่างเอนโทรปีค่าของตัวแปรสุ่มมาตรฐานเสียนและเอนโทรปีค่าของxเอนโทรปีของดิฟเฟอเรนเชียลได้รับจากเช่นนั้น:xxxxxxpx(ζ)px(ζ)p_x(\zeta)xxxHHH H(x)=−∫∞−∞px(ζ)log(px(ζ))dζH(x)=−∫−∞∞px(ζ)log(px(ζ))dζ H(x) = -\int_{-\infty}^{\infty} p_x(\zeta) \: log(p_x(\zeta)) \: d\zeta และดังนั้นการได้รับการปฏิเสธคือ J(x)=H(v)−H(x)J(x)=H(v)−H(x)J(x) = H(v) - H(x) ที่เป็นมาตรฐาน RV เสียนกับรูปแบบไฟล์ PDF ได้รับจากซีตา)vvvϕ(ζ)ϕ(ζ)\phi(\zeta) ตอนนี้ซึ่งเป็นส่วนหนึ่งของวิธีการใหม่นี้หนังสือของฉันได้รับการประมาณ PDF ของซึ่งได้รับจาก:xxx px(ζ)=ϕ(ζ)[1+∑iciFi(ζ)]px(ζ)=ϕ(ζ)[1+∑iciFi(ζ)] p_x(\zeta) = \phi(\zeta) [1 + \sum_{i} c_i …

5
การประมาณค่าเปอร์เซ็นต์เป็นตัวแปรตามในการถดถอย
ฉันมีคะแนนร้อยละของนักเรียนในการสอบ 38 ครั้งเป็นตัวแปรตามในการศึกษาของฉัน เปอร์เซ็นต์อันดับจะคำนวณโดย (อันดับของนักเรียน / จำนวนนักเรียนในการสอบ) ตัวแปรตามนี้มีการกระจายเกือบสม่ำเสมอและฉันต้องการที่จะประเมินผลกระทบของตัวแปรบางอย่างในตัวแปรตาม ฉันใช้วิธีการถดถอยแบบใด

2
วิธีการทดสอบว่าตัวอย่างของข้อมูลที่เหมาะกับครอบครัวของการกระจายแกมม่าหรือไม่?
ฉันมีตัวอย่างของข้อมูลซึ่งสร้างจากตัวแปรสุ่มแบบต่อเนื่อง X และจากฮิสโตแกรมที่ฉันวาดด้วย R ฉันเดาว่าบางทีการกระจายของ X เป็นไปตามการแจกแจงแกมม่าบางอย่าง แต่ฉันไม่รู้พารามิเตอร์ที่แน่นอนของการกระจายแกมม่านี้ คำถามของฉันคือวิธีทดสอบว่าการแจกแจง X เป็นของตระกูลการแจกแจงแกมมาหรือไม่? มีความดีของการทดสอบแบบพอดีเช่นการทดสอบ Kolmogorov-Smirnov การทดสอบ Anderson-Darling และอื่น ๆ แต่ข้อ จำกัด อย่างหนึ่งเมื่อใช้การทดสอบเหล่านี้คือพารามิเตอร์ของการแจกแจงทางทฤษฎีควรทราบล่วงหน้า ใครช่วยกรุณาบอกวิธีแก้ปัญหานี้ได้ไหม

3
ต้องการความช่วยเหลือในการระบุการแจกแจงโดยฮิสโตแกรม
ฉันมีประชากรตัวอย่างของแอมพลิจูดขนาดสูงสุดของสัญญาณที่แน่นอน ประชากรประมาณ 15 ล้านตัวอย่าง ฉันสร้างฮิสโตแกรมของประชากร แต่ไม่สามารถคาดเดาการกระจายด้วยฮิสโตแกรมนั้นได้ แก้ไข 1: ไฟล์ที่มีค่าตัวอย่างดิบอยู่ที่นี่: ข้อมูลดิบ ใครสามารถช่วยประมาณการการกระจายด้วยฮิสโตแกรมต่อไปนี้:

1
LARS เทียบกับโคตรของโคตร
ข้อดีและข้อเสียของการใช้ LARS [1] เมื่อเทียบกับการใช้โคตรของพิกัดสำหรับการถดถอยเชิงเส้นแบบ L1 ที่เหมาะสมคืออะไร ฉันสนใจในเรื่องของประสิทธิภาพเป็นหลัก (ปัญหาของฉันมักจะNอยู่ในหลักแสนและp<20) อย่างไรก็ตามข้อมูลเชิงลึกอื่น ๆ ก็จะได้รับการชื่นชมเช่นกัน แก้ไข: เนื่องจากฉันได้โพสต์คำถาม, chl ได้ชี้ให้เห็นกระดาษ [2] โดย Friedman และคณะที่พิกัดโคตรถูกแสดงว่าเร็วกว่าวิธีอื่นมาก หากเป็นกรณีนี้ฉันควรเป็นผู้ประกอบการเพียงแค่ลืมเกี่ยวกับ LARS ในความโปรดปรานของการสืบเชื้อสายมาประสานงาน? [1] Efron, Bradley; Hastie เทรเวอร์; Johnstone, Iain และ Tibshirani, Robert (2004) "การถดถอยมุมน้อยที่สุด" พงศาวดารของสถิติ 32 (2): pp 407–499 [2] Jerome H. Friedman, Trevor Hastie, Rob Tibshirani, "เส้นทางการทำให้เป็นมาตรฐานสำหรับตัวแบบเชิงเส้นทั่วไปผ่านพิกัดโคตร", วารสารซอฟท์แวร์สถิติ, อัตรา …

4
การเปรียบเทียบก้อยของการแจกแจงตัวอย่างสองแบบ
ฉันมีชุดข้อมูลสองชุดที่มีศูนย์กลางอยู่ที่ประมาณศูนย์โดยประมาณ แต่ฉันสงสัยว่ามันมีก้อยต่างกัน ฉันรู้ว่าการทดสอบสองสามข้อเพื่อเปรียบเทียบการกระจายตัวกับการแจกแจงแบบปกติ แต่ฉันต้องการเปรียบเทียบการกระจายสองแบบโดยตรง มีการทดสอบอย่างง่าย ๆ เพื่อเปรียบเทียบความอุดมสมบูรณ์ของหางของการแจกแจง 2 แบบหรือไม่? ขอบคุณ fRed

1
ทดสอบสองตัวอย่างอิสระเพื่อหาค่าความเอียงที่เท่ากันหรือไม่
การทดสอบใดที่มีให้สำหรับการทดสอบสองตัวอย่างอิสระสำหรับสมมติฐานว่างที่มาจากประชากรที่มีความเบ้เท่ากัน? มีการทดสอบแบบคลาสสิก 1 ตัวอย่างว่าค่าความลาดเอียงนั้นมีค่าคงที่หรือไม่ (การทดสอบเกี่ยวข้องกับช่วงเวลาตัวอย่างที่ 6!); มีการแปลแบบตรงไปตรงมาสำหรับการทดสอบ 2 ตัวอย่างหรือไม่? มีเทคนิคที่ไม่เกี่ยวข้องกับช่วงเวลาที่สูงมากของข้อมูลหรือไม่? (ฉันคาดหวังคำตอบของรูปแบบ 'bootstrap it': เป็นเทคนิคการบูตที่ทราบกันว่าเหมาะสมสำหรับปัญหานี้หรือไม่?)

1
ทำไม ecdf ใช้ฟังก์ชั่นขั้นตอนและไม่ใช่การแก้ไขเชิงเส้น?
ฟังก์ชั่น CDF เชิงประจักษ์มักจะประมาณโดยฟังก์ชั่นขั้นตอน มีเหตุผลที่ทำเช่นนี้และไม่ใช้การแก้ไขเชิงเส้นหรือไม่ ฟังก์ชันขั้นตอนมีคุณสมบัติทางทฤษฎีที่น่าสนใจซึ่งทำให้เราชอบหรือไม่ นี่คือตัวอย่างของทั้งสอง: ecdf2 <- function (x) { x <- sort(x) n <- length(x) if (n < 1) stop("'x' must have 1 or more non-missing values") vals <- unique(x) rval <- approxfun(vals, cumsum(tabulate(match(x, vals)))/n, method = "linear", yleft = 0, yright = 1, f = 0, ties …
13 r  distributions  ecdf 

1
แพคเกจ GBM กับ Caret ใช้ GBM
ฉันเคยใช้การจูนโมเดลcaretแต่แล้วก็รันโมเดลอีกครั้งโดยใช้gbmแพ็คเกจ ฉันเข้าใจว่าcaretแพ็กเกจที่ใช้gbmและเอาต์พุตควรเหมือนกัน อย่างไรก็ตามการทดสอบการทำงานอย่างรวดเร็วโดยใช้data(iris)แสดงความแตกต่างในรูปแบบประมาณ 5% โดยใช้ RMSE และ R ^ 2 เป็นตัวชี้วัดการประเมินผล ฉันต้องการค้นหาประสิทธิภาพของแบบจำลองที่ดีที่สุดโดยใช้caretแต่เรียกใช้อีกครั้งgbmเพื่อใช้ประโยชน์จากแผนการพึ่งพาบางส่วน รหัสด้านล่างสำหรับการทำซ้ำ คำถามของฉันจะเป็น: 1) เหตุใดฉันจึงเห็นความแตกต่างระหว่างแพ็คเกจทั้งสองนี้ถึงแม้ว่าพวกเขาจะเหมือนกัน (ฉันเข้าใจว่าพวกมันสุ่ม แต่ 5% ค่อนข้างแตกต่างกันมากโดยเฉพาะอย่างยิ่งเมื่อฉันไม่ได้ใช้ชุดข้อมูลที่ดีirisสำหรับการสร้างแบบจำลองของฉัน) . 2) มีข้อดีหรือข้อเสียในการใช้ทั้งสองแพคเกจหรือไม่ 3) ไม่เกี่ยวข้อง: การใช้irisชุดข้อมูลที่ดีที่สุดinteraction.depthคือ 5 แต่สูงกว่าที่ฉันได้อ่านควรจะใช้สูงสุดfloor(sqrt(ncol(iris)))ซึ่งควรจะเป็น 2 นี่เป็นกฎง่ายๆหรือเข้มงวดหรือไม่? library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric …

1
Pdf ของกำลังสองของตัวแปรสุ่มปกติมาตรฐาน [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน4 ปีที่แล้ว ฉันมีปัญหานี้ที่ฉันจะต้องพบกับรูปแบบไฟล์ PDF ของ 2 ทั้งหมดที่ผมรู้ก็คือว่ามีการกระจาย(0,1) สิ่งที่ชนิดของการกระจายคือ ? เช่นเดียวกับ ? ฉันจะหา pdf ได้อย่างไร X N ( 0 , 1 ) Y = X 2 XY=X2Y=X2Y = X^2XXXN(0,1)N(0,1)N(0,1)Y=X2Y=X2Y = X^2XXX

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.