คำถามติดแท็ก lognormal

การแจกแจงแบบ lognormal เป็นการแจกแจงของตัวแปรสุ่มที่ค่าลอการิทึมนั้นมีการแจกแจงแบบปกติ

1
ทำไม ln [E (x)]> E [ln (x)]
เรากำลังเผชิญกับการกระจายตัวแบบ lognormal ในหลักสูตรการเงินและหนังสือของฉันเพิ่งกล่าวว่านี่เป็นเรื่องจริงซึ่งฉันพบว่ามันน่าหงุดหงิดเนื่องจากภูมิหลังทางคณิตศาสตร์ของฉันไม่แรงมาก แต่ฉันต้องการสัญชาตญาณ ทุกคนสามารถแสดงเหตุผลได้หรือไม่

1
เหตุใดเลขคณิตจึงมีขนาดเล็กกว่าการแจกแจงจึงมีความหมายในการแจกแจงแบบล็อก - ปกติ
ดังนั้นฉันจึงมีการสร้างกระบวนการสุ่มเข้าสู่ระบบกระจายตามปกติตัวแปรสุ่มXนี่คือฟังก์ชันความหนาแน่นของความน่าจะเป็นที่สอดคล้องกัน:XXX ผมอยากประมาณการกระจายตัวของการแจกแจงแบบเดิมสักครู่, สมมุติว่าช่วงเวลาที่ 1: ค่าเฉลี่ยเลขคณิต ในการทำเช่นนั้นฉันวาด 100 ตัวแปรสุ่ม 10,000 ครั้งเพื่อให้ฉันสามารถคำนวณค่าเฉลี่ยเลขคณิตได้ 10,000 ค่า มีสองวิธีที่แตกต่างกันในการประมาณค่าเฉลี่ย (อย่างน้อยนั่นคือสิ่งที่ฉันเข้าใจ: ฉันอาจผิด): โดยการคำนวณทางคณิตศาสตร์อย่างชัดเจนหมายถึงวิธีปกติ: X¯= ∑i = 1ยังไม่มีข้อความXผมยังไม่มีข้อความ.X¯=∑i=1NXiN.\bar{X} = \sum_{i=1}^N \frac{X_i}{N}. หรือโดยการประมาณและจากการแจกแจงปกติพื้นฐาน:จากนั้นค่าเฉลี่ยเป็นμ μ = N Σฉัน= 1ล็อก( X ฉัน )σσ\sigmaμμ\muˉ X =exp(μ+1μ = ∑i = 1ยังไม่มีข้อความเข้าสู่ระบบ( Xผม)ยังไม่มีข้อความσ2= ∑i = 1ยังไม่มีข้อความ( บันทึก( Xผม) - μ )2ยังไม่มีข้อความμ=∑i=1Nlog⁡(Xi)Nσ2=∑i=1N(log⁡(Xi)−μ)2N\mu = \sum_{i=1}^N \frac{\log …

3
ต้องการอัลกอริทึมในการคำนวณความน่าจะเป็นที่ข้อมูลนั้นเป็นตัวอย่างจากการแจกแจงแบบปกติเทียบกับการเข้าสู่ระบบแบบปกติ
สมมติว่าคุณมีชุดของค่าและคุณต้องการที่จะทราบว่ามีแนวโน้มที่พวกเขาถูกสุ่มตัวอย่างจากการแจกแจงแบบเกาส์ (ปกติ) หรือสุ่มตัวอย่างจากการแจกแจงแบบล็อกนอร์มหรือไม่? แน่นอนว่าคุณควรจะรู้อะไรบางอย่างเกี่ยวกับประชากรหรือเกี่ยวกับแหล่งที่มาของข้อผิดพลาดการทดลองดังนั้นจะมีข้อมูลเพิ่มเติมที่เป็นประโยชน์ในการตอบคำถาม แต่ที่นี่สมมติว่าเรามีเพียงชุดของตัวเลขและไม่มีข้อมูลอื่น ๆ ซึ่งมีแนวโน้มมากขึ้น: การสุ่มตัวอย่างจากเกาส์เซียนหรือการสุ่มตัวอย่างจากการแจกแจงแบบปกติ มีโอกาสมากแค่ไหน? สิ่งที่ฉันหวังคืออัลกอริธึมที่จะเลือกระหว่างสองรุ่นและหวังว่าจะได้ปริมาณเชิงปริมาณของแต่ละรุ่น

5
จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?
ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

4
ผลรวมของตัวแปรสุ่ม lognormal อิสระปรากฏขึ้น lognormal?
ฉันพยายามที่จะเข้าใจว่าทำไมผลรวมของตัวแปรสุ่มสองตัว (หรือมากกว่า) เข้าสู่การแจกแจงแบบปกติขณะที่คุณเพิ่มจำนวนการสังเกต ฉันดูออนไลน์และไม่พบผลลัพธ์ใด ๆ ที่เกี่ยวข้องกับสิ่งนี้ เห็นได้ชัดว่าถ้าและเป็นตัวแปร lognormal ที่เป็นอิสระจากนั้นด้วยคุณสมบัติของ exponents และตัวแปรสุ่ม gaussianก็เป็น lognormal เช่นกัน อย่างไรก็ตามไม่มีเหตุผลที่จะแนะนำว่าเป็น lognormal เช่นกันY X × Y X + YXXXYYYX× YX×YX \times YX+ YX+YX+Y อย่างไรก็ตาม หากคุณสร้างตัวแปรสุ่มสุ่มอิสระ lognormalและและปล่อยให้และทำซ้ำขั้นตอนนี้หลายครั้งการกระจายของจะปรากฏขึ้น lognormal ดูเหมือนว่ามันจะเข้าใกล้การแจกแจงแบบปกติมากขึ้นเมื่อคุณเพิ่มจำนวนการสังเกตY Z = X + Y ZXXXYYYZ= X+ YZ=X+YZ=X+YZZZ ตัวอย่างเช่น: หลังจากสร้าง 1 ล้านคู่การแจกแจงบันทึกธรรมชาติของ Zจะได้รับในฮิสโตแกรมด้านล่าง สิ่งนี้มีความคล้ายคลึงกับการแจกแจงแบบปกติมากโดยชัดแจ้งว่าเป็น lognormal แน่นอนZZZ ใครบ้างมีความเข้าใจหรือการอ้างอิงถึงข้อความที่อาจใช้ในการทำความเข้าใจนี้

1
ประมาณ
ฉันตั้งใจอ่านบทความ (ทางเศรษฐศาสตร์) ซึ่งมีการประมาณต่อไปนี้:เข้าสู่ระบบ( E( X) )เข้าสู่ระบบ⁡(E(X))\log(E(X)) เข้าสู่ระบบ( E( X) ) ≈ E( บันทึก( X) ) + 0.5 v a r ( บันทึก( X) )เข้าสู่ระบบ⁡(E(X))≈E(เข้าสู่ระบบ⁡(X))+0.5โวลต์aR(เข้าสู่ระบบ⁡(X))\log(E(X)) \approx E(\log(X))+0.5 \mathrm{var}(\log(X)) , ซึ่งผู้เขียนบอกว่าแน่นอนถ้า X เป็นบันทึกปกติ (ซึ่งฉันรู้) สิ่งที่ฉันไม่รู้คือวิธีการประมาณนี้ ฉันพยายามคำนวณลำดับที่สองโดยประมาณของ Taylor และสิ่งที่ฉันคิดไว้คือนิพจน์นี้: เข้าสู่ระบบ( E( X) ) ≈ E( บันทึก( X) ) + 0.5 v a r …

1
วิธีการคำนวณค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานสำหรับการแจกแจงแบบปกติโดยใช้ 2 เปอร์เซนต์
ฉันพยายามคำนวณค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานจาก 2 เปอร์เซนต์สำหรับการแจกแจงล็อกนอร์มอล ฉันประสบความสำเร็จในการคำนวณสำหรับการแจกแจงแบบปกติโดยใช้X = mean + sd * Zและการหาค่าเฉลี่ยและ sd ฉันคิดว่าฉันขาดสมการเมื่อพยายามทำแบบเดียวกันกับการแจกแจงแบบล็อกนอร์มัล ฉันดูวิกิพีเดียและพยายามใช้ln(X) = mean + sd * Zแต่ฉันสับสนว่าค่าเฉลี่ยและ sd ในกรณีนี้เป็นการแจกแจงแบบปกติหรือ lognormal ฉันควรใช้สมการใด และฉันจะต้องมากกว่า 2 เปอร์เซ็นต์เพื่อแก้การคำนวณ?
11 r  lognormal 

1
ฉันสามารถสมมติความปกติ (log-) สำหรับตัวอย่างนี้ได้หรือไม่
นี่คือพล็อต QQ สำหรับตัวอย่างของฉัน (สังเกตแกนลอการิทึม Y) :n = 1,000n=1000n = 1000 ดังที่ได้กล่าวไว้โดย whuber สิ่งนี้บ่งชี้ว่าการกระจายที่แฝงอยู่นั้นเอียงไปทางซ้าย (หางขวาสั้นกว่า) shapiro.testW= 0.9718W=0.9718W = 0.97185.172 ⋅ 10- 135.172⋅10−135.172\cdot10^{-13}H0:the sample is normal distributedH0:the sample is normal distributedH_0 : \text{the sample is normal distributed} คำถามของฉันคือ: สิ่งนี้ดีพอในทางปฏิบัติสำหรับการวิเคราะห์เพิ่มเติมโดยสมมติว่า โดยเฉพาะอย่างยิ่งฉันต้องการคำนวณช่วงความเชื่อมั่นสำหรับวิธีการของตัวอย่างที่คล้ายกันโดยใช้วิธีการประมาณโดย Cox และที่ดิน (อธิบายไว้ในกระดาษ: Zou, GY, ซินดี้ Yan Huo และ Taleban, J. (2009) …

3
จะตรวจสอบได้อย่างไรว่าข้อมูลของฉันตรงกับการกระจายปกติหรือไม่
ฉันต้องการตรวจสอบRว่าข้อมูลของฉันตรงกับการแจกแจงแบบล็อกปกติหรือแบบ Pareto ฉันจะทำสิ่งนั้นได้อย่างไร อาจks.testช่วยให้ฉันทำเช่นนั้นได้ แต่ฉันจะรับพารามิเตอร์αα\alphaและkkkสำหรับการกระจาย Pareto สำหรับข้อมูลของฉันได้อย่างไร

4
วิธีหลีกเลี่ยงคำ log (0) ในการถดถอย
ฉันติดตามเวกเตอร์ X และ Y อย่างง่าย: > X [1] 1.000 0.063 0.031 0.012 0.005 0.000 > Y [1] 1.000 1.000 1.000 0.961 0.884 0.000 > > plot(X,Y) ฉันต้องการทำการถดถอยโดยใช้บันทึกของ X เพื่อหลีกเลี่ยงการบันทึก (0) ฉันพยายามใส่ +1 หรือ +0.1 หรือ +0.00001 หรือ +0.000000000000001: > summary(lm(Y~log(X))) Error in lm.fit(x, y, offset = offset, singular.ok = singular.ok, …

1
เป็นไปได้หรือไม่ที่จะรวม
ประการแรกฉันคิดว่ามีการรวมกฎเพื่อบูรณาการเชิงวิเคราะห์เพื่อแก้ปัญหานี้เมื่อเทียบกับการวิเคราะห์เชิงตัวเลข (เช่นสี่เหลี่ยมคางหมูกฎ Gauss-Legendre หรือ Simpson) หรือไม่ ฉันมีฟังก์ชั่นโดยที่ g ( x ; μ , σ ) = 1ฉ( x ) = x g( x ; μ , σ)f(x)=xg(x;μ,σ)\newcommand{\rd}{\mathrm{d}}f(x) = x g(x; \mu, \sigma) เป็นฟังก์ชั่นความหนาแน่นของความน่าจะเป็นของการกระจาย lognormal กับพารามิเตอร์μและσ ด้านล่างนี้ฉันจะย่อเครื่องหมายเป็นg(x)และใช้G(x)สำหรับฟังก์ชันการแจกแจงสะสมก.( x ; μ , σ) = 1σx 2 π--√อี- 12 σ2( บันทึก( x ) …

1
เมื่อใดที่ควรเขียน“ เราถือว่าการแจกแจงแบบปกติ” ของการวัดเชิงประจักษ์?
มันฝังแน่นอยู่ในการสอนวิชาประยุกต์เช่นยาการวัดปริมาณไบโอ - แพทย์ในประชากรตามปกติ "ระฆังโค้ง" การค้นหาสตริง" Google เราถือว่าการแจกแจงแบบปกติ"ของ Google ส่งคืน23 , 90023,900\small 23,900ผล! พวกเขาดูเหมือนว่า"จากจุดข้อมูลจำนวนมากเราคาดว่าจะมีการแจกแจงแบบปกติสำหรับความผิดปกติของอุณหภูมิ"ในการศึกษาเกี่ยวกับการเปลี่ยนแปลงสภาพภูมิอากาศ หรือ"เราสันนิษฐานว่าการแจกจ่ายวันที่ฟักลูกไก่ปกติ"บนเอกสารที่อาจเป็นที่ถกเถียงกันน้อยเกี่ยวกับเพนกวิน หรือ "เราสันนิษฐานว่าการกระจายปกติของ GDP แรงกระแทกการเจริญเติบโต"หมายถึงการเปลี่ยนเศรษฐกิจมหภาคในตลาด (นำขึ้นกับหน่วยความจำหนังสือเล่มนี้ ... และสิ่งอื่น ๆ ) เมื่อเร็ว ๆ นี้ฉันพบว่าตัวเองตั้งคำถามกับการรักษาข้อมูลการนับที่กระจายตามปกติเนื่องจากลักษณะเชิงบวกของพวกเขาอย่างเคร่งครัด แน่นอนว่าการนับข้อมูลนั้นไม่ต่อเนื่องทำให้เป็นเรื่องปกติมากขึ้น แต่ถึงแม้จะทิ้งประเด็นหลังนี้ไว้ทำไมการวัดเชิงประจักษ์อย่างต่อเนื่องเช่นน้ำหนักส่วนสูงหรือความเข้มข้นของกลูโคสซึ่งถือว่าเป็นต้นแบบ "ต่อเนื่อง" ถือว่าเป็นเรื่องปกติ พวกเขาไม่สามารถสังเกตการรับรู้เชิงลบได้มากกว่าการนับ! ฉันเข้าใจว่าเมื่อค่าเบี่ยงเบนมาตรฐานต่ำกว่าค่าเฉลี่ยแสดงค่าลบเล็กน้อย ("การตรวจสอบช่วง 95%") อาจเป็นข้อสมมติที่ใช้งานได้จริงและฮิสโทแกรมความถี่อาจรองรับหากไม่เบ้จนเกินไป แต่คำถามดูเหมือนจะไม่สำคัญและการค้นหาอย่างรวดเร็วให้สิ่งที่น่าสนใจ ในธรรมชาติเราสามารถค้นหาข้อความต่อไปนี้บนจดหมายจาก DF Heath : "ฉันต้องการชี้ให้เห็นว่าสำหรับการวิเคราะห์ทางสถิติของข้อมูลบางประเภทการสันนิษฐานว่าข้อมูลนั้นมาจากประชากรปกติมักจะผิดและทางเลือกอื่น ข้อสันนิษฐานของการกระจายล็อกปกติดีกว่าทางเลือกนี้ใช้กันอย่างแพร่หลายโดยนักสถิตินักเศรษฐศาสตร์และนักฟิสิกส์ แต่ด้วยเหตุผลบางอย่างมักจะถูกละเว้นโดยนักวิทยาศาสตร์ของสาขาอื่น ๆ " Limpert ตั้งข้อสังเกตว่า"แบบจำลองการบันทึกปกติอาจทำหน้าที่เป็นค่าประมาณในแง่ที่ว่านักวิทยาศาสตร์หลายคนรับรู้ปกติว่าเป็นการประมาณที่ถูกต้องในขณะนี้"ในขณะที่สังเกตการใช้พลังงานต่ำของการทดสอบแบบปกติที่ดี การกระจายที่ถูกต้องชัดเจนเมื่อต้องจัดการกับตัวอย่างเล็ก ๆ ดังนั้นคำถามคือ"เมื่อไหร่ที่จะยอมรับการกระจายตัวปกติของการวัดเชิงประจักษ์ในวิทยาศาสตร์ประยุกต์ที่ไม่มีหลักฐานสนับสนุนเพิ่มเติม?" …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.