คำถามติดแท็ก logarithm

ลอการิทึมของตัวเลขคือพลังที่ต้องยกฐานเพื่อให้ได้ตัวเลข

2
เมื่อใด (และทำไม) คุณควรบันทึกการกระจาย (ของตัวเลข)?
สมมติว่าฉันมีข้อมูลในอดีตเช่นราคาหุ้นที่ผ่านมาความผันผวนของราคาตั๋วเครื่องบินข้อมูลทางการเงินในอดีตของ บริษัท ... ตอนนี้มีใครบางคน (หรือบางสูตร) มาพร้อมและกล่าวว่า "ขอใช้เวลา / ใช้เข้าสู่ระบบของการกระจาย" และนี่คือที่ที่ผมไปทำไม ? คำถาม: ทำไมคนเราควรจดบันทึกการกระจายสินค้าตั้งแต่แรก? บันทึกของการแจกแจง 'ให้ / ลดความซับซ้อน' ที่การกระจายดั้งเดิมไม่สามารถทำได้ / ไม่ได้? การเปลี่ยนแปลงบันทึกเป็น 'ไม่สูญเสีย' หรือไม่? คือเมื่อเปลี่ยนเป็น log-space และวิเคราะห์ข้อมูลข้อสรุปเดียวกันนี้มีไว้สำหรับการแจกแจงดั้งเดิมหรือไม่? มาทำไม และในที่สุดเมื่อไหร่ที่จะบันทึกการกระจาย? ภายใต้เงื่อนไขใดบ้างที่ตัดสินใจทำเช่นนี้ ฉันต้องการเข้าใจการแจกแจงแบบอิงบันทึก (เช่น lognormal) แต่ฉันไม่เคยเข้าใจแง่มุมว่าเมื่อใด / ทำไม - นั่นคือบันทึกการแจกแจงเป็นการแจกแจงแบบปกติดังนั้นจะเป็นอย่างไร สิ่งนั้นบอกอะไรกับฉันและทำไมตื๊อ ดังนั้นคำถาม! UPDATE : ตามความเห็นของ @ whuber ฉันดูที่โพสต์และด้วยเหตุผลบางอย่างฉันเข้าใจการใช้ log แปรรูปและการประยุกต์ในการถดถอยเชิงเส้นเนื่องจากคุณสามารถวาดความสัมพันธ์ระหว่างตัวแปรอิสระและบันทึกของตัวแปรตาม อย่างไรก็ตามคำถามของฉันเป็นเรื่องทั่วไปในแง่ของการวิเคราะห์การกระจายตัวเอง - ไม่มีความสัมพันธ์ต่อกันที่ฉันสามารถสรุปได้เพื่อช่วยให้เข้าใจเหตุผลของการบันทึกเพื่อวิเคราะห์การกระจาย …

8
ในการถดถอยเชิงเส้นเมื่อใดที่เหมาะสมที่จะใช้บันทึกของตัวแปรอิสระแทนที่จะเป็นค่าจริง
ฉันกำลังมองหาการกระจายการประพฤติที่ดีขึ้นสำหรับตัวแปรอิสระที่เป็นปัญหาหรือเพื่อลดผลกระทบของค่าผิดปกติหรืออย่างอื่นหรือไม่?

3
การแปลความหมายของตัวทำนายการแปลงสภาพบันทึกและ / หรือการตอบสนอง
ฉันสงสัยว่ามันจะสร้างความแตกต่างในการตีความไม่ว่าจะเป็นเพียงขึ้นอยู่กับทั้งขึ้นอยู่กับและเป็นอิสระหรือตัวแปรอิสระเท่านั้นที่ถูกเปลี่ยนเข้าสู่ระบบ พิจารณากรณีของ log(DV) = Intercept + B1*IV + Error ฉันสามารถตีความ IV เป็นเปอร์เซ็นต์เพิ่มขึ้น แต่จะเปลี่ยนแปลงได้อย่างไรเมื่อฉันมี log(DV) = Intercept + B1*log(IV) + Error หรือเมื่อฉันมี DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

4
เหตุใดการเปลี่ยนแปลงบันทึกธรรมชาติจึงเปลี่ยนแปลงเปอร์เซ็นต์ เกี่ยวกับบันทึกที่ทำเช่นนี้คืออะไร?
ใครสามารถอธิบายได้ว่าคุณสมบัติของบันทึกสร้างขึ้นได้อย่างไรเพื่อให้คุณสามารถบันทึกการถดถอยเชิงเส้นโดยที่ค่าสัมประสิทธิ์ถูกตีความเป็นการเปลี่ยนแปลงเปอร์เซ็นต์

6
ทางเลือกอื่นสำหรับแกนแตกคืออะไร
ผู้ใช้มักถูกล่อลวงให้ทำลายค่าแกนเพื่อนำเสนอข้อมูลของคำสั่งต่าง ๆ ของขนาดบนกราฟเดียวกัน (ดูที่นี่ ) แม้ว่าวิธีนี้อาจจะสะดวก แต่ก็ไม่ใช่วิธีการแสดงข้อมูลที่ต้องการเสมอไป (อาจทำให้เข้าใจผิดได้ดีที่สุด) วิธีอื่นในการแสดงข้อมูลที่แตกต่างกันในหลายลำดับความสำคัญคืออะไร ฉันสามารถคิดถึงวิธีการสองวิธีในการแปลงข้อมูลหรือใช้โครงข่ายขัดแตะ ตัวเลือกอื่น ๆ มีอะไรบ้าง

1
ค่าที่คาดหวังและความแปรปรวนของบันทึก (ก)
ฉันมีตัวแปรสุ่มที่เป็นปกติกระจาย2) สิ่งที่ฉันสามารถพูดเกี่ยวกับและ ? การประมาณจะเป็นประโยชน์เช่นกันN ( μ , σ 2 ) E ( X ) V a r ( X )X( a ) = บันทึก( a )X(a)=log⁡(a)X(a) = \log(a)ยังไม่มีข้อความ( μ , σ2)N(μ,σ2)\mathcal N(\mu,\sigma^2)E( X)E(X)E(X)VR ( X)Var(X)Var(X)

4
ค่าที่ถูกต้องสำหรับความแม่นยำและการเรียกคืนในกรณีขอบคืออะไร?
ความแม่นยำหมายถึง: p = true positives / (true positives + false positives) มันถูกต้องหรือไม่ที่ในฐานะtrue positivesและfalse positivesวิธีที่ 0 ความแม่นยำเข้าใกล้ 1? คำถามเดียวกันสำหรับการเรียกคืน: r = true positives / (true positives + false negatives) ขณะนี้ฉันกำลังใช้การทดสอบทางสถิติที่ฉันต้องการคำนวณค่าเหล่านี้และบางครั้งมันก็เกิดขึ้นที่ตัวส่วนเป็น 0 และฉันสงสัยว่าจะคืนค่าใดให้กับกรณีนี้ PS: ขอโทษแท็กที่ไม่เหมาะสมผมอยากจะใช้recall, precisionและlimitแต่ฉันไม่สามารถสร้างแท็กใหม่ ๆ
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

4
ในสถิติฉันควรถือว่าการ
ฉันกำลังศึกษาสถิติและมักพบสูตรที่มีlogและฉันมักสับสนถ้าฉันควรตีความว่าเป็นความหมายมาตรฐานของlogเช่นฐาน 10 หรือในสถิติสัญลักษณ์log มักจะถือว่าเป็นบันทึกธรรมชาติlnสันนิษฐานโดยทั่วไปจะบันทึกของธรรมชาติ โดยเฉพาะอย่างยิ่งฉันกำลังศึกษาการประมาณค่าความถี่ที่ดีของทัวริงเป็นตัวอย่าง แต่คำถามของฉันเป็นคำถามทั่วไปมากกว่า

1
ความน่าจะเป็นบันทึกเทียบกับผลคูณของความน่าจะเป็น
อ้างอิงจากบทความวิกิพีเดียหนึ่งสามารถแสดงผลิตภัณฑ์ของความน่าจะx⋅yเป็นที่-log(x) - log(y)ทำให้การคำนวณที่ดีที่สุดในการคำนวณ แต่ถ้าฉันลองตัวอย่างพูดว่า: p1 = 0.5 p2 = 0.5 p1 * p2 = 0.25 -log(p1) - log(p2) = 2 p3 = 0.1 p4 = 0.1 p3 * p4 = 0.01 -log(p3) - log(p4) = 6.64 ผลคูณของความน่าจะเป็นp1และp2สูงกว่าค่าใดค่าหนึ่งp3และp4ความน่าจะเป็นบันทึกนั้นต่ำกว่า มาทำไม

2
ความเบ้ของลอการิทึมของตัวแปรสุ่มแกมม่า
พิจารณาแกมมาตัวแปรสุ่ม X∼Γ(α,θ)X∼Γ(α,θ)X\sim\Gamma(\alpha, \theta) ) มีสูตรเรียบร้อยสำหรับค่าเฉลี่ยความแปรปรวนและความเบ้: E[X]Var[X]Skewness[X]=αθ=αθ2=1/α⋅E[X]2=2/α−−√E[X]=αθVar⁡[X]=αθ2=1/α⋅E[X]2Skewness⁡[X]=2/α\begin{align} \mathbb E[X]&=\alpha\theta\\ \operatorname{Var}[X]&=\alpha\theta^2=1/\alpha\cdot\mathbb E[X]^2\\ \operatorname{Skewness}[X]&=2/\sqrt{\alpha} \end{align} พิจารณาในขณะนี้เข้าสู่ระบบเปลี่ยนตัวแปรสุ่มY=log(X)Y=log⁡(X)Y=\log(X) ) Wikipedia ให้สูตรสำหรับค่าเฉลี่ยและความแปรปรวน: E[Y]Var[Y]=ψ(α)+log(θ)=ψ1(α)E[Y]=ψ(α)+log⁡(θ)Var⁡[Y]=ψ1(α)\begin{align} \mathbb E[Y]&=\psi(\alpha)+\log(\theta)\\ \operatorname{Var}[Y]&=\psi_1(\alpha)\\ \end{align} ผ่านฟังก์ชัน digamma และ trigamma ซึ่งถูกกำหนดให้เป็นอนุพันธ์อันดับหนึ่งและสองของลอการิทึมของฟังก์ชันแกมมา สูตรสำหรับความเบ้คืออะไร? ฟังก์ชัน tetragamma จะปรากฏขึ้นหรือไม่ (สิ่งที่ทำให้ฉันสงสัยเกี่ยวกับสิ่งนี้คือตัวเลือกระหว่างการแจกแจงแบบปกติและแกมม่าดูการแจกแจงแบบแกมม่าและแบบลอบันปกติในสิ่งอื่น ๆ พวกเขาต่างกันในคุณสมบัติความเบ้ของพวกเขาโดยเฉพาะความเบ้ของบันทึกการ ความเบ้ของบันทึกของแกมม่าเป็นลบ แต่เป็นลบอย่างไร .. )

2
เหตุใดจึงต้องแปลงข้อมูลก่อนที่จะทำการวิเคราะห์ส่วนประกอบหลัก
ฉันกำลังติดตามการสอนที่นี่: http://www.r-bloggers.com/computing-and-visualizing-pca-in-r/เพื่อให้เข้าใจ PCA ได้ดียิ่งขึ้น บทช่วยสอนใช้ชุดข้อมูล Iris และใช้การแปลงบันทึกก่อน PCA: โปรดสังเกตว่าในรหัสต่อไปนี้เราใช้การแปลงบันทึกกับตัวแปรต่อเนื่องตามที่แนะนำโดย [1] และตั้งค่าcenterและscaleเท่ากับTRUEในการเรียกเพื่อprcompสร้างมาตรฐานของตัวแปรก่อนการประยุกต์ใช้ PCA มีใครบางคนสามารถอธิบายให้ฉันเป็นภาษาอังกฤษแบบธรรมดาทำไมคุณถึงใช้ฟังก์ชั่นบันทึกในสี่คอลัมน์แรกของชุดข้อมูล Iris ฉันเข้าใจว่ามันมีส่วนเกี่ยวข้องกับการทำข้อมูลให้สัมพันธ์ แต่ฉันสับสนว่าอะไรคือหน้าที่ของ log, center และ scale การอ้างอิง [1] ด้านบนคือVenables and Ripley, สถิติประยุกต์สมัยใหม่กับ S-PLUS , หัวข้อ 11.1 ที่กล่าวสั้น ๆ ว่า: ข้อมูลคือการวัดทางกายภาพดังนั้นกลยุทธ์การเริ่มต้นที่ดีคือการทำงานกับขนาดของบันทึก สิ่งนี้ได้ทำมาตลอด

2
วิธีแปลงค่าลบเป็นลอการิทึม
ฉันต้องการทราบวิธีแปลงค่าลบให้Log()เป็นเพราะฉันมีข้อมูลแบบเฮเทอโรเซด ฉันอ่านว่ามันใช้งานได้กับสูตรLog(x+1)แต่มันใช้ไม่ได้กับฐานข้อมูลของฉันและฉันได้รับ NaNs อย่างต่อเนื่อง เช่นฉันได้รับข้อความเตือนนี้ (ฉันไม่ได้ใส่ฐานข้อมูลที่สมบูรณ์เพราะฉันคิดว่าหนึ่งในค่าลบของฉันก็เพียงพอที่จะแสดงตัวอย่าง): > log(-1.27+1) [1] NaN Warning message: In log(-1.27 + 1) : NaNs produced > ขอบคุณล่วงหน้า UPDATE: นี่คือฮิสโตแกรมของข้อมูลของฉัน ฉันทำงานกับอนุกรมเวลาของการตรวจวัดสารเคมีในยุค palaeontological เช่นความแตกต่างระหว่างตัวแปรอย่าง Ca และ Zn นั้นใหญ่เกินไปจากนั้นฉันต้องการมาตรฐานข้อมูลบางประเภทนั่นคือเหตุผลที่ฉันกำลังทดสอบlog()ฟังก์ชั่น นี่คือข้อมูลดิบของฉัน
12 r  logarithm 

2
ตัวแบบไบนารี (Probit and Logit) ที่มีการชดเชยแบบลอการิทึม
ไม่มีใครมีรากศัพท์ว่าออฟเซ็ตทำงานในรูปแบบไบนารีเช่น probit และ logit หรือไม่ ในปัญหาของฉันหน้าต่างติดตามผลอาจมีความยาวแตกต่างกันไป สมมติว่าผู้ป่วยได้รับการยิงป้องกันโรคในการรักษา การยิงเกิดขึ้นในเวลาที่ต่างกันดังนั้นหากผลลัพธ์เป็นตัวบ่งชี้ไบนารีว่ามีการเกิดวูบวาบเกิดขึ้นหรือไม่คุณจำเป็นต้องปรับเปลี่ยนตามความจริงที่ว่าบางคนมีเวลามากขึ้นในการแสดงอาการ ดูเหมือนว่าความน่าจะเป็นของการลุกเป็นไฟจะแปรผันตามความยาวของระยะเวลาติดตามผล มันไม่ชัดเจนสำหรับฉันในทางคณิตศาสตร์ว่าไบนารีโมเดลที่มีอ็อฟเซ็ตบันทึกสัญชาตญาณนี้อย่างไร (เหมือนกับปัวซง) ออฟเซ็ตเป็นตัวเลือกมาตรฐานทั้งในStata (หน้า 1666)และRและฉันสามารถเห็นมันสำหรับปัวซองได้อย่างง่ายดายแต่กรณีไบนารีนั้นเป็นบิตทึบแสง ตัวอย่างเช่นถ้าเรามี นี่คือพีชคณิตเทียบเท่ากับแบบจำลองที่ไหน ซึ่งเป็นรูปแบบมาตรฐานที่มีค่าสัมประสิทธิ์ในบีบบังคับให้1นี้เรียกว่าลอการิทึมชดเชย ฉันมีปัญหาในการหาวิธีการทำงานนี้ถ้าเราแทนที่กับหรือ()E[y|x]Z=exp{x′β},E[y|x]Z=exp⁡{x′β},\begin{equation} \frac{E[y \vert x]}{Z}=\exp\{x'\beta\}, \end{equation}E[y|x]=exp{x′β+logZ},E[y|x]=exp⁡{x′β+log⁡Z},\begin{equation}E[y \vert x]=\exp\{x'\beta+\log{Z}\}, \end{equation}logZlog⁡Z\log Z111exp{}exp⁡{}\exp\{\}Φ()Φ()\Phi()Λ()Λ()\Lambda() อัปเดต # 1: กรณี logit ถูกอธิบายด้านล่าง อัปเดต # 2: นี่คือคำอธิบายของสิ่งที่ดูเหมือนว่าเป็นการใช้หลักของ offsets สำหรับโมเดลที่ไม่ใช่ปัวซองเช่น probit ออฟเซ็ตสามารถใช้ในการทดสอบอัตราส่วนความน่าจะเป็นของสัมประสิทธิ์ฟังก์ชั่นดัชนี ก่อนอื่นให้คุณประเมินโมเดลที่ไม่มีข้อ จำกัด และจัดเก็บค่าประมาณ สมมติว่าคุณต้องการที่จะทดสอบสมมติฐานที่ว่า 2 จากนั้นคุณสร้างตัวแปรให้พอดีกับแบบจำลองและใช้เป็นออฟเซ็ตที่ไม่ใช่ลอการิทึม นี่เป็นโมเดลที่มีข้อ จำกัด การทดสอบ LR …

1
เหตุใดจึงต้องใช้ตัวแปรที่บันทึกไว้
อาจเป็นคำถามพื้นฐานมาก แต่ฉันดูเหมือนจะไม่สามารถหาคำตอบที่ชัดเจนสำหรับมัน ฉันหวังว่าที่นี่ฉันสามารถ ตอนนี้ฉันกำลังอ่านเอกสารเพื่อเตรียมสำหรับวิทยานิพนธ์ปริญญาโทของฉันเอง ขณะนี้ฉันกำลังอ่านกระดาษที่ค้นคว้าความสัมพันธ์ระหว่างทวีตและคุณลักษณะของตลาดหุ้น หนึ่งในสมมติฐานของพวกเขาพวกเขาเสนอว่า "ปริมาณทวีตที่เพิ่มขึ้นนั้นเกี่ยวข้องกับปริมาณการซื้อขายที่เพิ่มขึ้น" ผมจะคาดหวังให้พวกเขาในความสัมพันธ์คู่ที่จะมีความสัมพันธ์tweetVolumeกับtradingVolume, แต่พวกเขารายงานโดยใช้รุ่นเข้าสู่ระบบ: และLN(tweetVolume)LN(tradingVolume) สำหรับวิทยานิพนธ์ของฉันฉันได้ทำซ้ำเอกสารนี้ ฉันรวบรวมทวีตประมาณ 100 บริษัท มานานกว่า 6 เดือน ( tweetVolume) และปริมาณการซื้อขายหุ้นในช่วงเวลาเดียวกัน ถ้าฉันมีความสัมพันธ์ตัวแปรแน่นอนผมพบr=.282, p.000แต่เมื่อผมใช้ verions r=.488, p=.000ทะเบียนผมพบ ฉันไม่เข้าใจว่าทำไมนักวิจัยบางครั้งใช้ตัวแปรที่บันทึกไว้และทำไมความสัมพันธ์จึงดูสูงขึ้นมากถ้าคุณทำเช่นนั้น อะไรคือเหตุผลที่นี่และทำไมจึงใช้ตัวแปรที่บันทึกไว้ ความช่วยเหลือของคุณได้รับการชื่นชมอย่างมาก :-)

2
รุ่นอนุกรมเวลาของความแตกต่างของบันทึกดีกว่าอัตราการเติบโตหรือไม่
บ่อยครั้งที่ฉันเห็นผู้เขียนประเมินโมเดล "ความแตกต่างของบันทึก" เช่น log(yt)−log(yt−1)=log(yt/yt−1)=α+βxtlog⁡(yt)−log⁡(yt−1)=log⁡(yt/yt−1)=α+βxt\log (y_t)-\log(y_{t-1}) = \log(y_t/y_{t-1}) = \alpha + \beta x_t ฉันเห็นนี้มีความเหมาะสมที่จะเกี่ยวข้องกับไปสู่การเปลี่ยนแปลงในอัตราร้อยละขณะที่คือ(1)y t log ( y t ) I ( 1 )xtxtx_tytyty_tlog(yt)log⁡(yt)\log (y_t)I(1)I(1)I(1) แต่ความแตกต่างของบันทึกคือการประมาณและดูเหมือนว่าเราสามารถประมาณโมเดลได้โดยไม่ต้องมีการแปลงบันทึกเช่น yt/yt−1−1=(yt−yt−1)/yt−1=α+βxtyt/yt−1−1=(yt−yt−1)/yt−1=α+βxty_t/y_{t-1} -1 = (y_t - y_{t-1}) / y_{t-1}=\alpha+\beta x_t ยิ่งไปกว่านั้นอัตราการเติบโตจะอธิบายการเปลี่ยนแปลงเปอร์เซ็นต์อย่างแม่นยำในขณะที่ความแตกต่างของบันทึกจะประมาณการเปลี่ยนแปลงเปอร์เซ็นต์เท่านั้น อย่างไรก็ตามฉันพบว่าวิธีการบันทึกความแตกต่างถูกใช้บ่อยกว่ามาก ในความเป็นจริงแล้วการใช้อัตราการเติบโตดูเหมือนว่าเหมาะสมที่จะจัดการกับความคงที่ของความแตกต่างแรก ในความเป็นจริงฉันได้พบว่าการคาดการณ์กลายเป็นแบบเอนเอียง (บางครั้งเรียกว่าปัญหาการส่งข้อมูลย้อนกลับในวรรณกรรม) เมื่อเปลี่ยนตัวแปรบันทึกกลับไปเป็นข้อมูลระดับyt/yt−1yt/yt−1y_t/y_{t-1} ประโยชน์ของการใช้ความแตกต่างของบันทึกเปรียบเทียบกับอัตราการเติบโตคืออะไร มีปัญหาใด ๆ กับการเปลี่ยนแปลงอัตราการเติบโตหรือไม่? ฉันเดาว่าฉันขาดอะไรไปไม่งั้นก็ดูเหมือนว่าจะใช้วิธีนี้บ่อยขึ้น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.