คำถามติดแท็ก mean

ค่าที่คาดหวังของตัวแปรสุ่ม หรือวัดตำแหน่งสำหรับตัวอย่าง

1
การทดสอบอัตราส่วนชาร์ปอย่างมีนัยสำคัญ
วิธีที่เหมาะสมในการทดสอบความสำคัญของอัตราส่วน Sharpe หรืออัตราส่วนข้อมูลคืออะไร? อัตราส่วน Sharpe จะขึ้นอยู่กับดัชนีส่วนต่าง ๆ และอาจมีช่วงเวลามองย้อนกลับไปตัวแปร ทางออกหนึ่งที่ฉันได้เห็นอธิบายเพียงใช้ทดสอบนักเรียนกับ df ตั้งระยะเวลาในการมองย้อนกลับ ฉันลังเลที่จะใช้วิธีการข้างต้นเนื่องจากข้อกังวลดังต่อไปนี้: ฉันเชื่อว่า t-test นั้นมีความอ่อนไหวต่อความเบ้ ค่าเฉลี่ยผลตอบแทนที่คำนวณโดยใช้การส่งคืนค่าน้อยกว่าค่าเฉลี่ยผลตอบแทนที่คำนวณโดยใช้ผลตอบแทนแบบง่าย ฉันคิดว่าสิ่งนี้จะทำให้มีโอกาสมากขึ้นที่อัตราส่วน Sharpe ที่ให้ผลตอบแทนแบบง่ายจะลงทะเบียนว่ามีนัยสำคัญเมื่อเทียบกับ Sharpe ที่ใช้อัตราส่วนผลตอบแทนกลับมา หากช่วงเวลาที่มองย้อนกลับไปมีขนาดเล็ก (เช่นขนาดตัวอย่างเล็ก) การทดสอบ t อาจเหมาะสม แต่เกณฑ์ใดที่เหมาะสมที่จะใช้การทดสอบอื่น ความโน้มเอียงแรกของฉันคือการหลีกเลี่ยงการใช้การกระจายนักศึกษา -t และสร้างการทดสอบตามการกระจายพลังงานแบบอสมมาตรซึ่งฉันได้อ่านได้แสดงให้เห็นว่าใกล้เคียงกับผลตอบแทนของตลาดตราสารทุนมากขึ้น ความชอบครั้งที่สองของฉันคือการดูการทดสอบแบบไม่อิงพารามิเตอร์ แต่มีประสบการณ์ จำกัด ในการใช้งานของพวกเขาฉันไม่แน่ใจว่าจะเริ่มต้นอย่างไรและควรหลีกเลี่ยงข้อผิดพลาดอะไร ฉันคิดมากปัญหานี้หรือไม่

1
R ตัวแปรเชิงเส้นถดถอยหมวดหมู่ "ซ่อน" ค่า
นี่เป็นเพียงตัวอย่างที่ฉันเจอหลายครั้งดังนั้นฉันจึงไม่มีข้อมูลตัวอย่าง ใช้แบบจำลองการถดถอยเชิงเส้นใน R: a.lm = lm(Y ~ x1 + x2) x1เป็นตัวแปรต่อเนื่อง x2เป็นหมวดหมู่และมีสามค่าเช่น "ต่ำ", "ปานกลาง" และ "สูง" อย่างไรก็ตามเอาต์พุตที่กำหนดโดย R จะเป็นดังนี้: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 ฉันเข้าใจว่า R แนะนำการเข้ารหัสแบบหลอกบางอย่างเกี่ยวกับปัจจัยดังกล่าว ( …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
หมายถึงค่าเบี่ยงเบนสัมบูรณ์ที่น้อยกว่าค่าเบี่ยงเบนมาตรฐานสำหรับ
ฉันต้องการเปรียบเทียบค่าเบี่ยงเบนสัมบูรณ์เฉลี่ยกับส่วนเบี่ยงเบนมาตรฐานในกรณีทั่วไปกับคำจำกัดความนี้: MA D =1n - 1Σ1n|xผม- μ | ,SD =Σn1(xผม- μ)2n - 1-----------√MAD=1n−1∑1n|xi−μ|,SD=∑1n(xi−μ)2n−1MAD = \frac{1}{n-1}\sum_1^n|x_i - \mu|, \qquad SD = \sqrt{\frac{\sum_1^n(x_i-\mu)^2}{n-1}} ที่ไหน μ =1nΣn1xผมμ=1n∑1nxi\mu =\frac{1}{n}\sum_1^n x_i. มันเป็นความจริงหรือเปล่า MA D ≤ SDMAD≤SDMAD \le SD สำหรับทุกคน {xผม}n1{xi}1n\{x_i\}^n_1? มันผิดสำหรับ n = 2n=2n=2, เพราะ x + y≥x2+Y2------√x+y≥x2+y2x+y \ge \sqrt{x^2+y^2}สำหรับทุกคน x , y≥ 0x,y≥0x, y …

2
อนุญาตให้ใช้ค่าเฉลี่ยในชุดข้อมูลเพื่อปรับปรุงความสัมพันธ์ได้หรือไม่
ฉันมีชุดข้อมูลที่มีตัวแปรตามและตัวแปรอิสระ ทั้งคู่ไม่ใช่อนุกรมเวลา ฉันมี 120 ข้อสังเกต ค่าสัมประสิทธิ์สหสัมพันธ์เท่ากับ 0.43 หลังจากการคำนวณนี้ฉันได้เพิ่มคอลัมน์สำหรับตัวแปรทั้งสองโดยมีค่าเฉลี่ยสำหรับการสังเกตทุก 12 ครั้งทำให้เกิดคอลัมน์ใหม่ 2 คอลัมน์ที่มีการสังเกต 108 ครั้ง (คู่) ค่าสัมประสิทธิ์สหสัมพันธ์ของคอลัมน์เหล่านี้คือ 0.77 ดูเหมือนว่าฉันจะปรับปรุงความสัมพันธ์ในลักษณะนี้ อนุญาตให้ทำเช่นนี้หรือไม่ ฉันเพิ่มอำนาจการอธิบายของตัวแปรอิสระโดยใช้ค่าเฉลี่ยหรือไม่

2
เมื่อใช้ SVM ทำไมฉันต้องขยายขนาดคุณสมบัติ
ตามเอกสารของStandardScalerวัตถุใน scikit-learn: เช่นองค์ประกอบหลายอย่างที่ใช้ในฟังก์ชันวัตถุประสงค์ของอัลกอริทึมการเรียนรู้ (เช่นเคอร์เนล RBF ของ Support Vector Machines หรือ L1 และ L1 normalizers โมเดลเชิงเส้น) สมมติว่าคุณลักษณะทั้งหมดอยู่กึ่งกลางรอบ 0 และมีความแปรปรวนในลำดับเดียวกัน หากคุณลักษณะมีความแปรปรวนที่เป็นลำดับความสำคัญมากกว่าที่อื่น ๆ มันอาจครอบงำฟังก์ชันวัตถุประสงค์และทำให้ตัวประมาณไม่สามารถเรียนรู้จากคุณลักษณะอื่นได้อย่างถูกต้องตามที่คาดไว้ ฉันควรปรับขนาดคุณสมบัติของฉันก่อนจัดประเภท มีวิธีง่าย ๆ ที่จะแสดงว่าทำไมฉันควรทำเช่นนี้? การอ้างอิงบทความทางวิทยาศาสตร์จะดียิ่งขึ้น ฉันได้พบหนึ่งแต่อาจมีอื่น ๆ อีกมากมาย

4
จำนวนที่คาดหวังของการทอยลูกเต๋าต้องทำให้ผลรวมมากกว่าหรือเท่ากับ K?
6 ด้านรีดตายซ้ำแล้วซ้ำอีก จำนวนม้วนที่คาดหวังจำเป็นต้องมีเพื่อให้ผลรวมมากกว่าหรือเท่ากับ K คืออะไร ก่อนที่จะแก้ไข P(Sum>=1 in exactly 1 roll)=1 P(Sum>=2 in exactly 1 roll)=5/6 P(Sum>=2 in exactly 2 rolls)=1/6 P(Sum>=3 in exactly 1 roll)=5/6 P(Sum>=3 in exactly 2 rolls)=2/6 P(Sum>=3 in exactly 3 rolls)=1/36 P(Sum>=4 in exactly 1 roll)=3/6 P(Sum>=4 in exactly 2 rolls)=3/6 P(Sum>=4 in exactly 3 …

2
ตัดค่าเฉลี่ยกับค่ามัธยฐาน
ฉันมีชุดข้อมูลที่มีการโทรทั้งหมดไปยังบริการฉุกเฉินและเวลาตอบสนองของแผนกรถพยาบาล พวกเขายอมรับว่ามีข้อผิดพลาดบางอย่างกับเวลาตอบสนองเนื่องจากมีบางกรณีที่พวกเขาไม่ได้เริ่มบันทึก (ดังนั้นค่าคือ 0) หรือที่พวกเขาไม่หยุดนาฬิกา (ดังนั้นค่าอาจสูงมาก) ฉันต้องการทราบถึงแนวโน้มที่เป็นศูนย์กลางและฉันสงสัยว่ามันเป็นการดีกว่าถ้าใช้มัธยฐานหรือค่าเฉลี่ยที่ถูกตัดออกเพื่อกำจัดค่าผิดปกติหรือไม่

2
การประเมินค่าเฉลี่ยที่แข็งแกร่งด้วย O (1) การปรับปรุงประสิทธิภาพ
ฉันกำลังมองหาการประมาณการที่มีประสิทธิภาพของค่าเฉลี่ยที่มีคุณสมบัติเฉพาะ ฉันมีชุดขององค์ประกอบที่ฉันต้องการคำนวณสถิตินี้ จากนั้นฉันเพิ่มองค์ประกอบใหม่ทีละรายการและสำหรับองค์ประกอบเพิ่มเติมแต่ละรายการที่ฉันต้องการคำนวณสถิติใหม่ (หรือที่เรียกว่าอัลกอริทึมออนไลน์) ฉันต้องการให้การคำนวณการอัปเดตนี้เป็นไปอย่างรวดเร็วโดยเฉพาะอย่างยิ่ง O (1) นั่นคือไม่ขึ้นอยู่กับขนาดของรายการ ค่าเฉลี่ยปกติมีคุณสมบัตินี้ซึ่งสามารถอัปเดตได้อย่างมีประสิทธิภาพ แต่ไม่ทนทานต่อค่าผิดปกติ ตัวประมาณค่าเฉลี่ยที่แข็งแกร่งของค่าเฉลี่ยเช่นค่าเฉลี่ยระหว่างควอไทล์และค่าเฉลี่ยที่ตัดแต่งไม่สามารถอัปเดตได้อย่างมีประสิทธิภาพ (เนื่องจากต้องการการรักษารายการที่เรียงลำดับ) ฉันขอขอบคุณข้อเสนอแนะสำหรับสถิติที่มีประสิทธิภาพซึ่งสามารถคำนวณ / อัปเดตได้อย่างมีประสิทธิภาพ

1
ค่าบันทึกที่คาดหวังของการแจกแจงแบบเอ็กซ์โพเนนเชียลที่ไม่ใช่ศูนย์
สมมติว่าไม่กระจายกลางชี้แจงกับสถานที่ตั้งของและอัตรา\จากนั้นคืออะไรXXXkkkλλ\lambdaE(log(X))E(log⁡(X))E(\log(X)) ฉันรู้ว่าสำหรับคำตอบคือ- \ log (\ lambda) - \ gammaโดยที่\ gammaเป็นค่าคงที่ออยเลอร์ - มาเชอร์โรนี่ สิ่งที่เกี่ยวกับเมื่อk> 0 ?k=0k=0k=0−log(λ)−γ−log⁡(λ)−γ-\log(\lambda) - \gammaγγ\gammak>0k>0k > 0

4
ค่าที่คาดหวังเกี่ยวข้องกับค่าเฉลี่ยมัธยฐาน ฯลฯ อย่างไรในการแจกแจงแบบไม่ปกติ
ค่าที่คาดหวังของตัวแปรสุ่มต่อเนื่องเกี่ยวข้องกับค่าเฉลี่ยเลขคณิตค่ามัธยฐาน ฯลฯ อย่างไรในการแจกแจงแบบไม่ปกติ (เช่น. เอียงปกติ) ฉันสนใจในการแจกแจงทั่วไป / ที่น่าสนใจใด ๆ (เช่นบันทึกปกติ, การแจกแจงแบบทวิภาค / แบบง่าย, อะไรก็ได้ที่แปลกและมหัศจรรย์) ฉันกำลังมองหาคำตอบเชิงคุณภาพเป็นส่วนใหญ่ แต่คำตอบเชิงปริมาณหรือเชิงสูตรก็ยินดีต้อนรับเช่นกัน ฉันต้องการเห็นภาพที่ทำให้ชัดเจนยิ่งขึ้น

2
วิธีการที่ทันสมัยเพื่อค้นหาศูนย์ค่าเฉลี่ยส่วนของอนุกรมเวลา
ฉันมีอนุกรมเวลาที่มีเสียงดังซึ่งฉันต้องแบ่งส่วนออกเป็นส่วน ๆ ด้วยค่าเฉลี่ยเป็นศูนย์และส่วนที่ไม่มีค่าเฉลี่ยเป็นศูนย์ การค้นหาขอบเขตอย่างแม่นยำที่สุดเท่าที่จะเป็นไปได้มีความสำคัญ (ชัดเจนว่าขอบเขตอยู่ตรงไหนเป็นเรื่องส่วนตัว) ฉันคิดว่าตัวแปร cusum สามารถปรับให้ทำเช่นนี้ได้ แต่เนื่องจาก cusum เป็นหลักเกี่ยวกับการค้นหาการเปลี่ยนแปลงเดียวที่ทำให้กลยุทธ์การแบ่งกลุ่มทั้งหมดไม่ได้รับการแก้ไขอย่างสมบูรณ์ ฉันแน่ใจว่ามีการทำวิจัยเป็นจำนวนมากเกี่ยวกับปัญหานี้ แต่ไม่สามารถหาได้ ป.ล. จำนวนข้อมูลในอนุกรมเวลาเหล่านี้ค่อนข้างมากตัวอย่างมากถึงหลายร้อยล้านตัวอย่างและแต่ละตัวอย่างสามารถเป็นเวกเตอร์ที่มีองค์ประกอบสองร้อยชิ้นดังนั้นวิธีที่สามารถคำนวณได้อย่างรวดเร็วเป็นปัจจัยสำคัญ . PPS ไม่มีแท็กการแบ่งกลุ่มดังนั้นแท็กการจัดหมวดหมู่
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.