คำถามติดแท็ก average

ค่าที่คาดหวังของตัวแปรสุ่ม หรือการวัดสถานที่สำหรับตัวอย่าง

8
สร้างตัวแปรสุ่มที่มีความสัมพันธ์ที่กำหนดไว้กับตัวแปรที่มีอยู่
สำหรับการศึกษาการจำลองฉันต้องสร้างตัวแปรสุ่มที่แสดง prefined (ประชากร) ความสัมพันธ์กับตัวแปรที่มีอยู่YYYY ฉันดูในRแพ็คเกจcopulaและCDVineสามารถสร้างการแจกแจงหลายตัวแปรแบบสุ่มด้วยโครงสร้างการพึ่งพาที่กำหนด อย่างไรก็ตามเป็นไปไม่ได้ที่จะแก้ไขหนึ่งในตัวแปรที่เป็นผลลัพธ์ของตัวแปรที่มีอยู่ ความคิดและลิงก์ไปยังฟังก์ชั่นที่มีอยู่นั้นได้รับการชื่นชม! สรุป: คำตอบที่ถูกต้องสองคำขึ้นมาพร้อมกับโซลูชันที่แตกต่าง: R สคริปต์โดย Caracal ซึ่งจะคำนวณตัวแปรสุ่มกับที่แน่นอน (ตัวอย่าง) ความสัมพันธ์กับตัวแปรที่กำหนดไว้ล่วงหน้า R ฟังก์ชั่นฉันพบตัวเองซึ่งจะคำนวณตัวแปรสุ่มที่มีการกำหนดประชากรความสัมพันธ์กับตัวแปรที่กำหนดไว้ล่วงหน้า [@ttnphns 'นอกจากนี้: ฉันใช้เสรีภาพในการขยายชื่อคำถามจากกรณีตัวแปรคงที่เดียวเป็นจำนวนคงที่ของตัวแปรคงที่; เช่นวิธีการสร้างตัวแปรที่มีคอร์เรชั่นที่กำหนดไว้ล่วงหน้าพร้อมกับตัวแปรคงที่บางตัวที่มีอยู่]

5
ความจริงที่ว่าลูกชายชาวอิตาเลียนของฉันจะเข้าเรียนในโรงเรียนประถมจะเปลี่ยนจำนวนเด็กอิตาเลียนที่คาดหวังให้เข้าเรียนในชั้นเรียนของเขาหรือไม่?
นี่เป็นคำถามที่เกิดจากสถานการณ์ในชีวิตจริงซึ่งฉันได้รับความสับสนอย่างแท้จริงเกี่ยวกับคำตอบ ลูกชายของฉันเกิดจากการเริ่มต้นโรงเรียนประถมในลอนดอน ในขณะที่เราเป็นชาวอิตาลีฉันอยากรู้ว่าเด็ก ๆ ชาวอิตาเลียนจำนวนเท่าใดที่เข้าเรียนในโรงเรียนนี้แล้ว ฉันถามเรื่องนี้กับเจ้าหน้าที่รับสมัครในขณะที่สมัครและเธอบอกฉันว่าพวกเขามีเด็กอิตาเลียน 2 คนต่อชั้นเรียน (จาก 30) โดยเฉลี่ย ตอนนี้ฉันอยู่ในช่วงเวลาที่ฉันรู้ว่าลูกของฉันได้รับการยอมรับ แต่ฉันไม่มีข้อมูลอื่นเกี่ยวกับเด็กคนอื่น เกณฑ์การรับเข้าเรียนนั้นขึ้นอยู่กับระยะทาง แต่สำหรับวัตถุประสงค์ของคำถามนี้ฉันเชื่อว่าเราสามารถสันนิษฐานได้ว่าขึ้นอยู่กับการจัดสรรแบบสุ่มจากกลุ่มตัวอย่างจำนวนมากของผู้สมัคร มีเด็กอิตาเลี่ยนกี่คนที่คาดว่าจะอยู่ในชั้นเรียนของลูกชายของฉัน จะใกล้เคียงกับ 2 หรือ 3 หรือไม่

3
เหตุใดจึงมีความแตกต่างระหว่างการคำนวณช่วงความเชื่อมั่นแบบโลจิสติก 95% ด้วยตนเองและการใช้ฟังก์ชัน confint () ใน R
เรียนคุณทุกคน - ฉันสังเกตเห็นบางสิ่งแปลก ๆ ที่ไม่สามารถอธิบายได้ไหม โดยสรุป: แนวทางแบบแมนนวลเพื่อคำนวณช่วงความมั่นใจในโมเดลการถดถอยโลจิสติกและฟังก์ชัน R confint()ให้ผลลัพธ์ที่แตกต่างกัน ฉันเคยผ่านการถดถอยโลจิสติกประยุกต์ของ Hosmer & Lemeshow แล้ว (ฉบับที่ 2) ในบทที่ 3 มีตัวอย่างของการคำนวณอัตราส่วนอัตราต่อรองและช่วงความมั่นใจ 95% ด้วย R ฉันสามารถสร้างโมเดลได้อย่างง่ายดาย: Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

5
อะไรคือความแตกต่างระหว่าง "ค่าเฉลี่ย" และ "เฉลี่ย"
Wikipediaอธิบาย: สำหรับชุดข้อมูลค่าเฉลี่ยคือผลรวมของค่าหารด้วยจำนวนของค่า คำจำกัดความนี้สอดคล้องกับสิ่งที่ฉันเรียกว่า "เฉลี่ย" (อย่างน้อยนั่นคือสิ่งที่ฉันจำได้ว่าเรียนรู้) วิกิพีเดียยังมีคำพูดอีกครั้ง: มีมาตรการทางสถิติอื่น ๆ ที่ใช้ตัวอย่างที่บางคนสับสนกับค่าเฉลี่ย ได้แก่ 'มัธยฐาน' และ 'โหมด' ตอนนี้มันสับสน "ค่าเฉลี่ย" และ "เฉลี่ย" แตกต่างจากกันหรือไม่? ถ้าเป็นเช่นนั้นได้อย่างไร

6
ค่ามัธยฐานเป็นประเภทของค่าเฉลี่ยหรือไม่สำหรับการวางนัยทั่วไปของ "หมายถึง"?
แนวคิดของ "หมายถึง" roams กว้างกว่าค่าเฉลี่ยเลขคณิตแบบดั้งเดิม; มันยืดจนรวมค่ามัธยฐานหรือไม่? โดยการเปรียบเทียบ ข้อมูลดิบ⟶รหัสข้อมูลดิบ⟶ค่าเฉลี่ยค่าเฉลี่ยดิบ⟶รหัส- 1เลขคณิตหมายถึงข้อมูลดิบ⟶recipการแลกเปลี่ยน⟶ค่าเฉลี่ยค่าเฉลี่ยซึ่งกันและกัน⟶recip- 1ค่าเฉลี่ยฮาร์มอนิกข้อมูลดิบ⟶เข้าสู่ระบบบันทึก⟶ค่าเฉลี่ยหมายถึงบันทึก⟶เข้าสู่ระบบ- 1เฉลี่ยเรขาคณิตข้อมูลดิบ⟶สี่เหลี่ยมสี่เหลี่ยม⟶ค่าเฉลี่ยตาราง ⟶สี่เหลี่ยม-1รูตหมายความว่ากำลังสองข้อมูลดิบ⟶ยศการจัดอันดับ ⟶ค่าเฉลี่ยหมายถึงอันดับ⟶ยศ- 1มัธยฐานข้อมูลดิบ⟶รหัสข้อมูลดิบ⟶ค่าเฉลี่ยดิบหมายถึง⟶รหัส-1เลขคณิตหมายถึงข้อมูลดิบ⟶recipส่วนกลับ⟶ค่าเฉลี่ยค่าเฉลี่ยซึ่งกันและกัน⟶recip-1ค่าเฉลี่ยฮาร์มอนิกข้อมูลดิบ⟶เข้าสู่ระบบบันทึก⟶ค่าเฉลี่ยหมายถึงบันทึก⟶เข้าสู่ระบบ-1เฉลี่ยเรขาคณิตข้อมูลดิบ⟶สี่เหลี่ยมสี่เหลี่ยม⟶ค่าเฉลี่ยตาราง⟶สี่เหลี่ยม-1รูตหมายความว่ากำลังสองข้อมูลดิบ⟶ยศการจัดอันดับ⟶ค่าเฉลี่ยหมายถึงอันดับ⟶ยศ-1มัธยฐาน \text{raw data} \overset{\text{id}}{\longrightarrow} \text{raw data} \overset{\text{mean}}{\longrightarrow} \text{raw mean} \overset{\text{id}^{-1}}{\longrightarrow} \text{arithmetic mean} \\ \text{raw data} \overset{\text{recip}}{\longrightarrow} \text{reciprocals} \overset{\text{mean}}{\longrightarrow} \text{mean reciprocal} \overset{\text{recip}^{-1}}{\longrightarrow} \text{harmonic mean} \\ \text{raw data} \overset{\text{log}}{\longrightarrow} \text{logs} \overset{\text{mean}}{\longrightarrow} \text{mean log} \overset{\text{log}^{-1}}{\longrightarrow} \text{geometric mean} \\ \text{raw data} \overset{\text{square}}{\longrightarrow} …
20 mean  average  median 

4
ค่าเฉลี่ยความสัมพันธ์
สมมุติว่าฉันทดสอบว่าตัวแปรYขึ้นอยู่กับตัวแปรอย่างไรXภายใต้เงื่อนไขการทดลองที่แตกต่างกันและรับกราฟต่อไปนี้: เส้นประในกราฟด้านบนแสดงการถดถอยเชิงเส้นสำหรับชุดข้อมูลแต่ละชุด (การตั้งค่าการทดลอง) และตัวเลขในตำนานแสดงถึงสหสัมพันธ์ของเพียร์สันของชุดข้อมูลแต่ละชุด ผมอยากจะคำนวณ "ความสัมพันธ์เฉลี่ย" (หรือ "หมายถึงความสัมพันธ์") ระหว่างและX Yฉันขอเฉลี่ยrค่าได้ไหม สิ่งที่เกี่ยวกับ "การกำหนดเกณฑ์ค่าเฉลี่ย", ? ฉันควรจะคำนวณค่าเฉลี่ยและกว่าจะใช้ตารางของค่าว่าหรือฉันควรคำนวณค่าเฉลี่ยของแต่ละ 's?R 2R2R2R^2rR2R2R^2

4
อะไรคือการกระจายตัวของตัวแปรสุ่มปัวซองลงเฉลี่ย?
ถ้าฉันมีตัวแปรสุ่มX1,X2,…,XnX1,X2,…,XnX_1,X_2,\ldots,X_nที่ปัวซองกระจายกับพารามิเตอร์λ1,λ2,…,λnλ1,λ2,…,λn\lambda_1, \lambda_2,\ldots, \lambda_n , การกระจายตัวของY=⌊∑ni=1Xin⌋Y=⌊∑i=1nXin⌋Y=\left\lfloor\frac{\sum_{i=1}^n X_i}{n}\right\rfloor(เช่นชั้นจำนวนเต็มของค่าเฉลี่ย)? ผลรวมของ Poissons ก็เป็น Poisson เช่นกัน แต่ฉันไม่มั่นใจในสถิติเพียงพอที่จะตัดสินว่ามันเหมือนกันสำหรับกรณีข้างต้นหรือไม่

7
ค่ามัธยฐานนั้นดีกว่าค่าเฉลี่ยหรือไม่
ฉันเพิ่งอ่านคำแนะนำที่คุณควรใช้ค่ามัธยฐานไม่ได้หมายถึงการกำจัดค่าผิดปกติ ตัวอย่าง: บทความต่อไปนี้ http://www.amazon.com/Forensic-Science-Introduction-Scientific-Investigative/product-reviews/1420064932/ มี 16 ความคิดเห็นในขณะนี้: review= c(5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 4, 4, 3, 2, 1, 1) summary(review) ## "ordinary" summary Min. 1st Qu. Median Mean 3rd Qu. Max. 1.000 3.750 5.000 4.062 5.000 5.000 เพราะพวกเขาใช้Meanบทความได้ 4 ดาว แต่ถ้าพวกเขาใช้Medianมันก็จะได้ 5 ดาว ค่ามัธยฐานไม่ใช่การตัดสินที่ 'ยุติธรรม' …
17 mean  median  average 

6
วิธีการตรวจสอบความคิดเห็นของผู้ใช้โพลาไรซ์ (ระดับดาวสูงและต่ำ)
หากฉันมีระบบการจัดอันดับดาวที่ผู้ใช้สามารถแสดงความพึงพอใจต่อผลิตภัณฑ์หรือรายการได้ฉันจะตรวจสอบสถิติได้อย่างไรหากคะแนนโหวต "แบ่ง" สูง ความหมายแม้ว่าค่าเฉลี่ยคือ 3 จาก 5 สำหรับผลิตภัณฑ์ที่กำหนดฉันจะตรวจสอบได้อย่างไรว่านั่นคือการแบ่ง 1-5 เมื่อเทียบกับฉันทามติ 3 โดยใช้ข้อมูล (ไม่มีวิธีกราฟิก)

2
แยกจุดข้อมูลจากค่าเฉลี่ยเคลื่อนที่หรือไม่
เป็นไปได้หรือไม่ที่จะดึงจุดข้อมูลออกจากข้อมูลเฉลี่ยเคลื่อนที่? กล่าวอีกนัยหนึ่งถ้าชุดข้อมูลมีค่าเฉลี่ยเคลื่อนที่อย่างง่ายจาก 30 คะแนนก่อนหน้าเป็นไปได้หรือไม่ที่จะแยกจุดข้อมูลดั้งเดิมออก ถ้าเป็นเช่นนั้นได้อย่างไร

1
ชื่อของค่าเฉลี่ยของค่าที่มากที่สุดและน้อยที่สุดในชุดข้อมูลที่กำหนดคืออะไร?
คุณเรียกค่าเฉลี่ยเชิงสถิติที่คำนวณจากสุดขั้วบนและล่างในชุดข้อมูลใด ๆ ตัวอย่างเช่นหากคุณมีชุด: { -2, 0 , 8, 9, 1, 50, -2, 6} สุดขีดบนของชุดนี้อยู่และรุนแรงที่ต่ำกว่า50 -2ดังนั้นค่าเฉลี่ยของความสุดขั้วจะเป็น(-2 + 50 / 2) = 48/2 = 24 มีคำสำหรับค่าเฉลี่ยทางสถิติแบบนี้หรือไม่?

1
เมื่อไหร่ที่เราจะใช้ tantiles และอยู่ตรงกลางแทนที่จะเป็น quantiles และมัธยฐาน?
ฉันไม่สามารถหาคำจำกัดความของคำว่า tantile หรือ medial บน Wikipedia หรือ Wolfram Mathworld แต่คำอธิบายต่อไปนี้มีให้ในBílková, D. และ Mala, I. (2012), "การประยุกต์ใช้วิธี L-moment เมื่อสร้างแบบจำลองการกระจายรายได้ ในสาธารณรัฐเช็ก ", วารสารสถิติออสเตรีย , 41 (2), 125–132 ตรงกลางคือค่าของที่ (ตัวอย่าง) tantile เช่นเดียวกับค่าเฉลี่ยของกลุ่มตัวอย่างเท่ากับมูลค่าของที่50 % quantile ตัวอย่าง ตัวอย่าง tantiles เช่นเดียวกับ quantiles ตัวอย่างจะขึ้นอยู่กับตัวอย่างที่สั่งซื้อ ก่อนอื่นผลรวมสะสมของการสังเกตในตัวอย่างที่สั่งซื้อจะถูกประเมิน แล้วสำหรับที่กำหนดร้อยละP , 0 &lt; P &lt; 100เป็นพี50%50%50\%50%50%50\%ppp0&lt;p&lt;1000&lt;p&lt;1000<p<100 tantile ถูกกำหนดให้เป็นค่าของตัวแปรที่วิเคราะห์ซึ่งแบ่งการสังเกตทั้งหมดในตัวอย่างที่ได้รับคำสั่งออกเป็นสองส่วน: ผลรวมของการสังเกตที่น้อยกว่าหรือเท่ากับคือ p %p%p%p\%p%p%p\%ของผลรวมการสังเกตและผลรวมของการสังเกตที่มากขึ้นแสดงถึงส่วนที่เหลือของผลรวมนี้( …

4
แบบฟอร์มที่ดีสำหรับการลบค่าผิดปกติ?
ฉันกำลังทำงานเกี่ยวกับสถิติสำหรับการสร้างซอฟต์แวร์ ฉันมีข้อมูลสำหรับแต่ละบิลด์เมื่อผ่าน / ไม่ผ่านและเวลาที่ผ่านไปและเราสร้าง ~ 200 ต่อสัปดาห์ อัตราความสำเร็จนั้นง่ายต่อการรวบรวมฉันสามารถพูดได้ว่า 45% ผ่านไปสัปดาห์ใดก็ตาม แต่ฉันต้องการรวมเวลาที่ผ่านไปด้วยและฉันต้องการตรวจสอบให้แน่ใจว่าฉันไม่ได้บิดเบือนข้อมูลที่ไม่ดีเกินไป คิดว่าฉันควรถามข้อดี :-) บอกว่าฉันมี 10 ช่วงเวลา พวกเขาเป็นตัวแทนของทั้งสองกรณีผ่านและล้มเหลว บางงานสร้างล้มเหลวทันทีซึ่งทำให้ระยะเวลาสั้นผิดปกติ บางคนหยุดระหว่างการทดสอบและหมดเวลาในที่สุดทำให้เกิดระยะเวลาที่ยาวนานมาก เราสร้างผลิตภัณฑ์ที่แตกต่างกันดังนั้นการสร้างที่ประสบความสำเร็จก็แตกต่างกันไประหว่าง 90 วินาทีและ 4 ชั่วโมง ฉันอาจได้ชุดแบบนี้: [50, 7812, 3014, 13400, 21011, 155, 60, 8993, 8378, 9100] วิธีแรกของฉันคือการหาค่ามัธยฐานโดยเรียงลำดับชุดและเลือกค่ากลางในกรณีนี้ 7812 (ฉันไม่ได้ใส่ใจกับค่าเฉลี่ยเลขคณิตสำหรับชุดเลขคู่) น่าเสียดายนี่ดูเหมือนจะสร้างความเปลี่ยนแปลงได้มากมายเนื่องจากฉันเลือกเพียงมูลค่าที่กำหนด ดังนั้นถ้าฉันจะแนวโน้มค่านี้มันจะกระเด้งประมาณระหว่าง 5,000-10,000 วินาทีขึ้นอยู่กับว่ารุ่นใดอยู่ที่ค่ามัธยฐาน เพื่อทำให้เรื่องนี้ราบรื่นขึ้นฉันลองวิธีอื่น - ลบค่าผิดปกติแล้วคำนวณค่าเฉลี่ยของค่าที่เหลือ ฉันตัดสินใจที่จะแยกมันออกเป็น tertiles และทำงานเฉพาะตรงกลาง: [50, 60, …

2
IQR มีความแม่นยำเพียงใดในการตรวจจับค่าผิดปกติ
ฉันกำลังเขียนสคริปต์ที่วิเคราะห์เวลาทำงานของกระบวนการ ฉันไม่แน่ใจเกี่ยวกับการแจกจ่ายของพวกเขา แต่ฉันต้องการทราบว่ากระบวนการทำงาน "ยาวเกินไป" หรือไม่ จนถึงตอนนี้ฉันใช้ค่าเบี่ยงเบนมาตรฐาน 3 ครั้งในการรันครั้งล่าสุด (n&gt; 30) แต่ฉันก็บอกว่ามันไม่ได้ให้ประโยชน์อะไรเลยหากข้อมูลไม่ปกติ ฉันพบการทดสอบนอกกรอบอื่นที่ระบุว่า: ค้นหาช่วงควอไทล์ระหว่างซึ่งเป็น IQR = ไตรมาส 3 - Q1 โดยที่ไตรมาสที่สามคือควอไทล์ที่สามและไตรมาสที่ 1 เป็นควอไทล์แรก จากนั้นหาตัวเลขสองตัวนี้: a) Q1 - 1.5 * IQR b) Q3 + 1.5 * IQR จุดเป็นค่าผิดปกติถ้า &lt;a หรือ&gt; b ข้อมูลของฉันมีแนวโน้มที่จะเป็นเช่น 2sec, 3sec, 2sec, 5sec, 300sec, 4sec, .... ที่ 300sec นั้นเป็นค่าที่เกิน …


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.