สถิติและข้อมูลขนาดใหญ่ quantiles

5

ความแตกต่างระหว่างคำทั้งสามด้านล่างคืออะไร? เปอร์เซ็นต์ quantile ควอไทล์

83 descriptive-statistics quantiles median percentage

2

ฉันทำงานผ่านตำราเรียนสถิติขณะเรียนรู้ R และฉันพบเจอสิ่งกีดขวางในตัวอย่างต่อไปนี้: หลังจากดูที่?quantileฉันพยายามที่จะสร้างสิ่งนี้ใน R ด้วยต่อไปนี้: > nuclear <- c(7, 20, 16, 6, 58, 9, 20, 50, 23, 33, 8, 10, 15, 16, 104) > quantile(nuclear) 0% 25% 50% 75% 100% 6.0 9.5 16.0 28.0 104.0 เนื่องจากข้อความและ R มีผลลัพธ์ที่แตกต่างกันฉันรวบรวมว่า R ใช้ประโยชน์จากค่ามัธยฐานในการคำนวณควอไทล์อันดับที่หนึ่งและสาม คำถาม: ฉันควรจะรวมค่ามัธยฐานในการคำนวณควอไทล์ที่หนึ่งและสามหรือไม่? โดยเฉพาะตำราหรือ R มีความถูกต้องหรือไม่? หากหนังสือเรียนนั้นถูกต้องมีวิธีใดบ้างที่จะบรรลุถึงสิ่งนี้ใน R ขอบคุณล่วงหน้า.

33 r quantiles

5

99 เปอร์เซนต์หรือ 100 เปอร์เซนต์ และพวกเขาเป็นกลุ่มของตัวเลขหรือตัวแบ่งหรือตัวชี้ไปยังหมายเลขบุคคล?

99 เปอร์เซนต์หรือ 100 เปอร์เซนต์ และพวกเขาเป็นกลุ่มของตัวเลขหรือเส้นแบ่งหรือตัวชี้ไปยังหมายเลขบุคคล? ฉันคิดว่าคำถามเดียวกันจะใช้กับควอไทล์หรือควอไทล์ใด ๆ ฉันได้อ่านแล้วว่าดัชนีของตัวเลขที่มีค่าเฉพาะเปอร์เซนต์ (p), ที่ได้รับจากรายการ n คือ i = (p / 100) * n นั่นแนะนำให้ฉันรู้ว่ามี 100 เปอร์เซ็นไทล์ .. เพราะหากคุณมี 100 หมายเลข (i = 1 ถึง i = 100) จากนั้นแต่ละคนจะมีดัชนี (1 ถึง 100) หากคุณมี 200 หมายเลขอาจมี 100 เปอร์เซนต์ แต่แต่ละกลุ่มจะอ้างถึงกลุ่มของตัวเลขสองตัว หรือตัวหาร 100 ตัวที่ไม่รวมตัวหารซ้ายสุดหรือขวาสุดมิฉะนั้นคุณจะได้ตัวแบ่ง 101 หรือพอยน์เตอร์ของแต่ละหมายเลขดังนั้นเปอร์เซนต์แรกจะอ้างถึงตัวเลขที่สอง (1/100) * …

27 quantiles

2

Quantile regression: Function loss

ฉันกำลังพยายามทำความเข้าใจกับการถดถอยเชิงปริมาณ แต่สิ่งหนึ่งที่ทำให้ฉันต้องทนทุกข์คือทางเลือกของฟังก์ชั่นการสูญเสีย ρτ(u)=u(τ−1{u<0})ρτ(u)=u(τ−1{u<0})\rho_\tau(u) = u(\tau-1_{\{u<0\}}) ฉันรู้ว่าความคาดหวังขั้นต่ำของเท่ากับ -quantile แต่อะไรคือเหตุผลเชิงสัญชาตญาณที่จะเริ่มต้นด้วยฟังก์ชั่นนี้? ฉันไม่เห็นความสัมพันธ์ระหว่างการลดฟังก์ชั่นนี้และควอนไทล์ ใครสามารถอธิบายให้ฉันได้ไหมτρτ(y−u)ρτ(y−u)\rho_\tau(y-u)τ%τ%\tau\%

24 quantiles loss-functions quantile-regression

7

อัลกอริทึมในการตรวจสอบปริมาณแบบไดนามิก

ฉันต้องการประเมินปริมาณของข้อมูลบางส่วน ข้อมูลมีขนาดใหญ่มากจนไม่สามารถรองรับได้ในหน่วยความจำ และข้อมูลไม่คงที่ข้อมูลใหม่กำลังจะมาถึง ไม่มีใครรู้ว่าอัลกอริทึมใด ๆ ในการตรวจสอบปริมาณของข้อมูลที่สังเกตจนถึงขณะนี้มีหน่วยความจำและการคำนวณ จำกัด มากหรือไม่? ฉันพบว่าอัลกอริธึม P2มีประโยชน์ แต่มันไม่ได้ผลกับข้อมูลของฉันซึ่งกระจายอย่างหนักมาก

24 algorithms quantiles

4

วิธีการหาปริมาณ (แยก) ของการแจกแจงปกติหลายตัวแปร

ฉันสนใจว่าจะคำนวณการกระจายของหลายตัวแปรแบบควอไทล์ได้อย่างไร ในรูปฉันได้วาดควอนไทล์ 5% และ 95% ของการแจกแจงแบบปกติแบบไม่มีตัวแปร (ซ้าย) สำหรับการกระจายตัวแบบหลายตัวแปรที่ถูกต้องฉันจินตนาการว่าอะนาล็อกจะเป็นสายเดี่ยวที่ล้อมรอบฐานของฟังก์ชันความหนาแน่น ด้านล่างเป็นตัวอย่างของความพยายามของฉันในการคำนวณโดยใช้แพคเกจmvtnorm- แต่ไม่ประสบความสำเร็จ ฉันคิดว่าสิ่งนี้สามารถทำได้โดยการคำนวณรูปร่างของผลลัพธ์ของฟังก์ชันความหนาแน่นหลายตัวแปร แต่ฉันสงสัยว่ามีทางเลือกอื่น ( เช่นแบบอะนาล็อกqnorm) ขอบคุณสำหรับความช่วยเหลือของคุณ. ตัวอย่าง: mu <- 5 sigma <- 2 vals <- seq(-2,12,,100) ds <- dnorm(vals, mean=mu, sd=sigma) plot(vals, ds, t="l") qs <- qnorm(c(0.05, 0.95), mean=mu, sd=sigma) abline(v=qs, col=2, lty=2) #install.packages("mvtnorm") require(mvtnorm) n <- 2 mmu <- rep(mu, …

24 r pdf quantiles multivariate-normal multivariate-distribution

7

การประมาณการแจกแจงโดยพิจารณาจากเปอร์เซนต์ไทล์

ฉันสามารถใช้วิธีการใดในการอนุมานการกระจายหากฉันรู้ว่ามีเปอร์เซนต์สามเปอร์เซ็นต์เท่านั้น ตัวอย่างเช่นฉันรู้ว่าในชุดข้อมูลหนึ่งเปอร์เซนต์ไทล์ที่ห้าคือ 8,135 เปอร์เซ็นไทล์ที่ 50 คือ 11,259 และเปอร์เซ็นไทล์ 95 ที่ 23,611 ฉันต้องการที่จะไปจากจำนวนอื่นใดที่จะเป็นเปอร์เซ็นต์ของมัน ไม่ใช่ข้อมูลของฉันและเป็นสถิติทั้งหมดที่ฉันมี เป็นที่ชัดเจนว่าการกระจายไม่ปกติ ข้อมูลอื่นที่ฉันมีเพียงอย่างเดียวคือข้อมูลนี้แสดงถึงเงินทุนรัฐบาลต่อหัวสำหรับเขตการศึกษาต่างๆ ฉันรู้เพียงพอเกี่ยวกับสถิติที่จะรู้ว่าปัญหานี้ไม่มีวิธีการแก้ปัญหาที่ชัดเจน แต่ไม่เพียงพอที่จะรู้ว่าจะค้นหาการคาดเดาที่ดีได้อย่างไร การแจกแจงแบบบันทึกปกติจะเหมาะสมหรือไม่? เครื่องมือใดที่ฉันสามารถใช้เพื่อทำการถดถอย (หรือฉันต้องทำเอง)

23 r regression quantiles

2

เป็นไปได้หรือไม่ที่จะรวบรวมชุดของสถิติที่อธิบายตัวอย่างจำนวนมากเช่นนี้จากนั้นฉันสามารถสร้าง boxplot ได้?

ฉันต้องชี้แจงทันทีว่าฉันเป็นนักพัฒนาซอฟต์แวร์ฝึกไม่ใช่นักสถิติและชั้นเรียนสถิติของวิทยาลัยของฉันเป็นเวลานานมากแล้ว ... ที่กล่าวว่าฉันอยากจะรู้ว่ามีวิธีการสะสมชุดของสถิติเชิงพรรณนาที่สามารถนำมาใช้ในการผลิต boxplot ที่ไม่เกี่ยวข้องกับการจัดเก็บตัวอย่างแต่ละกลุ่ม? สิ่งที่ฉันพยายามทำคือสร้างสรุปกราฟิกของเวลาบริการคิวภายในกระบวนการหลายคิวที่ซับซ้อน ก่อนหน้านี้ฉันเคยใช้แพคเกจที่เรียกว่า tnftools ซึ่งอนุญาตให้กลุ่มตัวอย่างจำนวนมากสะสมและโพสต์ประมวลผลเป็นกราฟเวลาตอบสนองและค่าผิดปกติที่ดี ... แต่ tnftools ไม่พร้อมใช้งานสำหรับแพลตฟอร์มปัจจุบันของฉัน เป็นการดีที่ฉันต้องการจะสามารถรวบรวมชุดของสถิติเชิงพรรณนา "ในทันที" ในขณะที่กระบวนการทำงานแล้วดึงข้อมูลสำหรับการวิเคราะห์ตามความต้องการ แต่ฉันไม่สามารถให้กระบวนการเก็บตัวอย่างเพียงอย่างเดียวได้เนื่องจากหน่วยความจำ / IO ที่เกี่ยวข้องในการทำเช่นนั้นจะส่งผลกระทบต่อประสิทธิภาพของระบบที่ยอมรับไม่ได้

22 algorithms median quantiles

5

ทำไมต้องใช้ทฤษฎีที่มีค่ามาก

ฉันมาจากวิศวกรรมโยธาที่เราใช้ทฤษฎีค่าสุดขีดเช่นการกระจายของ GEV เพื่อทำนายค่าของเหตุการณ์บางอย่างเช่นความเร็วลมที่ยิ่งใหญ่ที่สุดนั่นคือค่าที่ 98.5% ของความเร็วลมจะลดลง คำถามของฉันคือว่าทำไมต้องใช้เช่นการกระจายค่ามาก ? มันจะไม่ง่ายถ้าเราเพียงแค่ใช้การกระจายโดยรวมและได้รับค่าสำหรับความน่าจะเป็น 98.5% ?

18 quantiles extreme-value

3

การคำนวณอันดับไทล์ไทล์ใน R [ปิด]

ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นจึงเป็นหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน3 ปีที่ผ่านมา ฉันจะเพิ่มตัวแปรใหม่ลงในกรอบข้อมูลซึ่งจะเป็นเปอร์เซนต์ไทล์ของตัวแปรตัวใดตัวหนึ่งได้อย่างไร ฉันสามารถทำสิ่งนี้ใน Excel ได้อย่างง่ายดาย แต่ฉันต้องการทำอย่างนั้นในอาร์ ขอบคุณ

18 r quantiles

2

การคำนวณเปอร์เซ็นต์ไทล์ 95: การเปรียบเทียบการแจกแจงแบบปกติ, R Quantile และ Excel

ฉันพยายามคำนวณเปอร์เซ็นต์ไทล์ไทล์ที่ 95 บนชุดข้อมูลต่อไปนี้ ฉันเจอการอ้างอิงทางออนไลน์ไม่กี่แห่ง วิธีที่ 1: อ้างอิงจากข้อมูลตัวอย่าง แรกบอกฉันจะได้รับTOP 95 Percentของชุดข้อมูลและจากนั้นเลือกMINหรือAVGของชุดผลลัพธ์ การทำเช่นนั้นสำหรับชุดข้อมูลต่อไปนี้ให้ฉัน: AVG: 29162 MIN: 0 วิธีที่ 2: สมมติว่าการแจกแจงแบบปกติ อันที่สองบอกว่าเปอร์เซ็นไทล์ที่ 95 นั้นประมาณสองส่วนเบี่ยงเบนมาตรฐานเหนือค่าเฉลี่ย (ซึ่งฉันเข้าใจ) และฉันแสดง: AVG(Column) + STDEV(Column)*1.65: 67128.542697973 วิธีที่ 3: R Quantile ฉันเคยRได้รับ 95 เปอร์เซ็นต์: > quantile(data$V1, 0.95) 79515.2 วิธีที่ 4: วิธีการของ Excel ในที่สุดฉันก็เจอสิ่งนี้ซึ่งอธิบายว่า Excel ทำได้อย่างไร สรุปวิธีการดังต่อไปนี้: รับชุดของNค่าที่สั่ง{v[1], v[2], ...}และข้อกำหนดในการคำนวณpthเปอร์เซ็นต์ไทล์ให้ทำดังต่อไปนี้: คำนวณ …

17 r dataset quantiles sql

5

อัลกอริทึมออนไลน์สำหรับค่าเบี่ยงเบนสัมบูรณ์เฉลี่ยและชุดข้อมูลขนาดใหญ่

ฉันมีปัญหาเล็กน้อยที่ทำให้ฉันประหลาดใจ ฉันต้องเขียนขั้นตอนสำหรับกระบวนการซื้อแบบออนไลน์ของอนุกรมเวลาหลายตัวแปร ในทุกช่วงเวลา (เช่น 1 วินาที) ฉันจะได้รับตัวอย่างใหม่ซึ่งโดยทั่วไปเป็นเวกเตอร์จุดลอยตัวของขนาด N การดำเนินการที่ฉันต้องทำค่อนข้างยุ่งยากเล็กน้อย: สำหรับตัวอย่างใหม่แต่ละอันฉันคำนวณเปอร์เซ็นต์สำหรับตัวอย่างนั้น (โดยการทำให้เวกเตอร์เป็นมาตรฐานเพื่อให้องค์ประกอบรวมเป็น 1) ฉันคำนวณเปอร์เซ็นต์เฉลี่ยของเวคเตอร์ในวิธีเดียวกัน แต่ใช้ค่าที่ผ่านมา สำหรับค่าในแต่ละครั้งที่ผ่านมาฉันคำนวณค่าเบี่ยงเบนสัมบูรณ์ของเปอร์เซ็นต์เวกเตอร์ที่เกี่ยวข้องกับตัวอย่างนั้นกับค่าเฉลี่ยเวกเตอร์เปอร์เซ็นต์ส่วนกลางที่คำนวณได้ในขั้นตอนที่ 2 ด้วยวิธีนี้ค่าเบี่ยงเบนสัมบูรณ์จะเป็นจำนวนเสมอระหว่าง 0 (เมื่อเวกเตอร์เท่ากับค่าเฉลี่ย เวกเตอร์) และ 2 (เมื่อแตกต่างกันโดยสิ้นเชิง) การใช้ค่าเฉลี่ยของการเบี่ยงเบนสำหรับตัวอย่างก่อนหน้านี้ทั้งหมดฉันคำนวณค่าเบี่ยงเบนสัมบูรณ์แบบเฉลี่ยซึ่งเป็นตัวเลขอีกครั้งระหว่าง 0 ถึง 2 ฉันใช้การเบี่ยงเบนสัมบูรณ์แบบเฉลี่ยเพื่อตรวจสอบว่าตัวอย่างใหม่เข้ากันได้กับตัวอย่างอื่น (โดยการเปรียบเทียบการเบี่ยงเบนสัมบูรณ์กับการเบี่ยงเบนสัมบูรณ์แบบเฉลี่ยของทั้งชุดคำนวณในขั้นตอนที่ 4) เนื่องจากทุกครั้งที่มีการเก็บตัวอย่างใหม่จะมีการเปลี่ยนแปลงค่าเฉลี่ยทั่วโลก (และดังนั้นค่าเบี่ยงเบนสัมบูรณ์ที่เปลี่ยนแปลงเช่นกัน) มีวิธีคำนวณค่านี้โดยไม่สแกนข้อมูลทั้งหมดที่ตั้งไว้หลายครั้งหรือไม่ (หนึ่งครั้งสำหรับการคำนวณเปอร์เซ็นต์เฉลี่ยทั่วโลกและหนึ่งครั้งสำหรับการรวบรวมค่าเบี่ยงเบนสัมบูรณ์) ตกลงฉันรู้ว่ามันง่ายมากที่จะคำนวณค่าเฉลี่ยทั่วโลกโดยไม่ต้องสแกนทั้งชุดเนื่องจากฉันต้องใช้เวกเตอร์ชั่วคราวเพื่อเก็บผลรวมของแต่ละมิติ แต่สิ่งที่เกี่ยวกับการเบี่ยงเบนสัมบูรณ์แบบเฉลี่ย การคำนวณมันรวมถึงabs()โอเปอเรเตอร์ดังนั้นฉันจำเป็นต้องเข้าถึงข้อมูลที่ผ่านมาทั้งหมด! ขอบคุณสำหรับความช่วยเหลือของคุณ.

16 algorithms quantiles online large-data

2

จะรับช่วงความมั่นใจสำหรับเปอร์เซ็นไทล์ได้อย่างไร

ฉันมีค่าข้อมูลดิบจำนวนมากที่เป็นจำนวนเงินดอลลาร์และฉันต้องการค้นหาช่วงความมั่นใจสำหรับเปอร์เซ็นต์ไทล์ของข้อมูลนั้น มีสูตรสำหรับช่วงความมั่นใจเช่นนี้หรือไม่?

15 confidence-interval quantiles tolerance-interval

4

คำศัพท์“ -iles” สำหรับครึ่งบนเปอร์เซ็นต์

ด้านบน 25% เป็นควอไทล์ชั้นนำ 10% แรกสุดคือช่วงชั้นสูงสุด 1% แรกคือเปอร์เซ็นต์ไทล์อันดับสูงสุด มีค่าเทียบเท่า 0.5% อันดับต้น ๆ เช่น 1-in-200 หรือไม่

14 terminology quantiles

1

เมื่อไหร่ที่เราจะใช้ tantiles และอยู่ตรงกลางแทนที่จะเป็น quantiles และมัธยฐาน?

ฉันไม่สามารถหาคำจำกัดความของคำว่า tantile หรือ medial บน Wikipedia หรือ Wolfram Mathworld แต่คำอธิบายต่อไปนี้มีให้ในBílková, D. และ Mala, I. (2012), "การประยุกต์ใช้วิธี L-moment เมื่อสร้างแบบจำลองการกระจายรายได้ ในสาธารณรัฐเช็ก ", วารสารสถิติออสเตรีย , 41 (2), 125–132 ตรงกลางคือค่าของที่ (ตัวอย่าง) tantile เช่นเดียวกับค่าเฉลี่ยของกลุ่มตัวอย่างเท่ากับมูลค่าของที่50 % quantile ตัวอย่าง ตัวอย่าง tantiles เช่นเดียวกับ quantiles ตัวอย่างจะขึ้นอยู่กับตัวอย่างที่สั่งซื้อ ก่อนอื่นผลรวมสะสมของการสังเกตในตัวอย่างที่สั่งซื้อจะถูกประเมิน แล้วสำหรับที่กำหนดร้อยละP , 0 < P < 100เป็นพี50%50%50\%50%50%50\%ppp0<p<1000<p<1000<p<100 tantile ถูกกำหนดให้เป็นค่าของตัวแปรที่วิเคราะห์ซึ่งแบ่งการสังเกตทั้งหมดในตัวอย่างที่ได้รับคำสั่งออกเป็นสองส่วน: ผลรวมของการสังเกตที่น้อยกว่าหรือเท่ากับคือ p %p%p%p\%p%p%p\%ของผลรวมการสังเกตและผลรวมของการสังเกตที่มากขึ้นแสดงถึงส่วนที่เหลือของผลรวมนี้( …

14 descriptive-statistics quantiles median average partial-moments

คำถามติดแท็ก quantiles