สถิติและข้อมูลขนาดใหญ่ descriptive-statistics

12

เครื่องมือบรรทัดคำสั่งเพื่อคำนวณสถิติพื้นฐานสำหรับกระแสค่า [ปิด]

มีเครื่องมือบรรทัดคำสั่งใดบ้างที่ยอมรับการไหลของตัวเลข (ในรูปแบบ ascii) จากอินพุตมาตรฐานและให้สถิติเชิงพรรณนาพื้นฐานสำหรับโฟลว์นี้เช่น min, max, average, median, RMS, quantiles และอื่น ๆ ? เอาต์พุตยินดีที่จะแยกวิเคราะห์โดยคำสั่งถัดไปในห่วงโซ่บรรทัดคำสั่ง สภาพแวดล้อมการทำงานคือ Linux แต่มีตัวเลือกอื่น ๆ ยินดีต้อนรับ

27 descriptive-statistics computational-statistics computing

3

สิ่งที่สามารถสรุปเกี่ยวกับข้อมูลเมื่อค่าเฉลี่ยเลขคณิตใกล้กับค่าเฉลี่ยทางเรขาคณิต

มีอะไรที่สำคัญเกี่ยวกับค่าเฉลี่ยทางเรขาคณิตและเลขคณิตหมายความว่าอยู่ใกล้กันมากพูด ~ 0.1%? การคาดเดาอะไรที่สามารถทำได้เกี่ยวกับชุดข้อมูลดังกล่าว? ฉันทำงานวิเคราะห์ชุดข้อมูลและสังเกตว่าค่าใกล้เคียงอย่างยิ่ง ไม่แน่นอน แต่ปิด นอกจากนี้การตรวจสติอย่างรวดเร็วของความไม่เท่าเทียมของค่าเฉลี่ยเรขาคณิตและการตรวจสอบการเก็บข้อมูลพบว่าไม่มีอะไรที่น่าประหลาดใจเกี่ยวกับความสมบูรณ์ของชุดข้อมูลของฉันในแง่ของวิธีที่ฉันคิดค่า

24 descriptive-statistics mean geometric-mean

5

การวิเคราะห์ข้อมูลเชิงสำรวจเป็นสิ่งสำคัญหรือไม่เมื่อทำการสร้างแบบจำลองการทำนายอย่างหมดจด?

เมื่อสร้างแบบจำลองการทำนายโดยใช้เทคนิคการเรียนรู้ของเครื่องจุดประสงค์ของการวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) คืออะไร? การข้ามไปสู่การสร้างคุณลักษณะและการสร้างแบบจำลองของคุณเป็นเรื่องที่ถูกต้องหรือไม่? สถิติเชิงพรรณนามีความสำคัญอย่างไรใน EDA สำคัญ

23 machine-learning predictive-models descriptive-statistics eda

6

ค่าเฉลี่ยความขัดแย้ง - สิ่งนี้เรียกว่าอะไร?

ฉันมีชุดข้อมูล พูดข้อสังเกตข้อและตัวแปรตัว:3101010333 obs A B C 1 0 0 1 2 0 1 0 3 1 0 1 4 1 1 0 5 1 0 1 6 1 0 0 7 1 1 0 8 0 0 1 9 0 1 1 10 0 1 1 บอกว่าเป็นลูกค้าที่ได้ซื้อ ( ) หรือไม่ …

22 proportion descriptive-statistics paradox

4

จุดประสงค์ของการรายงานสถิติเชิงพรรณนาคืออะไร

ฉันเพิ่งทำการวิเคราะห์ข้อมูลของฉันโดยใช้การถดถอยโลจิสติก แต่ฉันก็จำเป็นต้องมีส่วนสถิติเชิงพรรณนาในรายงานของฉัน ฉันไม่เห็นประเด็นนี้และฉันหวังว่าบางคนอาจอธิบายได้ว่าทำไมถึงจำเป็น ตัวอย่างเช่นถ้าฉันพล็อตฮิสโตแกรมของหนึ่งในตัวแปรอิสระต่อเนื่องของฉันและมันแสดงให้เห็นถึงความปกติหรือมันแสดงให้เห็นความเบ้สิ่งนี้จะเพิ่มมูลค่าให้กับรายงานอย่างไร ข้อมูลของฉันประกอบด้วยตัวแปรตามจริงหรือเท็จในการรับงานและตัวแปรอิสระคือคะแนนในช่วงกลางภาคเรียนเกรดในการสอบปลายภาคและชายหรือหญิง

21 descriptive-statistics reporting

1

ชุดข้อมูล Anscombe ที่มีกล่องและพล็อตมัสสุเดียวกัน (หมายถึง / std / median / MAD / min / max)

แก้ไข: เนื่องจากคำถามนี้ได้ขยายออกไปแล้วบทสรุป: การค้นหาชุดข้อมูลที่มีความหมายและตีความได้ที่แตกต่างกันด้วยสถิติแบบผสมที่เหมือนกัน (หมายถึงค่ามัธยฐานค่ากลางและการกระจายตัวที่เกี่ยวข้องและการถดถอย) กลุ่ม Anscombe (ดูจุดประสงค์ในการแสดงข้อมูลมิติสูง? ) เป็นตัวอย่างที่โด่งดังของชุดข้อมูลสี่xxx , yyyพร้อมค่าเฉลี่ยส่วนเบี่ยงเบนมาตรฐาน / ส่วนเบี่ยงเบนมาตรฐานเดียวกัน (บนสี่xxxและสี่แยกyyy ) และOLSแบบเชิงเส้นเดียวกันการถดถอยและผลรวมที่เหลือของช่องสี่เหลี่ยมและค่าสัมประสิทธิ์สหสัมพันธ์R2R2R^2 2 ℓ2ℓ2\ell_2สถิติชนิด (ขอบและร่วมกัน) จึงเดียวกันในขณะที่ชุดข้อมูลที่แตกต่างกันค่อนข้าง EDIT (จากความคิดเห็น OP) ปล่อยให้ชุดข้อมูลขนาดเล็กแยกกันให้ฉันเสนอการตีความบางอย่าง ชุดที่ 1 สามารถมองเห็นได้เป็นความสัมพันธ์เชิงเส้นมาตรฐาน (เลียนแบบ, ถูกต้อง) ความสัมพันธ์กับเสียงรบกวนแบบกระจาย ชุดที่ 2 แสดงให้เห็นถึงความสัมพันธ์ที่สะอาดซึ่งอาจเป็นจุดศูนย์กลางของความพอดีระดับสูงกว่า ชุดที่ 3 แสดงให้เห็นถึงการพึ่งพาสถิติเชิงเส้นที่ชัดเจนด้วยหนึ่งในค่าผิดเพี้ยน ชุดที่ 4 เป็นเรื่องยุ่งยากมากขึ้น: ความพยายามในการ "ทำนาย" จากxดูเหมือนว่าจะผิดพลาด การออกแบบของxอาจเผยให้เห็นปรากฏการณ์ฮิสเทรีซิสที่มีค่าไม่เพียงพอ, ผลกระทบเชิงปริมาณ ( xอาจเป็นปริมาณมากเกินไป) หรือผู้ใช้เปลี่ยนตัวแปรตามและอิสระyyyxxxxxxxxx ดังนั้นคุณสมบัติสรุปจึงซ่อนพฤติกรรมที่แตกต่างกันมาก ชุดที่ 2 …

21 regression descriptive-statistics curve-fitting estimators

6

อะไรคือความแตกต่างระหว่างสถิติเชิงพรรณนาและเชิงอนุมาน

ความเข้าใจของฉันคือสถิติเชิงพรรณนาอธิบายคุณลักษณะเชิงปริมาณของตัวอย่างข้อมูลในขณะที่สถิติเชิงอนุมานได้ทำการอนุมานเกี่ยวกับประชากรที่ตัวอย่างถูกวาดขึ้นมา อย่างไรก็ตามหน้าวิกิพีเดียสำหรับสถานะการอนุมานทางสถิติ : โดยส่วนใหญ่แล้วการอนุมานทางสถิติทำให้ข้อเสนอเกี่ยวกับประชากรโดยใช้ข้อมูลที่ดึงมาจากประชากรที่สนใจผ่านการสุ่มตัวอย่างบางรูปแบบ "ส่วนใหญ่" ทำให้ฉันคิดว่าฉันอาจไม่เข้าใจแนวคิดเหล่านี้อย่างเหมาะสม มีตัวอย่างของสถิติเชิงอนุมานที่ไม่ได้ทำข้อเสนอเกี่ยวกับประชากรหรือไม่

21 terminology descriptive-statistics inference

4

“ ความเป็นกลาง” หมายถึงอะไร?

มันหมายความว่าอย่างไรว่า "ความแปรปรวนเป็นตัวประมาณแบบเอนเอียง" การแปลงค่าประมาณแบบเอนเอียงเป็นค่าประมาณที่เป็นกลางโดยใช้สูตรอย่างง่ายหมายความว่าอะไร การแปลงนี้ทำอะไรกันแน่? นอกจากนี้การใช้การแปลงนี้ในทางปฏิบัติคืออะไร? คุณแปลงคะแนนเหล่านี้เมื่อใช้สถิติบางประเภทหรือไม่

21 theory unbiased-estimator descriptive-statistics

2

การคำนวณข้อผิดพลาดมาตรฐานหลังจากการแปลงบันทึก

พิจารณาชุดของตัวเลขสุ่มที่กระจายตามปกติ: x <- rnorm(n=1000, mean=10) เราต้องการทราบค่าเฉลี่ยและข้อผิดพลาดมาตรฐานในค่าเฉลี่ยดังนั้นเราจึงทำสิ่งต่อไปนี้: se <- function(x) { sd(x)/sqrt(length(x)) } mean(x) # something near 10.0 units se(x) # something near 0.03 units ที่ดี! อย่างไรก็ตามสมมติว่าเราไม่จำเป็นต้องรู้ว่าการแจกแจงเริ่มต้นของเราเป็นไปตามการแจกแจงแบบปกติ เราบันทึกการแปลงข้อมูลและทำการคำนวณข้อผิดพลาดมาตรฐานเดียวกัน z <- log(x, base=10) mean(z) # something near 1 log units se(z) # something near 0.001 log units เยี่ยมยอด แต่ตอนนี้เราจำเป็นต้องแปลงกลับเพื่อให้ได้คำตอบในหน่วยที่ไม่ใช่หน่วยบันทึก 10^mean(z) # something …

19 confidence-interval data-transformation descriptive-statistics

3

ฉันจะคำนวณช่วงความมั่นใจของค่าเฉลี่ยในตัวอย่างที่ไม่ได้กระจายแบบทั่วไปได้อย่างไร

ฉันจะคำนวณช่วงความมั่นใจของค่าเฉลี่ยในตัวอย่างที่ไม่ได้กระจายแบบทั่วไปได้อย่างไร ฉันเข้าใจว่าวิธีการ bootstrap มักใช้ที่นี่ แต่ฉันเปิดให้ตัวเลือกอื่น ๆ ในขณะที่ฉันกำลังมองหาตัวเลือกที่ไม่ใช่พารามิเตอร์หากใครบางคนสามารถโน้มน้าวใจฉันได้ว่าการแก้ปัญหาแบบพารามิเตอร์นั้นใช้ได้อย่างถูกต้อง ขนาดตัวอย่างคือ> 400 ถ้าใครสามารถให้ตัวอย่างใน R มันจะได้รับการชื่นชมมาก

19 confidence-interval nonparametric bootstrap descriptive-statistics skewness

5

สัญชาตญาณ (เรขาคณิตหรืออื่น ๆ ) ของ

พิจารณาตัวตนเบื้องต้นของความแปรปรวน: Var(X)===E[(X−E[X])2]...E[X2]−(E[X])2Var(X)=E[(X−E[X])2]=...=E[X2]−(E[X])2 \begin{eqnarray} Var(X) &=& E[(X - E[X])^2]\\ &=& ...\\ &=& E[X^2] - (E[X])^2 \end{eqnarray} มันเป็นการจัดการเชิงพีชคณิตอย่างง่าย ๆ ของการนิยามของโมเมนต์ศูนย์กลางในช่วงเวลาที่ไม่เกี่ยวข้อง ช่วยให้การจัดการในบริบทอื่น ๆ สะดวกขึ้น นอกจากนี้ยังช่วยให้การคำนวณความแปรปรวนผ่านการส่งผ่านข้อมูลครั้งเดียวมากกว่าการส่งผ่านสองครั้งแรกเพื่อคำนวณค่าเฉลี่ยแล้วทำการคำนวณความแปรปรวนVar(X)Var(X)Var(X) แต่มันหมายความว่าอะไร? สำหรับฉันไม่มีสัญชาตญาณทางเรขาคณิตทันทีที่เกี่ยวข้องกับการแพร่กระจายเกี่ยวกับค่าเฉลี่ยในการแพร่กระจายประมาณ 0 เป็นเป็นชุดในมิติเดียวคุณจะดูการแพร่กระจายรอบค่าเฉลี่ยเป็นความแตกต่างระหว่างการแพร่กระจายรอบต้นกำเนิดและสี่เหลี่ยมจัตุรัส หมายความว่าอย่างไรXXX มีการตีความพีชคณิตเชิงเส้นที่ดีหรือการตีความทางกายภาพหรืออื่น ๆ ที่จะให้ข้อมูลเชิงลึกเกี่ยวกับตัวตนนี้หรือไม่?

19 variance descriptive-statistics intuition

4

Non-transitivity of correlation: ความสัมพันธ์ระหว่างเพศและขนาดของสมองและระหว่างขนาดของสมองกับ IQ แต่ไม่มีความสัมพันธ์กันระหว่างเพศและ IQ

ฉันพบคำอธิบายต่อไปนี้ในบล็อกและฉันต้องการรับข้อมูลเพิ่มเติมเกี่ยวกับการไม่สัมพันธ์ของความสัมพันธ์: เรามีข้อเท็จจริงที่ปฏิเสธไม่ได้ดังต่อไปนี้: โดยเฉลี่ยมีความแตกต่างของปริมาณสมองระหว่างชายและหญิง มีความสัมพันธ์ระหว่าง IQ กับขนาดสมอง ความสัมพันธ์คือ 0.33 และสอดคล้องกับ 10% ของความแปรปรวนของไอคิว จากสถานที่เหล่านี้ 1 และ 2 ดูเหมือนว่าจะมีเหตุผลจากนั้นผู้หญิงโดยเฉลี่ยมีไอคิวต่ำกว่าผู้ชาย แต่มันเป็นความเข้าใจผิด! ในสถิติความสัมพันธ์ไม่ได้เป็นสกรรมกริยา หลักฐานคือคุณเพียงแค่ต้องดูผลลัพธ์ของการทดสอบ IQ และพวกเขาแสดงให้เห็นว่า IQ ของชายและหญิงไม่แตกต่างกันโดยเฉลี่ย ฉันต้องการที่จะเข้าใจความสัมพันธ์ที่ไม่ไวของความลึกนี้สักหน่อย หากความสัมพันธ์ระหว่าง IQ และขนาดสมองเท่ากับ 0.9 (ซึ่งฉันรู้ว่าไม่ใช่ (1)) จะอนุมานหรือไม่ว่าผู้หญิงโดยเฉลี่ยมีไอคิวต่ำกว่าผู้ชาย ได้โปรดฉันไม่ได้อยู่ที่นี่เพื่อพูดคุยเกี่ยวกับ IQ (และข้อ จำกัด ของการทดสอบ), การรังเกียจผู้หญิง, ทัศนคติของผู้หญิง, ความเย่อหยิ่งและอื่น ๆ (2) ฉันแค่ต้องการที่จะเข้าใจเหตุผลเชิงตรรกะที่อยู่เบื้องหลังการเข้าใจผิด (1) ซึ่งฉันรู้ว่ามันไม่ได้เป็น: ยุคมีสมองที่ใหญ่กว่า homo sapiens แต่ไม่ฉลาดขึ้น (2) ฉันเป็นผู้หญิงและโดยรวมฉันไม่คิดว่าตัวเองหรือผู้หญิงคนอื่นฉลาดน้อยกว่าผู้ชายฉันไม่สนใจเกี่ยวกับการทดสอบไอคิวเพราะสิ่งที่นับเป็นคุณค่าของคนและมันไม่ได้ขึ้นอยู่กับ …

18 correlation categorical-data mean descriptive-statistics neuroscience

5

สถิติสรุปใดที่จะใช้กับตัวแปรเด็ดขาดหรือเชิงคุณภาพ

เพียงเพื่อชี้แจงเมื่อฉันหมายถึงสถิติสรุปฉันหมายถึงช่วงค่าเฉลี่ย, ควอไทล์มัธยฐาน, ความแปรปรวน, ส่วนเบี่ยงเบนมาตรฐาน เมื่อทำการสรุป univariate ซึ่งเป็นหมวดหมู่หรือเชิงคุณภาพเมื่อพิจารณาทั้งกรณีที่มีชื่อและลำดับก็ทำให้รู้สึกถึงการหาค่าเฉลี่ยมัธยฐานช่วงควอไทล์ความแปรปรวนและส่วนเบี่ยงเบนมาตรฐานหรือไม่ ถ้าเป็นเช่นนั้นจะแตกต่างจากถ้าคุณสรุปตัวแปรต่อเนื่องและอย่างไร

18 categorical-data descriptive-statistics

6

มีค่าเทียบเท่า R ของ SAS PROC FREQ หรือไม่

ไม่มีใครรู้ว่าเทียบเท่า R กับ SAS PROC FREQ? ฉันพยายามสร้างสถิติเชิงพรรณนาสรุปสำหรับตัวแปรหลายตัวพร้อมกัน

18 r descriptive-statistics sas

3

อะไรคือความแตกต่างระหว่าง“ การทดสอบทางสถิติ” และ“ แบบจำลองเชิงสถิติ”?

ฉันกำลังติดตาม AW van der Vaart, สถิติแบบอะซิติกติก (1998) เขาพูดถึงการทดลองทางสถิติโดยอ้างว่าพวกเขาแตกต่างจากแบบจำลองทางสถิติ แต่เขาไม่ได้กำหนด คำถามของฉัน: (1) การทดลองทางสถิติคืออะไร (2) แบบจำลองทางสถิติและ (3) ส่วนประกอบสำคัญที่มักจะทำให้การทดลองทางสถิติแตกต่างจากแบบจำลองทางสถิติใด ๆ เสมอ?

17 mathematical-statistics inference experiment-design descriptive-statistics model

คำถามติดแท็ก descriptive-statistics