สถิติและข้อมูลขนาดใหญ่

9

ความสัมพันธ์ไม่ได้บ่งบอกถึงสาเหตุ แต่สิ่งที่เกี่ยวกับเมื่อหนึ่งในตัวแปรเป็นเวลาหรือไม่

ฉันรู้ว่าคำถามนี้ถูกถามเป็นพันล้านครั้งดังนั้นหลังจากดูออนไลน์ฉันเชื่อมั่นอย่างเต็มที่ว่าความสัมพันธ์ระหว่าง 2 ตัวแปรไม่ได้บ่งบอกถึงสาเหตุ ในหนึ่งในการบรรยายสถิติของฉันในวันนี้เรามีการบรรยายแบบแขกรับเชิญจากนักฟิสิกส์เกี่ยวกับความสำคัญของวิธีการทางสถิติในฟิสิกส์ เขากล่าวว่าคำสั่งที่น่าประหลาดใจ: สหสัมพันธ์ไม่ได้บอกถึงสาเหตุ แต่อย่างใดอย่างหนึ่งของตัวแปรคือเวลา ดังนั้นหากมีความสัมพันธ์ที่ดีระหว่างตัวแปรอิสระและเวลาบางอย่างนี่ก็แสดงถึงสาเหตุเช่นกัน ฉันไม่เคยได้ยินคำแถลงนี้มาก่อน นักฟิสิกส์ / นักสัมพัทธภาพเห็น "สาเหตุ" ต่างจากสถิติของคนหรือไม่?

41 correlation mathematical-statistics causality

10

ทำไม 600 จาก 1,000 จึงน่าเชื่อถือมากกว่า 6 จาก 10?

ดูข้อความที่ตัดตอนมาจาก "คู่มือทักษะการศึกษา", Palgrave, 2012, โดย Stella Cottrell, หน้า 155: เปอร์เซ็นต์แจ้งให้ทราบเมื่อได้รับร้อยละ สมมติว่าคำสั่งด้านบนอ่านแทน: 60% ของคนชอบส้ม 40% กล่าวว่าพวกเขาชอบแอปเปิ้ล สิ่งนี้ดูน่าเชื่อถือ: มีการระบุปริมาณที่เป็นตัวเลข แต่ความแตกต่างระหว่าง 60% และ 40% อย่างมีนัยสำคัญคืออะไร? ที่นี่เราจะต้องรู้ว่ามีคนถามกี่คน หากมีคน 1,000 คนถูกถามถึงส้มที่ต้องการ 600 ตัวจำนวนนั้นจะน่าเชื่อถือ อย่างไรก็ตามหากมีผู้ถูกถามเพียง 10 คน 60% หมายถึงส้มที่ต้องการ 6 คน "60%" ฟังดูน่าเชื่อถือในแบบที่ "6 จาก 10" ไม่ ในฐานะผู้อ่านที่สำคัญคุณต้องระวังเปอร์เซ็นต์ที่ใช้ในการทำให้ข้อมูลไม่เพียงพอดูน่าประทับใจ ลักษณะนี้เรียกว่าอะไรในสถิติ ฉันต้องการอ่านเพิ่มเติมเกี่ยวกับเรื่องนี้

41 statistical-significance sample-size percentage

1

โครงข่ายประสาทเทียม: โมเมนตัมการเปลี่ยนแปลงน้ำหนักและการลดน้ำหนัก

โมเมนตัมใช้เพื่อลดความผันผวนของการเปลี่ยนแปลงน้ำหนักในการวนซ้ำตามลำดับ:αα\alpha ที่E(W)เป็นฟังก์ชั่นข้อผิดพลาดW- เวกเตอร์ของน้ำหนักที่η- การเรียนรู้อัตราΔ โอห์มผม( t + 1 ) = - η∂E∂Wผม+ อัลฟ่าΔ โอห์มผม( T ) ,Δωi(t+1)=−η∂E∂wi+αΔωi(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t),E( w )E(w)E({\bf w})Ww{\bf w}ηη\eta การลดน้ำหนักลงโทษการเปลี่ยนแปลงน้ำหนัก:λλ\lambda Δωi(t+1)=−η∂E∂wi−ληωiΔωi(t+1)=−η∂E∂wi−ληωi\Delta\omega_i(t+1) =- \eta\frac{\partial E}{\partial w_i} - \lambda\eta\omega_i คำถามคือถ้ามันเหมาะสมที่จะรวมทั้งเทคนิคในระหว่างการเผยแพร่กลับและสิ่งที่มันจะมีผล? Δωi(t+1)=−η∂E∂wi+αΔωi(t)−ληωiΔωi(t+1)=−η∂E∂wi+αΔωi(t)−ληωi\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t) - …

41 neural-networks optimization regularization gradient-descent

10

โอกาสของคุณที่จะตายในอุบัติเหตุเครื่องบินตกลดลงหรือไม่ถ้าคุณบินตรง?

เมื่อเร็ว ๆ นี้ฉันไม่เห็นด้วยกับเพื่อนเกี่ยวกับการลดโอกาสในการเสียชีวิตบนเครื่องบินเนื่องจากการชน นี่เป็นคำถามเกี่ยวกับสถิติเบื้องต้น เขาบอกว่าเขาชอบที่จะบินตรงไปยังจุดหมายปลายทางเพราะมันลดโอกาสที่เขาจะเสียชีวิตในอุบัติเหตุเครื่องบินตก ตรรกะของเขาคือถ้าความน่าจะเป็นของการชนของสายการบินเชิงพาณิชย์คือ 1 ใน 10,000 การบินบนเครื่องบินสองลำเพื่อไปยังจุดหมายปลายทางของคุณจะเพิ่มโอกาสการเสียชีวิตเป็นสองเท่า ประเด็นของฉันคือทุกครั้งที่หนึ่งบินบนเครื่องบินมันไม่ได้เพิ่มโอกาสที่เขาจะตายในอุบัติเหตุเครื่องบินตกในอนาคต นั่นคือแต่ละเที่ยวบินเครื่องบินเป็นอิสระ ไม่ว่าจะมีใครบินบนเครื่องบิน 100 ลำในปีนั้นหรือเพียงแค่ 1 ลำนักบินทั้งสองยังคงมีโอกาส 1 ใน 10,000 ที่จะเสียชีวิตในอุบัติเหตุเครื่องบินตกในเที่ยวบินถัดไปของพวกเขา จุดอื่นที่ฉันทำ: บอกว่าปลายทางของคุณอยู่ห่างออกไป 4 ชั่วโมง หากคุณบินตรงคุณจะอยู่ในอากาศเสี่ยงต่อการตกหล่นเป็นเวลา 4 ชั่วโมง ตอนนี้สมมติว่าคุณใช้ 4 เที่ยวบินต่อเนื่องกันแต่ละเที่ยวบินยาวประมาณหนึ่งชั่วโมง ในสถานการณ์นี้คุณจะยังคงอยู่ในอากาศเป็นเวลาประมาณ 4 ชั่วโมง ดังนั้นไม่ว่าคุณจะใช้เที่ยวบินตรงหรือประหยัดเงินและต่อเที่ยวบินที่เชื่อมต่อกันจำนวนเวลาที่คุณใช้ในการเสี่ยงจะเท่ากัน ประเด็นสุดท้ายของฉันคือเที่ยวบินที่สั้นลงมีอัตราการล่มที่ต่ำลง ฉันเพิ่งดึงอันนั้นออกไป ฉันได้ทำการวิจัยเป็นศูนย์แล้วและมีศูนย์ข้อมูลสำรอง แต่ดูเหมือนว่ามีเหตุผล ใครอยู่ด้านขวาและทำไม มีมากมายที่นี่

41 independence transportation

2

การใช้ lmer สำหรับวัดซ้ำโมเดลเอฟเฟกต์เชิงเส้นซ้ำ

แก้ไข 2: ตอนแรกฉันคิดว่าฉันต้องใช้ ANOVA สองปัจจัยพร้อมมาตรการซ้ำ ๆ บนปัจจัยเดียว แต่ตอนนี้ฉันคิดว่าโมเดลเชิงเส้นผสมเอฟเฟกต์จะทำงานได้ดีขึ้นสำหรับข้อมูลของฉัน ฉันคิดว่าฉันเกือบจะรู้ว่าต้องเกิดอะไรขึ้น แต่ฉันก็ยังสับสนอยู่บ้าง การทดลองที่ฉันต้องวิเคราะห์มีลักษณะเช่นนี้: อาสาสมัครถูกกำหนดให้กับหนึ่งในหลายกลุ่มการรักษา การวัดแต่ละเรื่องถูกถ่ายในหลายวัน ดังนั้น: ผู้ทดลองถูกทำซ้อนในการรักษา รักษาข้ามกับวัน (แต่ละวิชาได้รับมอบหมายให้ทำการรักษาเพียงครั้งเดียวเท่านั้นและจะทำการวัดในแต่ละเรื่องในแต่ละวัน) ชุดข้อมูลของฉันมีข้อมูลต่อไปนี้: Subject = ปัจจัยการปิดกั้น (ปัจจัยสุ่ม) Day = ภายในหัวเรื่องหรือปัจจัยการวัดซ้ำ (ปัจจัยคงที่) การรักษา = ระหว่างปัจจัยเรื่อง (ปัจจัยคงที่) Obs = ตัวแปร (ขึ้นอยู่กับ) ที่วัดได้ อัปเดต ตกลงฉันเลยไปคุยกับนักสถิติ แต่เขาเป็นผู้ใช้ SAS เขาคิดว่าแบบจำลองควรเป็น: การรักษา + วัน + วิชา (การรักษา) + วัน * วิชา …

41 r anova mixed-model repeated-measures lme4-nlme

3

ข้อใดมีหางที่หนักกว่า lognormal หรือแกมม่า

(นี่เป็นคำถามที่เพิ่งมาหาฉันทางอีเมลฉันได้เพิ่มบริบทบางส่วนจากบทสนทนาสั้น ๆ ก่อนหน้านี้กับบุคคลเดียวกัน) เมื่อปีที่แล้วมีคนบอกว่าการกระจายตัวของแกมม่านั้นหนักกว่า lognormal และตั้งแต่นั้นมาฉันก็บอกว่านั่นไม่ใช่กรณี ซึ่งเป็นนกที่หนักกว่า? ทรัพยากรบางอย่างที่ฉันสามารถใช้เพื่อสำรวจความสัมพันธ์มีอะไรบ้าง

41 distributions gamma-distribution lognormal heavy-tailed

2

นุ่น / Statsmodel / Scikit เรียนรู้

Pandas, Statsmodels และ Scikit เรียนรู้การใช้งานที่แตกต่างกันของการเรียนรู้ด้วยเครื่องจักร / การดำเนินการทางสถิติหรือเป็นส่วนเสริมเหล่านี้หรือไม่? ข้อใดต่อไปนี้มีฟังก์ชันการทำงานที่ครอบคลุมที่สุด สิ่งใดที่ได้รับการพัฒนาและ / หรือสนับสนุนอย่างแข็งขัน ฉันต้องใช้การถดถอยโลจิสติก ข้อเสนอแนะใดที่ฉันควรใช้กับสิ่งเหล่านี้?

41 machine-learning python scikit-learn statsmodels pandas

5

เกมที่ดีสำหรับการเรียนรู้การคิดเชิงสถิติ?

มีเกมใดบ้างที่ทำให้ผู้เล่น "คิดเหมือนนักสถิติ"? ตัวอย่างเช่นlightbotทำให้คุณ "คิดเหมือนโปรแกรมเมอร์" (ในลักษณะพื้นฐานมาก) มีเกมใดบ้างที่ออกแบบมาเพื่อความบันเทิงหรือการสอนที่สามารถช่วยให้คุณคุ้นเคยกับแนวคิดพื้นฐานเช่นความสัมพันธ์ค่า p ค่ากำลังสองน้อยที่สุดความแปรปรวนการแจกแจงความน่าจะเป็นชนิดต่าง ๆ ถดถอยไปถึงค่าเฉลี่ย ... ตัวอย่างหนึ่งที่จะเป็นเกมที่คาดเดาความสัมพันธ์นี้ (ฉันถามเพราะฉันกำลังคิดเกี่ยวกับการพัฒนาแอปพลิเคชันดังกล่าวและฉันกำลังพยายามที่จะรับมุมมองที่กว้างของสิ่งที่มีอยู่ก่อนหน้านี้)

41 teaching games application

7

คุณต้องกลิ้งตาย 6 ด้านเพื่อรับหมายเลขทุกครั้งอย่างน้อยหนึ่งครั้งบ่อยแค่ไหน?

ฉันเพิ่งเล่นเกมกับลูก ๆ ของฉันซึ่งโดยทั่วไปแล้วจะลดลงไปถึง: ใครก็ตามที่หมุนทุกหมายเลขอย่างน้อยหนึ่งครั้งในการชนะแบบ 6 ด้าน ในที่สุดฉันก็ชนะและคนอื่น ๆ ก็จบทีหลัง 1-2 ตอนนี้ฉันสงสัย: ความคาดหวังของความยาวของเกมคืออะไร? ฉันรู้ว่าความคาดหวังของจำนวนม้วนจนกว่าคุณจะกดหมายเลขเฉพาะคือ 6Σ∞n = 1ไม่มี16( 5)6)n - 1= 6∑n=1∞n16(56)n−1=6\sum_{n=1}^\infty n\frac{1}{6}(\frac{5}{6})^{n-1}=6 อย่างไรก็ตามฉันมีสองคำถาม: มีกี่ครั้งที่คุณต้องกลิ้งตัวตายแบบหกด้านจนกว่าคุณจะได้หมายเลขอย่างน้อยหนึ่งครั้งทุกครั้ง? ในบรรดาการทดสอบอิสระสี่ครั้ง (เช่นผู้เล่นสี่คน) ความคาดหวังของจำนวนม้วนสูงสุดที่จำเป็นคืออะไร [หมายเหตุ: มันสูงสุดไม่ต่ำสุดเนื่องจากอายุของพวกเขามันเกี่ยวกับการจบมากกว่าที่จะไปถึงที่นั่นก่อนสำหรับลูก ๆ ของฉัน] ฉันสามารถจำลองผลลัพธ์ได้ แต่ฉันสงสัยว่าฉันจะทำการคำนวณได้อย่างไร นี่คือการจำลอง Monte Carlo ใน Matlab mx=zeros(1000000,1); for i=1:1000000, %# assume it's never going to take us >100 rolls …

41 probability dice coupon-collector-problem

4

OpenBugs กับ JAGS

ฉันกำลังจะลองใช้สภาพแวดล้อมแบบ BUGS สำหรับการประเมินแบบจำลองของเบย์ มีข้อดีที่สำคัญที่ต้องพิจารณาในการเลือกระหว่าง OpenBugs หรือ JAGS หรือไม่? มีแนวโน้มว่าจะแทนที่คนอื่นในอนาคตอันใกล้? ฉันจะใช้ตัวอย่างกิ๊บส์ที่เลือกกับอาร์ฉันยังไม่มีแอปพลิเคชันเฉพาะ แต่ฉันกำลังตัดสินใจว่าจะเข้าร่วมและเรียนรู้ใด

41 r software bugs jags gibbs

20

มีภาพยนตร์ที่ดีเกี่ยวกับคณิตศาสตร์หรือความน่าจะเป็นหรือไม่?

คุณช่วยแนะนำภาพยนตร์ดีๆที่เกี่ยวข้องกับคณิตศาสตร์ความน่าจะเป็น ฯลฯ ได้ไหม? ตัวอย่างหนึ่งคือ21 ฉันจะสนใจภาพยนตร์ที่เกี่ยวข้องกับอัลกอริธึม (เช่นการถอดรหัสข้อความ) โดยทั่วไปภาพยนตร์ "geeky" ที่มีทฤษฎีทางวิทยาศาสตร์ที่มีชื่อเสียง แต่ไม่มีนิยายวิทยาศาสตร์หรือสารคดี ขอบคุณล่วงหน้า!

41 probability references

1

ใครสามารถอธิบายแนวคิดของ 'การแลกเปลี่ยน' ได้บ้าง

ฉันเห็นแนวคิดของ 'การแลกเปลี่ยนได้' ที่ใช้ในบริบทต่าง ๆ (เช่นตัวแบบเบย์) แต่ฉันไม่เคยเข้าใจคำศัพท์นี้ดีนัก แนวคิดนี้มีความหมายว่าอย่างไร? แนวคิดนี้ถูกเรียกใช้ในสถานการณ์ใดและเพราะเหตุใด

41 bayesian intuition exchangeability

1

การถดถอย: การแปลงตัวแปร

เมื่อเปลี่ยนตัวแปรคุณต้องใช้การแปลงแบบเดียวกันทั้งหมดหรือไม่? ตัวอย่างเช่นฉันสามารถเลือกและเลือกตัวแปรที่แปลงต่างกันเช่นใน: อนุญาต,เป็นอายุ, ระยะเวลาการจ้างงาน, ระยะเวลาพำนักและรายได้x1,x2,x3x1,x2,x3x_1,x_2,x_3 Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3) หรือคุณจะต้องสอดคล้องกับการแปลงร่างของคุณและใช้สิ่งเดียวกันทั้งหมดหรือไม่? ในขณะที่: Y = B1*log(x1) + B2*log(x2) + B3*log(x3) ความเข้าใจของฉันคือเป้าหมายของการเปลี่ยนแปลงคือการแก้ไขปัญหาของภาวะปกติ เมื่อดูกราฟฮิสโตแกรมของตัวแปรแต่ละตัวเราจะเห็นว่าพวกมันมีการแจกแจงที่แตกต่างกันมากซึ่งจะทำให้ฉันเชื่อว่าการแปลงที่ต้องการนั้นแตกต่างกันไปในแต่ละตัวแปรโดยพื้นฐานของตัวแปร ## R Code df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav", use.value.labels=T, to.data.frame=T) hist(df[1:7]) ท้ายสุดมันมีความถูกต้องในการแปลงตัวแปรโดยใช้โดยที่มีค่าอย่างไร ไม่แปลงนี้จำเป็นที่จะต้องสอดคล้องกันระหว่างตัวแปรทั้งหมดหรือมันคือใช้เฉพาะกิจแม้สำหรับตัวแปรเหล่านั้นซึ่งไม่รวมถึง 's?log(xn+1)log⁡(xn+1)\log(x_n + 1)xnxnx_n000000 ## R Code plot(df[1:7])

41 r regression logistic data-transformation

4

การอ้างอิงใดที่ควรอ้างอิงเพื่อสนับสนุนการใช้ 30 เป็นขนาดตัวอย่างที่ใหญ่พอ

ฉันได้อ่าน / ได้ยินหลายครั้งว่าขนาดตัวอย่างของหน่วยอย่างน้อย 30 หน่วยนั้นถือว่าเป็น "กลุ่มตัวอย่างขนาดใหญ่" (สมมติฐานปกติของวิธีการมักจะถือประมาณเนื่องจาก CLT, ... ) ดังนั้นในการทดลองของฉันฉันมักจะสร้างตัวอย่าง 30 หน่วย คุณช่วยให้ฉันอ้างอิงซึ่งควรจะอ้างถึงเมื่อใช้ขนาดตัวอย่าง 30?

41 references sample-size normality-assumption central-limit-theorem rule-of-thumb

8

ฉันจะทดสอบได้อย่างไรว่าตัวอย่างที่ได้รับมาจากการแจกแจงปัวซอง

ฉันรู้ว่าการทดสอบภาวะปกติ แต่ฉันจะทดสอบ "Poisson-ness" ได้อย่างไร? ฉันมีตัวอย่างจำนวนเต็ม 1000 จำนวนที่ไม่เป็นลบซึ่งฉันสงสัยว่านำมาจากการแจกแจงแบบปัวซองและฉันต้องการทดสอบสิ่งนั้น

41 hypothesis-testing distributions poisson-distribution goodness-of-fit