สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

9
ความสัมพันธ์ไม่ได้บ่งบอกถึงสาเหตุ แต่สิ่งที่เกี่ยวกับเมื่อหนึ่งในตัวแปรเป็นเวลาหรือไม่
ฉันรู้ว่าคำถามนี้ถูกถามเป็นพันล้านครั้งดังนั้นหลังจากดูออนไลน์ฉันเชื่อมั่นอย่างเต็มที่ว่าความสัมพันธ์ระหว่าง 2 ตัวแปรไม่ได้บ่งบอกถึงสาเหตุ ในหนึ่งในการบรรยายสถิติของฉันในวันนี้เรามีการบรรยายแบบแขกรับเชิญจากนักฟิสิกส์เกี่ยวกับความสำคัญของวิธีการทางสถิติในฟิสิกส์ เขากล่าวว่าคำสั่งที่น่าประหลาดใจ: สหสัมพันธ์ไม่ได้บอกถึงสาเหตุ แต่อย่างใดอย่างหนึ่งของตัวแปรคือเวลา ดังนั้นหากมีความสัมพันธ์ที่ดีระหว่างตัวแปรอิสระและเวลาบางอย่างนี่ก็แสดงถึงสาเหตุเช่นกัน ฉันไม่เคยได้ยินคำแถลงนี้มาก่อน นักฟิสิกส์ / นักสัมพัทธภาพเห็น "สาเหตุ" ต่างจากสถิติของคนหรือไม่?

10
ทำไม 600 จาก 1,000 จึงน่าเชื่อถือมากกว่า 6 จาก 10?
ดูข้อความที่ตัดตอนมาจาก "คู่มือทักษะการศึกษา", Palgrave, 2012, โดย Stella Cottrell, หน้า 155: เปอร์เซ็นต์แจ้งให้ทราบเมื่อได้รับร้อยละ สมมติว่าคำสั่งด้านบนอ่านแทน: 60% ของคนชอบส้ม 40% กล่าวว่าพวกเขาชอบแอปเปิ้ล สิ่งนี้ดูน่าเชื่อถือ: มีการระบุปริมาณที่เป็นตัวเลข แต่ความแตกต่างระหว่าง 60% และ 40% อย่างมีนัยสำคัญคืออะไร? ที่นี่เราจะต้องรู้ว่ามีคนถามกี่คน หากมีคน 1,000 คนถูกถามถึงส้มที่ต้องการ 600 ตัวจำนวนนั้นจะน่าเชื่อถือ อย่างไรก็ตามหากมีผู้ถูกถามเพียง 10 คน 60% หมายถึงส้มที่ต้องการ 6 คน "60%" ฟังดูน่าเชื่อถือในแบบที่ "6 จาก 10" ไม่ ในฐานะผู้อ่านที่สำคัญคุณต้องระวังเปอร์เซ็นต์ที่ใช้ในการทำให้ข้อมูลไม่เพียงพอดูน่าประทับใจ ลักษณะนี้เรียกว่าอะไรในสถิติ ฉันต้องการอ่านเพิ่มเติมเกี่ยวกับเรื่องนี้

1
โครงข่ายประสาทเทียม: โมเมนตัมการเปลี่ยนแปลงน้ำหนักและการลดน้ำหนัก
โมเมนตัมใช้เพื่อลดความผันผวนของการเปลี่ยนแปลงน้ำหนักในการวนซ้ำตามลำดับ:αα\alpha ที่E(W)เป็นฟังก์ชั่นข้อผิดพลาดW- เวกเตอร์ของน้ำหนักที่η- การเรียนรู้อัตราΔ โอห์มผม( t + 1 ) = - η∂E∂Wผม+ อัลฟ่าΔ โอห์มผม( T ) ,Δωi(t+1)=−η∂E∂wi+αΔωi(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t),E( w )E(w)E({\bf w})Ww{\bf w}ηη\eta การลดน้ำหนักลงโทษการเปลี่ยนแปลงน้ำหนัก:λλ\lambda Δωi(t+1)=−η∂E∂wi−ληωiΔωi(t+1)=−η∂E∂wi−ληωi\Delta\omega_i(t+1) =- \eta\frac{\partial E}{\partial w_i} - \lambda\eta\omega_i คำถามคือถ้ามันเหมาะสมที่จะรวมทั้งเทคนิคในระหว่างการเผยแพร่กลับและสิ่งที่มันจะมีผล? Δωi(t+1)=−η∂E∂wi+αΔωi(t)−ληωiΔωi(t+1)=−η∂E∂wi+αΔωi(t)−ληωi\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t) - …

10
โอกาสของคุณที่จะตายในอุบัติเหตุเครื่องบินตกลดลงหรือไม่ถ้าคุณบินตรง?
เมื่อเร็ว ๆ นี้ฉันไม่เห็นด้วยกับเพื่อนเกี่ยวกับการลดโอกาสในการเสียชีวิตบนเครื่องบินเนื่องจากการชน นี่เป็นคำถามเกี่ยวกับสถิติเบื้องต้น เขาบอกว่าเขาชอบที่จะบินตรงไปยังจุดหมายปลายทางเพราะมันลดโอกาสที่เขาจะเสียชีวิตในอุบัติเหตุเครื่องบินตก ตรรกะของเขาคือถ้าความน่าจะเป็นของการชนของสายการบินเชิงพาณิชย์คือ 1 ใน 10,000 การบินบนเครื่องบินสองลำเพื่อไปยังจุดหมายปลายทางของคุณจะเพิ่มโอกาสการเสียชีวิตเป็นสองเท่า ประเด็นของฉันคือทุกครั้งที่หนึ่งบินบนเครื่องบินมันไม่ได้เพิ่มโอกาสที่เขาจะตายในอุบัติเหตุเครื่องบินตกในอนาคต นั่นคือแต่ละเที่ยวบินเครื่องบินเป็นอิสระ ไม่ว่าจะมีใครบินบนเครื่องบิน 100 ลำในปีนั้นหรือเพียงแค่ 1 ลำนักบินทั้งสองยังคงมีโอกาส 1 ใน 10,000 ที่จะเสียชีวิตในอุบัติเหตุเครื่องบินตกในเที่ยวบินถัดไปของพวกเขา จุดอื่นที่ฉันทำ: บอกว่าปลายทางของคุณอยู่ห่างออกไป 4 ชั่วโมง หากคุณบินตรงคุณจะอยู่ในอากาศเสี่ยงต่อการตกหล่นเป็นเวลา 4 ชั่วโมง ตอนนี้สมมติว่าคุณใช้ 4 เที่ยวบินต่อเนื่องกันแต่ละเที่ยวบินยาวประมาณหนึ่งชั่วโมง ในสถานการณ์นี้คุณจะยังคงอยู่ในอากาศเป็นเวลาประมาณ 4 ชั่วโมง ดังนั้นไม่ว่าคุณจะใช้เที่ยวบินตรงหรือประหยัดเงินและต่อเที่ยวบินที่เชื่อมต่อกันจำนวนเวลาที่คุณใช้ในการเสี่ยงจะเท่ากัน ประเด็นสุดท้ายของฉันคือเที่ยวบินที่สั้นลงมีอัตราการล่มที่ต่ำลง ฉันเพิ่งดึงอันนั้นออกไป ฉันได้ทำการวิจัยเป็นศูนย์แล้วและมีศูนย์ข้อมูลสำรอง แต่ดูเหมือนว่ามีเหตุผล ใครอยู่ด้านขวาและทำไม มีมากมายที่นี่

2
การใช้ lmer สำหรับวัดซ้ำโมเดลเอฟเฟกต์เชิงเส้นซ้ำ
แก้ไข 2: ตอนแรกฉันคิดว่าฉันต้องใช้ ANOVA สองปัจจัยพร้อมมาตรการซ้ำ ๆ บนปัจจัยเดียว แต่ตอนนี้ฉันคิดว่าโมเดลเชิงเส้นผสมเอฟเฟกต์จะทำงานได้ดีขึ้นสำหรับข้อมูลของฉัน ฉันคิดว่าฉันเกือบจะรู้ว่าต้องเกิดอะไรขึ้น แต่ฉันก็ยังสับสนอยู่บ้าง การทดลองที่ฉันต้องวิเคราะห์มีลักษณะเช่นนี้: อาสาสมัครถูกกำหนดให้กับหนึ่งในหลายกลุ่มการรักษา การวัดแต่ละเรื่องถูกถ่ายในหลายวัน ดังนั้น: ผู้ทดลองถูกทำซ้อนในการรักษา รักษาข้ามกับวัน (แต่ละวิชาได้รับมอบหมายให้ทำการรักษาเพียงครั้งเดียวเท่านั้นและจะทำการวัดในแต่ละเรื่องในแต่ละวัน) ชุดข้อมูลของฉันมีข้อมูลต่อไปนี้: Subject = ปัจจัยการปิดกั้น (ปัจจัยสุ่ม) Day = ภายในหัวเรื่องหรือปัจจัยการวัดซ้ำ (ปัจจัยคงที่) การรักษา = ระหว่างปัจจัยเรื่อง (ปัจจัยคงที่) Obs = ตัวแปร (ขึ้นอยู่กับ) ที่วัดได้ อัปเดต ตกลงฉันเลยไปคุยกับนักสถิติ แต่เขาเป็นผู้ใช้ SAS เขาคิดว่าแบบจำลองควรเป็น: การรักษา + วัน + วิชา (การรักษา) + วัน * วิชา …

3
ข้อใดมีหางที่หนักกว่า lognormal หรือแกมม่า
(นี่เป็นคำถามที่เพิ่งมาหาฉันทางอีเมลฉันได้เพิ่มบริบทบางส่วนจากบทสนทนาสั้น ๆ ก่อนหน้านี้กับบุคคลเดียวกัน) เมื่อปีที่แล้วมีคนบอกว่าการกระจายตัวของแกมม่านั้นหนักกว่า lognormal และตั้งแต่นั้นมาฉันก็บอกว่านั่นไม่ใช่กรณี ซึ่งเป็นนกที่หนักกว่า? ทรัพยากรบางอย่างที่ฉันสามารถใช้เพื่อสำรวจความสัมพันธ์มีอะไรบ้าง

2
นุ่น / Statsmodel / Scikit เรียนรู้
Pandas, Statsmodels และ Scikit เรียนรู้การใช้งานที่แตกต่างกันของการเรียนรู้ด้วยเครื่องจักร / การดำเนินการทางสถิติหรือเป็นส่วนเสริมเหล่านี้หรือไม่? ข้อใดต่อไปนี้มีฟังก์ชันการทำงานที่ครอบคลุมที่สุด สิ่งใดที่ได้รับการพัฒนาและ / หรือสนับสนุนอย่างแข็งขัน ฉันต้องใช้การถดถอยโลจิสติก ข้อเสนอแนะใดที่ฉันควรใช้กับสิ่งเหล่านี้?

5
เกมที่ดีสำหรับการเรียนรู้การคิดเชิงสถิติ?
มีเกมใดบ้างที่ทำให้ผู้เล่น "คิดเหมือนนักสถิติ"? ตัวอย่างเช่นlightbotทำให้คุณ "คิดเหมือนโปรแกรมเมอร์" (ในลักษณะพื้นฐานมาก) มีเกมใดบ้างที่ออกแบบมาเพื่อความบันเทิงหรือการสอนที่สามารถช่วยให้คุณคุ้นเคยกับแนวคิดพื้นฐานเช่นความสัมพันธ์ค่า p ค่ากำลังสองน้อยที่สุดความแปรปรวนการแจกแจงความน่าจะเป็นชนิดต่าง ๆ ถดถอยไปถึงค่าเฉลี่ย ... ตัวอย่างหนึ่งที่จะเป็นเกมที่คาดเดาความสัมพันธ์นี้ (ฉันถามเพราะฉันกำลังคิดเกี่ยวกับการพัฒนาแอปพลิเคชันดังกล่าวและฉันกำลังพยายามที่จะรับมุมมองที่กว้างของสิ่งที่มีอยู่ก่อนหน้านี้)

7
คุณต้องกลิ้งตาย 6 ด้านเพื่อรับหมายเลขทุกครั้งอย่างน้อยหนึ่งครั้งบ่อยแค่ไหน?
ฉันเพิ่งเล่นเกมกับลูก ๆ ของฉันซึ่งโดยทั่วไปแล้วจะลดลงไปถึง: ใครก็ตามที่หมุนทุกหมายเลขอย่างน้อยหนึ่งครั้งในการชนะแบบ 6 ด้าน ในที่สุดฉันก็ชนะและคนอื่น ๆ ก็จบทีหลัง 1-2 ตอนนี้ฉันสงสัย: ความคาดหวังของความยาวของเกมคืออะไร? ฉันรู้ว่าความคาดหวังของจำนวนม้วนจนกว่าคุณจะกดหมายเลขเฉพาะคือ 6Σ∞n = 1ไม่มี16( 5)6)n - 1= 6∑n=1∞n16(56)n−1=6\sum_{n=1}^\infty n\frac{1}{6}(\frac{5}{6})^{n-1}=6 อย่างไรก็ตามฉันมีสองคำถาม: มีกี่ครั้งที่คุณต้องกลิ้งตัวตายแบบหกด้านจนกว่าคุณจะได้หมายเลขอย่างน้อยหนึ่งครั้งทุกครั้ง? ในบรรดาการทดสอบอิสระสี่ครั้ง (เช่นผู้เล่นสี่คน) ความคาดหวังของจำนวนม้วนสูงสุดที่จำเป็นคืออะไร [หมายเหตุ: มันสูงสุดไม่ต่ำสุดเนื่องจากอายุของพวกเขามันเกี่ยวกับการจบมากกว่าที่จะไปถึงที่นั่นก่อนสำหรับลูก ๆ ของฉัน] ฉันสามารถจำลองผลลัพธ์ได้ แต่ฉันสงสัยว่าฉันจะทำการคำนวณได้อย่างไร นี่คือการจำลอง Monte Carlo ใน Matlab mx=zeros(1000000,1); for i=1:1000000, %# assume it's never going to take us >100 rolls …

4
OpenBugs กับ JAGS
ฉันกำลังจะลองใช้สภาพแวดล้อมแบบ BUGS สำหรับการประเมินแบบจำลองของเบย์ มีข้อดีที่สำคัญที่ต้องพิจารณาในการเลือกระหว่าง OpenBugs หรือ JAGS หรือไม่? มีแนวโน้มว่าจะแทนที่คนอื่นในอนาคตอันใกล้? ฉันจะใช้ตัวอย่างกิ๊บส์ที่เลือกกับอาร์ฉันยังไม่มีแอปพลิเคชันเฉพาะ แต่ฉันกำลังตัดสินใจว่าจะเข้าร่วมและเรียนรู้ใด
41 r  software  bugs  jags  gibbs 

20
มีภาพยนตร์ที่ดีเกี่ยวกับคณิตศาสตร์หรือความน่าจะเป็นหรือไม่?
คุณช่วยแนะนำภาพยนตร์ดีๆที่เกี่ยวข้องกับคณิตศาสตร์ความน่าจะเป็น ฯลฯ ได้ไหม? ตัวอย่างหนึ่งคือ21 ฉันจะสนใจภาพยนตร์ที่เกี่ยวข้องกับอัลกอริธึม (เช่นการถอดรหัสข้อความ) โดยทั่วไปภาพยนตร์ "geeky" ที่มีทฤษฎีทางวิทยาศาสตร์ที่มีชื่อเสียง แต่ไม่มีนิยายวิทยาศาสตร์หรือสารคดี ขอบคุณล่วงหน้า!

1
ใครสามารถอธิบายแนวคิดของ 'การแลกเปลี่ยน' ได้บ้าง
ฉันเห็นแนวคิดของ 'การแลกเปลี่ยนได้' ที่ใช้ในบริบทต่าง ๆ (เช่นตัวแบบเบย์) แต่ฉันไม่เคยเข้าใจคำศัพท์นี้ดีนัก แนวคิดนี้มีความหมายว่าอย่างไร? แนวคิดนี้ถูกเรียกใช้ในสถานการณ์ใดและเพราะเหตุใด

1
การถดถอย: การแปลงตัวแปร
เมื่อเปลี่ยนตัวแปรคุณต้องใช้การแปลงแบบเดียวกันทั้งหมดหรือไม่? ตัวอย่างเช่นฉันสามารถเลือกและเลือกตัวแปรที่แปลงต่างกันเช่นใน: อนุญาต,เป็นอายุ, ระยะเวลาการจ้างงาน, ระยะเวลาพำนักและรายได้x1,x2,x3x1,x2,x3x_1,x_2,x_3 Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3) หรือคุณจะต้องสอดคล้องกับการแปลงร่างของคุณและใช้สิ่งเดียวกันทั้งหมดหรือไม่? ในขณะที่: Y = B1*log(x1) + B2*log(x2) + B3*log(x3) ความเข้าใจของฉันคือเป้าหมายของการเปลี่ยนแปลงคือการแก้ไขปัญหาของภาวะปกติ เมื่อดูกราฟฮิสโตแกรมของตัวแปรแต่ละตัวเราจะเห็นว่าพวกมันมีการแจกแจงที่แตกต่างกันมากซึ่งจะทำให้ฉันเชื่อว่าการแปลงที่ต้องการนั้นแตกต่างกันไปในแต่ละตัวแปรโดยพื้นฐานของตัวแปร ## R Code df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav", use.value.labels=T, to.data.frame=T) hist(df[1:7]) ท้ายสุดมันมีความถูกต้องในการแปลงตัวแปรโดยใช้โดยที่มีค่าอย่างไร ไม่แปลงนี้จำเป็นที่จะต้องสอดคล้องกันระหว่างตัวแปรทั้งหมดหรือมันคือใช้เฉพาะกิจแม้สำหรับตัวแปรเหล่านั้นซึ่งไม่รวมถึง 's?log(xn+1)log⁡(xn+1)\log(x_n + 1)xnxnx_n000000 ## R Code plot(df[1:7])

4
การอ้างอิงใดที่ควรอ้างอิงเพื่อสนับสนุนการใช้ 30 เป็นขนาดตัวอย่างที่ใหญ่พอ
ฉันได้อ่าน / ได้ยินหลายครั้งว่าขนาดตัวอย่างของหน่วยอย่างน้อย 30 หน่วยนั้นถือว่าเป็น "กลุ่มตัวอย่างขนาดใหญ่" (สมมติฐานปกติของวิธีการมักจะถือประมาณเนื่องจาก CLT, ... ) ดังนั้นในการทดลองของฉันฉันมักจะสร้างตัวอย่าง 30 หน่วย คุณช่วยให้ฉันอ้างอิงซึ่งควรจะอ้างถึงเมื่อใช้ขนาดตัวอย่าง 30?

8
ฉันจะทดสอบได้อย่างไรว่าตัวอย่างที่ได้รับมาจากการแจกแจงปัวซอง
ฉันรู้ว่าการทดสอบภาวะปกติ แต่ฉันจะทดสอบ "Poisson-ness" ได้อย่างไร? ฉันมีตัวอย่างจำนวนเต็ม 1000 จำนวนที่ไม่เป็นลบซึ่งฉันสงสัยว่านำมาจากการแจกแจงแบบปัวซองและฉันต้องการทดสอบสิ่งนั้น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.