สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

6
กฎของหัวแม่มือสำหรับจำนวนตัวอย่าง bootstrap
ฉันสงสัยว่ามีใครรู้กฎทั่วไปของหัวแม่มือเกี่ยวกับจำนวนตัวอย่าง bootstrap ที่เราควรใช้โดยขึ้นอยู่กับลักษณะของข้อมูล (จำนวนการสังเกต ฯลฯ ) และ / หรือตัวแปรที่รวมอยู่ด้วย?

3
ผลการปราบปรามในการถดถอย: คำจำกัดความและคำอธิบาย / การพรรณนาภาพ
ตัวแปรตัวยับยั้งในการถดถอยหลายครั้งและอะไรคือวิธีที่จะแสดงผลการปราบปรามด้วยสายตา (กลไกหรือหลักฐานในผลลัพธ์) ฉันต้องการเชิญทุกคนที่มีความคิดมาแบ่งปัน

2
วิธีการสรุปที่ถูกต้องจาก "ข้อมูลขนาดใหญ่"?
"ข้อมูลขนาดใหญ่" มีอยู่ทุกหนทุกแห่งในสื่อ ทุกคนบอกว่า "ข้อมูลขนาดใหญ่" เป็นสิ่งที่ยิ่งใหญ่สำหรับปี 2012 เช่นKDNuggets การสำรวจความคิดเห็นในหัวข้อที่ร้อนสำหรับปี 2012 อย่างไรก็ตามฉันมีความกังวลอย่างลึกซึ้งที่นี่ ด้วยข้อมูลขนาดใหญ่ทุกคนดูเหมือนจะมีความสุขที่จะได้รับอะไรเลย แต่เราไม่ได้ละเมิดหลักการทางสถิติแบบคลาสสิกทั้งหมดเช่นการทดสอบสมมติฐานและการสุ่มตัวอย่างตัวแทน? ตราบใดที่เราคาดการณ์เฉพาะชุดข้อมูลเดียวกันสิ่งนี้ควรจะดี ดังนั้นถ้าฉันใช้ข้อมูล Twitter เพื่อทำนายพฤติกรรมของผู้ใช้ Twitter นั่นอาจไม่เป็นไร อย่างไรก็ตามการใช้ข้อมูล Twitter เพื่อคาดการณ์เช่นการเลือกตั้งละเลยความจริงที่ว่าผู้ใช้ Twitter ไม่ใช่ตัวอย่างตัวอย่างสำหรับประชากรทั้งหมด นอกจากนี้วิธีการส่วนใหญ่จะไม่สามารถแยกความแตกต่างระหว่างอารมณ์ "รากหญ้า" ที่แท้จริงและการรณรงค์ และทวิตเตอร์เต็มไปด้วยแคมเปญ ดังนั้นเมื่อวิเคราะห์ Twitter คุณจะจบลงอย่างรวดเร็วเพียงวัดการรณรงค์และบอท (ดูตัวอย่าง"Yahoo คาดการณ์ผู้ชนะทางการเมืองของอเมริกา"ซึ่งเต็มไปด้วยการสำรวจความคิดเห็นทุบตีและ "การวิเคราะห์ความเชื่อมั่นดีกว่ามาก" พวกเขาทำนายว่า "รอมนีย์มีโอกาสชนะการเสนอชื่อมากกว่า 90% และชนะเซาท์แคโรไลนาหลัก" (เขามี 28% ในขณะที่ Gingrich มี 40% ในปฐมภูมินี้) คุณรู้หรือไม่ว่าข้อมูลขนาดใหญ่อื่น ๆล้มเหลว ? ฉันจำได้คร่าวๆว่านักวิทยาศาสตร์คนหนึ่งทำนายว่าคุณไม่สามารถรักษามิตรภาพมากกว่า 150 คนได้ …


2
การวัดความสำคัญของตัวแปรในป่าสุ่ม
ฉันเล่นกับป่าที่สุ่มเพื่อการถดถอยและฉันก็ลำบากที่จะหาว่าค่าเฉลี่ยความสำคัญสองอย่างนี้เป็นอย่างไรและควรตีความอย่างไร importance()ฟังก์ชั่นให้สองค่าสำหรับแต่ละตัวแปรและ%IncMSE IncNodePurityมีการตีความง่าย ๆ สำหรับค่า 2 ค่านี้หรือไม่? สำหรับIncNodePurityโดยเฉพาะอย่างยิ่งเป็นแบบนี้เพียงแค่จำนวนเงินที่ RSS เพิ่มขึ้นต่อไปนี้การกำจัดของตัวแปรที่หรือไม่

3
วิธีการตีความ F- และค่า p ใน ANOVA?
ฉันใหม่กับสถิติและฉันกำลังจัดการกับ ANOVA ฉันทำการทดสอบ ANOVA ใน R โดยใช้ aov(dependendVar ~ IndependendVar) ฉันได้รับ - กลุ่มอื่น ๆ - ค่า F และค่า p สมมติฐานว่างของฉัน ( ) คือทุกกลุ่มมีความหมายเท่ากันH0H0H_0 มีข้อมูลมากมายเกี่ยวกับวิธีการคำนวณ Fแต่ฉันไม่รู้วิธีอ่านสถิติ F และการเชื่อมต่อ F และ p ดังนั้นคำถามของฉันคือ: ฉันจะกำหนดค่า F สำคัญอย่างยิ่งสำหรับการปฏิเสธอย่างไรH0H0H_0 ค่า F แต่ละตัวมีค่า p ที่สอดคล้องกันหรือไม่ (เช่นถ้าดังนั้นH 0จะถูกปฏิเสธ)p &lt; 0.05พี&lt;0.05p<0.05H0H0H_0

4
การถดถอยโลจิสติกใน R (อัตราต่อรอง)
Rฉันพยายามที่จะดำเนินการวิเคราะห์การถดถอยโลจิสติกใน ฉันเข้าร่วมหลักสูตรที่ครอบคลุมเนื้อหานี้โดยใช้ STATA Rฉันกำลังมองหามันยากมากที่จะทำซ้ำการทำงานใน มันเป็นผู้ใหญ่ในพื้นที่นี้หรือไม่? ดูเหมือนว่าจะมีเอกสารหรือคำแนะนำเล็กน้อย ดูเหมือนว่าจะต้องมีการติดตั้งepicalcและ / หรือepitoolsและ / หรือ / อื่น ๆ ซึ่งไม่สามารถที่จะทำงานออกเอกสารที่ล้าสมัยหรือขาดเอกสารได้ ฉันเคยglmทำการถดถอยโลจิสติก ข้อเสนอแนะใด ๆ ยินดีต้อนรับ ฉันควรทำให้คำถามนี้เป็นจริง ฉันจะรันการถดถอยโลจิสติกและสร้างอัตราต่อรองได้Rอย่างไร นี่คือสิ่งที่ฉันได้ทำการวิเคราะห์แบบ univariate: x = glm(Outcome ~ Age, family=binomial(link="logit")) และสำหรับหลายตัวแปร: y = glm(Outcome ~ Age + B + C, family=binomial(link="logit")) เราได้ตรวจสอบแล้วที่x, y, และ summary(x)summary(y) คือx$coefficientsค่าใด ๆ ?
40 r  logistic  odds-ratio 

3
ความสัมพันธ์เชิงประจักษ์ระหว่างค่าเฉลี่ยมัธยฐานและโหมด
สำหรับการกระจายแบบ unimodal ที่มีความเบ้ปานกลางเรามีความสัมพันธ์เชิงประจักษ์ระหว่างค่าเฉลี่ยมัธยฐานและโหมด: ความสัมพันธ์นี้เป็นอย่างไร มา?(ค่าเฉลี่ย - โหมด) ∼ 3(ค่าเฉลี่ย - ค่ามัธยฐาน)(Mean - Mode)∼3(Mean - Median) \text{(Mean - Mode)}\sim 3\,\text{(Mean - Median)} คาร์ลเพียร์สันได้พล็อตความสัมพันธ์เหล่านี้หลายพันรายการก่อนก่อให้เกิดข้อสรุปนี้หรือมีเหตุผลที่สมเหตุสมผลในความสัมพันธ์นี้หรือไม่?

3
มีกรณีที่ PCA เหมาะสมกว่า t-SNE หรือไม่?
ฉันต้องการดูวิธีการวัดการแก้ไขข้อความ 7 วิธี (เวลาที่ใช้ในการแก้ไขข้อความจำนวนการกดแป้น ฯลฯ ) เกี่ยวข้องกัน มาตรการมีความสัมพันธ์ ฉันใช้ PCA เพื่อดูว่าการวัดที่ฉายบน PC1 และ PC2 นั้นอย่างไรซึ่งหลีกเลี่ยงการเหลื่อมซ้อนของการรันการทดสอบสหสัมพันธ์แบบสองทางที่แยกกันระหว่างการวัด ฉันถูกถามว่าทำไมไม่ใช้ t-SNE เนื่องจากความสัมพันธ์ระหว่างการวัดบางอย่างอาจไม่ใช่แบบเชิงเส้น ฉันสามารถดูได้ว่าการอนุญาตสำหรับการไม่เป็นเชิงเส้นจะช่วยปรับปรุงสิ่งนี้ได้อย่างไร แต่ฉันสงสัยว่ามีเหตุผลที่ดีที่จะใช้ PCA ในกรณีนี้ไม่ใช่ t-SNE หรือไม่ ฉันไม่ได้สนใจในการจัดกลุ่มข้อความตามความสัมพันธ์ของพวกเขากับมาตรการ แต่ในความสัมพันธ์ระหว่างมาตรการเอง (ฉันเดาว่า EFA อาจเป็นวิธีที่ดีกว่า / วิธีอื่น แต่นั่นคือการสนทนาที่แตกต่างกัน) เมื่อเปรียบเทียบกับวิธีอื่นมี t-SNE จำนวนไม่กี่โพสต์อยู่ที่นี่ดังนั้นคำถามดูเหมือนน่าจะถาม
39 pca  tsne 

7
มนุษย์มีอคติมากที่สุดที่มนุษย์สร้างขึ้นเมื่อรวบรวมหรือตีความข้อมูลคืออะไร?
ฉันเป็นคนสำคัญ econ / stat ฉันตระหนักดีว่านักเศรษฐศาสตร์ได้พยายามปรับเปลี่ยนสมมติฐานเกี่ยวกับพฤติกรรมของมนุษย์และความเป็นเหตุเป็นผลโดยระบุสถานการณ์ที่ผู้คนไม่ปฏิบัติตามเหตุผล ตัวอย่างเช่นสมมติว่าฉันให้คุณมีโอกาส 100% ของการสูญเสีย$ 1,000 หรือโอกาส 50% ที่การสูญเสีย$ 2500 ผู้คนเลือกตัวเลือก$ 2500 แม้ว่ามูลค่าที่คาดหวังของผู้ที่หลังจะสูญเสียมากกว่าการรับประกัน$ 1,000 การสูญเสีย สิ่งนี้เรียกว่า "การสูญเสียความเกลียดชัง" ขณะนี้นักเศรษฐศาสตร์พฤติกรรมศึกษารูปแบบเหล่านี้และพยายามหาวิธีที่มนุษย์เบี่ยงเบนจากสัจพจน์เหล่านั้นซึ่งโดยปกติถือว่าเป็นพฤติกรรม "เหตุผล" ที่นี่ฉันคิดว่ามันมีเหตุผลที่จะชอบการสูญเสียที่คาดหวังน้อยที่สุด ฉันสงสัยว่านักสถิติระบุรูปแบบทั่วไปในการรวบรวมข้อมูลที่ให้ผลลัพธ์แบบเอนเอียงในการตีความข้อมูลของผู้คนอย่างไร หากมีวิธีการ "เหตุผล" เป็นหลักในการรวบรวมข้อมูลฉันถือว่ามีตัวอย่างที่มนุษย์เบี่ยงเบนจากเรื่องนี้และแสดง "อคติ" ถ้าเป็นเช่นนั้นมนุษย์มีความเอนเอียงที่พบได้บ่อยที่สุดเมื่อรวบรวมหรือตีความข้อมูลคืออะไร?
39 bias 

4
การทดสอบแบบเบส์สองตัวอย่างที่เทียบเท่ากับแบบเบย์
ฉันไม่ได้กำลังมองหาวิธีแบบพลักแอนด์เพลย์อย่างดีที่สุดในอาร์ แต่เป็นคำอธิบายทางคณิตศาสตร์ของวิธีเบย์บางอย่างที่ฉันสามารถใช้เพื่อทดสอบความแตกต่างระหว่างค่าเฉลี่ยของตัวอย่างสองตัวอย่าง


4
โควาเรียตที่ไม่มีนัยสำคัญทางสถิติควร 'เก็บไว้ใน' เมื่อสร้างแบบจำลองหรือไม่?
ฉันมีโควาเรียร์หลายตัวในการคำนวณแบบจำลองและไม่ใช่ทั้งหมดที่มีนัยสำคัญทางสถิติ ฉันควรลบสิ่งที่ไม่ใช่หรือไม่ คำถามนี้อธิบายถึงปรากฏการณ์ แต่ไม่ตอบคำถามของฉัน: จะตีความผลกระทบที่ไม่สำคัญของ covariate ใน ANCOVA อย่างไร ไม่มีอะไรในคำตอบสำหรับคำถามนั้นที่ชี้ให้เห็นว่ามีการแปรผันที่ไม่สำคัญออกไปแม้ว่าตอนนี้ฉันมีแนวโน้มที่จะเชื่อว่าพวกเขาควรจะอยู่ต่อไปก่อนที่จะอ่านคำตอบนั้น ยังสามารถอธิบายความแปรปรวนบางอย่าง (และช่วยให้แบบจำลอง) โดยไม่จำเป็นต้องอธิบายจำนวนเกินกว่าขีด จำกัด บางอย่าง (ค่าขีด จำกัด นัยสำคัญซึ่งฉันเห็นว่าไม่สามารถใช้ได้กับ covariates) มีอีกคำถามหนึ่งในประวัติย่อที่คำตอบดูเหมือนจะบ่งบอกว่า covariates ควรเก็บไว้โดยไม่คำนึงถึงความสำคัญ แต่ก็ไม่ชัดเจนในเรื่องนั้น (ฉันต้องการเชื่อมโยงกับคำถามนั้น แต่ฉันไม่สามารถติดตามได้อีกในตอนนี้) ดังนั้น ... โควาเรียต์ที่ไม่แสดงว่ามีนัยสำคัญทางสถิติควรถูกเก็บไว้ในการคำนวณสำหรับโมเดลหรือไม่? (ฉันได้แก้ไขคำถามนี้เพื่อชี้แจงว่า covariates ไม่เคยอยู่ในรูปแบบผลลัพธ์โดยการคำนวณอยู่ดี) หากต้องการเพิ่มความซับซ้อนจะเกิดอะไรขึ้นถ้าค่าความแปรปรวนร่วมมีความสำคัญทางสถิติสำหรับชุดย่อยบางส่วนของข้อมูล (ชุดย่อยที่ต้องดำเนินการแยกต่างหาก) ฉันจะเริ่มต้นที่จะรักษา covariate มิฉะนั้นจะต้องใช้โมเดลที่แตกต่างกันหรือคุณจะมี covariate ที่มีนัยสำคัญทางสถิติหายไปในกรณีใดกรณีหนึ่ง หากคุณมีคำตอบสำหรับคดีแยกนี้เช่นกันโปรดพูดถึงมัน

5
ความสัมพันธ์ระหว่างและค่าสัมประสิทธิ์สหสัมพันธ์
สมมติว่าผมมีอาร์เรย์สอง 1 มิติและA_2แต่ละจุดมี 100 จุดข้อมูล เป็นข้อมูลจริงและคือการทำนายแบบจำลอง ในกรณีนี้ค่าจะเป็น: ในขณะเดียวกันนี่จะเท่ากับค่ากำลังสองของสัมประสิทธิ์สหสัมพันธ์ ตอนนี้ถ้าฉันสลับทั้งสอง:เป็นข้อมูลจริงและคือการทำนายแบบจำลอง จากสมการ , เนื่องจากค่าสัมประสิทธิ์สหสัมพันธ์ไม่สนใจซึ่งมาก่อน,a1a1a_1a2a2a_2a1a1a_1a2a2a_2R2R2R^2R2=1−SSresSStot (1).R2=1−SSresSStot (1). R^2 = 1 - \frac{SS_{res}}{SS_{tot}} \quad\quad\quad\quad\quad\ \ \quad\quad(1). R2=(Correlation Coefficient)2(2).R2=(Correlation Coefficient)2(2). R^2 = (\text{Correlation Coefficient})^2 \quad (2). a2a2a_2a1a1a_1(2)(2)(2)R2R2R^2จะเหมือนกัน อย่างไรก็ตามจากสมการ , , ค่าจะเปลี่ยนเนื่องจากSS_ {tot}เปลี่ยนถ้าเราเปลี่ยนyจากa_1เป็นa_2 ; ในขณะเดียวกันSS_ {res} = \ sum_i (f_i- \ bar y) ^ 2จะไม่เปลี่ยนแปลง(1)(1)(1)SStot=∑i(yi−y¯)2SStot=∑i(yi−y¯)2SS_{tot}=\sum_i(y_i - …

7
Bayesian ยอมรับว่ามีค่าพารามิเตอร์คงที่หนึ่งค่าหรือไม่
ในการวิเคราะห์ข้อมูลแบบเบย์พารามิเตอร์จะถือว่าเป็นตัวแปรสุ่ม สิ่งนี้เกิดจากแนวคิดเรื่องความน่าจะเป็นแบบเบย์แบบอัตนัย แต่ Bayesians ในทางทฤษฎียอมรับว่ามีค่าคงที่ที่แท้จริงเพียงค่าเดียวใน 'โลกแห่งความจริง' ดูเหมือนว่าคำตอบที่ชัดเจนคือ 'ใช่' เพราะจากนั้นพยายามประเมินพารามิเตอร์เกือบจะไร้สาระ การอ้างอิงทางวิชาการสำหรับคำตอบนี้จะได้รับการชื่นชมอย่างมาก

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.