สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
อะไรคือความแตกต่างระหว่าง "การทดสอบสมมติฐาน" และ "ทดสอบความสำคัญ"?
วลี "การทดสอบสมมติฐาน" และ "การทดสอบความสำคัญ" มีความแตกต่างหรือไม่หรือไม่ หลังจากคำตอบอย่างละเอียดจาก @Micheal Lew ฉันมีความสับสนอย่างหนึ่งที่ทุกวันนี้สมมติฐาน (เช่น t-test to test mean) เป็นตัวอย่างของ "การทดสอบนัยสำคัญ" หรือ "การทดสอบสมมติฐาน"? หรือเป็นการรวมกันของทั้งคู่? คุณจะแยกแยะพวกเขาด้วยตัวอย่างง่ายๆได้อย่างไร?

2
คุณจะเขียน Tukey post-hoc ได้อย่างไร
วิธีที่เหมาะสมในการเขียนผลลัพธ์ Tukey post-hoc คืออะไร? มีหลายตัวอย่างที่มีผลลัพธ์ต่างกันหรือไม่ สมมติว่าคุณมีเหนือ, ใต้, ตะวันออกและตะวันตก North N=50 Mean=2.45 SD=3.9 std error=.577 LB=1.29 UB=3.62 South N=40 Mean=2.54 SD=3.8 std error=.576 LB=1.29 UB=3.63 East N=55 Mean=3.45 SD=3.7 std error=.575 LB=1.29 UB=3.64 West N=45 Mean=3.54 SD=3.6 std error=.574 LB=1.29 UB=3.65 ภาคเหนือมีความสำคัญทางสถิติกับตะวันออก (sig = .009) และตะวันตก (sig = .040) แต่ไม่ใช่ใต้ (sig …

1
คุณสมบัติของการถดถอยโลจิสติก
เรากำลังทำงานกับการถดถอยแบบโลจิสติกส์และเราได้ตระหนักว่าความน่าจะเป็นโดยประมาณโดยเฉลี่ยเท่ากับสัดส่วนของตัวอย่างในตัวอย่าง นั่นคือค่าเฉลี่ยของค่าติดตั้งเท่ากับค่าเฉลี่ยของตัวอย่าง ใครช่วยอธิบายเหตุผลให้ฉันหรือให้ข้อมูลอ้างอิงกับฉันที่ฉันสามารถหาการสาธิตนี้ได้?

3
วิธีการสร้างแบบจำลองตัวแปรเป้าหมายที่ถูกผูกไว้?
ฉันมี 5 ตัวแปรและฉันพยายามที่จะทำนายตัวแปรเป้าหมายของฉันซึ่งจะต้องอยู่ในช่วง 0 ถึง 70 ฉันจะใช้ข้อมูลชิ้นนี้ในการสร้างแบบจำลองเป้าหมายได้ดีขึ้นได้อย่างไร

4
ตัวแปร“ Normalizing” สำหรับ SVD / PCA
สมมติว่าเรามีตัวแปรNNNวัดได้(a1,a2,…,aN)(a1,a2,…,aN)(a_1, a_2, \ldots, a_N)เราทำการวัดจำนวนM>NM>NM > Nของการวัดแล้วต้องการทำการแยกสลายค่าเอกพจน์บนผลลัพธ์เพื่อค้นหาแกนของความแปรปรวนสูงสุดสำหรับMMM points ในช่องว่างมิติNNN( หมายเหตุ:คิดว่าวิธีการของฉันได้รับการหักออกเพื่อ⟨ ฉัน ⟩ = 0สำหรับทุกฉัน .)aiaia_i⟨ai⟩=0⟨ai⟩=0\langle a_i \rangle = 0iii ทีนี้สมมติว่าตัวแปรหนึ่งตัว (หรือมากกว่า) มีขนาดลักษณะแตกต่างกันอย่างมีนัยสำคัญมากกว่าส่วนที่เหลือ เช่น1อาจมีค่าอยู่ในช่วง10 - 100ในขณะที่ส่วนที่เหลืออาจจะอยู่ที่ประมาณ0.1 - 1 นี้จะเอียงแกนของความแปรปรวนสูงสุดต่อ1ของแกนมากa1a1a_110−10010−10010-1000.1−10.1−10.1-1a1a1a_1 ความแตกต่างของขนาดอาจเป็นเพราะตัวเลือกการวัดที่โชคร้าย (ถ้าเรากำลังพูดถึงข้อมูลทางกายภาพเช่นกิโลเมตรเทียบกับเมตร) แต่ที่จริงแล้วตัวแปรที่แตกต่างกันอาจมีมิติที่แตกต่างกันโดยสิ้นเชิง (เช่นน้ำหนักเทียบกับปริมาตร) อาจไม่มีวิธีที่ชัดเจนในการเลือกหน่วย "เปรียบได้" สำหรับพวกเขา คำถาม: ฉันต้องการทราบว่ามีวิธีการมาตรฐาน / ทั่วไปในการทำให้ข้อมูลเป็นมาตรฐานเพื่อหลีกเลี่ยงปัญหานี้หรือไม่ ผมสนใจในเทคนิคมาตรฐานที่ผลิตขนาดเทียบเคียง1 - Nเพื่อจุดประสงค์นี้มากกว่าขึ้นมาพร้อมกับสิ่งใหม่ ๆa1−aNa1−aNa_1 - a_N แก้ไข: ความเป็นไปได้อย่างหนึ่งคือทำให้ตัวแปรแต่ละตัวเป็นปกติโดยค่าเบี่ยงเบนมาตรฐานหรือสิ่งที่คล้ายกัน อย่างไรก็ตามปัญหาต่อไปนี้จะปรากฏขึ้น: ลองตีความข้อมูลเป็น cloud point …

2
แบบจำลองการอยู่รอดเพื่อทำนายการเปลี่ยนแปลง - ตัวทำนายเวลาที่ต่างกัน?
ฉันกำลังมองหาที่จะสร้างแบบจำลองการทำนายสำหรับทำนายปั่นป่วนและกำลังมองหาที่จะใช้แบบจำลองการอยู่รอดแบบไม่ต่อเนื่องเวลาพอดีกับชุดข้อมูลการฝึกอบรมระยะเวลาบุคคล (แถวหนึ่งสำหรับลูกค้าแต่ละรายและระยะเวลาไม่ต่อเนื่องพวกเขาตกอยู่ในความเสี่ยง ถ้าปั่นเกิดขึ้นในช่วงเวลานั้นอีก 0) ฉันเหมาะสมกับโมเดลโดยใช้การถดถอยโลจิสติกส์ธรรมดาโดยใช้เทคนิคจากนักร้องและวิลเล็ต จำนวนลูกค้าที่เกิดขึ้นสามารถเกิดขึ้นได้ทุกที่ในช่วงเดือน แต่มันก็แค่สิ้นเดือนที่เรารู้เกี่ยวกับมัน (บางครั้งในช่วงเดือนที่พวกเขาออกไป) ใช้เวลา 24 เดือนในการฝึกอบรม ตัวแปรเวลาที่ใช้คือเวลาเริ่มต้นของตัวอย่าง - ลูกค้าทั้งหมดที่ใช้งานจนถึงวันที่ 12/31/2008 - พวกเขาทั้งหมดได้รับ t = 0 ตั้งแต่เดือนมกราคม 2552 (ไม่ใช่วิธีแบบดั้งเดิมที่จะทำ แต่ฉันเชื่อว่าวิธีการสร้าง แบบจำลองการทำนายกับแบบสถิติดั้งเดิม) covariate ที่ใช้คืออายุของลูกค้า ณ เวลานั้น มีชุดของโควาเรียต์ที่สร้างขึ้น - บางชุดที่ไม่เปลี่ยนแปลงในแถวของชุดข้อมูล (สำหรับลูกค้าที่ระบุ) และบางชุดที่ทำ ตัวแปรแปรปรวนเวลาเหล่านี้เป็นปัญหาและสิ่งที่ทำให้ฉันถามรูปแบบการอยู่รอดสำหรับการทำนายแบบปั่นป่วน (เปรียบเทียบกับตัวจําแนกปกติที่ทำนายการปั่นในอีก x เดือนถัดไปตามข้อมูลสแนปชอตปัจจุบัน) คนที่ไม่แปรเปลี่ยนเวลาอธิบายกิจกรรมในเดือนก่อนและคาดว่าจะเป็นตัวกระตุ้นที่สำคัญ การดำเนินการตามรูปแบบการทำนายนี้อย่างน้อยตามความคิดปัจจุบันของฉันคือการให้คะแนนฐานลูกค้า ณ สิ้นเดือนแต่ละเดือนเพื่อคำนวณความน่าจะเป็น / ความเสี่ยงจากการปั่นป่วนในช่วงเดือนถัดไป จากนั้นอีกครั้งสำหรับ 1,2 หรือ 3 เดือนถัดไป จากนั้นสำหรับอีก …

1
ตรรกะที่อยู่เบื้องหลังการทดสอบ F-ANOVA ในการถดถอยเชิงเส้นอย่างง่าย
ฉันพยายามที่จะเข้าใจตรรกะที่อยู่เบื้องหลังการทดสอบ ANOVA F ในการวิเคราะห์การถดถอยเชิงเส้นอย่างง่าย คำถามที่ฉันมีดังต่อไปนี้ เมื่อค่า F คือ MSR/MSEมีขนาดใหญ่เรายอมรับแบบจำลองเป็นสำคัญ เหตุผลเบื้องหลังนี้คืออะไร?
17 regression  anova 

2
ฉันจะใช้วิธีการถดถอยโลจิสติกส์ + ข้อมูลดิบเพื่อรับความน่าจะเป็นได้อย่างไร
ฉันมีโมเดลติดตั้งแล้ว (จากวรรณกรรม) ฉันยังมีข้อมูลดิบสำหรับตัวแปรทำนาย สมการที่ฉันควรใช้เพื่อให้ได้ความน่าจะเป็นคืออะไร โดยพื้นฐานแล้วฉันจะรวมข้อมูลดิบและสัมประสิทธิ์เข้ากับความน่าจะเป็นได้อย่างไร

5
การล้างข้อมูลสามารถทำให้ผลการวิเคราะห์เชิงสถิติแย่ลงได้หรือไม่?
การเพิ่มจำนวนผู้ป่วยและการเสียชีวิตเกิดขึ้นในช่วงที่มีการระบาดของโรค (เพิ่มจำนวนขึ้นอย่างกะทันหัน) เนื่องจากการไหลเวียนของไวรัส (เช่น West Nile Virus ในสหรัฐอเมริกาในปี 2545) หรือลดความต้านทานของผู้คนหรือการปนเปื้อนของอาหารหรือน้ำ ยุง โรคระบาดเหล่านี้จะปรากฏเป็นค่าผิดปกติซึ่งสามารถเกิดขึ้นได้ทุก 1 ถึง 5 ปี การลบค่าผิดปกติเหล่านี้ทำให้เราลบหลักฐานการระบาดซึ่งเป็นส่วนสำคัญในการพยากรณ์และการทำความเข้าใจเกี่ยวกับโรค การทำความสะอาดข้อมูลจำเป็นหรือไม่เมื่อต้องรับมือกับผู้ผิดที่เกิดจากโรคระบาด? มันจะปรับปรุงผลลัพธ์หรือทำให้แย่ลงจากการวิเคราะห์ทางสถิติ?

1
วิธีสร้างตารางสีด้วย Sweave และ xtable [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นจึงเป็นหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน2 ปีที่ผ่านมา ฉันใช้ Sweave และxtableเพื่อสร้างรายงาน ฉันต้องการเพิ่มสีลงบนโต๊ะ แต่ฉันไม่สามารถหาวิธีสร้างตารางสีด้วย xtable ได้ มีตัวเลือกอื่น ๆ อีกไหม?

3
การวิเคราะห์องค์ประกอบหลัก“ ย้อนหลัง”: อธิบายความแปรปรวนของข้อมูลโดยชุดค่าผสมเชิงเส้นที่กำหนดของตัวแปรอย่างไร
ผมได้ดำเนินการวิเคราะห์องค์ประกอบหลักหกตัวแปร, B , C , D , EและF ถ้าฉันเข้าใจอย่างถูกต้อง PC1 ที่ไม่ได้ทำการบอกจะบอกสิ่งที่การรวมกันเชิงเส้นของตัวแปรเหล่านี้อธิบาย / อธิบายความแปรปรวนมากที่สุดในข้อมูลและ PC2 บอกฉันว่าการรวมกันเชิงเส้นของตัวแปรเหล่านี้จะอธิบายความแปรปรวนมากที่สุดต่อไปของข้อมูลAABBCCDDEEFF ฉันแค่อยากรู้อยากเห็น - มีวิธีการทำ "ย้อนกลับ" นี้หรือไม่? สมมติว่าฉันเลือกชุดค่าผสมเชิงเส้นของตัวแปรเหล่านี้เช่นA + 2 B + 5 CA+2B+5CA+2B+5Cฉันจะคำนวณความแปรปรวนของข้อมูลที่อธิบายได้หรือไม่

2
“ เสื้อยืดสีน้ำเงินทุกคน” เป็นตัวอย่างที่เป็นระบบหรือไม่?
ฉันกำลังสอนชั้นเรียนอินโทรและกำลังตรวจสอบประเภทของการสุ่มตัวอย่างรวมถึงการสุ่มอย่างเป็นระบบที่คุณสุ่มตัวอย่างบุคคล kth หรือวัตถุทุกคน นักเรียนถามว่าการสุ่มตัวอย่างทุกคนที่มีลักษณะเฉพาะจะทำให้สิ่งเดียวกันสำเร็จหรือไม่ ตัวอย่างเช่นการสุ่มตัวอย่างเสื้อยืดสีน้ำเงินทุกคนจะมีการสุ่มอย่างเพียงพอและเพียงพอต่อการเป็นตัวแทนของประชากรทั้งหมดหรือไม่ อย่างน้อยถ้าคุณถามคำถามอื่นนอกเหนือจาก "คุณชอบใส่เสื้อยืดสีอะไร?" ความรู้สึกของฉันไม่ใช่ แต่ฉันสงสัยว่าใครที่นี่มีความคิดเกี่ยวกับเรื่องนี้
17 sampling 

3
การสร้างภาพข้อมูลเชิงโต้ตอบจะมีประโยชน์เมื่อใด
ในขณะที่เตรียมการพูดคุยฉันจะให้เร็ว ๆ นี้ฉันเพิ่งเริ่มขุดเป็นสองเครื่องมือสำคัญ (ฟรี) สำหรับการสร้างภาพข้อมูลแบบโต้ตอบ: GGobiและMondrian - ทั้งสองมีความสามารถที่หลากหลาย ฉันต้องการขอความช่วยเหลือจากคุณในการสื่อสาร (ทั้งกับตัวเองและสำหรับผู้ชมในอนาคตของฉัน) เมื่อใดที่การใช้แปลงแบบโต้ตอบมีประโยชน์เมื่อใด สำหรับการสำรวจข้อมูล (สำหรับตัวเราเอง) และการนำเสนอข้อมูล (สำหรับ "ลูกค้า") สำหรับเมื่ออธิบายข้อมูลไปยังไคลเอนต์ฉันสามารถดูค่าของภาพเคลื่อนไหวสำหรับ: ใช้ "ระบุ / เชื่อมโยง / แปรง" เพื่อดูว่าจุดข้อมูลใดในกราฟคืออะไร นำเสนอการวิเคราะห์ความอ่อนไหวของข้อมูล (เช่น: "ถ้าเราลบจุดนี้นี่คือสิ่งที่เราจะได้รับ) แสดงผลของกลุ่มต่าง ๆ ในข้อมูล (เช่น: "ลองดูกราฟของเราสำหรับผู้ชายและผู้หญิงตอนนี้") แสดงเอฟเฟกต์ของเวลา (หรืออายุหรือโดยทั่วไปให้มิติอื่นกับงานนำเสนอ) สำหรับการสำรวจข้อมูลด้วยตัวเองฉันสามารถเห็นคุณค่าของการระบุ / การเชื่อมโยง / การแปรงเมื่อทำการสำรวจค่าในชุดข้อมูลที่เรากำลังทำงานอยู่ แต่ในอีกสองตัวอย่างนี้ฉันไม่แน่ใจว่าเทคนิคเหล่านี้ใช้งานได้จริงอย่างไร โดยเฉพาะอย่างยิ่งสำหรับการสำรวจข้อมูลของเราเอง! อาจเป็นที่ถกเถียงกันอยู่ว่าส่วนที่ตอบโต้นั้นดีสำหรับการสำรวจ (ตัวอย่าง) พฤติกรรมที่แตกต่างของกลุ่ม / กลุ่มที่แตกต่างกันในข้อมูล แต่เมื่อ (ในทางปฏิบัติ) ฉันเข้าหาสถานการณ์เช่นนี้สิ่งที่ฉันมักจะทำคือการเรียกใช้กระบวนการทางสถิติที่เกี่ยวข้อง (และการทดสอบหลังการเฉพาะกิจ) …

2
ภูมิสถิติ
มีใครเขียนแบบสำรวจสั้น ๆ เกี่ยวกับวิธีการต่างๆในสถิติ? ในการประมาณแรกคุณจะมีสถิติประจำและ Bayesian แต่เมื่อคุณมองใกล้คุณจะมีวิธีการอื่นเช่น likelihoodist และ empirical Bayes แล้วคุณก็มีส่วนย่อยภายในกลุ่มเช่น Bayes Objective Bayes แบบอัตนัยภายในสถิติ Bayesian เป็นต้น บทความสำรวจจะดี มันจะดียิ่งขึ้นถ้ามันรวมไดอะแกรม

3
การถดถอยโลจิสติกและโครงสร้างชุดข้อมูล
ฉันหวังว่าฉันจะถามคำถามนี้ได้อย่างถูกวิธี ฉันสามารถเข้าถึงข้อมูลแบบเล่นโดยการเล่นดังนั้นจึงเป็นปัญหามากขึ้นด้วยวิธีที่ดีที่สุดและสร้างข้อมูลได้อย่างถูกต้อง สิ่งที่ฉันต้องการทำคือการคำนวณความน่าจะเป็นในการชนะเกมของ NHL จากคะแนนและเวลาที่เหลืออยู่ในการควบคุม ฉันคิดว่าฉันสามารถใช้การถดถอยโลจิสติก แต่ฉันไม่แน่ใจว่าชุดข้อมูลควรมีลักษณะอย่างไร ฉันจะมีข้อสังเกตหลายครั้งต่อเกมและทุกครั้งที่ฉันสนใจ ฉันจะมีหนึ่งการสังเกตการณ์ต่อเกมและพอดีกับโมเดลที่แยกกันต่อส่วนของเวลาหรือไม่? การถดถอยของโลจิสติกเป็นวิธีที่ถูกต้องหรือไม่ ความช่วยเหลือใด ๆ ที่คุณสามารถให้จะได้รับการชื่นชมอย่างมาก! ขอแสดงความนับถืออย่างสูง.

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.