สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

1
กำลังแปลงข้อผิดพลาดมาตรฐานเป็นส่วนเบี่ยงเบนมาตรฐานหรือไม่
การแปลงข้อผิดพลาดมาตรฐานเป็นความเบี่ยงเบนมาตรฐานเป็นเรื่องที่สมเหตุสมผลหรือไม่ และถ้าเป็นเช่นนั้นสูตรนี้เหมาะสมหรือไม่ SE=SDN−−√SE=SDNSE = \frac{SD}{\sqrt{N}}

2
แนวทางปฏิบัติมาตรฐานในการสร้างชุดข้อมูลสังเคราะห์คืออะไร?
ตามบริบท: เมื่อทำงานกับชุดข้อมูลที่มีขนาดใหญ่มากบางครั้งฉันถูกถามว่าเราสามารถสร้างชุดข้อมูลสังเคราะห์ที่เรา "รู้จัก" ความสัมพันธ์ระหว่างตัวทำนายและตัวแปรตอบสนองหรือความสัมพันธ์ระหว่างตัวทำนาย ในช่วงหลายปีที่ผ่านมาฉันดูเหมือนจะพบชุดข้อมูลสังเคราะห์แบบครั้งเดียวซึ่งดูเหมือนว่าพวกมันถูกปรุงในลักษณะเฉพาะกิจหรือชุดข้อมูลที่มีโครงสร้างมากขึ้นซึ่งดูดีเป็นพิเศษสำหรับวิธีการสร้างแบบจำลองของนักวิจัย ฉันเชื่อว่าฉันกำลังมองหาวิธีมาตรฐานในการสร้างชุดข้อมูลสังเคราะห์ แม้ว่า bootstrap resampling เป็นวิธีการทั่วไปหนึ่งในการสร้างชุดข้อมูลสังเคราะห์ แต่ก็ไม่เป็นไปตามเงื่อนไขที่เรารู้ว่าโครงสร้าง เป็นสำคัญ ยิ่งกว่านั้นการแลกเปลี่ยนตัวอย่าง bootstrap กับผู้อื่นจำเป็นต้องมีการแลกเปลี่ยนข้อมูลมากกว่าวิธีการสร้างข้อมูล ถ้าเราสามารถกระจายพาราเมทริกให้กับข้อมูลหรือหาโมเดลพาราเมทริกที่ใกล้พอแล้วนี่เป็นตัวอย่างหนึ่งที่เราสามารถสร้างชุดข้อมูลสังเคราะห์ มีวิธีอื่นใดอีกบ้าง? ฉันสนใจข้อมูลมิติสูงข้อมูลที่กระจัดกระจายและข้อมูลอนุกรมเวลา สำหรับข้อมูลมิติสูงฉันจะมองหาวิธีที่สามารถสร้างโครงสร้าง (เช่นโครงสร้างความแปรปรวนร่วมแบบจำลองเชิงเส้นต้นไม้เป็นต้น) ที่น่าสนใจ สำหรับข้อมูลอนุกรมเวลาจากการแจกแจงผ่าน FFTs รุ่น AR หรือตัวกรองอื่น ๆ หรือตัวแบบการพยากรณ์อื่น ๆ ดูเหมือนจะเป็นการเริ่มต้น สำหรับข้อมูลที่กระจัดกระจายการสร้างรูปแบบการกระจัดกระจายนั้นมีประโยชน์ ฉันเชื่อว่าสิ่งเหล่านี้เป็นเพียงแค่รอยขีดข่วนบนพื้นผิว - สิ่งเหล่านี้เป็นแบบเรียนรู้ได้ไม่ใช่แบบทางการ มีการอ้างอิงหรือแหล่งข้อมูลสำหรับการสร้างข้อมูลสังเคราะห์ที่ผู้ปฏิบัติงานควรรู้หรือไม่? หมายเหตุ 1: ฉันรู้ว่าคำถามนี้เน้นที่วรรณกรรมว่าจะสร้างข้อมูลได้อย่างไรเช่นตัวแบบอนุกรมเวลา ความแตกต่างที่นี่คือการปฏิบัติโดยเฉพาะอย่างยิ่งเพื่อระบุโครงสร้างที่รู้จัก (คำถามของฉัน) เมื่อเทียบกับความคล้ายคลึงกัน / ความจงรักภักดีต่อชุดข้อมูลที่มีอยู่ ในกรณีของฉันไม่จำเป็นต้องมีความคล้ายคลึงกันมากเท่ากับโครงสร้างที่รู้จักแม้ว่าความคล้ายคลึงกันจะเป็นที่นิยมอย่างมากต่อความแตกต่างกัน ชุดข้อมูลสังเคราะห์ที่แปลกใหม่ซึ่งแบบจำลองแสดงสัญญาเป็นที่ต้องการน้อยกว่าการจำลองที่เหมือนจริง หมายเหตุ 2: รายการ Wikipedia สำหรับข้อมูลสังเคราะห์ชี้ให้เห็นว่าผู้ทรงคุณวุฒิเช่น …

3
ความแตกต่างระหว่าง MANOVA และ ANOVA มาตรการซ้ำแล้วซ้ำอีก?
อะไรคือความแตกต่างระหว่างการวัด ANOVA ซ้ำ ๆ กับปัจจัยบางอย่าง (พูดว่าเงื่อนไขการทดลอง) และ MANOVA โดยเฉพาะอย่างยิ่งเว็บไซต์หนึ่งที่ฉันสะดุดพบว่า MANOVA ไม่ได้ทำการสันนิษฐานแบบเดียวกันกับความกลมกลืนของมาตรการ ANOVA ซ้ำ ๆ ว่าเป็นเรื่องจริงหรือไม่? ถ้าใช่ทำไมไม่ใช้ MANOVA เสมอ ฉันพยายามดำเนินการมาตรการ ANOVA ซ้ำ ๆ กับ DV หลาย ๆ ตัววิธีที่เหมาะสมคืออะไร?

3
มันมีความหมายหรือไม่ที่จะทดสอบความเป็นมาตรฐานด้วยขนาดตัวอย่างที่เล็กมาก (เช่น n = 6)?
ฉันมีขนาดตัวอย่างเป็น 6 ในกรณีเช่นนี้มันสมเหตุสมผลไหมที่จะทดสอบความเป็นมาตรฐานโดยใช้การทดสอบ Kolmogorov-Smirnov ฉันใช้ SPSS ฉันมีขนาดตัวอย่างเล็กมากเพราะต้องใช้เวลาพอสมควร ถ้ามันไม่สมเหตุสมผลจำนวนตัวอย่างที่น้อยที่สุดที่สมเหตุสมผลในการทดสอบคือเท่าใด หมายเหตุ: ฉันได้ทำการทดสอบบางอย่างที่เกี่ยวข้องกับซอร์สโค้ด ตัวอย่างคือเวลาที่ใช้ในการเข้ารหัสในซอฟต์แวร์เวอร์ชัน (เวอร์ชัน A) ที่ จริงแล้วฉันมีขนาดตัวอย่างอีก 6 ตัวซึ่งเป็นเวลาที่ใช้ในการเข้ารหัสในซอฟต์แวร์เวอร์ชันอื่น(เวอร์ชัน B) ฉันต้องการทำการทดสอบสมมติฐานโดยใช้หนึ่งตัวอย่าง t-testเพื่อทดสอบว่าเวลาที่ใช้ในรหัสรุ่น A นั้นแตกต่างจากเวลาที่ใช้ในรหัสรุ่น B หรือไม่ (นี่คือ H1 ของฉัน) เงื่อนไขเบื้องต้นของ t-test หนึ่งตัวอย่างคือข้อมูลที่จะทดสอบต้องมีการแจกแจงแบบปกติ นั่นคือเหตุผลที่ฉันต้องทดสอบความเป็นปกติ

3
ทีต้าในการถดถอยแบบทวินามลบด้วย R คืออะไร?
ฉันมีคำถามเกี่ยวกับการถดถอยแบบทวินามลบ: สมมติว่าคุณมีคำสั่งต่อไปนี้: require(MASS) attach(cars) mod.NB<-glm.nb(dist~speed) summary(mod.NB) detach(cars) (โปรดทราบว่ารถยนต์เป็นชุดข้อมูลที่มีอยู่ใน R และฉันไม่สนใจว่ารุ่นนี้เหมาะสมหรือไม่) สิ่งที่ฉันอยากรู้คือฉันจะตีความตัวแปรได้อย่างไรtheta(ส่งคืนที่ด้านล่างของการเรียกไปยังsummary) นี่คือพารามิเตอร์รูปร่างของการแจกแจงแบบเนกกิ้นและเป็นไปได้หรือไม่ที่จะตีความว่าเป็นการวัดความเบ้

9
การวัดความแม่นยำของแบบจำลองการถดถอยโลจิสติก
ฉันมีแบบจำลองการถดถอยโลจิสติกที่ผ่านการฝึกอบรมซึ่งฉันใช้กับชุดข้อมูลการทดสอบ ตัวแปรที่ขึ้นต่อกันคือไบนารี (บูลีน) สำหรับแต่ละตัวอย่างในชุดข้อมูลการทดสอบฉันใช้แบบจำลองการถดถอยโลจิสติกเพื่อสร้าง% ความน่าจะเป็นที่ตัวแปรตามจะเป็นจริง จากนั้นฉันบันทึกว่าค่า acutal เป็นจริงหรือเท็จ ฉันพยายามคำนวณรูปหรือ Adjustedเหมือนในตัวแบบถดถอยเชิงเส้นR2R2R^2R2R2R^2 นี่ทำให้ฉันบันทึกสำหรับตัวอย่างแต่ละตัวอย่างในชุดการทดสอบที่ชอบ: prob_value_is_true acutal_value .34 0 .45 1 .11 0 .84 0 .... .... ฉันสงสัยว่าจะทดสอบความแม่นยำของแบบจำลองได้อย่างไร ความพยายามครั้งแรกของฉันคือการใช้ตารางฉุกเฉินและพูดว่า "ถ้าprob_value_is_true> 0.80 เดาว่ามูลค่าจริงเป็นจริง" จากนั้นวัดอัตราส่วนที่ถูกต้องต่อการจำแนกประเภทที่ไม่ถูกต้อง แต่ฉันไม่ชอบเพราะมันให้ความรู้สึกมากกว่าฉันแค่ประเมิน 0.80 เป็นขอบเขตไม่ใช่ความแม่นยำของโมเดลโดยรวมและในทุกprob_value_is_trueค่า จากนั้นฉันพยายามดูแต่ละค่า prob_value_is_true โดยสิ้นเชิงเป็นตัวอย่างดูตัวอย่างทั้งหมดที่prob_value_is_true= 0.34 และการวัด% ของตัวอย่างเหล่านั้นโดยที่ค่า acutal เป็นจริง (ในกรณีนี้ความแม่นยำสมบูรณ์จะเป็นถ้า% ของตัวอย่าง นั่นเป็นความจริง = 34%) prob_value_is_trueฉันอาจจะสร้างคะแนนความถูกต้องได้จากข้อสรุปรูปแบบที่แตกต่างกันในแต่ละคุ้มค่าต่อเนื่องของ แต่ขนาดของกลุ่มตัวอย่างมีความกังวลอย่างมากโดยเฉพาะอย่างยิ่งในส่วนที่เกิน (ใกล้ 0% หรือ …

2
การแจกจ่าย
เมื่อวันก่อนฉันวิ่งผ่านความหนาแน่นนี้ มีใครบางคนตั้งชื่อนี้หรือไม่? ฉ( x ) = บันทึก( 1 + x- 2) / 2 πฉ(x)=เข้าสู่ระบบ⁡(1+x-2)/2πf(x) = \log(1 + x^{-2}) / 2\pi ความหนาแน่นไม่ จำกัด ที่จุดกำเนิดและมันยังมีหางที่เป็นไขมัน ฉันเห็นว่ามันใช้เป็นการกระจายก่อนหน้านี้ในบริบทที่คาดว่าการสังเกตจำนวนมากจะเล็กแม้ว่าค่าขนาดใหญ่ก็คาดหวังเช่นกัน

4
นำเข้าราคาหุ้นจาก Yahoo Finance เข้าสู่ R หรือไม่
ล็อคแล้ว คำถามและคำตอบนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ฉันต้องการนำเข้าราคาหุ้น "การซื้อขายครั้งสุดท้าย" จากการเงินของ Yahoo เข้าสู่ R. ความตั้งใจคือการทำงานกับข้อมูลเรียลไทม์ (เกือบ) มีวิธีแก้ไขไหม? ขอบคุณล่วงหน้าสำหรับความคิดเห็นที่เป็นประโยชน์
26 r 

3
จะเข้าใจเอาต์พุตจากฟังก์ชัน polr ของ R ได้อย่างไร (สั่งการถดถอยโลจิสติก)
ฉันกำลังใหม่เพื่อ R polrสั่งการถดถอยโลจิสติกและ ส่วน "ตัวอย่าง" ที่ด้านล่างของหน้าความช่วยเหลือสำหรับpolr (ที่เหมาะกับรูปแบบการถดถอยโลจิสติกหรือ probit กับการตอบสนองต่อปัจจัยที่สั่งซื้อ) แสดง options(contrasts = c("contr.treatment", "contr.poly")) house.plr <- polr(Sat ~ Infl + Type + Cont, weights = Freq, data = housing) pr <- profile(house.plr) plot(pr) pairs(pr) มีข้อมูลอะไรบ้างpr? หน้าความช่วยเหลือในโปรไฟล์เป็นข้อมูลทั่วไปและไม่มีแนวทางสำหรับ polr กำลังplot(pr)แสดงอะไร ฉันเห็นกราฟหกตัว แต่ละคนมีแกน X ที่เป็นตัวเลขแม้ว่าฉลากจะเป็นตัวแปรตัวบ่งชี้ (ดูเหมือนว่าตัวแปรอินพุตที่เป็นตัวบ่งชี้สำหรับค่าลำดับ) จากนั้นแกน Y คือ "เอกภาพ" ซึ่งไม่ได้อธิบายอย่างสมบูรณ์ กำลังpairs(pr)แสดงอะไร ดูเหมือนพล็อตสำหรับตัวแปรอินพุตแต่ละคู่ …
26 r  logistic 

7
วิธีการหนึ่งทำ Type-III SS ANOVA ใน R ด้วยรหัสความคมชัด?
โปรดระบุรหัส R ซึ่งอนุญาตให้บุคคลหนึ่งทำการวิเคราะห์ความแปรปรวนระหว่างอาสาสมัครที่มี -3, -1, 1, 3 ตรงกันข้าม ฉันเข้าใจว่ามีการถกเถียงกันเกี่ยวกับประเภทผลรวมของกำลังสอง (SS) ที่เหมาะสมสำหรับการวิเคราะห์ดังกล่าว อย่างไรก็ตามเนื่องจากประเภทเริ่มต้นของ SS ที่ใช้ใน SAS และ SPSS (Type III) ถือเป็นมาตรฐานในพื้นที่ของฉัน ดังนั้นฉันต้องการให้ผลลัพธ์ของการวิเคราะห์นี้ตรงกับสิ่งที่สร้างขึ้นโดยโปรแกรมสถิติเหล่านั้น หากต้องการได้รับคำตอบคำตอบจะต้องโทร aov () โดยตรง แต่คำตอบอื่น ๆ อาจได้รับการโหวต (espeically ถ้าพวกเขาเข้าใจง่าย / ใช้งาน) sample.data <- data.frame(IV=rep(1:4,each=20),DV=rep(c(-3,-3,1,3),each=20)+rnorm(80)) แก้ไข:โปรดทราบความแตกต่างที่ฉันขอไม่ใช่ความคมชัดเชิงเส้นหรือพหุนามที่เรียบง่าย แต่เป็นความแตกต่างที่ได้จากการทำนายเชิงทฤษฎีคือประเภทของความแตกต่างที่กล่าวถึงโดย Rosenthal และ Rosnow

4
เหตุใด RANSAC จึงไม่ใช้กันอย่างแพร่หลายในสถิติ
มาจากมุมมองของคอมพิวเตอร์ฉันมักจะใช้วิธีRANSAC (Random Sample Consensus) สำหรับการปรับโมเดลให้เหมาะสมกับข้อมูลที่มีค่าผิดปกติจำนวนมาก อย่างไรก็ตามฉันไม่เคยเห็นมันใช้โดยนักสถิติและฉันมักจะอยู่ภายใต้ความประทับใจว่ามันไม่ได้ถือว่าเป็นวิธี "สถิติเสียง" เหตุผลที่เป็นเช่นนั้น? มันเป็นการสุ่มในธรรมชาติซึ่งทำให้ยากต่อการวิเคราะห์ แต่เป็นวิธีการบูตสแตรป หรือเป็นเพียงกรณีของนักวิชาการที่ไม่ได้พูดคุยกัน

6
เป็นไปได้ยังไงที่ฉันจะถูกสืบเชื้อสายมาจากบุคคลที่เกิดในปี 1300?
กล่าวอีกนัยหนึ่งตาม p ต่อไปนี้คืออะไร? เพื่อที่จะทำให้นี่เป็นปัญหาทางคณิตศาสตร์มากกว่ามานุษยวิทยาหรือสังคมศาสตร์และเพื่อทำให้ปัญหาง่ายขึ้นสมมติว่าเพื่อนถูกเลือกด้วยความน่าจะเป็นที่เท่าเทียมกันทั่วทั้งประชากรยกเว้นว่าพี่น้องและลูกพี่ลูกน้องแรกไม่เคยผสมพันธุ์กัน รุ่น n1n1n_1 - ประชากรเริ่มต้น ggg - จำนวนรุ่น ccc - จำนวนเด็กโดยเฉลี่ยต่อคู่ (หากจำเป็นสำหรับคำตอบสมมติว่าทุกคู่มีจำนวนลูกเท่ากันทุกประการ) zzz - เปอร์เซ็นต์ของผู้ที่ไม่มีลูกและไม่ถือว่าเป็นส่วนหนึ่งของคู่รัก n2n2n_2 - ประชากรในรุ่นสุดท้าย (ควรได้รับn2n2n_2หรือzzzและ (ฉันคิดว่า) อีกอันสามารถคำนวณได้) ppp - ความน่าจะเป็นของใครบางคนในรุ่นสุดท้ายเป็นผู้สืบทอดของบุคคลใดบุคคลหนึ่งในรุ่นแรก แน่นอนว่าตัวแปรเหล่านี้สามารถเปลี่ยนแปลงละเว้นหรือเพิ่มเข้ามาได้ ฉันกำลังสมมติว่าความเรียบง่ายที่cccและzzzไม่เปลี่ยนแปลงตลอดเวลา ฉันรู้นี้จะได้รับมากประมาณการคร่าวๆ แต่ก็เป็นจุดเริ่มต้น ส่วนที่ 2 (ข้อเสนอแนะสำหรับการวิจัยเพิ่มเติม): คุณจะพิจารณาได้อย่างไรว่าเพื่อน ๆ จะไม่ถูกเลือกด้วยความน่าจะเป็นที่เหมือนกันทั่วโลก? ในความเป็นจริงเพื่อนมีแนวโน้มที่จะมีพื้นที่ทางภูมิศาสตร์เดียวกันภูมิหลังทางเศรษฐกิจและสังคมการแข่งขันและภูมิหลังทางศาสนา หากไม่มีการศึกษาความน่าจะเป็นที่แท้จริงของสิ่งนี้แล้วตัวแปรสำหรับปัจจัยเหล่านี้จะเข้ามาเล่นได้อย่างไร สิ่งนี้สำคัญขนาดไหน?

1
หนึ่งสามารถสังเกตุเห็นได้ชัดใน R ซึ่งวิธีการตรวจสอบข้ามที่ AIC และ BIC จะเทียบเท่าได้อย่างไร?
ในคำถามอื่น ๆ ในไซต์นี้คำตอบหลายข้อกล่าวว่า AIC นั้นเทียบเท่ากับการตรวจสอบความถูกต้องแบบ cross-one-out (LOO) และ BIC นั้นเทียบเท่ากับการตรวจสอบความถูกต้องข้ามแบบ K-fold มีวิธีที่จะแสดงให้เห็นถึงสังเกตุนี้ใน R หรือไม่ว่าเทคนิคที่เกี่ยวข้องใน LOO และ K-fold นั้นชัดเจนและแสดงให้เห็นว่าเทียบเท่ากับค่า AIC และ BIC หรือไม่? รหัสความคิดเห็นดีจะเป็นประโยชน์ในเรื่องนี้ นอกจากนี้ในการสาธิต BIC โปรดใช้แพ็คเกจ lme4 ดูตัวอย่างชุดข้อมูลด้านล่าง ... library(lme4) #for the BIC function generate.data <- function(seed) { set.seed(seed) #Set a seed so the results are consistent (I hope) a …
26 r  aic  cross-validation  bic 

11
คำแนะนำหนังสือสำหรับการวิเคราะห์หลายตัวแปร
ฉันสนใจรับหนังสือเกี่ยวกับการวิเคราะห์หลายตัวแปรและต้องการคำแนะนำของคุณ ยินดีต้อนรับหนังสือฟรีเสมอ แต่ถ้าคุณรู้เกี่ยวกับหนังสือ MVA ที่ยอดเยี่ยมซึ่งไม่ใช่หนังสือโปรดระบุ

7
ฉันจะตัดสินใจได้อย่างไรว่าจะใช้ช่วงใดในการถดถอยแบบ LOESS ใน R
ฉันใช้โมเดลการถดถอยแบบ LOESS ใน R และฉันต้องการเปรียบเทียบผลลัพธ์ของรุ่นที่แตกต่างกัน 12 แบบด้วยขนาดตัวอย่างที่แตกต่างกัน ฉันสามารถอธิบายรายละเอียดเพิ่มเติมของโมเดลจริง ๆ ได้ถ้ามันช่วยตอบคำถามได้ นี่คือขนาดตัวอย่าง: Fastballs vs RHH 2008-09: 2002 Fastballs vs LHH 2008-09: 2209 Fastballs vs RHH 2010: 527 Fastballs vs LHH 2010: 449 Changeups vs RHH 2008-09: 365 Changeups vs LHH 2008-09: 824 Changeups vs RHH 2010: 201 Changeups vs LHH 2010: …
26 r  regression  loess 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.