สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
ผลของการมีตัวทำนายที่สัมพันธ์กันในตัวแบบการถดถอยหลายแบบคืออะไร?
ฉันเรียนรู้ในชั้นเรียนโมเดลเชิงเส้นของฉันว่าหากตัวทำนายสองตัวมีความสัมพันธ์กันและทั้งสองอย่างรวมอยู่ในรูปแบบหนึ่งจะไม่มีนัยสำคัญ ตัวอย่างเช่นสมมติขนาดของบ้านและจำนวนห้องนอนมีความสัมพันธ์ เมื่อทำนายค่าใช้จ่ายของบ้านโดยใช้ตัวทำนายสองตัวนี้หนึ่งในนั้นสามารถทิ้งได้เพราะทั้งคู่ให้ข้อมูลเหมือนกันจำนวนมาก โดยสังหรณ์ใจสิ่งนี้สมเหตุสมผล แต่ฉันมีคำถามทางเทคนิคเพิ่มเติม: ผลกระทบนี้แสดงให้เห็นอย่างไรในค่า p ของสัมประสิทธิ์การถดถอยเมื่อรวมเพียงหนึ่งหรือรวมทั้งตัวทำนายทั้งสองในตัวแบบ? ความแปรปรวนของสัมประสิทธิ์การถดถอยได้รับผลกระทบอย่างไรจากการรวมทั้งตัวทำนายทั้งสองตัวในแบบจำลองหรือแค่มีตัวเดียว? ฉันจะรู้ได้อย่างไรว่าตัวทำนายแบบใดที่เลือกให้มีความสำคัญน้อยกว่า การรวมเพียงหนึ่งหรือรวมทั้งตัวทำนายทั้งสองเปลี่ยนค่า / ความแปรปรวนของต้นทุนที่คาดการณ์ของฉันได้อย่างไร

2
เคอร์เนลเชิงเส้นและเคอร์เนลที่ไม่ใช่เชิงเส้นสำหรับเครื่องเวกเตอร์สนับสนุน?
เมื่อใช้เครื่องสนับสนุนเวกเตอร์มีแนวทางในการเลือกเคอร์เนลเชิงเส้นกับเคอร์เนลแบบไม่เชิงเส้นเช่น RBF หรือไม่? ฉันเคยได้ยินว่าเคอร์เนลที่ไม่ใช่เชิงเส้นมีแนวโน้มที่จะไม่ทำงานได้ดีเมื่อจำนวนของคุณลักษณะมีขนาดใหญ่ มีการอ้างอิงใด ๆ เกี่ยวกับปัญหานี้หรือไม่?

10
วิธีการพล็อตแนวโน้มอย่างถูกต้อง
ฉันกำลังสร้างกราฟเพื่อแสดงแนวโน้มอัตราการตาย (ต่อ 1,000 ppl.) ในประเทศต่าง ๆ และเรื่องราวที่ควรได้จากพล็อตคือประเทศเยอรมนี (เส้นสีฟ้าอ่อน) เป็นสิ่งเดียวที่แนวโน้มเพิ่มขึ้นหลังปี 1932 นี่คือ ลอง (พื้นฐาน) ครั้งแรกของฉัน ในความคิดของฉันกราฟนี้แสดงสิ่งที่เราต้องการบอก แต่มันไม่ง่ายอย่างยิ่ง คุณมีข้อเสนอแนะใด ๆ ที่จะทำให้ชัดเจนว่ามีความแตกต่างระหว่างแนวโน้มหรือไม่ ฉันกำลังคิดที่จะวางแผนอัตราการเติบโต แต่ฉันพยายามแล้วก็ไม่ได้ดีกว่านี้ ข้อมูลมีดังต่อไปนี้ year de fr be nl den ch aut cz pl 1927 10.9 16.5 13 10.2 11.6 12.4 15 16 17.3 1928 11.2 16.4 12.8 9.6 11 12 14.5 …

2
วิธีการจำลองข้อมูลเทียมสำหรับการถดถอยโลจิสติก?
ฉันรู้ว่าฉันไม่มีอะไรในการทำความเข้าใจเกี่ยวกับการถดถอยโลจิสติกและขอขอบคุณสำหรับความช่วยเหลือ เท่าที่ฉันเข้าใจแล้วการถดถอยโลจิสติกถือว่าความน่าจะเป็นของผลลัพธ์ '1' ที่ได้รับจากอินพุตคือการรวมกันเชิงเส้นของอินพุตที่ส่งผ่านฟังก์ชันผกผัน - โลจิสติกส์ นี่คือสุดขั้วในรหัส R ต่อไปนี้: #create data: x1 = rnorm(1000) # some continuous variables x2 = rnorm(1000) z = 1 + 2*x1 + 3*x2 # linear combination with a bias pr = 1/(1+exp(-z)) # pass through an inv-logit function y = pr > 0.5 # take …

4
คุณจะคำนวณฟังก์ชันความหนาแน่นของความน่าจะเป็นของค่าสูงสุดของตัวอย่างของตัวแปรสุ่มชุด IID ได้อย่างไร
รับตัวแปรสุ่ม Y=max(X1,X2,…,Xn)Y=max(X1,X2,…,Xn)Y = \max(X_1, X_2, \ldots, X_n) โดยที่XiXiX_iเป็นตัวแปรชุด IID ฉันจะคำนวณ PDF ของYYYอย่างไร
45 pdf  maximum 

8
มีมาตรฐานทองคำสำหรับการสร้างแบบจำลองช่วงเวลาที่เว้นระยะผิดปกติหรือไม่?
ในสาขาเศรษฐศาสตร์ (ฉันคิดว่า) เรามี ARIMA และ GARCH สำหรับอนุกรมเวลาที่มีระยะห่างเป็นประจำและ Poisson, Hawkes สำหรับการสร้างแบบจำลองกระบวนการจุดดังนั้นวิธีการเกี่ยวกับความพยายามสำหรับการสร้างแบบจำลองอนุกรมเวลาเว้นระยะเวลา ? (หากคุณมีความรู้ในหัวข้อนี้คุณสามารถขยายบทความ wiki ที่เกี่ยวข้องได้ด้วย) Edition (เกี่ยวกับค่าที่หายไปและอนุกรมเวลาที่เว้นระยะไม่สม่ำเสมอ): ตอบกลับความคิดเห็น @Lucas Reis หากช่องว่างระหว่างการวัดหรือตัวแปรการรับรู้เป็นระยะห่างเนื่องจาก (ตัวอย่าง) กระบวนการปัวซงไม่มีที่ว่างสำหรับการทำให้เป็นมาตรฐานแบบนี้ แต่มีขั้นตอนง่าย ๆ : t(i)เป็นดัชนีเวลา i-th ของตัวแปร x (เวลา i-th ของ การทำให้เป็นจริง x), จากนั้นกำหนดช่องว่างระหว่างเวลาของการวัดเป็นg(i)=t(i)-t(i-1), จากนั้นเราทำการแยกg(i)โดยใช้ค่าคงที่c, dg(i)=floor(g(i)/cและสร้างอนุกรมเวลาใหม่ที่มีจำนวนค่าว่างระหว่างการสังเกตแบบเก่าจากอนุกรมเวลาดั้งเดิมiและi+1เท่ากับ dg (i) แต่ปัญหาคือ ขั้นตอนสามารถสร้างอนุกรมเวลาได้อย่างง่ายดายด้วยจำนวนข้อมูลที่หายไปที่ใหญ่กว่าจำนวนการสังเกตดังนั้นการประมาณค่าที่สมเหตุสมผลของค่าการสังเกตที่หายไปอาจเป็นไปไม่ได้และใหญ่เกินไปcลบ "โครงสร้างเวลา / การพึ่งพาเวลา ฯลฯ " ของปัญหาการวิเคราะห์ (กรณีที่รุนแรงจะได้รับโดยการc>=max(floor(g(i)/c))ที่เพียงแค่ยุบอนุกรมเวลาเว้นระยะผิดปกติเป็นระยะห่างปกติ Edition2 (เพื่อความสนุกสนาน): …

5
ใช้ R ออนไลน์ - โดยไม่ต้องติดตั้ง [ปิด]
มีความเป็นไปได้ที่จะใช้ R ใน webinterface โดยไม่จำเป็นต้องติดตั้งหรือไม่ ฉันมีสคริปต์ตัวเล็ก ๆ เพียงตัวเดียวซึ่งฉันชอบเรียกใช้ แต่ฉันต้องการให้ภาพโดยไม่ต้องใช้ขั้นตอนการติดตั้งนาน ขอขอบคุณ.
45 r 

3
Deviance คืออะไร (โดยเฉพาะใน CART / rpart)
"Deviance" คืออะไรคำนวณอย่างไรและการใช้งานในด้านต่าง ๆ ของสถิติคืออะไร โดยเฉพาะอย่างยิ่งฉันมีความสนใจเป็นการส่วนตัวในการใช้งาน CART (และการนำไปใช้ใน rpart ใน R) ฉันถามสิ่งนี้เนื่องจากบทความ wikiดูเหมือนว่าค่อนข้างขาดและข้อมูลเชิงลึกของคุณจะได้รับการต้อนรับมากที่สุด
45 r  cart  rpart  deviance 

15
จำนวนที่คาดหวังอัตราส่วนของการเกิดหญิงกับชาย
ฉันเจอคำถามหนึ่งในการสัมภาษณ์งานการทดสอบความถนัดเรื่องการคิดอย่างมีวิจารณญาณ มันเป็นอะไรแบบนี้ สาธารณรัฐ Zorganian มีประเพณีแปลก ๆ คู่รักมีความประสงค์ที่จะมีลูกผู้หญิงเท่านั้นเพราะผู้หญิงเท่านั้นที่สามารถสืบทอดทรัพย์สมบัติของครอบครัวได้ดังนั้นหากพวกเขามีลูกผู้ชายพวกเขาจะมีลูกเพิ่มขึ้นเรื่อย ๆ จนกว่าพวกเขาจะมีผู้หญิง หากพวกเขามีผู้หญิงพวกเขาหยุดมีลูก อัตราส่วนระหว่างเด็กหญิงกับชายใน Zorgania คือเท่าไหร่? ฉันไม่เห็นด้วยกับคำตอบแบบจำลองที่กำหนดโดยผู้เขียนคำถามซึ่งมีประมาณ 1: 1 เหตุผลก็คือการเกิดใด ๆ จะมีโอกาส 50% ในการเป็นชายหรือหญิง คุณช่วยโน้มน้าวฉันด้วยคำตอบที่แข็งแกร่งทางคณิตศาสตร์ของถ้าคือจำนวนของเด็กหญิงและ B คือจำนวนเด็กชายในประเทศ?GE [ G ] : E [ B ]E[G]:E[B]\text{E}[G]:\text{E}[B]GGG

6
คำอธิบายที่เข้าใจง่ายของการแลกเปลี่ยนความแปรปรวนอคติ
ฉันกำลังมองหาคำอธิบายที่เข้าใจง่ายของการแลกเปลี่ยนความเอนเอียงอคติทั้งโดยทั่วไปและโดยเฉพาะในบริบทของการถดถอยเชิงเส้น

3
มีความแตกต่างระหว่าง lm และ glm สำหรับตระกูล gaussian ของ glm หรือไม่?
โดยเฉพาะผมต้องการที่จะทราบว่ามีความแตกต่างระหว่างและlm(y ~ x1 + x2) glm(y ~ x1 + x2, family=gaussian)ฉันคิดว่ากรณีเฉพาะของ glm นี้เท่ากับ lm ฉันผิดหรือเปล่า?

5
ทางเลือกของ Gradient Descent คืออะไร?
Gradient Descent มีปัญหาในการติดอยู่ใน Local Minima เราจำเป็นต้องใช้เวลาเอ็กซ์โพเนนเชียลของการไล่ระดับสีเพื่อค้นหาค่าต่ำสุดของโลก ใครสามารถบอกฉันเกี่ยวกับทางเลือกอื่น ๆ ของการไล่ระดับสีแบบลาดเอียงที่ใช้ในการเรียนรู้เครือข่ายประสาทเทียมพร้อมกับข้อดีข้อเสีย

4
การทำให้เป็นมาตรฐานและการปรับขนาด
อะไรคือความแตกต่างระหว่างข้อมูล 'การทำให้เป็นมาตรฐาน' และ 'มาตราส่วน' ของข้อมูล? จนถึงตอนนี้ฉันคิดว่าทั้งสองคำอ้างถึงกระบวนการเดียวกัน แต่ตอนนี้ฉันรู้แล้วว่ามีบางอย่างที่ฉันไม่รู้ / เข้าใจ นอกจากนี้หากมีความแตกต่างระหว่างการปรับสภาพและการปรับขนาดเมื่อใดที่เราควรใช้การปรับสภาพ แต่ไม่ปรับขนาดและในทางกลับกัน โปรดอธิบายอย่างละเอียดด้วยตัวอย่าง

2
การถดถอยแบบหลายครั้งสามารถ“ ควบคุม” ตัวแปรได้อย่างไร
เราทุกคนคุ้นเคยกับการศึกษาเชิงสังเกตการณ์ที่พยายามสร้างการเชื่อมโยงเชิงสาเหตุระหว่างตัวทำนาย X แบบไม่มีการสุ่มกับผลลัพธ์โดยรวมถึงผู้ที่อาจเกิดขึ้นได้ทั้งหมดในรูปแบบการถดถอยหลายแบบ ด้วยเหตุนี้“ การควบคุมเพื่อ” ผู้รบกวนทุกคนการโต้แย้งจึงทำให้เราแยกผลของตัวทำนายผลประโยชน์ ฉันกำลังพัฒนาความรู้สึกไม่สบายที่เพิ่มขึ้นด้วยความคิดนี้โดยส่วนใหญ่อ้างอิงจากคำพูดที่ไม่ได้ทำโดยอาจารย์ของชั้นเรียนสถิติของฉัน พวกเขาตกอยู่ในประเภทหลักสองสาม: 1. คุณสามารถควบคุมค่าความแปรปรวนร่วมที่คุณคิดและวัดได้เท่านั้น นี่เป็นสิ่งที่ชัดเจน แต่ฉันสงสัยว่าจริงๆแล้วมันอันตรายที่สุดและไม่สามารถเอาชนะได้ทั้งหมด 2. วิธีการได้นำไปสู่ข้อผิดพลาดที่น่าเกลียดในอดีต ยกตัวอย่างเช่นPetitti & Freedman (2005)อภิปรายว่าการศึกษาเชิงสังเกตการณ์ที่ปรับค่าทางสถิติมานานหลายทศวรรษได้ผลสรุปที่ไม่ถูกต้องเกี่ยวกับผลของการบำบัดทดแทนฮอร์โมนต่อความเสี่ยงของโรคหัวใจ ภายหลัง RCTs พบผลกระทบที่ตรงกันข้ามเกือบ 3. ความสัมพันธ์ของตัวทำนายผลสามารถทำงานได้อย่างแปลกประหลาดเมื่อคุณควบคุมผู้ร่วมทุน Yu-Kang Tu, Gunnell, & Gilthorpe (2008) หารือเกี่ยวกับอาการที่แตกต่างกันบางอย่างรวมถึงความขัดแย้งของลอร์ด, ความขัดแย้งของซิมป์สันและตัวแปรต้าน 4. เป็นการยากสำหรับแบบจำลองเดียว (การถดถอยแบบหลายจุด) เพื่อปรับให้เพียงพอสำหรับ covariates และแบบจำลองความสัมพันธ์ของผลลัพธ์ของตัวทำนายพร้อมกัน ฉันเคยได้ยินเรื่องนี้เป็นเหตุผลสำหรับความเหนือกว่าของวิธีการเช่นคะแนนความชอบและการแบ่งชั้นของผู้สับสน แต่ฉันไม่แน่ใจว่าฉันเข้าใจจริงๆ 5. แบบจำลองของ ANCOVA กำหนดให้ค่าความแปรปรวนร่วมและตัวทำนายความสนใจเป็นอิสระ แน่นอนว่าเราปรับสำหรับคนสับสนเพราะแม่นยำเพราะสัมพันธ์กับตัวทำนายความสนใจดังนั้นดูเหมือนว่าแบบจำลองจะไม่ประสบความสำเร็จในกรณีที่แน่นอนเมื่อเราต้องการมันมากที่สุด อาร์กิวเมนต์ไปที่การปรับที่เหมาะสมสำหรับการลดเสียงรบกวนในการทดลองแบบสุ่มเท่านั้น Miller & Chapman, 2001ให้รีวิวที่ยอดเยี่ยม ดังนั้นคำถามของฉันคือ: …

1
วิธีการตีความ type I, type II และ type III ANOVA และ MANOVA
คำถามหลักของฉันคือวิธีการตีความเอาท์พุท (ค่าสัมประสิทธิ์ F, P) เมื่อดำเนินการวิเคราะห์ความแปรปรวนแบบที่ 1 (เรียงลำดับ)? ปัญหาการวิจัยเฉพาะของฉันซับซ้อนกว่าเล็กน้อยดังนั้นฉันจะแบ่งตัวอย่างเป็นส่วน ๆ ก่อนอื่นถ้าฉันสนใจผลของความหนาแน่นของแมงมุม (X1) ต่อการเจริญเติบโตของพืช (Y1) และฉันปลูกต้นกล้าในเปลือกและความหนาแน่นของแมงมุมที่จัดการแล้วฉันสามารถวิเคราะห์ข้อมูลด้วยการวิเคราะห์ความแปรปรวนแบบง่ายหรือเชิงเส้น ถ้าเช่นนั้นฉันจะใช้ Type I, II หรือ III Sum of Squares (SS) สำหรับ ANOVA ของฉัน ในกรณีของฉันฉันมี 4 ซ้ำของ 5 ระดับความหนาแน่นดังนั้นฉันสามารถใช้ความหนาแน่นเป็นปัจจัยหรือเป็นตัวแปรต่อเนื่อง ในกรณีนี้ฉันชอบที่จะตีความว่ามันเป็นตัวแปรอิสระ (ทำนาย) อย่างต่อเนื่อง ใน RI อาจเรียกใช้สิ่งต่อไปนี้: lm1 <- lm(y1 ~ density, data = Ena) summary(lm1) anova(lm1) การใช้งานฟังก์ชั่น anova …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.