สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

8
วิธีการจัดการการตอบแบบสำรวจที่ไร้เหตุผล
ฉันส่งแบบสำรวจไปยังกลุ่มตัวอย่างของศิลปิน หนึ่งในคำถามคือเพื่อระบุเปอร์เซ็นต์ของรายได้ที่ได้รับจาก: กิจกรรมศิลปะการสนับสนุนจากรัฐบาลบำนาญส่วนตัวกิจกรรมที่ไม่เกี่ยวข้องกับศิลปะ ประชาชนประมาณ 65% ตอบว่าผลรวมของเปอร์เซ็นต์คือ 100 คนอื่นไม่: ตัวอย่างเช่นมีใครตอบว่า 70% ของรายได้ของพวกเขามาจากกิจกรรมทางศิลปะของเขาและ 60% โดยรัฐบาลรายได้ และอื่น ๆ คำถามของฉันคือฉันควรปฏิบัติตามข้อสังเกตเหล่านี้อย่างไร ฉันควรลบแก้ไขหรือเก็บรักษาไว้หรือไม่ ขอขอบคุณ!
13 survey  bias 

2
เป็นสาเหตุการถดถอยถ้าไม่มีตัวแปรที่ละเว้นหรือไม่?
ถดถอยของบนไม่จำเป็นต้องเป็นสาเหตุถ้ามีจะถูกตัดตัวแปรที่มีอิทธิพลต่อทั้งและy ที่แต่ถ้าไม่ใช่สำหรับตัวแปรที่ละเว้นและข้อผิดพลาดการวัดสาเหตุการถดถอยคืออะไร นั่นคือถ้าทุกตัวแปรที่เป็นไปได้รวมอยู่ในการถดถอย?YyyxxxxxxYyy

4
MCMC เป็นวิธีการที่เหมาะสมหรือไม่เมื่อมีการประมาณค่าแบบโปสเตอร์สูงสุด
ฉันสังเกตเห็นว่าในแอปพลิเคชั่นที่ใช้งานได้จริงวิธีการที่ใช้ MCMC นั้นใช้ในการประมาณค่าพารามิเตอร์ถึงแม้ว่าส่วนหลังนั้นจะทำการวิเคราะห์ (ตัวอย่างเช่น สำหรับฉันมันสมเหตุสมผลกว่าที่จะใช้ตัวประมาณค่า MAP แทนที่จะเป็นตัวประมาณค่า MCMC ใครสามารถชี้ให้เห็นว่าทำไม MCMC ยังคงเป็นวิธีการที่เหมาะสมในการปรากฏตัวของผู้วิเคราะห์หลัง?

2
ทำไมการเลือกชุดย่อยที่ดีที่สุดจึงไม่ได้รับความนิยมเมื่อเทียบกับเชือก
ฉันกำลังอ่านเกี่ยวกับการเลือกชุดย่อยที่ดีที่สุดในองค์ประกอบของหนังสือการเรียนรู้ทางสถิติ ถ้าฉันมีตัวทำนาย 3 ตัวฉันจะสร้างชุดย่อย:2 3 = 8x1, x2, x3x1,x2,x3x_1,x_2,x_323= 823=82^3=8 ชุดย่อยที่ไม่มีตัวทำนาย เซตย่อยที่มีตัวทำนายx1x1x_1 เซตย่อยที่มีตัวทำนายx2x2x_2 เซตย่อยที่มีตัวทำนายx3x3x_3 เซตย่อยที่มีตัวทำนายx1, x2x1,x2x_1,x_2 เซตย่อยที่มีตัวทำนายx1, x3x1,x3x_1,x_3 เซตย่อยที่มีตัวทำนายx2, x3x2,x3x_2,x_3 เซตย่อยที่มีตัวทำนายx1, x2, x3x1,x2,x3x_1,x_2,x_3 จากนั้นฉันจะทดสอบแบบจำลองเหล่านี้ทั้งหมดในข้อมูลการทดสอบเพื่อเลือกแบบที่ดีที่สุด ตอนนี้คำถามของฉันคือเหตุใดการเลือกชุดย่อยที่ดีที่สุดจึงไม่ได้รับความนิยมเมื่อเทียบกับเช่นบ่วงบาศ ถ้าฉันเปรียบเทียบฟังก์ชั่น thresholding ของเซตย่อยและ lasso ที่ดีที่สุดฉันจะเห็นว่าเซตย่อยที่ดีที่สุดกำหนดค่าสัมประสิทธิ์บางค่าให้เป็นศูนย์เช่น lasso แต่ค่าสัมประสิทธิ์อื่น ๆ (ที่ไม่ใช่ศูนย์) จะยังคงมีค่า ols พวกเขาจะไม่ได้รับอคติ ในขณะที่ lasso สัมประสิทธิ์บางอย่างจะเป็นศูนย์และอื่น ๆ (ไม่ใช่ศูนย์) จะมีอคติ รูปด้านล่างแสดงว่าดีกว่า: จากภาพส่วนหนึ่งของเส้นสีแดงในกล่องเซตย่อยที่ดีที่สุดวางลงบนสีเทา อีกส่วนหนึ่งวางอยู่ในแกน x ซึ่งสัมประสิทธิ์บางค่าเป็นศูนย์ เส้นสีเทากำหนดโซลูชันที่ไม่เอนเอียง ในเชือกอคติบางส่วนเป็นที่รู้จักโดย\จากรูปนี้ฉันเห็นว่าเซตย่อยที่ดีที่สุดดีกว่าบ่วงบาศ! …

3
ความน่าจะเป็นที่เก็บรักษาไว้ภายใต้การแปลงฟังก์ชันหรือไม่
ฉันคิดว่านี่เป็นพื้นฐาน แต่บอกว่าฉันมีตัวแปรสุ่มคือความน่าจะเป็นเหมือนกับสำหรับฟังก์ชั่นต่อเนื่องมูลค่าจริงใด ๆ ?XXXP(X≤a)P(X≤a)P(X \leq a)P(f(X)≤f(a))P(f(X)≤f(a))P(f(X) \leq f(a))fff

1
เมื่อเราเปรียบเทียบกลุ่มกับตัวแปรควบคุมเราควรใช้การทดสอบความเท่ากันหรือไม่
ในเอกสารจำนวนมากที่พิจารณาถึงการรักษาและผลลัพธ์ฉันเห็นตาราง (โดยปกติคือ "ตารางที่ 1") ของสิ่งที่อาจเรียกว่าตัวแปรที่สร้างความรำคาญ (มักเป็นประชากร, เงื่อนไขทางการแพทย์บางครั้ง) พร้อมการทดสอบความสำคัญและข้อความเช่น "กลุ่มต่างๆ ไม่มีความแตกต่างอย่างมีนัยสำคัญใน XXXXX ดูที่ตาราง " ดังนั้นเป้าหมายที่ชัดเจนคือการแสดงให้เห็นว่ากลุ่มที่ได้รับมอบหมายให้รักษาที่แตกต่างกันมีความคล้ายคลึงกัน อย่างไรก็ตามนี่ดูเหมือนว่าฉันจะชอบ "ยอมรับโมฆะ" และสิ่งที่เราควรจะทำ (หรือเรียกร้องให้ทำ) คือการทดสอบความเท่าเทียมกัน สิ่งนี้สามารถนำไปใช้กับการทดลองแบบสุ่มหรือการศึกษาเชิงสังเกตการณ์ ฉันทำอะไรบางอย่างหายไปหรือเปล่า

3
ทำไมการบูตสแตรปมีประโยชน์หรือไม่
หากสิ่งที่คุณทำคือการสุ่มตัวอย่างใหม่จากการกระจายเชิงประจักษ์ทำไมไม่เพียงแค่ศึกษาการกระจายเชิงประจักษ์? ตัวอย่างเช่นแทนที่จะศึกษาความแปรปรวนโดยการสุ่มตัวอย่างซ้ำ ๆ ทำไมไม่เพียงแค่หาค่าความแปรปรวนจากการแจกแจงเชิงประจักษ์

2
Bayesian Deep Learning คืออะไร
การเรียนรู้แบบเบย์ลึกคืออะไรและเกี่ยวข้องกับสถิติแบบเบย์แบบดั้งเดิมและการเรียนรู้แบบลึกแบบดั้งเดิมอย่างไร อะไรคือแนวคิดหลักและคณิตศาสตร์ที่เกี่ยวข้อง? ฉันจะบอกว่ามันไม่ใช่แค่สถิติแบบเบย์ น้ำเชื้อทำงานอย่างไรรวมถึงการพัฒนาและแอพพลิเคชั่นหลักในปัจจุบัน PS: การเรียนรู้ลึกแบบเบย์ได้รับความสนใจเป็นอย่างมากให้ดูที่ NIPS workshop

5
การกระจายที่มีช่วงจาก 0 ถึง 1 และสูงสุดระหว่างพวกเขา?
มีการกระจายหรือฉันสามารถทำงานจากการกระจายอื่นเพื่อสร้างการกระจายเช่นนั้นในภาพด้านล่าง (ขอโทษสำหรับภาพวาดที่ไม่ดี)? โดยที่ฉันให้หมายเลข (0.2, 0.5 และ 0.9 ในตัวอย่าง) สำหรับตำแหน่งที่จุดสูงสุดควรเป็นและส่วนเบี่ยงเบนมาตรฐาน (ซิกม่า) ที่ทำให้ฟังก์ชันกว้างขึ้นหรือกว้างน้อยลง PS: เมื่อจำนวนที่กำหนดคือ 0.5 การแจกแจงเป็นการกระจายตัวแบบปกติ

2
ฉันสามารถใช้ CLR (การแปลงอัตราส่วนบันทึกเป็นศูนย์กลาง) เพื่อเตรียมข้อมูลสำหรับ PCA ได้หรือไม่
ฉันกำลังใช้สคริปต์ มันเป็นบันทึกหลัก ฉันมี dataframe ซึ่งแสดงองค์ประกอบต่าง ๆ ในคอลัมน์ที่มีความลึกที่กำหนด (ในคอลัมน์แรก) ฉันต้องการทำ PCA ด้วยและสับสนเกี่ยวกับวิธีการมาตรฐานที่ฉันต้องเลือก มีคนของคุณใช้clr()ในการเตรียมข้อมูลของคุณสำหรับprcomp()? หรือว่ามันเป็นการปลอมปนวิธีแก้ปัญหาของฉัน ฉันได้พยายามใช้clr()กับข้อมูลก่อนที่จะใช้ฟังก์ชั่นนอกเหนือจากการใช้ขนาดแอตทริบิวต์ในprcomp()prcomp() data_f_clr<- clr(data_f) data_pca <- prcomp(data_f, center = TRUE, scale. = TRUE) https://stat.ethz.ch/R-manual/R-devel/library/stats/html/prcomp.html สเกลอธิบายเพื่อปรับสเกลข้อมูลดังนั้นจึงมีความแปรปรวนของหน่วย เนื่องจากข้อมูลของฉันมีขนาดแตกต่างกันมากนั่นคือสิ่งที่ฉันต้องการฉันจึงคิด ปัญหาคือว่าฉันได้รับการแก้ไขที่แตกต่างกันเมื่อฉันใช้รหัสด้านบนหรือเมื่อฉันข้ามclr()(ซึ่งทำให้ผลลัพธ์ที่ต้องการมากขึ้น) แต่ฉันต้องการที่จะรู้ว่าทำไมการclr()รบกวนในกรณีนี้คืออะไร?

1
Comparisson ของทั้งสองรุ่นเมื่อ ROC curves ข้ามซึ่งกันและกัน
มาตรการทั่วไปหนึ่งที่ใช้ในการเปรียบเทียบแบบจำลองการจำแนกสองแบบขึ้นไปคือการใช้พื้นที่ใต้กราฟ ROC (AUC) เป็นวิธีการประเมินประสิทธิภาพทางอ้อม ในกรณีนี้โมเดลที่มี AUC ขนาดใหญ่มักตีความว่าทำงานได้ดีกว่าโมเดลที่มี AUC ขนาดเล็กกว่า แต่ตาม Vihinen, 2012 ( https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3303716/ ) เมื่อเส้นโค้งทั้งคู่ข้ามกันการเปรียบเทียบดังกล่าวไม่สามารถใช้งานได้อีกต่อไป ทำไมถึงเป็นเช่นนั้น? ตัวอย่างเช่นมีสิ่งใดที่สามารถตรวจสอบเกี่ยวกับแบบจำลอง A, B และ C ตาม ROC curves และ AUCs bellow?

2
ปัญหาความสามารถในการประมาณค่าพารามิเตอร์
ให้และเป็นตัวแปรสุ่มสี่ตัวซึ่งโดยที่เป็นพารามิเตอร์ที่ไม่รู้จัก นอกจากนี้สมมติว่า ,แล้วอันไหนที่เป็นจริงY1, วาย2, วาย3Y1,Y2,Y3Y_1,Y_2,Y_3Y4Y4Y_4E( Y1) = θ1- θ3; E ( Y2) = θ1+ θ2- θ3; E ( Y3) = θ1- θ3; E ( Y4) = θ1- θ2- θ3E(Y1)=θ1−θ3; E(Y2)=θ1+θ2−θ3; E(Y3)=θ1−θ3; E(Y4)=θ1−θ2−θ3E(Y_1)=\theta_1-\theta_3;\space\space E(Y_2)=\theta_1+\theta_2-\theta_3;\space\space E(Y_3)=\theta_1-\theta_3;\space\space E(Y_4)=\theta_1-\theta_2-\theta_3θ1, θ2, θ3θ1,θ2,θ3\theta_1,\theta_2,\theta_3VR ( Yผม) = σ2Var(Yi)=σ2Var(Y_i)=\sigma^2i = 1 , 2 , 3 , 4i=1,2,3,4.i=1,2,3,4. A.สามารถประมาณได้θ1, …

2
เหตุใดนักวิจัยในสาขาเศรษฐศาสตร์จึงใช้การถดถอยเชิงเส้นสำหรับตัวแปรตอบสนองแบบไบนารี
เมื่อเร็ว ๆ นี้ฉันต้องอ่านบทความทางเศรษฐศาสตร์หลายฉบับ (สาขาที่ฉันไม่คุ้นเคย) สิ่งหนึ่งที่ฉันสังเกตเห็นคือแม้ว่าตัวแปรตอบสนองจะเป็นแบบไบนารี่ แต่โมเดลการถดถอยเชิงเส้นที่ใช้ OLS นั้นเป็นที่แพร่หลาย คำถามของฉันคือ: เหตุใดการถดถอยเชิงเส้นจึงได้รับการสนับสนุนเช่นการถดถอยโลจิสติกส์ในสาขาเศรษฐศาสตร์ นี่เป็นวิธีปฏิบัติทั่วไปหรือเป็นขั้นตอนที่ได้รับการสนับสนุนอย่างแข็งขัน (ในเอกสารโดยอาจารย์และอื่น ๆ )? โปรดทราบว่าฉันไม่ได้ถามว่าทำไมการใช้การถดถอยเชิงเส้นกับการตอบกลับแบบไบนารีอาจเป็นความคิดที่ไม่ดีหรือวิธีการทางเลือกอื่นคืออะไร ในทางตรงกันข้ามฉันถามว่าทำไมผู้คนใช้การถดถอยเชิงเส้นในการตั้งค่านี้เพราะฉันรู้คำตอบของคำถามทั้งสองนี้

1
ทำไม ln [E (x)]> E [ln (x)]
เรากำลังเผชิญกับการกระจายตัวแบบ lognormal ในหลักสูตรการเงินและหนังสือของฉันเพิ่งกล่าวว่านี่เป็นเรื่องจริงซึ่งฉันพบว่ามันน่าหงุดหงิดเนื่องจากภูมิหลังทางคณิตศาสตร์ของฉันไม่แรงมาก แต่ฉันต้องการสัญชาตญาณ ทุกคนสามารถแสดงเหตุผลได้หรือไม่

1
ความเท่าเทียมกันของ (0 + ปัจจัย | กลุ่ม) และ (1 | กลุ่ม) + (1 | กลุ่ม: ปัจจัย) ข้อมูลจำเพาะของผลกระทบแบบสุ่มในกรณีที่สัดส่วนสมมาตร
ดักลาสเบตส์กล่าวว่าแบบจำลองต่อไปนี้เทียบเท่ากัน "ถ้าเมทริกซ์ความแปรปรวนร่วมแปรปรวนสำหรับเอฟเฟกต์สุ่ม - ค่าเวกเตอร์มีรูปแบบพิเศษเรียกว่าสมมาตรผสม" ( สไลด์ 91 ในการนำเสนอนี้ ): m1 <- lmer(y ~ factor + (0 + factor|group), data) m2 <- lmer(y ~ factor + (1|group) + (1|group:factor), data) เบตส์เฉพาะใช้ตัวอย่างนี้: library(lme4) data("Machines", package = "MEMSS") m1a <- lmer(score ~ Machine + (0 + Machine|Worker), Machines) m2a <- lmer(score ~ Machine …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.