สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

1
วิธีการตีความความสัมพันธ์อัตโนมัติ
ฉันคำนวณความสัมพันธ์อัตโนมัติในข้อมูลอนุกรมเวลาเกี่ยวกับรูปแบบการเคลื่อนที่ของปลาตามตำแหน่ง: X ( x.ts) และY ( y.ts) เมื่อใช้ R ฉันจะใช้งานฟังก์ชั่นต่อไปนี้และสร้างแปลงต่อไปนี้: acf(x.ts,100) acf(y.ts,100) คำถามของฉันคือฉันจะตีความแปลงเหล่านี้ได้อย่างไร ข้อมูลใดที่จำเป็นสำหรับการรายงานรูปแบบใด ๆ ฉันท่องอินเทอร์เน็ตและยังไม่พบวิธีรัดกุมที่อธิบายได้อย่างมีประสิทธิภาพ นอกจากนี้คุณจะตัดสินใจจำนวนความล่าช้าที่ถูกต้องในการใช้งานได้อย่างไร ฉันใช้ 100 แต่ฉันไม่แน่ใจว่ามันมากเกินไป

4
ควรใช้ค่าเฉลี่ยเมื่อข้อมูลเบี่ยงเบนหรือไม่
บ่อยครั้งที่ตำราสถิติประยุกต์ที่นำมาใช้แยกแยะความแตกต่างของค่าเฉลี่ยจากค่ามัธยฐาน (มักจะอยู่ในบริบทของสถิติเชิงพรรณนาและกระตุ้นการสรุปแนวโน้มกลางโดยใช้ค่าเฉลี่ยมัธยฐานและโหมด) โดยอธิบายว่าค่าเฉลี่ยนั้นอ่อนไหวต่อค่าผิดปกติในข้อมูลตัวอย่างและ / หรือ เพื่อการแจกแจงแบบเบ้ของประชากรและนี่ใช้เป็นข้ออ้างสำหรับการยืนยันว่าค่ามัธยฐานจะเป็นที่ต้องการเมื่อข้อมูลไม่สมมาตร ตัวอย่างเช่น: การวัดแนวโน้มศูนย์กลางที่ดีที่สุดสำหรับชุดข้อมูลที่กำหนดมักขึ้นอยู่กับวิธีการกระจายค่า ... เมื่อข้อมูลไม่สมมาตรค่ามัธยฐานมักเป็นตัวชี้วัดที่ดีที่สุดของแนวโน้มกลาง เพราะหมายถึงการมีความไวต่อการสังเกตมากก็จะถูกดึงไปในทิศทางของค่าข้อมูลที่ห่างไกลและเป็นผลจะจบลงที่สูงเกินจริงมากเกินไปหรือมากเกินไปกิ่ว." -Pagano และ Gauvreau, (2000) หลักการชีวสถิติ 2 เอ็ด (พีแอนด์จีอยู่ในมือ BTW ไม่แยกพวกเขาออกต่อกัน) ผู้เขียนกำหนด "แนวโน้มกลาง" ดังนี้: "ลักษณะการตรวจสอบที่พบบ่อยที่สุดของชุดข้อมูลคือศูนย์กลางของมันหรือจุดที่การสังเกตมักจะรวมกลุ่มกัน" สิ่งนี้ทำให้ฉันเป็นวิธีที่ตรงไปตรงมาน้อยกว่าการพูดเพียงใช้ค่ามัธยฐานระยะเวลาเพราะใช้ค่าเฉลี่ยเมื่อข้อมูล / การแจกแจงสมมาตรเป็นสิ่งเดียวกับที่บอกว่าใช้ค่าเฉลี่ยเมื่อเท่ากับค่ามัธยฐาน แก้ไข: whuber ชี้ให้เห็นอย่างถูกต้องว่าฉันกำลังพูดถึงมาตรการที่แข็งแกร่งของแนวโน้มกลางกับค่ามัธยฐาน ดังนั้นจึงเป็นสิ่งสำคัญที่จะต้องจำไว้ว่าฉันกำลังพูดถึงกรอบเฉพาะของค่าเฉลี่ยเลขคณิตเทียบกับค่ามัธยฐานในสถิติประยุกต์เบื้องต้น (ที่, โหมดกัน, มาตรการอื่น ๆ ของแนวโน้มกลางไม่ได้รับแรงจูงใจ) แทนที่จะตัดสินว่าค่าเฉลี่ยของยูทิลิตี้ลดลงเท่าใดจากพฤติกรรมของค่ามัธยฐานเราไม่ควรเข้าใจสิ่งเหล่านี้ว่าเป็นมาตรการสองอย่างที่แตกต่างกันของการเป็นศูนย์กลาง? ในคำอื่น ๆ ที่มีความไวต่อความเบ้เป็นคุณสมบัติของค่าเฉลี่ย เราสามารถโต้แย้งได้อย่างถูกต้องว่า "ค่ามัธยฐานนั้นไม่ดีเพราะส่วนใหญ่ไม่ไวต่อความเบ้ดังนั้นควรใช้เมื่อมันเท่ากับค่าเฉลี่ยเท่านั้น" (โหมดค่อนข้างสมเหตุสมผลไม่ได้เกี่ยวข้องกับคำถามนี้)

3
เมื่อทำ t-test สำหรับความสำคัญของค่าสัมประสิทธิ์การถดถอยทำไมเป็นจำนวนองศาของเสรีภาพ
ฉันอ่านที่นี่ว่าคือจำนวนองศาอิสระที่ฉันควรใช้เมื่อทำการทดสอบ t สำหรับความสำคัญของสัมประสิทธิ์การถดถอย แต่ฉันไม่เข้าใจว่าทำไม ความเข้าใจของฉันคือการทดสอบแบบ t โดยทั่วไปแล้วจะมีอิสระในระดับn - 1องศาn−p−1n−p−1n-p-1n−1n−1n-1

3
คำดักจับในการถดถอยโลจิสติก
สมมติว่าเรามีโมเดลการถดถอยโลจิสติกต่อไปนี้: logit(p)=β0+β1x1+β2x2logit(p)=β0+β1x1+β2x2\text{logit}(p) = \beta_0+\beta_{1}x_{1} + \beta_{2}x_{2} คืออัตราต่อรองของเหตุการณ์ที่เกิดขึ้นเมื่อx 1 = 0และx 2 = 0 ? มันคืออัตราต่อรองของเหตุการณ์เมื่อx 1และx 2อยู่ที่ระดับต่ำสุด (แม้ว่าจะไม่ใช่ 0) ตัวอย่างเช่นถ้าx 1และx 2ใช้ค่า2และ3 เท่านั้นเราจะไม่สามารถตั้งค่าเป็น 0β0β0\beta_0x1=0x1=0x_1 = 0x2=0x2=0x_2=0x1x1x_1x2x2x_2x1x1x_1x2x2x_2222333

2
“ เมื่อใดที่จะใช้ boxplot และเมื่อ barplot” กฎ (จากหัวแม่มือ?)
ทั้งพล็อตแบบ box-and-มัสสุและกราฟแท่งเป็นกราฟฟิคที่เหมาะสมสำหรับ ANOVA ตาม The R Book (Crawley, 2013) แต่สิ่งใดที่เหมาะสมกว่า ? ฉันคิดว่ามันขึ้นอยู่กับสถานการณ์ ... ใครช่วยฉันได้บ้าง

5
การหาจุดผันใน R จากข้อมูลที่ราบเรียบ
loessผมมีข้อมูลบางอย่างที่ผมเรียบใช้ ฉันต้องการหาจุดเบี่ยงเบนของเส้นที่เรียบ เป็นไปได้ไหม ฉันแน่ใจว่ามีคนทำวิธีแฟนซีเพื่อแก้ปัญหานี้ ... ฉันหมายถึง ... หลังจากทั้งหมดมันคือ R! ฉันพอใจกับการเปลี่ยนฟังก์ชั่นปรับให้เรียบที่ฉันใช้ ฉันเพิ่งใช้loessเพราะนั่นคือสิ่งที่ฉันเคยใช้ในอดีต แต่ฟังก์ชั่นการปรับให้เรียบนั้นใช้ได้ ฉันรู้ว่าจุดเปลี่ยนผันจะขึ้นอยู่กับฟังก์ชันการปรับให้เรียบที่ฉันใช้ ฉันไม่เป็นไร ฉันต้องการเริ่มต้นด้วยการมีฟังก์ชั่นการปรับให้เรียบซึ่งสามารถช่วยแยกจุดที่ทำให้เกิดการเว้าออกได้ นี่คือรหัสที่ฉันใช้: x = seq(1,15) y = c(4,5,6,5,5,6,7,8,7,7,6,6,7,8,9) plot(x,y,type="l",ylim=c(3,10)) lo <- loess(y~x) xl <- seq(min(x),max(x), (max(x) - min(x))/1000) out = predict(lo,xl) lines(xl, out, col='red', lwd=2)
14 r  smoothing  loess 

3
ฉันจะตีความสิ่งที่ได้รับจาก PCA ได้อย่างไร
ในฐานะเป็นส่วนหนึ่งของการมอบหมายของมหาวิทยาลัยฉันต้องดำเนินการประมวลผลข้อมูลล่วงหน้าในชุดข้อมูลดิบที่มีขนาดใหญ่หลายตัวแปร (> 10) ฉันไม่ได้เป็นนักสถิติในแง่ของคำใด ๆ ดังนั้นฉันสับสนเล็กน้อยว่าเกิดอะไรขึ้น ขอโทษล่วงหน้าสำหรับสิ่งที่อาจเป็นคำถามง่ายๆที่น่าหัวเราะ - หัวของฉันหมุนหลังจากดูคำตอบต่าง ๆ และพยายามลุยผ่านสถิติพูด ฉันอ่านแล้ว: PCA ช่วยให้ฉันลดมิติข้อมูลของฉัน มันทำได้โดยการรวม / ลบคุณลักษณะ / มิติที่สัมพันธ์กันมาก (และทำให้ไม่จำเป็นเล็กน้อย) มันทำได้โดยการหา eigenvectors เกี่ยวกับข้อมูลความแปรปรวนร่วม (ขอบคุณกวดวิชาที่ดีที่ฉันติดตามผ่านเพื่อเรียนรู้สิ่งนี้) อันไหนดี อย่างไรก็ตามฉันพยายามอย่างหนักเพื่อดูว่าฉันสามารถนำสิ่งนี้ไปใช้กับข้อมูลของฉันได้อย่างไร ตัวอย่าง (นี่ไม่ใช่ชุดข้อมูลที่ฉันจะใช้ แต่เป็นตัวอย่างที่คนสามารถใช้งานได้) ถ้าฉันต้องมีชุดข้อมูลที่มีบางอย่างเช่น ... PersonID Sex Age Range Hours Studied Hours Spent on TV Test Score Coursework Score 1 1 2 5 7 …
14 pca 

4
การวิเคราะห์ ROC และ multiROC: วิธีการคำนวณจุดตัดที่เหมาะสมที่สุด?
ฉันพยายามที่จะเข้าใจวิธีคำนวณจุดตัดที่เหมาะสมที่สุดสำหรับเส้นโค้ง ROC (ค่าที่ความไวและความเฉพาะเจาะจงสูงสุด) ฉันใช้ชุดข้อมูลจากแพคเกจaSAHpROC outcomeตัวแปรสามารถอธิบายได้โดยสองตัวแปรอิสระและs100b ndkaใช้ไวยากรณ์ของEpiแพคเกจฉันได้สร้างสองรุ่น: library(pROC) library(Epi) ROC(form=outcome~s100b, data=aSAH) ROC(form=outcome~ndka, data=aSAH) ผลลัพธ์จะแสดงในกราฟสองกราฟต่อไปนี้: ในรูปแบบของกราฟแรก ( s100b) lr.eta=0.304ฟังก์ชั่นบอกว่าตัดจุดที่ดีที่สุดเป็นภาษาท้องถิ่นที่คุ้มค่าที่สอดคล้องกับ ในกราฟที่สอง ( ndka) จุดตัดที่เหมาะสมที่สุดจะถูกแปลเป็นภาษาท้องถิ่นตามค่าที่สอดคล้องกับlr.eta=0.335(ความหมายของlr.eta) คืออะไร คำถามแรกของฉันคือ: อะไรคือความสอดคล้องs100bและndkaค่าสำหรับlr.etaค่าที่ระบุ (จุดตัดที่เหมาะสมที่สุดในแง่ของs100bและndka) คืออะไร? คำถามที่สอง: ตอนนี้สมมติว่าฉันสร้างแบบจำลองโดยคำนึงถึงตัวแปรทั้งสอง: ROC(form=outcome~ndka+s100b, data=aSAH) กราฟที่ได้รับคือ: ฉันต้องการที่จะรู้ว่าสิ่งที่เป็นค่าของndkaและs100bที่ความรู้สึกและความเฉพาะเจาะจงจะถูกขยายโดยฟังก์ชั่น ในแง่อื่น ๆ : ค่าของndkaและs100bที่เรามี Se = 68.3% และ Sp = 76.4% (ค่าที่ได้จากกราฟ) คืออะไร? ฉันคิดว่าคำถามที่สองนี้เกี่ยวข้องกับการวิเคราะห์แบบ MultiROC แต่เอกสารของEpiแพคเกจไม่ได้อธิบายวิธีการคำนวณจุดตัดที่เหมาะสมที่สุดสำหรับตัวแปรทั้งสองที่ใช้ในแบบจำลอง คำถามของฉันดูเหมือนกับคำถามนี้จากreasearchGateมากซึ่งกล่าวโดยย่อ: การกำหนดคะแนนตัดที่แสดงถึงการแลกเปลี่ยนที่ดีขึ้นระหว่างความไวและความเฉพาะเจาะจงของการวัดนั้นตรงไปตรงมา …

3
ฉันต้องลดตัวแปรที่มีความสัมพันธ์ / collinear ก่อนเรียกใช้ kmeans หรือไม่
ฉันกำลังเรียกใช้ kmeans เพื่อระบุกลุ่มลูกค้า ฉันมีตัวแปรประมาณ 100 ตัวเพื่อระบุกลุ่ม ตัวแปรแต่ละตัวเหล่านี้แสดงถึง% ของการใช้จ่ายของลูกค้าในหมวดหมู่ ดังนั้นถ้าฉันมี 100 หมวดหมู่ฉันมีตัวแปร 100 ตัวดังกล่าวผลรวมของตัวแปรเหล่านี้คือ 100% สำหรับลูกค้าแต่ละราย ตอนนี้ตัวแปรเหล่านี้มีความสัมพันธ์กันอย่างมาก ฉันต้องลบสิ่งเหล่านี้บางส่วนเพื่อลบ collinearity ก่อนที่จะเรียกใช้ kmeans หรือไม่ นี่คือข้อมูลตัวอย่าง ในความเป็นจริงฉันมี 100 ตัวแปรและ 10 ล้านลูกค้า Customer CatA CatB CatC 1 10% 70% 20% 2 15% 60% 25%

2
การจำลองการถดถอยเชิงเส้นหลายแบบ
ฉันใหม่สำหรับภาษา R ฉันต้องการทราบวิธีจำลองจากตัวแบบการถดถอยเชิงเส้นหลายแบบที่ตอบสนองสมมติฐานทั้งสี่ของการถดถอย โอเคขอบคุณ. สมมติว่าฉันต้องการจำลองข้อมูลตามชุดข้อมูลนี้: y<-c(18.73,14.52,17.43,14.54,13.44,24.39,13.34,22.71,12.68,19.32,30.16,27.09,25.40,26.05,33.49,35.62,26.07,36.78,34.95,43.67) x1<-c(610,950,720,840,980,530,680,540,890,730,670,770,880,1000,760,590,910,650,810,500) x2<-c(1,1,3,2,1,1,3,3,2,2,1,3,3,2,2,2,3,3,1,2) fit<-lm(y~x1+x2) summary(fit) แล้วฉันจะได้รับผลลัพธ์: Call: lm(formula = y ~ x1 + x2) Residuals: Min 1Q Median 3Q Max -13.2805 -7.5169 -0.9231 7.2556 12.8209 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 42.85352 11.33229 3.782 0.00149 ** x1 -0.02534 0.01293 -1.960 0.06662 . x2 …

2
ใช้ R สำหรับ GLM ด้วยการกระจายแกมม่า
ขณะนี้ฉันมีปัญหาในการทำความเข้าใจไวยากรณ์สำหรับ R เพื่อปรับ GLM ให้เหมาะสมโดยใช้การแจกแจงแกมมา ฉันมีชุดข้อมูลซึ่งแต่ละแถวมี 3 co-variates ( ), ตัวแปรตอบกลับ ( Y ) และพารามิเตอร์รูปร่าง ( K ) ฉันต้องการจำลองสเกลของการแจกแจงแกมม่าเป็นฟังก์ชันเชิงเส้นของสามตัวแปร แต่ฉันไม่เข้าใจวิธีตั้งค่ารูปร่างของการแจกแจงเป็นKสำหรับแต่ละแถวของข้อมูลX1,X2,X3X1,X2,X3X_1, X_2, X_3YYYKKKKKK สถานการณ์ที่ฉันคิดว่าคล้ายคลึงกันคือสำหรับการแจกแจงแบบทวินาม GLM ต้องการให้ทราบจำนวนการทดลอง ( ) สำหรับการป้อนข้อมูลแต่ละครั้งNNN

3
ดำเนินการถดถอยเชิงเส้น แต่บังคับให้โซลูชันหาจุดข้อมูลบางจุด
ฉันรู้วิธีดำเนินการถดถอยเชิงเส้นในชุดของคะแนน นั่นคือฉันรู้วิธีปรับให้พอดีกับพหุนามที่ฉันเลือกกับชุดข้อมูลที่กำหนด (ในความหมาย LSE) อย่างไรก็ตามสิ่งที่ฉันไม่ทราบคือวิธีการบังคับให้วิธีการแก้ปัญหาของฉันผ่านบางจุดที่ฉันเลือก ฉันเคยเห็นสิ่งนี้ทำมาก่อน แต่ฉันจำไม่ได้ว่ากระบวนการนั้นเรียกว่าอะไร เป็นตัวอย่างที่เรียบง่ายและเป็นรูปธรรมขอให้เราบอกว่าฉันมี 100 จุดกระจายอยู่บนระนาบ xy และฉันเลือกที่จะใส่พหุนามตามลำดับ ฉันรู้วิธีการดำเนินการถดถอยเชิงเส้นนี้เป็นอย่างดี อย่างไรก็ตามขอให้เราบอกว่าฉันต้องการ 'บังคับ' วิธีแก้ปัญหาของฉันเพื่อบอกว่าจุดข้อมูลสามจุดที่พิกัด , x = 19 , และx = 89 , (และพิกัด y ที่สอดคล้องกัน แน่นอน).x = 3x=3x=3x = 19x=19x=19x = 89x=89x=89 ขั้นตอนทั่วไปนี้เรียกว่าทำอย่างไรและมีข้อผิดพลาดเฉพาะที่ฉันต้องระวังหรือไม่ แก้ไข: ฉันต้องการเพิ่มว่าฉันกำลังมองหาวิธีที่เป็นรูปธรรมในการทำเช่นนี้ ฉันได้เขียนโปรแกรมที่จริงแล้วการถดถอยเชิงเส้นในวิธีใดวิธีหนึ่งโดยการคว่ำเมทริกซ์ความแปรปรวนร่วมโดยตรงหรือผ่านการไล่ระดับสี สิ่งที่ฉันถามคือฉันจะปรับเปลี่ยนสิ่งที่ฉันทำทีละขั้นตอนเช่นนั้นฉันบังคับให้คำตอบพหุนามต้องผ่านจุดที่เฉพาะเจาะจงหรือไม่ ขอบคุณ!

2
การรวมกันเชิงเส้นของตัวแปรสุ่มปกติหลายตัวแปรแบบพึ่งพาหลายตัวแปร
สมมติว่าเรามีสองเวกเตอร์ของตัวแปรสุ่มทั้งเป็นปกติเช่นและSigma_Y) เราสนใจการกระจายตัวของการรวมกันเชิงเส้นของพวกเขาโดยที่และคือเมทริกซ์คือเวกเตอร์ ถ้าและมีความเป็นอิสระ,T) คำถามคือในกรณีที่ขึ้นอยู่กับสมมติว่าเรารู้ว่าความสัมพันธ์ของทั้งคู่ใด ๆY_i) ขอบคุณ.X∼N(μX,ΣX)X∼N(μX,ΣX)X \sim N(\mu_X, \Sigma_X)Y∼N(μY,ΣY)Y∼N(μY,ΣY)Y \sim N(\mu_Y, \Sigma_Y)Z=AX+BY+CZ=AX+BY+CZ = A X + B Y + CAAABBBCCCXXXYYYZ∼N(AμX+BμY+C,AΣXAT+BΣYBT)Z∼N(AμX+BμY+C,AΣXAT+BΣYBT)Z \sim N(A \mu_X + B \mu_Y + C, A \Sigma_X A^T + B \Sigma_Y B^T)(Xi,Yi)(Xi,Yi)(X_i, Y_i) ด้วยความปรารถนาดี Ivan

2
การตีความอัตราส่วนอัตราอุบัติการณ์
ดังนั้นฉันต้องการใส่แบบจำลองเอฟเฟกต์ลบ - ทวินามแบบสุ่ม สำหรับรูปแบบดังกล่าว STATA สามารถสร้างค่าสัมประสิทธิ์แบบทวีคูณ ตามไฟล์ความช่วยเหลือสัมประสิทธิ์ดังกล่าวสามารถตีความได้ว่าเป็นอัตราส่วนอัตราอุบัติการณ์ น่าเสียดายที่ฉันไม่ใช่เจ้าของภาษาและฉันก็ไม่เข้าใจว่าอัตราอุบัติการณ์มีเท่าไรหรือแปลได้อย่างไร ดังนั้นคำถามของฉันคือฉันจะตีความอัตราส่วนอัตราอุบัติการณ์ได้อย่างไร เช่น: ถ้าแบบจำลองให้อัตราส่วนอัตราอุบัติการณ์ที่. 7 กับฉันหนึ่งค่า นั่นหมายความว่าจำนวนของการสังเกตที่คาดหวัง (จำนวน) ใน var ขึ้นอยู่กับ เปลี่ยนแปลงโดย. 7 หาก var อิสระเปลี่ยนไปหนึ่งหน่วย? ใครช่วยได้บ้าง

3
สิ่งที่ควรเป็นพารามิเตอร์ที่ดีที่สุดสำหรับลักษณนามป่าสุ่ม?
ขณะนี้ฉันกำลังใช้กล่องเครื่องมือ RF บน MATLAB สำหรับปัญหาการจำแนกเลขฐานสอง ชุดข้อมูล: ตัวอย่าง 50,000 ตัวอย่างและคุณสมบัติมากกว่า 250 รายการ ดังนั้นควรมีจำนวนต้นไม้และคุณลักษณะที่เลือกแบบสุ่มในแต่ละแยกเพื่อปลูกต้นไม้อย่างไร พารามิเตอร์อื่นใดสามารถส่งผลอย่างมากต่อผลลัพธ์หรือไม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.