สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
การเพิ่มจำนวนฟีเจอร์จะส่งผลให้ความแม่นยำลดลง แต่เพิ่มขึ้น / จำได้เร็วขึ้น
ฉันยังใหม่กับการเรียนรู้ของเครื่อง ในขณะนี้ฉันใช้ตัวจําแนก Naive Bayes (NB) เพื่อจัดประเภทข้อความขนาดเล็กใน 3 คลาสเป็นค่าบวกลบหรือเป็นกลางโดยใช้ NLTK และ python หลังจากทำการทดสอบด้วยชุดข้อมูลที่ประกอบด้วย 300,000 อินสแตนซ์ (ลบ 16,924 บวก 7,477 เชิงลบและ 275,599 นิวทรัล) ฉันพบว่าเมื่อฉันเพิ่มจำนวนฟีเจอร์ความแม่นยำจะลดลง แต่ความแม่นยำ / การเรียกคืนสำหรับคลาสบวกและลบ นี่เป็นพฤติกรรมปกติของลักษณนาม NB หรือไม่? เราสามารถพูดได้หรือไม่ว่าจะเป็นการดีกว่าถ้าใช้คุณสมบัติเพิ่มเติม ข้อมูลบางส่วน: Features: 50 Accuracy: 0.88199 F_Measure Class Neutral 0.938299 F_Measure Class Positive 0.195742 F_Measure Class Negative 0.065596 Features: 500 Accuracy: 0.822573 …

9
ค่าเบี่ยงเบนมาตรฐานของข้อมูลที่ไม่เป็นลบสามารถเกินค่าเฉลี่ยได้หรือไม่
ฉันมีตาข่ายสามมิติแบบสามเหลี่ยม สถิติสำหรับพื้นที่สามเหลี่ยมคือ: ต่ำสุด 0.000 สูงสุด 2341.141 ค่าเฉลี่ย 56.317 Std dev 98.720 ดังนั้นมันหมายถึงสิ่งใดที่มีประโยชน์เป็นพิเศษเกี่ยวกับค่าเบี่ยงเบนมาตรฐานหรือแนะนำว่ามีข้อบกพร่องในการคำนวณเมื่อตัวเลขออกมาเหมือนด้านบน? พื้นที่อยู่ไกลจากการกระจายตามปกติอย่างแน่นอน และเมื่อมีคนพูดถึงคำตอบข้อใดข้อหนึ่งของพวกเขาด้านล่างสิ่งที่ทำให้ฉันประหลาดใจจริง ๆ ก็คือการใช้ SD หนึ่งฉบับจากค่าเฉลี่ยเพื่อให้ตัวเลขติดลบและออกจากโดเมนตามกฎหมาย ขอบคุณ

6
วิธีการตรวจสอบการเปลี่ยนแปลงที่สำคัญในข้อมูลอนุกรมเวลาเนื่องจากการเปลี่ยนแปลง "นโยบาย"?
ฉันหวังว่านี่เป็นสถานที่ที่เหมาะสมในการโพสต์นี้ฉันคิดว่าการโพสต์ไว้ในคลางแคลง แต่ฉันคิดว่าพวกเขาแค่บอกว่าการศึกษานั้นผิดทางสถิติ ฉันอยากรู้เกี่ยวกับด้านพลิกของคำถามซึ่งเป็นวิธีการที่ถูกต้อง บนเว็บไซต์Quantified Selfผู้เขียนโพสต์ผลการทดลองของตัวชี้วัดผลลัพธ์ที่วัดได้ด้วยตนเองเมื่อเวลาผ่านไปและเปรียบเทียบก่อนและหลังหยุดดื่มกาแฟทันที ผลลัพธ์ได้รับการประเมินตามอัตวิสัยและผู้เขียนเชื่อว่าเขามีหลักฐานว่ามีการเปลี่ยนแปลงในอนุกรมเวลาและเกี่ยวข้องกับการเปลี่ยนแปลงในนโยบาย (ดื่มกาแฟ) สิ่งนี้ทำให้ฉันนึกถึงเป็นแบบจำลองของเศรษฐกิจ เรามีเพียงเศรษฐกิจเดียว (ที่เราใส่ใจในขณะนี้) ดังนั้นนักเศรษฐศาสตร์จึงมักทำการทดลองโดย n = 1 ข้อมูลมีความสัมพันธ์กันโดยอัตโนมัติเมื่อเวลาผ่านไปเนื่องจากเหตุผลนี้ นักเศรษฐศาสตร์โดยทั่วไปกำลังจับตามองเฟดพูดว่าขณะที่มันเริ่มนโยบายและพยายามที่จะตัดสินใจว่าอนุกรมเวลามีการเปลี่ยนแปลงหรือไม่ การทดสอบที่เหมาะสมคืออะไรเพื่อพิจารณาว่าอนุกรมเวลามีการเพิ่มขึ้นหรือลดลงตามข้อมูลหรือไม่ ฉันต้องการข้อมูลมากแค่ไหน มีเครื่องมืออะไรบ้าง? googling ครั้งแรกของฉันแนะนำรุ่นของ Markov Switching Time Series แต่ทักษะ googling ของฉันไม่ทำให้ฉันล้มเหลวในการช่วยทำทุกอย่างด้วยชื่อของเทคนิค

5
ทรัพยากรที่ดีที่มีการเปรียบเทียบข้อดีข้อเสียของตัวแยกประเภทที่แตกต่างกันคืออะไร?
ตัวจําแนกคลาส 2 ระดับที่ดีที่สุดคืออะไร? ใช่ฉันเดาว่าเป็นคำถามล้านดอลลาร์และใช่ฉันรู้ว่าไม่มีทฤษฎีอาหารกลางวันฟรีและฉันได้อ่านคำถามก่อนหน้านี้ด้วย: ตัวจําแนกคลาส 2 ระดับที่ดีที่สุดสำหรับการใช้งานของคุณคืออะไร? และลักษณนามที่เลวร้ายที่สุด แต่ถึงกระนั้นฉันสนใจที่จะอ่านเพิ่มเติมเกี่ยวกับเรื่องนี้ แหล่งข้อมูลที่ดีที่มีการเปรียบเทียบลักษณะทั่วไปประโยชน์และคุณสมบัติของตัวแยกประเภทที่แตกต่างกันคืออะไร

1
วิธีการพล็อตขั้นตอนบันไดทำงานด้วย ggplot?
ล็อคแล้ว คำถามและคำตอบของคำถามนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ฉันมีกราฟดังนี้: รหัส R สำหรับการสร้างมันคือ: DF <- data.frame(date = as.Date(runif(100, 0, 800),origin="2005-01-01"), outcome = rbinom(100, 1, 0.1)) DF <- DF[order(DF$DateVariable),] #Sort by date DF$x <- seq(length=nrow(DF)) #Add case numbers (in order, since sorted) DF$y <- cumsum(DF$outcome) library(ggplot2) ggplot(DF, aes(x,y)) + geom_path() + #Ploting scale_y_continuous(name= "Number of failures") …

1
Eigenfunctions ของ adjacency matrix ของอนุกรมเวลา?
พิจารณาอนุกรมเวลาง่ายๆ > tp <- seq_len(10) > tp [1] 1 2 3 4 5 6 7 8 9 10 เราสามารถคำนวณเมทริกซ์ adjacency สำหรับอนุกรมเวลานี้ซึ่งเป็นตัวแทนของการเชื่อมโยงชั่วคราวระหว่างกลุ่มตัวอย่าง ในการคำนวณเมทริกซ์นี้เราเพิ่มไซต์จินตภาพในเวลา 0 และลิงก์ระหว่างการสังเกตนี้และการสังเกตจริงครั้งแรก ณ เวลา 1 เรียกว่าลิงก์ 0 ระหว่างเวลา 1 และเวลา 2 ลิงก์คือลิงค์ 1 และอื่น ๆ เนื่องจากเวลาเป็นกระบวนการกำหนดทิศทางเว็บไซต์จึงเชื่อมต่อกับลิงก์ (ที่ได้รับผลกระทบ) ซึ่งเป็น "อัปสตรีม" ของไซต์ ดังนั้นทุกไซต์เชื่อมต่อกับลิงค์ 0 แต่ลิงค์ 9 เชื่อมต่อกับไซต์ 10 เท่านั้น มันเกิดขึ้นชั่วคราวหลังจากแต่ละไซต์ยกเว้นไซต์ …

3
ฉันจะประเมินความน่าจะเป็นของสมาชิกสุ่มจากประชากรหนึ่งที่จะ“ ดีขึ้น” กว่าสมาชิกสุ่มจากประชากรอื่นได้อย่างไร
สมมติว่าฉันมีกลุ่มตัวอย่างจากประชากรสองกลุ่มที่แตกต่างกัน ถ้าฉันวัดว่าสมาชิกแต่ละคนใช้เวลาทำงานนานแค่ไหนฉันสามารถประมาณค่าเฉลี่ยและความแปรปรวนของประชากรแต่ละคนได้อย่างง่ายดาย หากตอนนี้ฉันตั้งสมมติฐานการจับคู่แบบสุ่มกับบุคคลหนึ่งคนจากแต่ละประชากรฉันสามารถประเมินความน่าจะเป็นที่คนแรกเร็วกว่าคนที่สองหรือไม่ ฉันมีตัวอย่างที่เป็นรูปธรรมในใจ: การวัดเป็นการกำหนดเวลาสำหรับฉันขี่จักรยานจาก A ถึง B และประชากรเป็นตัวแทนของเส้นทางที่แตกต่างที่ฉันสามารถทำได้ ฉันพยายามหาว่าความน่าจะเป็นที่การเลือกเส้นทาง A สำหรับรอบต่อไปของฉันจะเร็วกว่าการเลือกเส้นทาง B เมื่อฉันทำวัฏจักรจริง ๆ ฉันได้รับจุดข้อมูลอีกชุดสำหรับชุดตัวอย่างของฉัน :) ฉันรู้ว่านี่เป็นวิธีที่ง่ายอย่างน่ากลัวในการพยายามทำสิ่งนี้ไม่ใช่อย่างน้อยเพราะในวันหนึ่ง ๆ ลมจะมีผลต่อเวลาของฉันมากกว่าสิ่งอื่นดังนั้นโปรดแจ้งให้เราทราบหากคุณคิดว่าฉันกำลังถาม คำถามที่ผิด ...

4
วิธีสร้างข้อมูลอนุกรมเวลาไบนารีอัตโนมัติแบบสุ่มที่มีความสัมพันธ์กันอย่างไร
ฉันจะสร้างอนุกรมเวลาแบบไบนารี่ได้อย่างไร: ความน่าจะเป็นโดยเฉลี่ยของการสังเกต 1 ถูกระบุ (พูด 5%) ความน่าจะเป็นแบบมีเงื่อนไขของการสังเกต 1 ที่เวลาให้ค่าที่t - 1 (พูด 30% ถ้าt - 1tttt−1t−1t-1t−1t−1t-1เท่ากับ 1)?

1
วิธีการตั้งค่าและตีความ ANOVA ต่างกับแพ็คเกจรถยนต์ใน R อย่างไร
สมมติว่าฉันมีการทดลองแบบแฟคทอเรียล 2x2 ที่ฉันต้องการทำ ANOVA เช่นนี้ตัวอย่างเช่น: d <- data.frame(a=factor(sample(c('a1','a2'), 100, rep=T)), b=factor(sample(c('b1','b2'), 100, rep=T))); d$y <- as.numeric(d$a)*rnorm(100, mean=.75, sd=1) + as.numeric(d$b)*rnorm(100, mean=1.2, sd=1) + as.numeric(d$a)*as.numeric(d$b)*rnorm(100, mean=.5, sd=1) + rnorm(100); ในกรณีที่ไม่มีการโต้ตอบที่สำคัญโดยค่าเริ่มต้น (เช่นcontr.treatment) ผลลัพธ์ของAnova()ความสำคัญโดยรวมของaในทุกระดับของbและbเหนือทุกระดับของaถูกที่? ฉันควรระบุความแตกต่างที่จะช่วยให้ฉันทดสอบความสำคัญของผลกระทบaกับbการคงที่ที่ระดับ b1 ของผลกระทบaกับbการคงที่ที่ระดับ b2 และการโต้ตอบa:bอย่างไร
15 r  anova  contrasts 

2
พื้นที่ภายใต้“ pdf” ในการประมาณความหนาแน่นของเคอร์เนลใน R
ฉันพยายามใช้ฟังก์ชัน ' ความหนาแน่น ' ใน R เพื่อทำการประมาณความหนาแน่นของเคอร์เนล ฉันมีความยากลำบากการตีความผลและเปรียบเทียบชุดข้อมูลต่างๆที่ดูเหมือนว่าพื้นที่ใต้เส้นโค้งไม่จำเป็นต้อง 1. สำหรับใด ๆฟังก์ชั่นความหนาแน่นของความน่าจะเป็น (PDF) , เราจำเป็นต้องมีพื้นที่∫ ∞ - ∞ φ ( x ) d x = 1 ฉันสมมติว่าการประมาณความหนาแน่นของเคอร์เนลรายงาน pdf ฉันใช้integrate.xyจากsfsmiscเพื่อประเมินพื้นที่ใต้เส้นโค้งϕ ( x )φ(x)\phi(x)∫∞- ∞ϕ ( x ) dx = 1∫-∞∞φ(x)dx=1\int_{-\infty}^\infty \phi(x) dx = 1 > # generate some data > xx<-rnorm(10000) > …

4
ฉันจะปรับปรุงการวิเคราะห์ผลกระทบของชื่อเสียงในการลงคะแนนได้อย่างไร
เมื่อเร็ว ๆ นี้ฉันได้ทำการวิเคราะห์ผลกระทบของชื่อเสียงใน upvotes (ดูบล็อกโพสต์ ) และต่อมาฉันมีคำถามสองสามข้อเกี่ยวกับการวิเคราะห์และกราฟิกที่น่าสนใจยิ่งขึ้น (หรือเหมาะสมกว่า) ดังนั้นคำถามสองสามข้อ (และอย่าลังเลที่จะตอบสนองต่อใครโดยเฉพาะและไม่สนใจผู้อื่น): ในปัจจุบันชาติฉันไม่ได้หมายศูนย์หมายเลขโพสต์ ฉันคิดว่าสิ่งนี้จะให้ลักษณะที่ผิดพลาดของความสัมพันธ์เชิงลบใน scatterplot เนื่องจากมีการโพสต์มากขึ้นไปจนถึงระดับล่างสุดของการนับโพสต์ (คุณเห็นว่าสิ่งนี้ไม่ได้เกิดขึ้นในแผง Jon Skeet เฉพาะผู้ใช้ที่ตาย แผงหน้าปัด). มันไม่เหมาะสมที่จะไม่หมายถึงหมายเลขศูนย์โพสต์ (เพราะฉันหมายถึงคะแนนอยู่ตรงกลางต่อคะแนนเฉลี่ยของผู้ใช้)? ควรชัดเจนจากกราฟที่ให้คะแนนว่าเอียงขวาสูง (และค่าเฉลี่ยอยู่ตรงกลางไม่ได้เปลี่ยนแปลงสิ่งใด) เมื่อติดตั้งสายการถดถอยฉันพอดีทั้งตัวแบบเชิงเส้นและตัวแบบโดยใช้ข้อผิดพลาดที่ฮูเบอร์ - ไวท์ (ซึ่งrlmอยู่ในแพ็คเกจ MASS R ) และมันก็ไม่ได้สร้างความแตกต่างในการประมาณความชัน ฉันควรพิจารณาการแปลงเป็นข้อมูลแทนที่จะเป็นการถดถอยที่มีประสิทธิภาพหรือไม่ โปรดทราบว่าการเปลี่ยนแปลงใด ๆ จะต้องคำนึงถึงความเป็นไปได้ของ 0 และคะแนนลบ หรือฉันควรใช้รูปแบบชนิดอื่นเพื่อนับข้อมูลแทน OLS หรือไม่ ฉันเชื่อว่ากราฟิกสองตัวสุดท้ายโดยทั่วไปสามารถปรับปรุงได้ (และเกี่ยวข้องกับกลยุทธ์การสร้างแบบจำลองที่ดีขึ้นเช่นกัน) ในความเห็นของฉัน (ฉันเบื่อ) ฉันจะสงสัยว่าผลกระทบของชื่อเสียงเป็นจริงพวกเขาจะได้รับรู้ล่วงหน้าในประวัติผู้โพสต์ (ฉันคิดว่าถ้าเป็นจริงสิ่งเหล่านี้อาจได้รับการพิจารณาใหม่ "คุณให้คำตอบที่ดีเยี่ยม โพสต์ผลกระทบ "แทน" ชื่อเสียงโดยคะแนนรวม …

2
'วิธีการส่งข้อความ' คืออะไร?
ฉันมีความรู้สึกที่คลุมเครือในสิ่งที่วิธีการส่งข้อความคือ: อัลกอริทึมที่สร้างการประมาณการแจกแจงโดยการสร้างการประมาณซ้ำของปัจจัยการกระจายแบบมีเงื่อนไขในการประมาณทั้งหมดของปัจจัยอื่น ๆ ทั้งหมด ผมเชื่อว่าทั้งสองเป็นตัวอย่างแปรผันข้อความผ่านและคาดว่าจะมีการขยายพันธุ์ ข้อความที่ส่งผ่านอัลกอริทึมอย่างชัดเจน / ถูกต้องคืออะไร ยินดีต้อนรับการอ้างอิง

1
ข้อดีและข้อเสียของการเรียนรู้เกี่ยวกับการแจกแจงแบบอัลกอริธึม (แบบจำลอง) กับทางคณิตศาสตร์คืออะไร?
ข้อดีและข้อเสียของการเรียนรู้เกี่ยวกับคุณสมบัติของการแจกแจงแบบอัลกอริทึม (ผ่านการจำลองด้วยคอมพิวเตอร์) กับทางคณิตศาสตร์คืออะไร ดูเหมือนว่าการจำลองด้วยคอมพิวเตอร์อาจเป็นวิธีการเรียนรู้ทางเลือกโดยเฉพาะอย่างยิ่งสำหรับนักเรียนใหม่ที่ไม่รู้สึกแข็งแกร่งในแคลคูลัส นอกจากนี้ยังดูเหมือนว่าการจำลองการเข้ารหัสสามารถนำเสนอแนวคิดการกระจายที่เข้าใจง่ายและเร็วขึ้น

5
อะไรคือสาเหตุของการใช้การแปลงแบบรูทของข้อมูล
มีเหตุผลอะไรที่ฉันคิดว่าจะแปลงข้อมูลด้วยสแควร์รูท? ฉันหมายถึงสิ่งที่ฉันสังเกตอยู่เสมอคือค่า R ^ 2 เพิ่มขึ้น แต่นี่อาจเป็นเพราะศูนย์กลางข้อมูล! ความคิดใด ๆ ที่ชื่นชม!

2
Kullback – Leibler ความแตกต่างระหว่างการแจกแจงแกมม่าสองครั้ง
การเลือกเพื่อกำหนดพารามิเตอร์การแจกแจงแกมม่าΓ(b,c)Γ(b,c)\Gamma(b,c)โดย pdf g(x;b,c)=1Γ(c)xc−1bce−x/bg(x;b,c)=1Γ(c)xc−1bce−x/bg(x;b,c) = \frac{1}{\Gamma(c)}\frac{x^{c-1}}{b^c}e^{-x/b} Kullback-Leibler divergence ระหว่างΓ(bq,cq)Γ(bq,cq)\Gamma(b_q,c_q)และΓ(bp,cp)Γ(bp,cp)\Gamma(b_p,c_p)ได้รับจาก [1] เป็น KLG( bQ, คQ; ขพี, คพี)= ( cQ- 1 ) Ψ ( cQ) - บันทึกขQ- คQ- บันทึกΓ ( cQ) + บันทึกΓ ( cพี)+ cพีเข้าสู่ระบบขพี- ( cพี- 1 ) ( Ψ ( cQ) + บันทึกขQ) + bQคQขพีKLGa(ขQ,คQ;ขพี,คพี)=(คQ-1)Ψ(คQ)-เข้าสู่ระบบ⁡bq−cq−log⁡Γ(cq)+log⁡Γ(cp)+cplog⁡bp−(cp−1)(Ψ(cq)+log⁡bq)+bqcqbp\begin{align} KL_{Ga}(b_q,c_q;b_p,c_p) &= (c_q-1)\Psi(c_q) - \log …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.