สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

5
โมดูล Python สำหรับการวิเคราะห์จุดเปลี่ยน
ฉันกำลังมองหาโมดูล Python ที่ทำการวิเคราะห์จุดเปลี่ยนในอนุกรมเวลา มีอัลกอริทึมที่แตกต่างกันจำนวนหนึ่งและฉันต้องการสำรวจประสิทธิภาพของบางอันโดยไม่ต้องหมุนแต่ละอัลกอริทึม เป็นการดีที่ฉันต้องการโมดูลบางอย่างเช่นbcp (Bayesian Change Point) หรือแพ็คเกจstrucchangeใน R ฉันคาดว่าจะพบบางอย่างใน Scipy แต่ฉันไม่สามารถเปิดอะไรได้ ฉันประหลาดใจที่ไม่มีสิ่งอำนวยความสะดวกใน: statsmodels.tsa : เครื่องมือวิเคราะห์ทางสถิติอนุกรมเวลา scikits.timeseries : เครื่องมือการวิเคราะห์อนุกรมเวลาเพื่อขยาย scipy scipy.signal : เครื่องมือประมวลผลสัญญาณใน scipy มีโมดูลใดบ้างที่มีอัลกอริธึมตรวจจับการเปลี่ยนแปลงใน Python หรือไม่?

4
วิธีการหาปริมาณ (แยก) ของการแจกแจงปกติหลายตัวแปร
ฉันสนใจว่าจะคำนวณการกระจายของหลายตัวแปรแบบควอไทล์ได้อย่างไร ในรูปฉันได้วาดควอนไทล์ 5% และ 95% ของการแจกแจงแบบปกติแบบไม่มีตัวแปร (ซ้าย) สำหรับการกระจายตัวแบบหลายตัวแปรที่ถูกต้องฉันจินตนาการว่าอะนาล็อกจะเป็นสายเดี่ยวที่ล้อมรอบฐานของฟังก์ชันความหนาแน่น ด้านล่างเป็นตัวอย่างของความพยายามของฉันในการคำนวณโดยใช้แพคเกจmvtnorm- แต่ไม่ประสบความสำเร็จ ฉันคิดว่าสิ่งนี้สามารถทำได้โดยการคำนวณรูปร่างของผลลัพธ์ของฟังก์ชันความหนาแน่นหลายตัวแปร แต่ฉันสงสัยว่ามีทางเลือกอื่น ( เช่นแบบอะนาล็อกqnorm) ขอบคุณสำหรับความช่วยเหลือของคุณ. ตัวอย่าง: mu <- 5 sigma <- 2 vals <- seq(-2,12,,100) ds <- dnorm(vals, mean=mu, sd=sigma) plot(vals, ds, t="l") qs <- qnorm(c(0.05, 0.95), mean=mu, sd=sigma) abline(v=qs, col=2, lty=2) #install.packages("mvtnorm") require(mvtnorm) n <- 2 mmu <- rep(mu, …

6
การสร้างแบบจำลองสมการโครงสร้างเบื้องต้น
ฉันถูกเพื่อนร่วมงานขอความช่วยเหลือในเรื่องนี้ซึ่งฉันไม่รู้จริงๆ พวกเขาตั้งสมมติฐานเกี่ยวกับบทบาทของตัวแปรแฝงในการศึกษาหนึ่งครั้งและผู้ตัดสินขอให้พวกเขาทำเป็นระเบียบใน SEM เนื่องจากสิ่งที่พวกเขาต้องการดูเหมือนไม่ยากเกินไปฉันคิดว่าฉันจะให้ช็อตเด็ด ... สำหรับตอนนี้ฉันแค่มองหาการแนะนำที่ดีเกี่ยวกับเรื่องนี้! Google ไม่ใช่เพื่อนของฉันในเรื่องนี้ ขอบคุณมากล่วงหน้า ... PS: ฉันอ่านการสร้างแบบจำลองสมการโครงสร้างด้วยแพคเกจ sem ใน Rโดย John Fox และข้อความนี้โดยผู้เขียนคนเดียวกัน ฉันคิดว่านี่น่าจะเพียงพอสำหรับวัตถุประสงค์ของฉัน

3
โพสต์ทดสอบเฉพาะกิจหลังจาก ANOVA พร้อมมาตรการซ้ำโดยใช้ R
ฉันใช้ ANOVA ในมาตรการ R ซ้ำแล้วซ้ำอีกดังนี้: aov_velocity = aov(Velocity ~ Material + Error(Subject/(Material)), data=scrd) summary(aov_velocity) ซินแท็กซ์ใดบ้างใน R ที่สามารถใช้ในการทำการทดสอบหลังการทำ ANOVA ด้วยมาตรการซ้ำ การทดสอบของ Tukey กับการแก้ไข Bonferroni จะเหมาะสมหรือไม่ ถ้าเป็นเช่นนั้นสิ่งนี้สามารถทำได้ใน R?

2
คุณสามารถอธิบายการประมาณความหนาแน่นของ Parzen window (kernel) ในแง่ของคนธรรมดาได้หรือไม่?
การประเมินความหนาแน่นของหน้าต่าง Parzen อธิบายไว้ดังนี้ p ( x ) = 1nΣi = 1n1ชั่วโมง2ϕ ( xผม- xชั่วโมง)p(x)=1n∑i=1n1h2ϕ(xi−xh) p(x)=\frac{1}{n}\sum_{i=1}^{n} \frac{1}{h^2} \phi \left(\frac{x_i - x}{h} \right) โดยที่คือจำนวนองค์ประกอบในเวกเตอร์,คือเวกเตอร์,คือความหนาแน่นของความน่าจะเป็นของ ,คือขนาดของหน้าต่าง Parzen และเป็นฟังก์ชันของหน้าต่างx p ( x ) x h ϕnnnxxxp ( x )p(x)p(x)xxxชั่วโมงhhφϕ\phi คำถามของฉันคือ: อะไรคือความแตกต่างพื้นฐานระหว่างฟังก์ชั่น Parzen Window และฟังก์ชั่นความหนาแน่นอื่น ๆ เช่นฟังก์ชั่นเกาส์เซียนเป็นต้น ฟังก์ชั่น Window Function ( ) ในการค้นหาความหนาแน่นของคืออะไร?xφϕ\phixxx ทำไมเราสามารถเสียบฟังก์ชั่นความหนาแน่นอื่น ๆ …

3
'สัมประสิทธิ์นามแฝง' คืออะไร
ในขณะที่สร้างแบบจำลองการถดถอยใน R ( lm) ฉันมักได้รับข้อความนี้ "there are aliased coefficients in the model" มันหมายความว่าอะไรกันแน่? นอกจากนี้เนื่องจากสิ่งนี้predict()ยังเป็นการเตือน แม้ว่าจะเป็นเพียงคำเตือนฉันต้องการทราบว่าเราสามารถตรวจจับ / ลบค่าสัมประสิทธิ์ aliased ก่อนสร้างแบบจำลองได้อย่างไร นอกจากนี้อะไรคือผลลัพธ์ที่เป็นไปได้ของการละเลยคำเตือนนี้
24 r  regression 

3
เหตุใดการถดถอยแบบลอจิสติกจึงเป็นแบบจำลองเชิงเส้น
ฉันต้องการทราบว่าเหตุใดการถดถอยแบบลอจิสติกจึงเรียกว่าแบบจำลองเชิงเส้น มันใช้ฟังก์ชั่น sigmoid ซึ่งไม่ได้เป็นเชิงเส้น เหตุใดการถดถอยแบบลอจิสติกจึงเป็นแบบจำลองเชิงเส้น

1
F1 / Dice-Score เทียบกับ IoU
ฉันสับสนเกี่ยวกับความแตกต่างระหว่างคะแนน F1, คะแนนลูกเต๋าและ IoU (จุดตัดผ่านสหภาพ) ตอนนี้ฉันพบว่า F1 และลูกเต๋าหมายถึงสิ่งเดียวกัน (ใช่ไหม) และ IoU มีสูตรที่คล้ายกันมากกับอีกสองรายการ F1 / ลูกเต๋า: 2 TP2 TP+ FP+ Fยังไม่มีข้อความ2TP2TP+FP+Fยังไม่มีข้อความ\frac{2TP}{2TP+FP+FN} IoU / Jaccard: TPTP+ FP+ Fยังไม่มีข้อความTPTP+FP+Fยังไม่มีข้อความ\frac{TP}{TP+FP+FN} มีความแตกต่างในทางปฏิบัติหรือสิ่งอื่น ๆ ที่ควรค่าแก่การสังเกตยกเว้น F1 นั้นให้น้ำหนักจริงที่สูงกว่าหรือไม่ มีสถานการณ์ที่ฉันจะใช้ แต่ไม่ใช่อีกสถานการณ์หนึ่งหรือไม่?

2
ความแตกต่างระหว่างการออกกลางคันและการเชื่อมต่อแบบเลื่อนคืออะไร?
ความแตกต่างระหว่างการออกกลางคันและการเชื่อมต่อแบบเลื่อนคืออะไร? AFAIK, dropout สุ่มลดลงโหนดที่ซ่อนอยู่ในระหว่างการฝึกอบรม แต่เก็บไว้ในการทดสอบและวางการเชื่อมต่อการเชื่อมต่อหยด แต่ไม่ทิ้งการเชื่อมต่อเทียบเท่ากับการทิ้งโหนดที่ซ่อนอยู่หรือไม่ โหนด (หรือการเชื่อมต่อ) ไม่ใช่แค่ชุดของน้ำหนักใช่หรือไม่

2
จะเริ่มต้นองค์ประกอบของเมทริกซ์ตัวกรองได้อย่างไร
ฉันพยายามทำความเข้าใจกับเครือข่ายประสาทเทียมให้ดีขึ้นด้วยการเขียนรหัส Python ที่ไม่ได้ขึ้นอยู่กับไลบรารี่ (เช่น Convnet หรือ TensorFlow) และฉันติดอยู่ในวรรณกรรมเกี่ยวกับวิธีเลือกค่าสำหรับเคอร์เนลเมทริกซ์เมื่อ ทำการสังวัตนาบนรูปภาพ ฉันพยายามที่จะเข้าใจรายละเอียดการใช้งานในขั้นตอนระหว่างฟีเจอร์แมปในภาพด้านล่างแสดงเลเยอร์ของซีเอ็นเอ็น ตามแผนภาพนี้: เคอร์เนลเมทริกซ์เคอร์เนล "ขั้นตอน" เหนือภาพสร้างแผนผังคุณลักษณะโดยที่แต่ละพิกเซลคือผลรวมของผลิตภัณฑ์องค์ประกอบที่ชาญฉลาดระหว่างน้ำหนักของเคอร์เนลแต่ละตัว (หรือเมทริกซ์ฟิลเตอร์) และค่าพิกเซลที่สอดคล้องกันของภาพอินพุต คำถามของฉันคือเราจะเริ่มต้นน้ำหนักของเคอร์เนล (หรือตัวกรอง) เมทริกซ์ได้อย่างไร ในการสาธิตข้างต้นพวกเขาเป็นเพียง 1 และ 0 แต่ฉันคิดว่านี่เป็นเรื่องง่ายจากสาเกของแผนภาพ น้ำหนักเหล่านี้ผ่านการฝึกอบรมในบางขั้นตอนการประมวลผลล่วงหน้าหรือไม่ หรือเลือกโดยผู้ใช้อย่างชัดเจน?

3
ความน่าจะเป็นที่เป็นอย่างไรจาก 25 ตัวเลขสุ่มระหว่าง 1 ถึง 100 ค่าสูงสุดจะปรากฏมากกว่าหนึ่งครั้ง
ในเกมออนไลน์หลายเกมเมื่อผู้เล่นทำภารกิจที่ยากบางครั้งรางวัลพิเศษจะมอบให้ทุกคนที่ทำงานให้สำเร็จสามารถใช้งานได้ โดยปกติจะเป็นเมานท์ (วิธีการขนส่ง) หรือรายการโต๊ะเครื่องแป้งอื่น (รายการที่ไม่ปรับปรุงประสิทธิภาพของตัวละคร เมื่อได้รับรางวัลดังกล่าววิธีที่ใช้กันโดยทั่วไปมากที่สุดในการพิจารณาว่าใครได้รับรางวัลคือการใช้ตัวเลขสุ่ม เกมมักจะมีคำสั่งพิเศษที่สร้างแบบสุ่ม (น่าจะเป็นแบบสุ่มหลอกไม่เข้ารหัสลับแบบสุ่ม) จำนวนระหว่าง 1 ถึง 100 (บางครั้งผู้เล่นสามารถเลือกการแพร่กระจายอื่นได้ แต่ 100 เป็นเรื่องธรรมดาที่สุด) ผู้เล่นแต่ละคนใช้คำสั่งนี้ผู้เล่นทุกคนสามารถดูได้ว่าใครรีดอะไรและไอเท็มนั้นจะมอบให้กับคนที่ม้วนสูงสุด เกมส่วนใหญ่มีระบบในตัวซึ่งผู้เล่นเพียงแค่กดปุ่มและเมื่อทุกคนกดปุ่มเกมจะจัดการที่เหลือโดยอัตโนมัติ บางครั้งผู้เล่นบางคนสร้างจำนวนสูงเท่ากันและไม่มีใครชนะ สิ่งนี้มักจะได้รับการแก้ไขโดยผู้เล่นที่สร้างหมายเลขใหม่จนกว่าจะมีจำนวนสูงสุดที่ไม่ซ้ำกัน คำถามของฉันมีดังต่อไปนี้: สมมติตัวสร้างตัวเลขสุ่มซึ่งสามารถสร้างตัวเลขใด ๆ ระหว่าง 1 ถึง 100 ด้วยความน่าจะเป็นเดียวกัน สมมติว่าคุณมีกลุ่มผู้เล่น 25 คนซึ่งแต่ละคนสร้าง 1 หมายเลขด้วยตัวสร้างตัวเลขแบบสุ่ม (แต่ละอันมีเมล็ดของตัวเอง) คุณจะมี 25 ตัวเลขระหว่าง 1 ถึง 100 โดยไม่มีข้อ จำกัด เกี่ยวกับจำนวนผู้เล่นที่หมุนปุ่มเฉพาะและไม่มีความสัมพันธ์ระหว่างตัวเลข โอกาสที่จำนวนสูงสุดที่สร้างจะถูกสร้างโดยผู้เล่นมากกว่า 1 คนคืออะไร? กล่าวอีกนัยหนึ่งความน่าจะเป็นของเน็คไทคืออะไร?

4
ตำราเรียนเกี่ยวกับทฤษฎี * ของอัลกอริทึมโครงข่ายประสาท / ML?
หนังสือทุกเล่มที่ฉันได้เห็นแล้วอธิบายเกี่ยวกับอัลกอริธึม ML และวิธีการนำไปใช้ มีตำราเรียนที่สร้างทฤษฎีและบทพิสูจน์สำหรับพฤติกรรมของอัลกอริทึมเหล่านั้นหรือไม่? เช่นระบุว่าภายใต้เงื่อนไข , การไล่ระดับสีจะนำไปสู่A , B , C ?x , y, zx,Y,Zx,y,zA , B , CA,B,CA,B,C

5
การวิเคราะห์ข้อมูลเชิงสำรวจเป็นสิ่งสำคัญหรือไม่เมื่อทำการสร้างแบบจำลองการทำนายอย่างหมดจด?
เมื่อสร้างแบบจำลองการทำนายโดยใช้เทคนิคการเรียนรู้ของเครื่องจุดประสงค์ของการวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) คืออะไร? การข้ามไปสู่การสร้างคุณลักษณะและการสร้างแบบจำลองของคุณเป็นเรื่องที่ถูกต้องหรือไม่? สถิติเชิงพรรณนามีความสำคัญอย่างไรใน EDA สำคัญ

1
การสุ่มตัวอย่างสำหรับการถดถอยโลจิสติกควรสะท้อนอัตราส่วนที่แท้จริงของ 1 และ 0 หรือไม่?
สมมติว่าฉันต้องการสร้างแบบจำลองการถดถอยโลจิสติกซึ่งสามารถประมาณความน่าจะเป็นของการเกิดสัตว์บางชนิดที่อาศัยอยู่บนต้นไม้ตามลักษณะของต้นไม้ (ความสูง fe) เช่นเคยเวลาและเงินของฉันมี จำกัด ดังนั้นฉันสามารถรวบรวมตัวอย่างขนาด จำกัด ได้เท่านั้น ฉันมีคำถามต่อไปนี้: อัตราส่วนของ 1 และ 0 ในตัวอย่างของฉันควรสะท้อนอัตราส่วนจริงของ 1 และ 0 หรือไม่? (อย่างน้อยโดยประมาณ)ฉันสังเกตเห็นว่ามันเป็นวิธีปฏิบัติทั่วไปในการดำเนินการแบบจำลองการถดถอยโลจิสติกที่มีตัวอย่างที่สมดุล (จำนวนเท่ากับ 1 และ 0) - แต่โมเดลดังกล่าวให้ความน่าจะเป็นที่สูงเกินจริง มีบทความ / ตำราเรียนใดบ้างที่ฉันสามารถใช้เป็น ** สนับสนุนความคิดได้ว่าแบบจำลองที่ไม่สะท้อนอัตราส่วนที่แท้จริงของ 1 และ 0 เป็น " ผิด " หรือไม่? ** และในที่สุด: เป็นไปได้หรือไม่ที่จะทำการสุ่มตัวอย่างแบบ 1: 1 แล้วแก้ไขโมเดลด้วยtauตาม Imai et al 2007 Kosuke Imai, …

2
แบบจำลองเชิงสถิติหรืออัลกอริทึมใดที่สามารถใช้เพื่อแก้ปัญหา John Snow Cholera
ฉันสนใจที่จะเรียนรู้วิธีพัฒนาจุดศูนย์กลางทางภูมิศาสตร์ของจุดศูนย์กลางบางจุดบนพื้นฐานของข้อมูลจากการระบาดของจอห์นสโนว์อหิวาตกโรค การสร้างแบบจำลองทางสถิติใดที่สามารถใช้ในการแก้ปัญหาดังกล่าวโดยไม่ต้องทราบล่วงหน้าว่ามีหลุมอยู่ที่ใด ตามปัญหาทั่วไปคุณจะมีเวลาสถานที่ตั้งของจุดที่รู้จักและเส้นทางเดินของผู้สังเกตการณ์ วิธีที่ฉันกำลังมองหาจะใช้สามสิ่งนี้เพื่อประเมินจุดศูนย์กลางของ "การระบาด"

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.