สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

12
หนังสือที่ดีที่สุดสำหรับการแนะนำการวิเคราะห์ข้อมูลทางสถิติ?
ล็อคแล้ว คำถามและคำตอบของคำถามนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ฉันซื้อหนังสือเล่มนี้: วิธีการวัดสิ่งใด: การค้นหาคุณค่าของสิ่งที่จับต้องไม่ได้ในธุรกิจ และ หัวหน้าการวิเคราะห์ข้อมูลครั้งแรก: คู่มือสำหรับผู้เรียนเกี่ยวกับตัวเลขขนาดใหญ่สถิติและการตัดสินใจที่ดี หนังสืออื่น ๆ ที่คุณอยากแนะนำคืออะไร?

5
การถดถอยปัวซองด้วยข้อมูลขนาดใหญ่: การเปลี่ยนหน่วยการวัดเป็นความผิดหรือไม่?
เนื่องจากแฟกทอเรียลในการแจกแจงปัวส์ซองมันไม่น่าเป็นไปได้ที่จะประเมินโมเดลปัวซอง (ตัวอย่างเช่นการใช้โอกาสสูงสุด) เมื่อการสังเกตมีขนาดใหญ่ ตัวอย่างเช่นถ้าฉันพยายามประเมินแบบจำลองเพื่ออธิบายจำนวนการฆ่าตัวตายในปีที่กำหนด (มีข้อมูลรายปีเท่านั้น) และพูดว่ามีการฆ่าตัวตายหลายพันคนทุกปีมันผิดหรือไม่ที่จะแสดงการฆ่าตัวตายเป็นร้อย ๆ ดังนั้น 2998 จะเป็น 29.98 ~ = 30? กล่าวอีกนัยหนึ่งการเปลี่ยนหน่วยการวัดเพื่อให้สามารถจัดการข้อมูลได้เป็นความผิดหรือไม่?

7
วิธีที่ง่ายที่สุดในการสร้างแปลงคุณภาพการเผยแพร่ภายใต้ Linux คืออะไร
เราอาจสมมติว่าเรามีไฟล์ CSV และเราต้องการพล็อตบรรทัดขั้นพื้นฐานที่มีหลายบรรทัดในหนึ่งพล็อตและคำอธิบายง่ายๆ

2
เป็นไปได้ไหมที่จะทำการพยากรณ์อนุกรมเวลาโดยอัตโนมัติ
ฉันต้องการสร้างอัลกอริทึมที่สามารถวิเคราะห์อนุกรมเวลาใด ๆ และ "อัตโนมัติ" เลือกวิธีการพยากรณ์แบบดั้งเดิม / สถิติที่ดีที่สุด (และพารามิเตอร์) สำหรับข้อมูลอนุกรมเวลาที่วิเคราะห์ เป็นไปได้ไหมที่จะทำอะไรแบบนี้ ถ้าใช่คุณสามารถให้คำแนะนำกับฉันเกี่ยวกับวิธีการนี้ได้หรือไม่?

2
หากโมเดลอนุกรมเวลาถอยหลังอัตโนมัติเป็นแบบไม่ใช่เชิงเส้นมันยังต้องใช้ความคงที่หรือไม่?
กำลังคิดเกี่ยวกับการใช้เครือข่ายประสาทที่เกิดขึ้นอีกสำหรับการพยากรณ์อนุกรมเวลา โดยพื้นฐานแล้วพวกเขาใช้การเรียงลำดับของการถดถอยอัตโนมัติแบบไม่ใช่เชิงเส้นทั่วไปเมื่อเปรียบเทียบกับแบบจำลอง ARMA และ ARIMA ซึ่งใช้การถดถอยเชิงเส้นแบบอัตโนมัติ หากเรากำลังทำการถดถอยอัตโนมัติแบบไม่เป็นเชิงเส้นมันยังคงจำเป็นสำหรับอนุกรมเวลาที่จะหยุดนิ่งและเราจะต้องดำเนินการแตกต่างจากวิธีที่เราทำในแบบจำลอง ARIMA หรือไม่? หรือตัวละครที่ไม่ใช่เชิงเส้นของแบบจำลองให้ความสามารถในการจัดการกับอนุกรมเวลาที่ไม่หยุดนิ่งหรือไม่? ที่จะนำคำถามอีกวิธี: ข้อกำหนดความคงที่ (ในค่าเฉลี่ยและความแปรปรวน) สำหรับโมเดล ARMA และ ARIMA เนื่องจากความจริงที่ว่าโมเดลเหล่านี้เป็นแบบเส้นตรงหรือเป็นเพราะอย่างอื่นหรือไม่

2
บางคนสามารถอธิบายให้ฉัน NUTS เป็นภาษาอังกฤษได้ไหม
ความเข้าใจเกี่ยวกับอัลกอริทึมของฉันมีดังต่อไปนี้: No U-Turn Sampler (NUTS) เป็นวิธีการ Hamiltonian Monte Carlo ซึ่งหมายความว่ามันไม่ใช่วิธีของมาร์คอฟเชนดังนั้นขั้นตอนวิธีนี้จะหลีกเลี่ยงส่วนของการเดินแบบสุ่มซึ่งมักจะถือว่าไม่มีประสิทธิภาพและช้าในการบรรจบกัน แทนที่จะเดินแบบสุ่ม NUTS กระโดดข้ามความยาว x การกระโดดแต่ละครั้งจะเพิ่มเป็นสองเท่าเมื่ออัลกอริทึมยังคงทำงาน สิ่งนี้จะเกิดขึ้นจนกว่าวิถีจะถึงจุดที่ต้องการกลับไปยังจุดเริ่มต้น คำถามของฉัน: มีอะไรพิเศษเกี่ยวกับการกลับรถ? การเพิ่มเส้นทางเป็นสองเท่าไม่ข้ามจุดที่ปรับให้เหมาะสมได้อย่างไร คำอธิบายข้างต้นของฉันถูกต้องหรือไม่

1
PCA ที่แข็งแกร่งเทียบกับระยะทาง Mahalanobis ที่แข็งแกร่งสำหรับการตรวจจับค่าผิดปกติ
PCA แข็งแกร่ง (ตามที่พัฒนาโดยCandes et al, 2009หรือดีกว่ายังNetrepalli et al, 2014 ) เป็นวิธีที่นิยมใช้สำหรับการตรวจสอบค่าผิดปกติหลายตัวแปรแต่ Mahalanobis ระยะนอกจากนี้ยังสามารถนำมาใช้สำหรับการตรวจสอบขอบเขตที่กำหนดแข็งแกร่งประมาณการ regularized ของเมทริกซ์ความแปรปรวนร่วม ฉันอยากรู้เกี่ยวกับข้อดี (dis) ของการใช้วิธีหนึ่งกับอีกวิธีหนึ่ง สัญชาตญาณของฉันบอกฉันว่าความแตกต่างที่ยิ่งใหญ่ที่สุดระหว่างสองคือเมื่อข้อมูลชุด "เล็ก" (ในความหมายทางสถิติ), PCA ที่แข็งแกร่งจะให้ความแปรปรวนร่วมอันดับที่ต่ำกว่าในขณะที่การประมาณค่าความแปรปรวนร่วมที่แข็งแกร่งจะแทน อันดับความแปรปรวนเนื่องจากการทำให้เป็นปกติ Ledoit-Wolf สิ่งนี้จะส่งผลกระทบต่อการตรวจหาค่าผิดปกติอย่างไร

3
การอนุมานหลังจากใช้ Lasso เพื่อเลือกตัวแปร
ฉันใช้ Lasso สำหรับการเลือกคุณสมบัติในการตั้งค่ามิติที่ค่อนข้างต่ำ (n >> p) หลังจากติดตั้ง Lasso model แล้วฉันต้องการใช้ covariates กับสัมประสิทธิ์ที่ไม่ใช่ศูนย์เพื่อให้พอดีกับ model โดยไม่มีการลงโทษ ฉันกำลังทำเช่นนี้เพราะฉันต้องการการประเมินที่เป็นกลางซึ่ง Lasso ไม่สามารถให้ฉันได้ ฉันยังต้องการค่า p และช่วงความเชื่อมั่นสำหรับการประเมินที่เป็นกลาง ฉันมีปัญหาในการค้นหาวรรณกรรมในหัวข้อนี้ วรรณคดีที่ฉันพบส่วนใหญ่เกี่ยวกับการกำหนดช่วงความเชื่อมั่นในการประเมิน Lasso ไม่ใช่โมเดลที่มีการปรับปรุง จากสิ่งที่ฉันได้อ่านเพียงแค่อ้างอิงโมเดลโดยใช้ชุดข้อมูลทั้งหมดทำให้เกิดข้อผิดพลาด p-values ​​/ std ที่ไม่สมจริง ตอนนี้การแยกตัวอย่าง (ในรูปแบบของ Wasserman และ Roeder (2014) หรือ Meinshausen et al. (2009)) ดูเหมือนจะเป็นแนวทางที่ดี แต่ฉันกำลังมองหาคำแนะนำเพิ่มเติม มีใครพบปัญหานี้หรือไม่? ถ้าเป็นเช่นนั้นคุณช่วยกรุณาให้คำแนะนำได้ไหม

3
ความแตกต่างระหว่างตัวอย่างขั้นตอนเวลาและคุณสมบัติต่าง ๆ ในโครงข่ายประสาทเทียม
ฉันจะผ่านบล็อกต่อไปนี้ในเครือข่ายประสาท LSTM: http://machinelearningmastery.com/understanding-stateful-lstm-recurrent-neural-networks-python-keras/machinelearningmastery.com/ ผู้เขียน reshapes เวกเตอร์อินพุต X เป็น [ตัวอย่างขั้นตอนเวลาคุณสมบัติ] สำหรับการกำหนดค่า LSTM ที่แตกต่างกัน ผู้เขียนเขียน อันที่จริงลำดับของตัวอักษรเป็นขั้นตอนเวลาของคุณลักษณะหนึ่งมากกว่าหนึ่งขั้นตอนของคุณสมบัติแยกต่างหาก เราได้ให้บริบทกับเครือข่ายมากขึ้น แต่ไม่ได้เรียงตามที่คาดไว้ สิ่งนี้หมายความว่า?

3
ขั้นตอนวิธีใดที่จำเป็นต้องมีการปรับขนาดคุณลักษณะนอกเหนือจาก SVM
ฉันทำงานกับอัลกอริทึมมากมาย: RandomForest, DecisionTrees, NaiveBayes, SVM (เคอร์เนล = เชิงเส้นและ rbf), KNN, LDA และ XGBoost ทุกคนนั้นค่อนข้างเร็วยกเว้น SVM นั่นคือเมื่อฉันได้รู้ว่ามันต้องมีคุณสมบัติการปรับขนาดเพื่อให้ทำงานได้เร็วขึ้น จากนั้นฉันเริ่มสงสัยว่าฉันควรทำแบบเดียวกันกับอัลกอริทึมอื่นหรือไม่

3
วิธีรับพารามิเตอร์ไฮเปอร์ในการตรวจสอบข้ามซ้อน
ฉันได้อ่านโพสต์ต่อไปนี้สำหรับการตรวจสอบความถูกต้องไขว้แบบซ้อนกันและยังไม่แน่ใจ 100% ว่าฉันต้องทำอย่างไรกับการเลือกแบบจำลองที่มีการตรวจสอบความถูกต้องไขว้แบบซ้อน: การตรวจสอบความถูกต้องไขว้แบบซ้อนสำหรับการเลือกโมเดล การเลือกรุ่นและการตรวจสอบข้าม: วิธีการที่ถูกต้อง เพื่ออธิบายความสับสนให้ฉันลองเดินผ่านการเลือกรุ่นด้วยวิธีการตรวจสอบข้ามซ้อนขั้นตอน สร้างวง CV ด้านนอกด้วย K-Fold สิ่งนี้จะถูกใช้เพื่อประเมินประสิทธิภาพของพารามิเตอร์ไฮเปอร์ที่ "ชนะ" แต่ละ CV วงใน ใช้ GridSearchCV เพื่อสร้างวง CV ภายในที่ในแต่ละวงด้านใน GSCV จะผ่านชุดค่าผสมที่เป็นไปได้ทั้งหมดของพื้นที่พารามิเตอร์และมาพร้อมกับชุดพารามิเตอร์ที่ดีที่สุด หลังจาก GSCV พบพารามิเตอร์ที่ดีที่สุดในลูปด้านในมันจะถูกทดสอบด้วยชุดทดสอบในลูปด้านนอกเพื่อรับการประมาณค่าประสิทธิภาพ จากนั้นวงรอบนอกจะอัพเดทเป็นรอยพับถัดไปในขณะที่ชุดทดสอบและส่วนที่เหลือเป็นชุดฝึกซ้อมและ 1-3 ครั้ง พารามิเตอร์ "ที่ชนะ" ทั้งหมดที่เป็นไปได้คือจำนวนการพับที่กำหนดในลูปภายนอก ดังนั้นถ้าลูปด้านนอกเท่ากับ 5 เท่าคุณจะมีการประมาณประสิทธิภาพของอัลกอริทึมที่มีพารามิเตอร์ไฮเปอร์5 ชุดที่แตกต่างกันไม่ใช่ประสิทธิภาพของไฮเปอร์เซ็ตพารามิเตอร์หนึ่งชุด วิธีนี้แสดงให้เห็นในหน้าตัวอย่างของ SKLearn: http://scikit-learn.org/stable/auto_examples/model_selection/plot_nested_cross_validation_iris.html คำถาม: หลังจาก4.คุณจะทราบได้อย่างไรว่าพารามิเตอร์ไฮเปอร์ใดที่ทำงานได้ดีที่สุด? ฉันเข้าใจว่าคุณต้องการฝึกอัลกอริทึมของคุณ (เช่น Logistic Regression, Random Forest เป็นต้น) ด้วยชุดข้อมูล COMPLETE …

1
วิธีสร้างโมเดลสุดท้ายและปรับเกณฑ์ความน่าจะเป็นหลังจากการตรวจสอบข้ามแบบซ้อน
ประการแรกขอโทษสำหรับการโพสต์คำถามที่ได้รับการกล่าวถึงในที่มีความยาวที่นี่ , ที่นี่ , ที่นี่ , ที่นี่ , ที่นี่และสำหรับอุ่นหัวข้อเก่า ฉันรู้ว่า @DikranMarsupial เขียนเกี่ยวกับหัวข้อนี้ในโพสต์และบทความในวารสาร แต่ฉันยังสับสนและตัดสินจากจำนวนโพสต์ที่คล้ายกันที่นี่มันยังคงเป็นสิ่งที่ผู้อื่นพยายามเข้าใจ ฉันควรระบุว่าฉันได้รับความขัดแย้งในหัวข้อนี้ซึ่งเพิ่มความสับสนของฉัน คุณควรรู้ด้วยว่าตอนแรกฉันเป็นนักฟิสิกส์และไม่ใช่นักสถิติดังนั้นความเชี่ยวชาญด้านโดเมนของฉันที่นี่จึงค่อนข้าง จำกัด ฉันกำลังเขียนรายงานประจำวันที่ฉันต้องการใช้ CV ที่ซ้อนกันเพื่อประเมินประสิทธิภาพที่ฉันคาดหวังจากแบบจำลองสุดท้ายของฉัน ในโดเมนของฉันนี่เป็นครั้งแรก (เราแทบไม่เคยใช้เลยรูปแบบของ CV ที่มีประสิทธิภาพในสาขาของฉัน แต่อัดฉีดเอกสารด้วยผลลัพธ์จากการศึกษาโดยใช้อวนประสาทและต้นไม้ตัดสินใจเพิ่มขึ้น!) ดังนั้นมันสำคัญมากที่ฉันมีความเข้าใจอย่างละเอียดและชัดเจนเพื่อที่ฉันจะไม่พลาดและเผยแพร่ เป็นขั้นตอนที่ผิดพลาดในชุมชนของฉัน ขอบคุณ! ไปกับคำถาม ... ฉันจะสร้างรุ่นสุดท้ายได้อย่างไรหลังจากการตรวจสอบความถูกต้องข้ามแบบซ้อน ฉันกำลังฝึกอบรมโมเดล glmnet อย่างง่ายด้วยการทำให้เป็นมาตรฐาน L1 และ L2 มันรวดเร็วง่ายและตีความได้ ฉันทำการเปลี่ยนคุณลักษณะกึ่งกลางปรับขนาดและแปลงบ็อกซ์ค็อกซ์เพื่อให้เห็นว่าการกระจายคุณลักษณะนั้นมีค่าเฉลี่ยอยู่ที่มาตรฐานและเป็นแบบเกาส์เซียน ฉันทำขั้นตอนนี้ภายในการตรวจสอบข้ามเพื่อป้องกันการรั่วไหลของข้อมูล อย่างแท้จริงเพราะฮาร์ดแวร์ของฉันช้าอย่างไม่น่าเชื่อและฉันไม่สามารถเข้าถึงกล้ามเนื้อ CPU ได้มากขึ้นฉันจึงทำการเลือกคุณสมบัติตัวกรองที่รวดเร็วภายใน CV หลังจากการประมวลผลคุณลักษณะล่วงหน้า ฉันใช้การค้นหากริดแบบสุ่มเพื่อเลือกพารามิเตอร์อัลฟาและแลมบ์ดา ฉันเข้าใจว่าฉันไม่ควรCV loop เพื่อรับค่าประมาณนี้ ฉันเข้าใจว่าวง CV …

3
การตรวจสอบความถูกต้องไ
ถ้าฉันมีข้อมูลและฉันเรียกใช้การจำแนกประเภท (สมมติว่าฟอเรสต์แบบสุ่มบนข้อมูลนี้) ด้วยการตรวจสอบความถูกต้องข้าม (สมมติ 5 เท่า) ฉันจะสรุปได้ไหมว่าไม่มีวิธีที่เหมาะสมกว่าในวิธีการของฉัน

3
แนวคิดและสัญชาตญาณที่อยู่เบื้องหลังการประมาณค่าความน่าจะเป็นสูงสุด (QMLE)
คำถาม (s):อะไรคือความคิดและสัญชาตญาณที่อยู่เบื้องหลังการประมาณความเป็นไปได้สูงสุดเสมือน (QMLE; หรือที่เรียกว่าการประมาณความน่าจะเป็นหลอกหลอกแบบ PMLE) อะไรทำให้ตัวประมาณทำงานได้เมื่อการแจกแจงข้อผิดพลาดจริงไม่ตรงกับการแจกแจงผิดพลาด เว็บไซต์วิกิพีเดียสำหรับ QMLE ดี (สั้น ๆ ที่ใช้งานง่ายเพื่อจุด) แต่ฉันสามารถใช้บางปรีชาเพิ่มเติมและรายละเอียดอาจจะยังมีภาพประกอบ การอ้างอิงอื่น ๆ ยินดีต้อนรับมากที่สุด (ฉันจำได้ว่ามีหนังสือตำราเศรษฐศาสตร์จำนวนน้อยที่กำลังมองหาเนื้อหาเกี่ยวกับ QMLE และทำให้ฉันประหลาดใจ QMLE ถูกครอบคลุมเพียงหนึ่งหรือสองเล่มเช่น Wooldridge "การวิเคราะห์ทางเศรษฐมิติของข้อมูลส่วนและข้อมูลพาเนล" (2010) บทที่ 13 ส่วนที่ 11, หน้า 502-517)

5
การกระจายของอัตราส่วนระหว่างตัวแปรสุ่มชุดอิสระสองตัว
Supppse XXXและYYYมีการแจกแจงแบบมาตรฐานอย่างสม่ำเสมอใน[0,1][0,1][0, 1]และมีความเป็นอิสระ PDF ของZ=Y/XZ=Y/XZ = Y / Xคืออะไร คำตอบจากตำราทฤษฎีความน่าจะเป็นบางอย่างคือ fZ(z)=⎧⎩⎨1/2,1/(2z2),0,if 0≤z≤1if z>1otherwise.fZ(z)={1/2,if 0≤z≤11/(2z2),if z>10,otherwise. f_Z(z) = \begin{cases} 1/2, & \text{if } 0 \le z \le 1 \\ 1/(2z^2), & \text{if } z > 1 \\ 0, & \text{otherwise}. \end{cases} ฉันสงสัยโดยสมมาตรไม่ควรfZ(1/2)=fZ(2)fZ(1/2)=fZ(2)f_Z(1/2) = f_Z(2) ? นี่ไม่ใช่กรณีตาม PDF ข้างต้น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.