สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
วิธีการเลือกเมตริกข้อผิดพลาดเมื่อประเมินลักษณนาม
ฉันเคยเห็นมาตรวัดข้อผิดพลาดที่แตกต่างกันที่ใช้ในการแข่งขัน Kaggle: RMS, Mean-square, AUC และอื่น ๆ กฎทั่วไปเกี่ยวกับการเลือกข้อผิดพลาดทั่วไปคืออะไรคุณจะทราบได้อย่างไรว่าการวัดข้อผิดพลาดแบบใดที่จะใช้สำหรับปัญหาที่ระบุ มีแนวทางใดบ้าง

2
การกระจายเพื่อสะท้อนสถานการณ์ที่รอคอยบางอย่างทำให้เราคาดหวังมากขึ้น
ในการอ่านบันทึกย่อของ Blake Master เกี่ยวกับการบรรยายของ Peter Thiel ในช่วงเริ่มต้นฉันเจอคำอุปมาเรื่องพรมแดนด้านเทคโนโลยีนี้: นึกภาพโลกว่าถูกปกคลุมด้วยบึงทะเลสาบและมหาสมุทร คุณอยู่ในเรือในน้ำ แต่มันมีหมอกมากคุณจึงไม่รู้ว่ามันอยู่ไกลจากฝั่งตรงไหน คุณไม่รู้ว่าคุณอยู่ในสระน้ำทะเลสาบหรือมหาสมุทร หากคุณอยู่ในสระน้ำคุณอาจคาดว่าการข้ามจะใช้เวลาประมาณหนึ่งชั่วโมง ดังนั้นถ้าคุณออกไปเที่ยวทั้งวันคุณจะอยู่ในทะเลสาบหรือมหาสมุทร หากคุณออกนอกประเทศเป็นปีคุณกำลังข้ามมหาสมุทร การเดินทางที่ยาวนานขึ้นการเดินทางที่เหลือของคุณก็นานขึ้น เป็นเรื่องจริงที่คุณจะเข้าใกล้อีกด้านมากขึ้นเมื่อเวลาผ่านไป แต่ที่นี่เวลาผ่านไปก็บ่งบอกว่าคุณยังมีวิธีที่จะไป คำถามของฉัน: มีการแจกแจงความน่าจะเป็นหรือกรอบงานเชิงสถิติที่เป็นแบบอย่างที่ดีที่สุดในสถานการณ์นี้

1
การหาฟังก์ชั่นความหนาแน่นในท้องถิ่นโดยใช้เส้นโค้ง
ฉันพยายามหาค่าสูงสุดในพื้นที่สำหรับฟังก์ชันความหนาแน่นของความน่าจะเป็น (พบได้โดยใช้densityวิธีของ R ) ฉันไม่สามารถใช้วิธี "ดูรอบ ๆ เพื่อนบ้าน" แบบง่าย ๆ (ที่จุดหนึ่งมองไปรอบ ๆ เพื่อดูว่าเป็นระดับสูงสุดในพื้นที่ที่เกี่ยวกับเพื่อนบ้าน) หรือไม่เนื่องจากมีข้อมูลจำนวนมาก นอกจากนี้ดูเหมือนว่ามีประสิทธิภาพและทั่วไปมากกว่าที่จะใช้การแก้ไข Spline แล้วค้นหารากของอนุพันธ์อันดับ 1 เมื่อเทียบกับการสร้าง "มองไปรอบ ๆ เพื่อนบ้าน" ด้วยการยอมรับข้อบกพร่องและพารามิเตอร์อื่น ๆ ดังนั้นคำถามของฉัน: เมื่อพิจารณาจากฟังก์ชันsplinefunจะหาค่าสูงสุดในท้องถิ่นได้อย่างไร มีวิธีง่าย ๆ / เป็นมาตรฐานในการค้นหาอนุพันธ์ของฟังก์ชันที่ส่งคืนโดยใช้ splinefunหรือไม่? มีวิธีที่ดีกว่า / มาตรฐานในการหาค่าสูงสุดในท้องถิ่นของฟังก์ชันความหนาแน่นของความน่าจะเป็นหรือไม่? สำหรับการอ้างอิงด้านล่างเป็นพล็อตของฟังก์ชั่นความหนาแน่นของฉัน ฟังก์ชั่นความหนาแน่นอื่น ๆ ที่ฉันทำงานด้วยนั้นคล้ายกันในรูปแบบ ฉันควรจะบอกว่าฉันใหม่กับ R แต่ไม่ใช่เรื่องใหม่สำหรับการเขียนโปรแกรมดังนั้นอาจมีไลบรารีหรือแพ็คเกจมาตรฐานสำหรับการบรรลุสิ่งที่ฉันต้องการ ขอบคุณสำหรับความช่วยเหลือของคุณ!!
15 r  pdf  splines  maximum 

4
การดำเนินงานของโอกาสในโลกที่กำหนดขึ้น
ในหนังสือของสตีเว่นพิ้งเกอร์Better Angels of Our Natureเขาบันทึกไว้ว่า ความน่าจะเป็นเป็นเรื่องของมุมมอง เมื่อมองในระยะใกล้พอแต่ละเหตุการณ์มีสาเหตุที่แน่ชัด แม้แต่การพลิกเหรียญก็สามารถทำนายได้จากเงื่อนไขเริ่มต้นและกฎของฟิสิกส์และนักมายากลที่มีทักษะสามารถใช้ประโยชน์จากกฎหมายเหล่านั้นเพื่อโยนหัวทุกครั้ง แต่เมื่อเราซูมออกเพื่อดูภาพมุมกว้างของเหตุการณ์เหล่านี้จำนวนมากเราจะเห็นผลรวมของสาเหตุมากมายที่บางครั้งก็ยกเลิกซึ่งกันและกันและบางครั้งก็จัดเรียงในทิศทางเดียวกัน นักฟิสิกส์และนักปรัชญาอองรีโปนแคร์อธิบายว่าเราเห็นการดำเนินการของโอกาสในโลกที่กำหนดขึ้นไม่ว่าจะเป็นสาเหตุของความอ่อนแอจำนวนมากเพิ่มขึ้นเป็นผลที่น่ากลัวหรือเมื่อสาเหตุเล็ก ๆ .ในกรณีที่มีการใช้ความรุนแรงบางคนอาจต้องการเริ่มสงคราม เขารอช่วงเวลาที่เหมาะสมซึ่งอาจจะมีหรือไม่มีก็ได้ ศัตรูของเขาตัดสินใจที่จะมีส่วนร่วมหรือถอย; กระสุนบิน; ระเบิดระเบิด คนตาย ทุกเหตุการณ์อาจถูกกำหนดโดยกฎหมายของระบบประสาทและฟิสิกส์และสรีรวิทยา แต่ในภาพรวมสาเหตุหลายประการที่เข้าสู่เมทริกซ์นี้บางครั้งสามารถสับเป็นชุดค่าผสมที่รุนแรงได้ (หน้า 209) ฉันสนใจประโยคที่เป็นตัวหนา แต่ฉันให้ส่วนที่เหลือตามบริบท คำถามของฉัน: มีวิธีทางสถิติในการอธิบายสองกระบวนการที่ Poincare อธิบายหรือไม่ นี่คือการคาดเดาของฉัน: 1) "สาเหตุการลงโทษจำนวนมากเพิ่มขึ้นถึงเอฟเฟกต์ที่น่ากลัว" "การจำนวนมากสาเหตุ" และ "เพิ่มขึ้น" เสียงกับผมเช่นทฤษฎีบทขีด จำกัด กลาง แต่ใน (ความหมายดั้งเดิมของ) CLT สาเหตุจำเป็นต้องเป็นตัวแปรสุ่มไม่ใช่ผลกระทบที่กำหนดไว้ เป็นวิธีมาตรฐานที่นี่เพื่อประมาณผลกระทบที่กำหนดเหล่านี้เป็นตัวแปรสุ่มบางชนิด? 2) "สาเหตุเล็ก ๆ น้อย ๆ ที่ทำให้การแจ้งเตือนของเราเป็นตัวกำหนดผลกระทบขนาดใหญ่ที่เราไม่ควรพลาด" มันดูเหมือนว่าผมชอบคุณอาจจะคิดว่านี้เป็นจัดเรียงของบางรูปแบบมาร์คอฟซ่อน แต่ความน่าจะเป็นในการเปลี่ยนสถานะ (ไม่สามารถสังเกตเห็นได้) …

4
ข้อดีของ ROC curves
ข้อดีของ ROC curves คืออะไร? ตัวอย่างเช่นฉันจำแนกภาพบางส่วนซึ่งเป็นปัญหาการจำแนกเลขฐานสอง ฉันแยกคุณสมบัติประมาณ 500 รายการและใช้อัลกอริทึมการเลือกคุณลักษณะเพื่อเลือกชุดคุณลักษณะแล้วฉันใช้ SVM สำหรับการจัดหมวดหมู่ ในกรณีนี้ฉันจะขอ ROC โค้งได้อย่างไร? ฉันควรเปลี่ยนค่าขีด จำกัด ของอัลกอริทึมการเลือกคุณลักษณะของฉันและรับความไวและความจำเพาะของเอาต์พุตเพื่อวาดเส้นโค้ง ROC หรือไม่ ในกรณีของฉันวัตถุประสงค์ของการสร้างเส้นโค้ง ROC คืออะไร

2
การถดถอยเชิงเส้นหลายครั้งสำหรับการทดสอบสมมติฐาน
ฉันคุ้นเคยกับการใช้การถดถอยเชิงเส้นหลายครั้งเพื่อสร้างแบบจำลองของตัวแปรต่าง ๆ อย่างไรก็ตามฉันสงสัยว่าการทดสอบการถดถอยจะใช้ในการทำการทดสอบสมมติฐานพื้นฐานประเภทใด ถ้าเป็นเช่นนั้นสถานการณ์ / สมมติฐานเหล่านั้นจะเป็นอย่างไร?

1
การเลือกคุณสมบัติ Chi-Square ทำงานอย่างไร
ฉันรู้ว่าสำหรับคู่ของฟีเจอร์คลาสแต่ละคู่ค่าของสถิติไคสแควร์จะถูกคำนวณและเปรียบเทียบกับขีด จำกัด ฉันสับสนเล็กน้อย หากมีคุณสมบัติและคลาสหนึ่งจะสร้างตารางฉุกเฉินได้อย่างไร ใครจะเป็นผู้ตัดสินใจว่าจะเก็บฟีเจอร์ใดและฟีเจอร์ใดที่จะลบ?ม.ม.mkkk การชี้แจงใด ๆ จะได้รับการชื่นชมมาก ขอบคุณล่วงหน้า

3
หลักสูตรความผิดพลาดในการประมาณค่าเฉลี่ยที่มีประสิทธิภาพ
ฉันมีการประมาณ (ประมาณ 1,000 รายการ) และพวกเขาทั้งหมดควรจะประมาณความยืดหยุ่นในระยะยาว น้อยกว่าครึ่งหนึ่งของจำนวนนี้ประมาณโดยใช้วิธี A และที่เหลือใช้วิธี B บางแห่งที่ฉันอ่านบางสิ่งบางอย่างเช่น "ฉันคิดว่าวิธี B ประมาณการบางสิ่งที่แตกต่างจากวิธี A มากขึ้นเนื่องจากการประมาณการสูงกว่ามาก (50-60%) " ความรู้เกี่ยวกับสถิติที่แข็งแกร่งของฉันนั้นอยู่ถัดจากอะไรเลยดังนั้นฉันจึงคำนวณค่าเฉลี่ยตัวอย่างและค่ามัธยฐานของตัวอย่างทั้งสอง ... และฉันเห็นความแตกต่างทันที วิธี A มีความเข้มข้นมากความแตกต่างระหว่างค่ามัธยฐานและค่าเฉลี่ยน้อยมาก แต่ตัวอย่างวิธี B แตกต่างกันอย่างมาก ฉันได้ข้อสรุปว่าค่าผิดปกติและการวัดผิดพลาดทำให้ตัวอย่างวิธี B ดังนั้นฉันโยนค่าประมาณ 50 ค่า (ประมาณ 15%) ที่ไม่สอดคล้องกับทฤษฎี ... และทันใดนั้นค่าเฉลี่ยของทั้งสองตัวอย่าง (รวมถึง CI) มีความคล้ายคลึงกันมาก . ความหนาแน่นของแปลงก็เช่นกัน (ในการค้นหาการกำจัดค่าผิดปกติฉันดูช่วงของตัวอย่าง A และลบจุดตัวอย่างทั้งหมดใน B ที่อยู่นอกมัน) ฉันอยากให้คุณบอกฉันว่าฉันสามารถหาข้อมูลเบื้องต้นเกี่ยวกับการประมาณค่าที่แข็งแกร่งของวิธีการที่จะ อนุญาตให้ฉันตัดสินสถานการณ์นี้อย่างจริงจังมากขึ้น และจะมีการอ้างอิงบางอย่าง ฉันไม่ต้องการความเข้าใจอย่างลึกซึ้งในเทคนิคต่าง …

7
อัลกอริทึมการเรียนรู้ของเครื่องใดที่สามารถใช้เพื่อทำนายตลาดหุ้น?
อีกวิธีหนึ่งคือการทำนายตลาดแลกเปลี่ยนเงินตราต่างประเทศ ฉันรู้ว่าสิ่งนี้อาจซับซ้อนมากดังนั้นในการแนะนำตัวฉันกำลังมองหาอัลกอริธึมการทำนายอย่างง่ายที่มีความแม่นยำ (สำหรับโครงการวิทยาศาสตรมหาบัณฑิตที่ใช้เวลาสี่เดือน) ฉันได้อ่านแล้วว่าเครือข่ายประสาทหลายชั้นอาจมีประโยชน์ ความคิดใด ๆ นอกจากนี้การวิเคราะห์เชิงความหมายของโซเชียลมีเดียอาจให้ข้อมูลเชิงลึกเกี่ยวกับพฤติกรรมของตลาดซึ่งมีอิทธิพลต่อตลาดหุ้น อย่างไรก็ตามการวิเคราะห์เชิงความหมายอยู่นอกขอบเขตของโครงการในขณะนี้


2
ถ้าฉันทำซ้ำการสังเกตทุกตัวอย่างในแบบจำลองการถดถอยเชิงเส้นและทำการถดถอยอีกครั้งผลลัพธ์จะได้รับผลกระทบอย่างไร
บอกว่าฉันมีการสังเกต N อาจเป็นหลายปัจจัยและฉันทำซ้ำการสังเกตแต่ละครั้งสองครั้ง (หรือ M ครั้ง) การถดถอยของขนาด NM ใหม่นี้จะเปรียบเทียบกับการถดถอยเพียงแค่การสังเกตการณ์ดั้งเดิมได้อย่างไร

2
เหตุใดการกระจายแบบปัวซงจึงถูกเลือกให้เป็นแบบจำลองกระบวนการมาถึงในปัญหาเชิงทฤษฎีแถวคอย?
เมื่อเราพิจารณาสถานการณ์สมมติทางทฤษฎีที่บุคคลเข้ามาที่โหนดการให้บริการและการจัดคิวมักจะใช้กระบวนการปัวซองเพื่อทำแบบจำลองเวลาที่มาถึง สถานการณ์เหล่านี้เกิดขึ้นในปัญหาการกำหนดเส้นทางเครือข่าย ฉันขอขอบคุณคำอธิบายที่เข้าใจง่ายว่าทำไมกระบวนการปัวซองจึงเหมาะสมที่สุดในการจำลองแบบขาเข้า

5
อัลกอริทึมการจำแนกทางสถิติใดที่สามารถทำนายความจริง / เท็จสำหรับลำดับของอินพุตได้
กำหนดลำดับของอินพุตฉันต้องพิจารณาว่าลำดับนี้มีคุณสมบัติที่ต้องการหรือไม่ คุณสมบัติสามารถเป็นจริงหรือเท็จนั่นคือมีเพียงสองคลาสที่เป็นไปได้ที่ลำดับสามารถเป็นของ ความสัมพันธ์ที่แน่นอนระหว่างลำดับและคุณสมบัตินั้นไม่ชัดเจน แต่ฉันเชื่อว่ามันสอดคล้องกันมากและควรให้ยืมเพื่อการจำแนกทางสถิติ ฉันมีหลายกรณีที่ต้องฝึกลักษณนามถึงแม้ว่ามันอาจจะมีเสียงดังเล็กน้อยในแง่ที่ว่ามีความเป็นไปได้ที่จะมีการมอบหมายลำดับคลาสที่ไม่ถูกต้องในชุดฝึกอบรมนี้ ตัวอย่างข้อมูลการฝึกอบรม: Sequence 1: (7 5 21 3 3) -> true Sequence 2: (21 7 5 1) -> true Sequence 3: (12 21 7 5 11 1) -> false Sequence 4: (21 5 7 1) -> false ... ในแง่หยาบทรัพย์สินจะถูกกำหนดโดยชุดของค่าในลำดับ (เช่นการปรากฏตัวของ "11" หมายความว่าทรัพย์สินเกือบจะเป็นเท็จ) เช่นเดียวกับคำสั่งของค่า (เช่น "21 7 …

2
ความแตกต่างระหว่างความแปรปรวนตัวอย่างและความแปรปรวนการสุ่มตัวอย่างคืออะไร
ความแตกต่างระหว่างความแปรปรวนตัวอย่างและความแปรปรวนการสุ่มตัวอย่างคืออะไร พวกเขาดูเหมือนกัน ไม่ใช่เหรอ

4
การถดถอยโลจิสติกพร้อมตัวแปรไบนารีและตัวแปรอิสระ
มันเหมาะสมที่จะทำการถดถอยโลจิสติกที่ตัวแปรทั้งสองขึ้นอยู่กับและเป็นอิสระหรือไม่ ตัวอย่างเช่นตัวแปรที่ขึ้นต่อกันคือ 0 และ 1 และตัวทำนายคือตัวแปรที่มีรหัสความคมชัด -1 และ 1?
15 logistic 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.