สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

6
ควรลบตัวแปรที่มีความสัมพันธ์สูงก่อนทำ PCA หรือไม่
ฉันกำลังอ่านกระดาษที่ผู้เขียนทิ้งตัวแปรหลายตัวเนื่องจากมีความสัมพันธ์สูงกับตัวแปรอื่น ๆ ก่อนทำ PCA จำนวนตัวแปรทั้งหมดประมาณ 20 สิ่งนี้ให้ประโยชน์ใด ๆ หรือไม่? ดูเหมือนว่าค่าใช้จ่ายสำหรับฉันเป็น PCA ควรจัดการสิ่งนี้โดยอัตโนมัติ
111 correlation  pca 

2
ต้นไม้ไล่ระดับสีไล่ระดับเทียบกับป่าสุ่ม
การส่งเสริมต้นไม้ไล่โทนสีตามที่เสนอโดยฟรีดแมนใช้ต้นไม้ตัดสินใจเป็นผู้เรียนพื้นฐาน ฉันสงสัยว่าเราควรสร้างแผนภูมิการตัดสินใจพื้นฐานที่ซับซ้อนที่สุดเท่าที่จะเป็นไปได้ (โตเต็มที่) หรือง่ายกว่านี้หรือไม่? มีคำอธิบายสำหรับการเลือกหรือไม่? ป่าสุ่มเป็นอีกวิธีการหนึ่งที่ใช้ต้นไม้ตัดสินใจเป็นฐานในการเรียนรู้ จากความเข้าใจของฉันเรามักใช้ต้นไม้ตัดสินใจที่โตเต็มที่ในการทำซ้ำแต่ละครั้ง ฉันถูกไหม?

3
จะเกิดอะไรขึ้นถ้าการกระจายตัวของสารตกค้างเป็นปกติ แต่ y ไม่ใช่?
ฉันมีคำถามแปลก ๆ สมมติว่าคุณมีตัวอย่างขนาดเล็กที่ตัวแปรตามที่คุณจะวิเคราะห์ด้วยตัวแบบเชิงเส้นอย่างง่ายเอียงซ้ายอย่างมาก ดังนั้นคุณคิดว่าไม่ได้กระจายตามปกติเพราะนี้จะส่งผลให้การกระจายตามปกติYแต่เมื่อคุณคำนวณพล็อต QQ-Normal มีหลักฐานแสดงว่าส่วนที่เหลือจะกระจายตามปกติ ดังนั้นทุกคนสามารถสันนิษฐานได้ว่าคำว่าข้อผิดพลาดนั้นมีการแจกแจงแบบปกติแม้ว่าจะไม่ใช่ ดังนั้นมันหมายความว่าอย่างไรเมื่อคำว่าข้อผิดพลาดดูเหมือนว่าจะกระจายตามปกติ แต่ไม่ได้?uuuyyyyyyyyy

8
การตรวจจับใบหน้าที่กำหนดในฐานข้อมูลของภาพใบหน้า
ฉันกำลังทำงานในโครงการเล็ก ๆ ที่เกี่ยวข้องกับใบหน้าของผู้ใช้ Twitter ผ่านรูปภาพโปรไฟล์ของพวกเขา ปัญหาที่ฉันพบคือหลังจากที่ฉันกรองออกทั้งหมดยกเว้นภาพที่เป็นภาพถ่ายแนวตั้งที่ชัดเจนผู้ใช้ทวิตเตอร์จำนวนเล็กน้อย แต่มีนัยสำคัญใช้รูปภาพของ Justin Bieber เป็นรูปภาพโปรไฟล์ของพวกเขา เพื่อที่จะกรองพวกเขาฉันจะบอกโปรแกรมได้อย่างไรว่ารูปภาพนั้นเป็นของ Justin Bieber?

10
ทำไมการแจกแจงโคชีจึงไม่มีความหมาย?
จากฟังก์ชันความหนาแน่นของการกระจายเราสามารถระบุค่าเฉลี่ย (= 0) สำหรับการแจกแจงโคชีเช่นเดียวกับกราฟด้านล่างที่แสดง แต่ทำไมเราถึงบอกว่าการกระจาย Cauchy นั้นไม่มีความหมายเลย?

6
คุณจะอธิบายความแตกต่างระหว่างสหสัมพันธ์และความแปรปรวนร่วมได้อย่างไร
การติดตามคำถามนี้คุณจะอธิบายความแปรปรวนร่วมของคนที่เข้าใจค่าเฉลี่ยได้อย่างไร ซึ่งกล่าวถึงปัญหาของการอธิบายความแปรปรวนร่วมกับบุคคลทั่วไปทำให้เกิดคำถามคล้ายกันขึ้นมาในใจ หนึ่งจะอธิบายให้ neophyte สถิติความแตกต่างระหว่างความแปรปรวนร่วมและสหสัมพันธ์อย่างไร ดูเหมือนว่าทั้งสองอ้างถึงการเปลี่ยนแปลงในตัวแปรหนึ่งที่เชื่อมโยงกลับไปยังตัวแปรอื่น คล้ายกับคำถามที่อ้างถึงการขาดสูตรจะดีกว่า

15
ผลการเลือกตั้งของสหรัฐอเมริกาปี 2016: เกิดอะไรขึ้นกับแบบจำลองการทำนาย?
ครั้งแรกมันคือBrexitตอนนี้การเลือกตั้งสหรัฐ การทำนายแบบจำลองจำนวนมากถูกปิดลงโดยมีระยะขอบกว้างและมีบทเรียนที่ต้องเรียนรู้ที่นี่หรือไม่? ดึกแค่สี่ทุ่ม PST เมื่อวานนี้ตลาดการเดิมพันยังคงเป็นที่นิยมของฮิลลารี 4 ต่อ 1 ฉันคิดว่าตลาดการเดิมพันด้วยเงินจริงในบรรทัดควรทำหน้าที่เป็นชุดของการทำนายที่มีทั้งหมด ดังนั้นจึงไม่ใช่เรื่องที่ไกลเกินกว่าที่จะบอกว่าแบบจำลองเหล่านี้ทำงานได้ไม่ดีนัก ฉันเห็นหนึ่งคำอธิบายว่าผู้ลงคะแนนไม่เต็มใจที่จะระบุตัวเองว่าเป็นผู้สนับสนุนทรัมป์ แบบจำลองสามารถรวมเอฟเฟกต์แบบนั้นได้อย่างไร คำอธิบายหนึ่งแมโครผมอ่านคือการเพิ่มขึ้นของประชานิยม คำถามคือโมเดลทางสถิติสามารถจับแนวโน้มมาโครได้อย่างไร แบบจำลองการทำนายเหล่านี้ออกมามีน้ำหนักมากเกินไปกับข้อมูลจากการสำรวจและความเชื่อมั่นซึ่งไม่เพียงพอจากที่ประเทศกำลังยืนอยู่ในมุมมอง 100 ปี? ฉันกำลังพูดถึงความคิดเห็นของเพื่อน

5
Support Vector Machine (SVM) ทำงานอย่างไร
อย่างไรเครื่องสนับสนุนเวกเตอร์ (SVM)การทำงานและสิ่งที่แตกต่างจากตัวจําแนกเชิงเส้นอื่น ๆ เช่นเป็น Linear Perceptron , เชิงเส้นวิเคราะห์จำแนกหรือถดถอยโลจิสติ ? * * * * (* ฉันกำลังคิดในแง่ของแรงจูงใจพื้นฐานสำหรับอัลกอริทึมกลยุทธ์การปรับให้เหมาะสมความสามารถในการวางนัยทั่วไปและความซับซ้อนของเวลาทำงาน )

6
มีการตีความ
สำหรับเมทริกซ์ข้อมูล (พร้อมตัวแปรในคอลัมน์และจุดข้อมูลในแถว) ดูเหมือนว่าA T Aมีบทบาทสำคัญในสถิติ ตัวอย่างเช่นมันเป็นส่วนสำคัญของโซลูชันการวิเคราะห์ของกำลังสองน้อยสุดธรรมดา หรือสำหรับ PCA eigenvector นั้นเป็นองค์ประกอบหลักของข้อมูลAAAATAATAA^TA ฉันเข้าใจวิธีคำนวณแต่ฉันสงสัยว่ามีการตีความที่เข้าใจง่ายเกี่ยวกับความหมายของเมทริกซ์นี้หรือไม่ซึ่งนำไปสู่บทบาทที่สำคัญATAATAA^TA

4
กฎ. 632+ ในการบูตสแตรปคืออะไร
ที่นี่ @gung อ้างอิงถึงกฎ. 632+ การค้นหาโดย Google อย่างรวดเร็วไม่ได้ให้คำตอบที่เข้าใจง่ายว่ากฎนี้หมายถึงอะไรและใช้เพื่อจุดประสงค์ใด มีคนช่วยอธิบายกฎ. 632+ หน่อยได้ไหม
107 bootstrap 

5
ทักษะใดที่จำเป็นสำหรับการวิเคราะห์ทางสถิติขนาดใหญ่
งานสถิติหลายงานขอประสบการณ์กับข้อมูลขนาดใหญ่ ทักษะทางสถิติและการคำนวณประเภทใดที่จำเป็นสำหรับการทำงานกับชุดข้อมูลขนาดใหญ่ ตัวอย่างเช่นวิธีการสร้างแบบจำลองการถดถอยที่ให้ชุดข้อมูลที่มีตัวอย่าง 10 ล้านตัวอย่าง


7
ทำไมความแม่นยำจึงไม่ใช่มาตรการที่ดีที่สุดสำหรับการประเมินแบบจำลองการจำแนก?
นี่เป็นคำถามทั่วไปที่ถูกถามทางอ้อมหลายครั้ง แต่ไม่มีคำตอบที่เชื่อถือได้ มันจะเป็นการดีถ้ามีคำตอบโดยละเอียดสำหรับการอ้างอิง ความถูกต้องของสัดส่วนของการจำแนกประเภทที่ถูกต้องในหมู่ทุกประเภทที่สามารถทำได้ง่ายและมากวัด "ที่ใช้งานง่าย" แต่มันอาจจะเป็นตัวชี้วัดที่ดีสำหรับข้อมูลที่ไม่สมดุล ทำไมสัญชาตญาณของเราทำให้เราเข้าใจผิดที่นี่และมีปัญหาอื่นใดกับมาตรการนี้

6
1x1 convolution หมายถึงอะไรในเครือข่ายประสาทเทียม
ขณะนี้ฉันกำลังสอน Udacity Deep Learning ในบทที่ 3 พวกเขาพูดถึงการโน้มน้าวใจ 1x1 การแปลง 1x1 นี้ใช้ในโมดูลการเริ่มต้นของ Google ฉันมีปัญหาในการทำความเข้าใจว่าอะไรคือการโน้มน้าวใจ 1x1 ฉันได้เห็นโพสต์นี้โดย Yann Lecun ด้วย ใครช่วยอธิบายเรื่องนี้ให้ฉันหน่อยได้ไหม

16
ข้อกำหนดทางสถิติที่ใช้ผิดประเภทใดที่ควรแก้ไข
สถิติมีอยู่ทุกที่ อย่างไรก็ตามการใช้คำศัพท์ทางสถิติทั่วไปมักไม่ชัดเจน ความน่าจะเป็นของคำศัพท์และอัตราต่อรองนั้นใช้แทนกันได้ในการเขียนภาษาอังกฤษแม้จะมีการแสดงออกทางคณิตศาสตร์ที่ชัดเจนและแตกต่างกัน การไม่แยกคำที่น่าจะเป็นจากความน่าจะเป็นเป็นประจำทำให้แพทย์สับสนพยายามหาปริมาณความน่าจะเป็นของมะเร็งเต้านมเนื่องจากการตรวจเต้านมด้วยวิธีบวก“ โอ้ช่างเป็นเรื่องไร้สาระ ฉันทำสิ่งนี้ไม่ได้ คุณควรทดสอบลูกสาวของฉัน เธอกำลังศึกษาเรื่องยา” การแพร่กระจายอย่างเท่าเทียมกันคือการใช้ความสัมพันธ์แทนสมาคม หรือความสัมพันธ์หมายความสาเหตุ ในสารคดีที่โด่งดังของอัลกอร์An Invenvenient Truthสไลด์แสดงความสัมพันธ์ของแกนน้ำแข็งและอุณหภูมิออกจากงานทางเทคนิคเพื่อพิสูจน์สาเหตุของการอภิปราย:CO2CO2\small \text{CO}_2 คำถาม:เงื่อนไขทางสถิติใดที่ทำให้เกิดปัญหาในการตีความเมื่อใช้งานโดยไม่ต้องใช้ความรุนแรงทางคณิตศาสตร์และควรแก้ไขอย่างไร
103 terminology 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.