สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

8
ผู้สืบทอดยุคใหม่ในการวิเคราะห์ข้อมูลเชิงสำรวจโดย Tukey?
ฉันอ่านหนังสือของ Tukey "Exploratory Data Analysis" หนังสือเล่มนี้เขียนขึ้นเมื่อปี พ.ศ. 2520 โดยเน้นวิธีการใช้กระดาษ / ดินสอ มีผู้สืบทอดที่ 'ทันสมัย' มากขึ้นซึ่งพิจารณาว่าตอนนี้เราสามารถพล็อตชุดข้อมูลขนาดใหญ่ได้หรือไม่?

5
โครงข่ายประสาทเทียมเทียบกับเครื่องเวกเตอร์สนับสนุน: เป็นอันดับสองที่เหนือกว่าอย่างแน่นอนหรือไม่
ผู้เขียนบทความจำนวนมากที่ฉันอ่านยืนยันว่า SVM เป็นเทคนิคที่เหนือกว่าในการเผชิญกับปัญหาการถดถอย / การจำแนกประเภทของพวกเขาทราบว่าพวกเขาไม่สามารถรับผลลัพธ์ที่คล้ายกันผ่าน NNs บ่อยครั้งที่การเปรียบเทียบระบุว่า SVM แทน NNs มีทฤษฎีการก่อตั้งที่แข็งแกร่ง เข้าถึงโลกที่เหมาะสมเนื่องจากการเขียนโปรแกรมสมการกำลังสอง ไม่มีปัญหาในการเลือกพารามิเตอร์ที่เหมาะสม มีความเสี่ยงที่จะเกิดการแพ้น้อยกว่า ต้องการหน่วยความจำน้อยลงเพื่อจัดเก็บแบบจำลองการทำนาย ให้ผลลัพธ์ที่อ่านง่ายขึ้นและการตีความทางเรขาคณิต มันเป็นความคิดที่ยอมรับกันอย่างกว้างขวางหรือไม่? อย่าอ้างทฤษฎีบทอาหารกลางวันแบบไม่มีข้อความหรือข้อความที่คล้ายกันคำถามของฉันคือการใช้เทคนิคเหล่านั้นในทางปฏิบัติ ในอีกด้านหนึ่งปัญหาเชิงนามธรรมประเภทใดที่คุณจะต้องเผชิญกับ NN อย่างแน่นอน


6
การทำนายของแบบจำลองฟอเรสต์มีช่วงเวลาการทำนายหรือไม่?
ถ้าฉันเรียกใช้randomForestแบบจำลองฉันสามารถทำการทำนายตามแบบจำลองได้ มีวิธีใดที่จะได้ช่วงเวลาการทำนายของการทำนายแต่ละครั้งเช่นที่ฉันรู้ว่า "แน่ใจ" โมเดลนั้นเป็นคำตอบของมันหรือไม่ ถ้าเป็นไปได้มันขึ้นอยู่กับความแปรปรวนของตัวแปรตามสำหรับโมเดลทั้งหมดหรือจะมีช่วงกว้างขึ้นและแคบขึ้นอยู่กับแผนผังการตัดสินใจเฉพาะที่ตามมาสำหรับการทำนายโดยเฉพาะ

3
ANOVA สมมติฐานปกติ / การแจกแจงปกติของสารตกค้าง
หน้าวิกิพีเดีย ANOVA แสดงรายการสามสมมติฐานคือ: ความเป็นอิสระของคดี - นี่คือสมมติฐานของรูปแบบที่ทำให้การวิเคราะห์ทางสถิติง่ายขึ้น Normality - การแจกแจงของค่าตกค้างเป็นเรื่องปกติ ความเสมอภาค (หรือ "ความเหมือนกัน") ของความแปรปรวนที่เรียกว่า homoscedasticity ... จุดที่น่าสนใจที่นี่คือข้อสมมติฐานที่สอง แหล่งที่มาหลายรายการระบุสมมติฐานแตกต่างกัน บางคนบอกว่าภาวะปกติของข้อมูลดิบบางคนอ้างว่าเหลืออยู่ มีคำถามหลายข้อปรากฏขึ้น: กฎเกณฑ์และการแจกแจงปกติของคนตกค้างเป็นคนคนเดียวกัน (จากรายการ Wikipedia ฉันจะอ้างว่า normality เป็นทรัพย์สินและไม่เกี่ยวข้องกับคนที่เหลือโดยตรง (แต่อาจเป็นสมบัติของคนตกค้าง (ข้อความที่ซ้อนกันลึกภายในวงเล็บประหลาด))) ถ้าไม่ใช่ข้อสันนิษฐานใดควรถืออยู่ หนึ่ง? ทั้งสอง? หากข้อสันนิษฐานของการกระจายที่เหลือตามปกติเป็นสิ่งที่ถูกต้องเราจะทำผิดพลาดร้ายแรงโดยการตรวจสอบฮิสโตแกรมของค่าดิบสำหรับความปกติ?

2
ความสัมพันธ์ระหว่างการทดสอบไคสแควร์และการทดสอบในสัดส่วนเท่ากันคืออะไร?
สมมติว่าฉันมีประชากรสามคนที่มีสี่ลักษณะที่ไม่เหมือนกันซึ่งกันและกัน ฉันสุ่มตัวอย่างตัวอย่างจากประชากรแต่ละคนและสร้างแท็บไขว้หรือตารางความถี่สำหรับลักษณะที่ฉันวัด ฉันถูกต้องในการพูดว่า: ถ้าฉันต้องการทดสอบว่ามีความสัมพันธ์ใด ๆ ระหว่างประชากรและลักษณะ (เช่นว่าหนึ่งประชากรมีความถี่สูงกว่าหนึ่งในลักษณะ) ฉันควรใช้การทดสอบไคสแควร์และดูว่าผลที่มีความสำคัญ หากการทดสอบแบบไคสแควร์มีความสำคัญแสดงให้ฉันเห็นว่ามีความสัมพันธ์ระหว่างประชากรและคุณลักษณะบางอย่าง แต่ไม่ใช่ความสัมพันธ์ ยิ่งไปกว่านั้นคุณสมบัติบางอย่างนั้นไม่จำเป็นต้องเกี่ยวข้องกับประชากร ตัวอย่างเช่นหากประชากรที่แตกต่างกันมีการแจกแจงที่แตกต่างกันอย่างมากของคุณสมบัติ A และ B แต่ไม่ใช่ของ C และ D ดังนั้นการทดสอบไคสแควร์อาจยังกลับมามีความหมาย ถ้าผมต้องการที่จะวัดหรือไม่ว่าลักษณะที่เฉพาะเจาะจงได้รับผลกระทบโดยประชากรแล้วฉันสามารถเรียกใช้การทดสอบสำหรับสัดส่วนที่เท่ากัน (ฉันได้เห็นนี้เรียกว่า Z-test หรือเป็นprop.test()ในR) เพียงลักษณะที่ กล่าวอีกนัยหนึ่งเหมาะสมที่จะใช้prop.test()เพื่อกำหนดลักษณะของความสัมพันธ์ระหว่างชุดสองประเภทอย่างแม่นยำมากขึ้นเมื่อการทดสอบไคสแควร์บอกว่ามีความสัมพันธ์ที่สำคัญหรือไม่

8
Excel เป็นโต๊ะทำงานสถิติ
ดูเหมือนว่าผู้คนจำนวนมาก (รวมถึงฉัน) ต้องการทำการวิเคราะห์ข้อมูลเชิงสำรวจใน Excel ข้อ จำกัด บางประการเช่นจำนวนแถวที่อนุญาตในสเปรดชีตเป็นความเจ็บปวด แต่ในกรณีส่วนใหญ่ไม่สามารถใช้ Excel เพื่อเล่นข้อมูลได้ อย่างไรก็ตามบทความของ McCullough และ Heiserนั้นกรีดร้องว่าคุณจะได้รับผลที่ผิด - และอาจไหม้อยู่ในนรกได้เช่นกัน - ถ้าคุณพยายามใช้ Excel กระดาษนี้ถูกต้องหรือมันลำเอียง? ผู้เขียนทำเสียงเหมือนพวกเขาเกลียดชัง Microsoft

14
อะไรคือลักษณะที่น่าแปลกใจที่สุดของการแจกแจงแบบเกาส์ (ปกติ)?
การแจกแจงแบบเกาส์มาตรฐานบนสามารถกำหนดได้โดยให้ความหนาแน่นอย่างชัดเจน: RR\mathbb{R}12π−−√e−x2/212πe−x2/2 \frac{1}{\sqrt{2\pi}}e^{-x^2/2} หรือฟังก์ชั่นลักษณะของมัน ตามที่นึกไว้ในคำถามนี้มันก็เป็นเพียงการแจกแจงที่ค่าเฉลี่ยและความแปรปรวนตัวอย่างเป็นอิสระ อะไรคือคุณสมบัติทางเลือกที่น่าแปลกใจอื่น ๆ ของ Gaussian ที่คุณรู้ ฉันจะยอมรับคำตอบที่น่าประหลาดใจที่สุด


2
ANN เครือข่ายประสาทเทียมสามารถใช้สำหรับการจัดกลุ่มที่ไม่ได้รับการดูแลได้อย่างไร?
ฉันเข้าใจวิธีartificial neural network (ANN)สามารถฝึกอบรมในลักษณะที่มีการควบคุมดูแลโดยใช้ backpropogation เพื่อปรับปรุงอุปกรณ์ให้เหมาะสมโดยลดข้อผิดพลาดในการทำนาย ฉันเคยได้ยินว่า ANN สามารถใช้สำหรับการเรียนรู้ที่ไม่มีผู้ดูแลแต่วิธีการนี้สามารถทำได้โดยไม่ต้องมีฟังก์ชั่นค่าใช้จ่ายบางอย่างเพื่อเป็นแนวทางในขั้นตอนการปรับให้เหมาะสม ด้วย k-mean หรืออัลกอริทึม EM มีฟังก์ชันที่แต่ละการค้นหาซ้ำเพื่อเพิ่ม เราจะทำคลัสเตอร์กับ ANN ได้อย่างไรและใช้กลไกใดในการจัดกลุ่มจุดข้อมูลในท้องที่เดียวกัน (และมีความสามารถพิเศษอะไรบ้างที่มาพร้อมกับเพิ่มเลเยอร์ให้มากขึ้น)

6
การจำแนกไบนารีด้วยคลาสที่ไม่สมดุลอย่างยิ่ง
ฉันมีชุดข้อมูลในรูปแบบของ (ฟีเจอร์, เอาต์พุตไบนารี 0 หรือ 1), แต่ 1 เกิดขึ้นน้อยมาก, ดังนั้นโดยการคาดการณ์เสมอ 0, ฉันได้รับความแม่นยำระหว่าง 70% ถึง 90% (ขึ้นอยู่กับข้อมูลเฉพาะที่ฉันดู ) วิธีการ ML ให้ความถูกต้องเหมือนกันและฉันรู้สึกว่าควรมีวิธีมาตรฐานที่จะใช้ในสถานการณ์นี้ซึ่งจะปรับปรุงความแม่นยำมากกว่ากฎการทำนายที่ชัดเจน

5
จำเป็นหรือไม่ที่จะต้องขยายขนาดมูลค่าเป้าหมายนอกเหนือจากคุณสมบัติการปรับขนาดสำหรับการวิเคราะห์การถดถอย
ฉันกำลังสร้างแบบจำลองการถดถอย ในขั้นตอนก่อนการประมวลผลฉันปรับขนาดคุณสมบัติของฉันให้มีค่าเฉลี่ย 0 และส่วนเบี่ยงเบนมาตรฐาน 1 จำเป็นต้องทำให้ค่าเป้าหมายเป็นมาตรฐานด้วยหรือไม่

4
เครื่องชั่ง Likert ควรใช้ภายใต้เงื่อนไขใดว่าเป็นข้อมูลลำดับหรือช่วงเวลา
การศึกษาจำนวนมากในสังคมศาสตร์ใช้เครื่องชั่ง Likert เมื่อใดจึงเหมาะสมที่จะใช้ข้อมูล Likert เป็นลำดับและเมื่อใดที่เหมาะสมที่จะใช้เป็นข้อมูลช่วงเวลา

5
ข้อมูลไม่สมดุลจริง ๆ แล้วเกิดปัญหาในการเรียนรู้ของเครื่องเมื่อใด
เรามีคำถามหลายข้อเกี่ยวกับข้อมูลที่ไม่สมดุลเมื่อใช้การถดถอยโลจิสติก , SVM , ต้นไม้ตัดสินใจ , การใส่ถุงและคำถามอื่นที่คล้ายกันจำนวนหนึ่งสิ่งที่ทำให้มันเป็นหัวข้อยอดนิยม! น่าเสียดายที่คำถามแต่ละข้อดูเหมือนจะเป็นแบบเฉพาะอัลกอริทึมและฉันไม่พบแนวทางทั่วไปใด ๆ ในการจัดการกับข้อมูลที่ไม่สมดุล การอ้างคำตอบอย่างใดอย่างหนึ่งโดย Marc Claesenโดยจัดการกับข้อมูลที่ไม่สมดุล (... ) ขึ้นอยู่กับวิธีการเรียนรู้เป็นอย่างมาก วิธีการทั่วไปส่วนใหญ่มีวิธีหนึ่ง (หรือหลายวิธี) ในการจัดการกับสิ่งนี้ แต่เมื่อไหร่เราควรกังวลเกี่ยวกับข้อมูลที่ไม่สมดุล? อัลกอริทึมใดที่ได้รับผลกระทบส่วนใหญ่และสามารถจัดการกับมันได้? อัลกอริทึมใดที่จะทำให้เราต้องรักษาสมดุลของข้อมูล ฉันรู้ว่าการพูดถึงอัลกอริธึมแต่ละอย่างเป็นไปไม่ได้ในเว็บไซต์ถาม - ตอบเช่นนี้ฉันค่อนข้างมองหาแนวทางทั่วไปเมื่อมันอาจมีปัญหา


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.