สถิติและข้อมูลขนาดใหญ่

8

ผู้สืบทอดยุคใหม่ในการวิเคราะห์ข้อมูลเชิงสำรวจโดย Tukey?

ฉันอ่านหนังสือของ Tukey "Exploratory Data Analysis" หนังสือเล่มนี้เขียนขึ้นเมื่อปี พ.ศ. 2520 โดยเน้นวิธีการใช้กระดาษ / ดินสอ มีผู้สืบทอดที่ 'ทันสมัย' มากขึ้นซึ่งพิจารณาว่าตอนนี้เราสามารถพล็อตชุดข้อมูลขนาดใหญ่ได้หรือไม่?

52 data-visualization references descriptive-statistics eda

5

โครงข่ายประสาทเทียมเทียบกับเครื่องเวกเตอร์สนับสนุน: เป็นอันดับสองที่เหนือกว่าอย่างแน่นอนหรือไม่

ผู้เขียนบทความจำนวนมากที่ฉันอ่านยืนยันว่า SVM เป็นเทคนิคที่เหนือกว่าในการเผชิญกับปัญหาการถดถอย / การจำแนกประเภทของพวกเขาทราบว่าพวกเขาไม่สามารถรับผลลัพธ์ที่คล้ายกันผ่าน NNs บ่อยครั้งที่การเปรียบเทียบระบุว่า SVM แทน NNs มีทฤษฎีการก่อตั้งที่แข็งแกร่ง เข้าถึงโลกที่เหมาะสมเนื่องจากการเขียนโปรแกรมสมการกำลังสอง ไม่มีปัญหาในการเลือกพารามิเตอร์ที่เหมาะสม มีความเสี่ยงที่จะเกิดการแพ้น้อยกว่า ต้องการหน่วยความจำน้อยลงเพื่อจัดเก็บแบบจำลองการทำนาย ให้ผลลัพธ์ที่อ่านง่ายขึ้นและการตีความทางเรขาคณิต มันเป็นความคิดที่ยอมรับกันอย่างกว้างขวางหรือไม่? อย่าอ้างทฤษฎีบทอาหารกลางวันแบบไม่มีข้อความหรือข้อความที่คล้ายกันคำถามของฉันคือการใช้เทคนิคเหล่านั้นในทางปฏิบัติ ในอีกด้านหนึ่งปัญหาเชิงนามธรรมประเภทใดที่คุณจะต้องเผชิญกับ NN อย่างแน่นอน

52 machine-learning svm neural-networks

2

การได้มาของสารละลายบาศกัมมันตรังสีแบบปิด

minβ(Y−Xβ)T(Y−Xβ)minβ(Y−Xβ)T(Y−Xβ)\min_\beta (Y-X\beta)^T(Y-X\beta)∥β∥1≤t‖β‖1≤t\|\beta\|_1 \leq tβlassoj=sgn(βLSj)(|βLSj|−γ)+βjlasso=sgn(βjLS)(|βjLS|−γ)+ \beta_j^{\text{lasso}}= \mathrm{sgn}(\beta^{\text{LS}}_j)(|\beta_j^{\text{LS}}|-\gamma)^+ XXX

52 lasso

6

การทำนายของแบบจำลองฟอเรสต์มีช่วงเวลาการทำนายหรือไม่?

ถ้าฉันเรียกใช้randomForestแบบจำลองฉันสามารถทำการทำนายตามแบบจำลองได้ มีวิธีใดที่จะได้ช่วงเวลาการทำนายของการทำนายแต่ละครั้งเช่นที่ฉันรู้ว่า "แน่ใจ" โมเดลนั้นเป็นคำตอบของมันหรือไม่ ถ้าเป็นไปได้มันขึ้นอยู่กับความแปรปรวนของตัวแปรตามสำหรับโมเดลทั้งหมดหรือจะมีช่วงกว้างขึ้นและแคบขึ้นอยู่กับแผนผังการตัดสินใจเฉพาะที่ตามมาสำหรับการทำนายโดยเฉพาะ

52 r confidence-interval random-forest

3

ANOVA สมมติฐานปกติ / การแจกแจงปกติของสารตกค้าง

หน้าวิกิพีเดีย ANOVA แสดงรายการสามสมมติฐานคือ: ความเป็นอิสระของคดี - นี่คือสมมติฐานของรูปแบบที่ทำให้การวิเคราะห์ทางสถิติง่ายขึ้น Normality - การแจกแจงของค่าตกค้างเป็นเรื่องปกติ ความเสมอภาค (หรือ "ความเหมือนกัน") ของความแปรปรวนที่เรียกว่า homoscedasticity ... จุดที่น่าสนใจที่นี่คือข้อสมมติฐานที่สอง แหล่งที่มาหลายรายการระบุสมมติฐานแตกต่างกัน บางคนบอกว่าภาวะปกติของข้อมูลดิบบางคนอ้างว่าเหลืออยู่ มีคำถามหลายข้อปรากฏขึ้น: กฎเกณฑ์และการแจกแจงปกติของคนตกค้างเป็นคนคนเดียวกัน (จากรายการ Wikipedia ฉันจะอ้างว่า normality เป็นทรัพย์สินและไม่เกี่ยวข้องกับคนที่เหลือโดยตรง (แต่อาจเป็นสมบัติของคนตกค้าง (ข้อความที่ซ้อนกันลึกภายในวงเล็บประหลาด))) ถ้าไม่ใช่ข้อสันนิษฐานใดควรถืออยู่ หนึ่ง? ทั้งสอง? หากข้อสันนิษฐานของการกระจายที่เหลือตามปกติเป็นสิ่งที่ถูกต้องเราจะทำผิดพลาดร้ายแรงโดยการตรวจสอบฮิสโตแกรมของค่าดิบสำหรับความปกติ?

52 anova residuals assumptions normality-assumption

2

ความสัมพันธ์ระหว่างการทดสอบไคสแควร์และการทดสอบในสัดส่วนเท่ากันคืออะไร?

สมมติว่าฉันมีประชากรสามคนที่มีสี่ลักษณะที่ไม่เหมือนกันซึ่งกันและกัน ฉันสุ่มตัวอย่างตัวอย่างจากประชากรแต่ละคนและสร้างแท็บไขว้หรือตารางความถี่สำหรับลักษณะที่ฉันวัด ฉันถูกต้องในการพูดว่า: ถ้าฉันต้องการทดสอบว่ามีความสัมพันธ์ใด ๆ ระหว่างประชากรและลักษณะ (เช่นว่าหนึ่งประชากรมีความถี่สูงกว่าหนึ่งในลักษณะ) ฉันควรใช้การทดสอบไคสแควร์และดูว่าผลที่มีความสำคัญ หากการทดสอบแบบไคสแควร์มีความสำคัญแสดงให้ฉันเห็นว่ามีความสัมพันธ์ระหว่างประชากรและคุณลักษณะบางอย่าง แต่ไม่ใช่ความสัมพันธ์ ยิ่งไปกว่านั้นคุณสมบัติบางอย่างนั้นไม่จำเป็นต้องเกี่ยวข้องกับประชากร ตัวอย่างเช่นหากประชากรที่แตกต่างกันมีการแจกแจงที่แตกต่างกันอย่างมากของคุณสมบัติ A และ B แต่ไม่ใช่ของ C และ D ดังนั้นการทดสอบไคสแควร์อาจยังกลับมามีความหมาย ถ้าผมต้องการที่จะวัดหรือไม่ว่าลักษณะที่เฉพาะเจาะจงได้รับผลกระทบโดยประชากรแล้วฉันสามารถเรียกใช้การทดสอบสำหรับสัดส่วนที่เท่ากัน (ฉันได้เห็นนี้เรียกว่า Z-test หรือเป็นprop.test()ในR) เพียงลักษณะที่ กล่าวอีกนัยหนึ่งเหมาะสมที่จะใช้prop.test()เพื่อกำหนดลักษณะของความสัมพันธ์ระหว่างชุดสองประเภทอย่างแม่นยำมากขึ้นเมื่อการทดสอบไคสแควร์บอกว่ามีความสัมพันธ์ที่สำคัญหรือไม่

52 chi-squared proportion contingency-tables z-test

8

Excel เป็นโต๊ะทำงานสถิติ

ดูเหมือนว่าผู้คนจำนวนมาก (รวมถึงฉัน) ต้องการทำการวิเคราะห์ข้อมูลเชิงสำรวจใน Excel ข้อ จำกัด บางประการเช่นจำนวนแถวที่อนุญาตในสเปรดชีตเป็นความเจ็บปวด แต่ในกรณีส่วนใหญ่ไม่สามารถใช้ Excel เพื่อเล่นข้อมูลได้ อย่างไรก็ตามบทความของ McCullough และ Heiserนั้นกรีดร้องว่าคุณจะได้รับผลที่ผิด - และอาจไหม้อยู่ในนรกได้เช่นกัน - ถ้าคุณพยายามใช้ Excel กระดาษนี้ถูกต้องหรือมันลำเอียง? ผู้เขียนทำเสียงเหมือนพวกเขาเกลียดชัง Microsoft

52 software computational-statistics excel

14

อะไรคือลักษณะที่น่าแปลกใจที่สุดของการแจกแจงแบบเกาส์ (ปกติ)?

การแจกแจงแบบเกาส์มาตรฐานบนสามารถกำหนดได้โดยให้ความหนาแน่นอย่างชัดเจน: RR\mathbb{R}12π−−√e−x2/212πe−x2/2 \frac{1}{\sqrt{2\pi}}e^{-x^2/2} หรือฟังก์ชั่นลักษณะของมัน ตามที่นึกไว้ในคำถามนี้มันก็เป็นเพียงการแจกแจงที่ค่าเฉลี่ยและความแปรปรวนตัวอย่างเป็นอิสระ อะไรคือคุณสมบัติทางเลือกที่น่าแปลกใจอื่น ๆ ของ Gaussian ที่คุณรู้ ฉันจะยอมรับคำตอบที่น่าประหลาดใจที่สุด

52 probability normal-distribution mathematical-statistics characteristic-function

10

การทำคลัสเตอร์ด้วยเมทริกซ์ระยะทาง

ฉันมีเมทริกซ์ (สมมาตร) Mที่แสดงถึงระยะห่างระหว่างแต่ละคู่ของโหนด ตัวอย่างเช่น, abcdefghijkl A 0 20 20 20 40 60 60 60 100 120 120 120 B 20 0 20 20 60 80 80 80 120 140 140 140 C 20 20 0 20 60 80 80 80 120 140 140 140 D 20 20 20 0 60 …

52 clustering

2

ANN เครือข่ายประสาทเทียมสามารถใช้สำหรับการจัดกลุ่มที่ไม่ได้รับการดูแลได้อย่างไร?

ฉันเข้าใจวิธีartificial neural network (ANN)สามารถฝึกอบรมในลักษณะที่มีการควบคุมดูแลโดยใช้ backpropogation เพื่อปรับปรุงอุปกรณ์ให้เหมาะสมโดยลดข้อผิดพลาดในการทำนาย ฉันเคยได้ยินว่า ANN สามารถใช้สำหรับการเรียนรู้ที่ไม่มีผู้ดูแลแต่วิธีการนี้สามารถทำได้โดยไม่ต้องมีฟังก์ชั่นค่าใช้จ่ายบางอย่างเพื่อเป็นแนวทางในขั้นตอนการปรับให้เหมาะสม ด้วย k-mean หรืออัลกอริทึม EM มีฟังก์ชันที่แต่ละการค้นหาซ้ำเพื่อเพิ่ม เราจะทำคลัสเตอร์กับ ANN ได้อย่างไรและใช้กลไกใดในการจัดกลุ่มจุดข้อมูลในท้องที่เดียวกัน (และมีความสามารถพิเศษอะไรบ้างที่มาพร้อมกับเพิ่มเลเยอร์ให้มากขึ้น)

52 clustering neural-networks unsupervised-learning self-organizing-maps

6

การจำแนกไบนารีด้วยคลาสที่ไม่สมดุลอย่างยิ่ง

ฉันมีชุดข้อมูลในรูปแบบของ (ฟีเจอร์, เอาต์พุตไบนารี 0 หรือ 1), แต่ 1 เกิดขึ้นน้อยมาก, ดังนั้นโดยการคาดการณ์เสมอ 0, ฉันได้รับความแม่นยำระหว่าง 70% ถึง 90% (ขึ้นอยู่กับข้อมูลเฉพาะที่ฉันดู ) วิธีการ ML ให้ความถูกต้องเหมือนกันและฉันรู้สึกว่าควรมีวิธีมาตรฐานที่จะใช้ในสถานการณ์นี้ซึ่งจะปรับปรุงความแม่นยำมากกว่ากฎการทำนายที่ชัดเจน

52 machine-learning classification binary-data unbalanced-classes

5

จำเป็นหรือไม่ที่จะต้องขยายขนาดมูลค่าเป้าหมายนอกเหนือจากคุณสมบัติการปรับขนาดสำหรับการวิเคราะห์การถดถอย

ฉันกำลังสร้างแบบจำลองการถดถอย ในขั้นตอนก่อนการประมวลผลฉันปรับขนาดคุณสมบัติของฉันให้มีค่าเฉลี่ย 0 และส่วนเบี่ยงเบนมาตรฐาน 1 จำเป็นต้องทำให้ค่าเป้าหมายเป็นมาตรฐานด้วยหรือไม่

52 regression machine-learning

4

เครื่องชั่ง Likert ควรใช้ภายใต้เงื่อนไขใดว่าเป็นข้อมูลลำดับหรือช่วงเวลา

การศึกษาจำนวนมากในสังคมศาสตร์ใช้เครื่องชั่ง Likert เมื่อใดจึงเหมาะสมที่จะใช้ข้อมูล Likert เป็นลำดับและเมื่อใดที่เหมาะสมที่จะใช้เป็นข้อมูลช่วงเวลา

52 ordinal-data likert scales measurement

5

ข้อมูลไม่สมดุลจริง ๆ แล้วเกิดปัญหาในการเรียนรู้ของเครื่องเมื่อใด

เรามีคำถามหลายข้อเกี่ยวกับข้อมูลที่ไม่สมดุลเมื่อใช้การถดถอยโลจิสติก , SVM , ต้นไม้ตัดสินใจ , การใส่ถุงและคำถามอื่นที่คล้ายกันจำนวนหนึ่งสิ่งที่ทำให้มันเป็นหัวข้อยอดนิยม! น่าเสียดายที่คำถามแต่ละข้อดูเหมือนจะเป็นแบบเฉพาะอัลกอริทึมและฉันไม่พบแนวทางทั่วไปใด ๆ ในการจัดการกับข้อมูลที่ไม่สมดุล การอ้างคำตอบอย่างใดอย่างหนึ่งโดย Marc Claesenโดยจัดการกับข้อมูลที่ไม่สมดุล (... ) ขึ้นอยู่กับวิธีการเรียนรู้เป็นอย่างมาก วิธีการทั่วไปส่วนใหญ่มีวิธีหนึ่ง (หรือหลายวิธี) ในการจัดการกับสิ่งนี้ แต่เมื่อไหร่เราควรกังวลเกี่ยวกับข้อมูลที่ไม่สมดุล? อัลกอริทึมใดที่ได้รับผลกระทบส่วนใหญ่และสามารถจัดการกับมันได้? อัลกอริทึมใดที่จะทำให้เราต้องรักษาสมดุลของข้อมูล ฉันรู้ว่าการพูดถึงอัลกอริธึมแต่ละอย่างเป็นไปไม่ได้ในเว็บไซต์ถาม - ตอบเช่นนี้ฉันค่อนข้างมองหาแนวทางทั่วไปเมื่อมันอาจมีปัญหา

52 machine-learning classification predictive-models unbalanced-classes

5

อะไรคือความแตกต่างระหว่าง Multiclass และ Multilabel Problem

อะไรคือความแตกต่างระหว่างปัญหามัลติคลาสและปัญหามัลติคาสต์?

52 classification clustering terminology multi-class multilabel