สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

7
ไคสแควร์กำลังทำการทดสอบด้านเดียวเสมอหรือไม่?
บทความที่ตีพิมพ์ ( pdf ) มี 2 ประโยคเหล่านี้: นอกจากนี้การรายงานที่ผิดอาจเกิดจากการใช้กฎที่ไม่ถูกต้องหรือขาดความรู้ในการทดสอบทางสถิติ ตัวอย่างเช่นยอดรวม df ใน ANOVA อาจถูกใช้เป็นข้อผิดพลาด df ในการรายงานการทดสอบหรือผู้วิจัยอาจแบ่งค่า p ที่รายงานของการหรือสองเพื่อให้ได้ค่าด้านเดียวในขณะที่ค่าของการหรือเป็นการทดสอบด้านเดียวแล้วχ 2 F p p χ 2 FFFFχ2χ2\chi^2FFFppppppχ2χ2\chi^2FFF ทำไมพวกเขาถึงพูดอย่างนั้น? การทดสอบไคสแควร์เป็นการทดสอบสองด้าน (ฉันได้ถามผู้เขียนคนหนึ่ง แต่ไม่มีการตอบสนอง) ฉันกำลังมองอะไร

17
บล็อกการสร้างภาพข้อมูลที่คุณชื่นชอบคืออะไร?
บล็อกที่ดีที่สุดในการสร้างภาพข้อมูลคืออะไร? ฉันตั้งคำถามนี้เป็นวิกิชุมชนเพราะเป็นอัตวิสัยสูง โปรด จำกัด คำตอบแต่ละข้อไว้ที่ลิงก์เดียว โปรดทราบเกณฑ์ต่อไปนี้สำหรับคำตอบที่เสนอ: [A] คำตอบที่ยอมรับได้สำหรับคำถามเช่นนี้ ... จำเป็นต้องให้คำอธิบายที่เพียงพอและเหตุผลที่สมเหตุสมผล การเชื่อมโยงหลายมิติเพียงอย่างเดียวไม่สามารถทำได้ ... [A] ny อนาคตตอบกลับ [ต้อง] พบ ... [เหล่านี้] มาตรฐาน; มิฉะนั้นพวกเขาจะถูกลบโดยไม่มีความเห็นเพิ่มเติม

7
ผลของการตอบสนองการสลับและตัวแปรอธิบายในการถดถอยเชิงเส้นอย่างง่าย
สมมติว่ามีความสัมพันธ์ "จริง" ระหว่างyyyกับxxxเช่นy=ax+b+ϵy=ax+b+ϵy = ax + b + \epsilonโดยที่aaaและbbbเป็นค่าคงที่และϵϵ\epsilonคือเสียงรบกวนปกติ เมื่อฉันสุ่มสร้างข้อมูลจากรหัส R ว่าx <- 1:100; y <- ax + b + rnorm(length(x))แล้วเหมาะสมกับรูปแบบเหมือนy ~ xที่ผมเห็นได้ชัดว่าได้รับการประมาณการที่ดีพอสมควรสำหรับและขaaabbb ถ้าฉันสลับบทบาทของตัวแปรในขณะ(x ~ y)นั้นจากนั้นเขียนผลลัพธ์ใหม่เพื่อให้yyyเป็นฟังก์ชันของxxxความชันที่ได้จะเป็นทางลาดชันเสมอ (อาจเป็นลบมากกว่าหรือเป็นบวกมากกว่า) โดยประมาณจากการy ~ xถดถอย ฉันพยายามที่จะเข้าใจว่าทำไมถึงเป็นเช่นนั้นและจะขอบคุณถ้าใครสามารถให้สัญชาตญาณฉันว่าเกิดอะไรขึ้นที่นั่น
48 regression 

4
อะไรคือความแตกต่างระหว่างการไล่ระดับสีแบบโมเมนตัมที่มีโมเมนตัมและการไล่ระดับสีแบบเร่งรัดของ Nesterov
ดังนั้นการไล่ระดับสีตามโมเมนตัมจึงทำงานดังนี้: v=self.momentum∗m−lr∗gv=self.momentum∗m−lr∗gv=self.momentum*m-lr*g โดยที่คือการปรับปรุงน้ำหนักก่อนหน้านี้และคือการไล่ระดับสีในปัจจุบันที่เกี่ยวกับพารามิเตอร์ ,คืออัตราการเรียนรู้และเป็นค่าคงที่กรัมพีลิตรR s อีลิตรฉ มo มอีn T U เมตรmmmgggppplrlrlrself.momentumself.momentumself.momentum pnew=p+v=p+self.momentum∗m−lr∗gpnew=p+v=p+self.momentum∗m−lr∗gp_{new} = p + v = p + self.momentum * m - lr * g และโคตรลาดชันของ Nesterov ที่เร่งได้ดังนี้ pnew=p+self.momentum∗v−lr∗gpnew=p+self.momentum∗v−lr∗gp_{new} = p + self.momentum * v - lr * g ซึ่งเทียบเท่ากับ: pnew=p+self.momentum∗(self.momentum∗m−lr∗g)−lr∗gpnew=p+self.momentum∗(self.momentum∗m−lr∗g)−lr∗gp_{new} = p + self.momentum * (self.momentum * m …

2
คำอธิบายที่ใช้งานง่ายของความแตกต่างระหว่างต้นไม้การไล่ระดับสีไล่โทนสี (GBM) และ Adaboost
ฉันพยายามเข้าใจความแตกต่างระหว่าง GBM และ Adaboost นี่คือสิ่งที่ฉันเข้าใจ: มีอัลกอริธึมการเพิ่มประสิทธิภาพทั้งสองซึ่งเรียนรู้จากข้อผิดพลาดของรุ่นก่อนหน้าและในที่สุดก็สร้างผลรวมถ่วงน้ำหนักของโมเดล GBM และ Adaboost ค่อนข้างคล้ายกันยกเว้นฟังก์ชั่นการสูญเสีย แต่ก็ยังเป็นเรื่องยากสำหรับฉันที่จะเข้าใจความแตกต่างระหว่างพวกเขา ใครสามารถให้คำอธิบายแบบหยั่งรู้ได้
48 boosting  gbm  adaboost 

2
เมทริกซ์ความแปรปรวนร่วมเป็นบวกแน่นอนหรือไม่?
ฉันเดาว่าคำตอบควรเป็นใช่ แต่ฉันยังรู้สึกว่าบางสิ่งไม่ถูกต้อง ควรมีผลลัพธ์ทั่วไปในวรรณคดีมีใครช่วยฉันบ้าง

4
เวลาการคำนวณฟอเรสต์แบบสุ่มใน R
ฉันใช้แพ็คเกจปาร์ตี้ใน R ที่มี 10,000 แถวและ 34 คุณสมบัติและคุณสมบัติตัวประกอบบางอย่างมีมากกว่า 300 ระดับ เวลาในการคำนวณยาวเกินไป (ใช้เวลาประมาณ 3 ชั่วโมงและยังไม่เสร็จ) ฉันต้องการทราบว่าองค์ประกอบใดมีผลกระทบอย่างใหญ่หลวงต่อเวลาการคำนวณของฟอเรสต์แบบสุ่ม มันมีปัจจัยหลายระดับหรือไม่ มีวิธีการใดที่ได้รับการปรับแต่งเพื่อปรับปรุงเวลาประมวลผล RF หรือไม่?
48 r  random-forest 

1
ตัวชี้วัดประสิทธิภาพเพื่อประเมินการเรียนรู้ที่ไม่ได้รับการดูแล
ด้วยความเคารพต่อการเรียนรู้ที่ไม่ได้รับการดูแล (เช่นการจัดกลุ่ม) มีตัวชี้วัดใดเพื่อประเมินประสิทธิภาพหรือไม่


5
สัญชาตญาณในความแตกต่าง Kullback-Leibler (KL)
ฉันได้เรียนรู้เกี่ยวกับสัญชาตญาณที่อยู่เบื้องหลัง KL Divergence ว่าฟังก์ชันการแจกแจงแบบจำลองแตกต่างจากการกระจายข้อมูลเชิงทฤษฎี / จริง แหล่งที่มาฉันอ่านก็จะบอกว่าเข้าใจง่ายของระยะห่างระหว่างทั้งสองกระจายเป็นประโยชน์ แต่ไม่ควรดำเนินการอย่างแท้จริงเพราะสองกระจายและที่ KL Divergence ไม่สมมาตรในและQPPPQQQPPPQQQ ฉันไม่แน่ใจว่าจะเข้าใจคำแถลงสุดท้ายได้อย่างไรหรือนี่คือสิ่งที่สัญชาตญาณของ 'ระยะทาง' แตกสลายหรือไม่ ฉันขอขอบคุณตัวอย่างที่เรียบง่าย แต่ลึกซึ้ง

1
วิธีการใช้มาตรฐาน / การทำให้เป็นมาตรฐานในการฝึกอบรมและชุดทดสอบหากการทำนายเป็นเป้าหมาย?
ฉันจะแปลงข้อมูลทั้งหมดหรือเท่าของฉัน (ถ้าใช้ CV) ในเวลาเดียวกันได้หรือไม่? เช่น (allData - mean(allData)) / sd(allData) ฉันจะแปลงชุดรถไฟและชุดทดสอบแยกกันได้หรือไม่? เช่น (trainData - mean(trainData)) / sd(trainData) (testData - mean(testData)) / sd(testData) หรือว่าฉันจะแปลงชุดรถไฟและใช้การคำนวณกับชุดทดสอบ? เช่น (trainData - mean(trainData)) / sd(trainData) (testData - mean(trainData)) / sd(trainData) ฉันเชื่อว่า 3 เป็นวิธีที่ถูกต้อง ถ้า 3 ถูกต้องฉันต้องกังวลเกี่ยวกับค่าเฉลี่ยไม่ใช่ 0 หรือช่วงที่ไม่อยู่ระหว่าง [0; 1] หรือ [-1; 1] (การทำให้เป็นมาตรฐาน) ของชุดทดสอบหรือไม่

7
จะเริ่มต้นด้วยสถิติสำหรับนักพัฒนาที่มีประสบการณ์
ในช่วงครึ่งแรกของปี 2558 ฉันเรียนหลักสูตร Machine Learning (โดย Andrew Ng หลักสูตร GREAT) และเรียนรู้พื้นฐานของการเรียนรู้ของเครื่อง (การถดถอยเชิงเส้น, การถดถอยโลจิสติก, SVM, Neuronal Networks ... ) นอกจากนี้ฉันยังเป็นนักพัฒนาเป็นเวลา 10 ปีดังนั้นการเรียนรู้ภาษาการเขียนโปรแกรมใหม่จะไม่เป็นปัญหา เมื่อเร็ว ๆ นี้ฉันเริ่มเรียนรู้ R เพื่อที่จะใช้อัลกอริทึมการเรียนรู้ของเครื่อง อย่างไรก็ตามฉันได้ตระหนักว่าถ้าฉันต้องการเรียนรู้ต่อไปฉันจะต้องมีความรู้ด้านสถิติอย่างเป็นทางการมากขึ้นในปัจจุบันฉันมีความรู้นอกระบบ แต่มีข้อ จำกัด อย่างเช่นฉันไม่สามารถระบุได้ว่าแบบจำลองเชิงเส้นแบบใด จะดีกว่า (ปกติฉันมักจะใช้ R-Square สำหรับมัน แต่เห็นได้ชัดว่าไม่ใช่ความคิดที่ดีมาก) ดังนั้นสำหรับฉันดูเหมือนว่าจะค่อนข้างชัดเจนว่าฉันต้องเรียนรู้พื้นฐานของสถิติ (ฉันศึกษาว่าในสถาบันเดียว แต่ลืมไปแล้วส่วนใหญ่) ที่ฉันควรเรียนรู้โปรดทราบว่าฉันไม่ต้องการหลักสูตรที่ครบวงจรจริง ๆ เพียงบางอย่าง ภายในหนึ่งเดือนให้ฉันรู้มากพอฉันจะกระตือรือร้นและเรียนรู้เพิ่มเติม :) จนถึงตอนนี้ฉันได้อ่าน " สถิติไร้น้ำตา " แล้วมีคำแนะนำอื่น ๆ อีกไหม?

11
การถดถอยเชิงเส้นอย่างง่ายสามารถทำได้โดยไม่ต้องใช้แปลงและพีชคณิตเชิงเส้น
ฉันตาบอดอย่างสมบูรณ์และมาจากพื้นหลังการเขียนโปรแกรม สิ่งที่ฉันพยายามทำคือการเรียนรู้การเรียนรู้ของเครื่องและเมื่อต้องการทำสิ่งนี้ฉันต้องเรียนรู้เกี่ยวกับการถดถอยเชิงเส้นก่อน คำอธิบายทั้งหมดบนอินเทอร์เน็ตที่ฉันกำลังค้นหาเกี่ยวกับเรื่องนี้พล็อตข้อมูลก่อน ฉันกำลังมองหาคำอธิบายที่ใช้งานได้จริงของการถดถอยเชิงเส้นที่ไม่ได้ขึ้นอยู่กับกราฟและแปลง นี่คือความเข้าใจของฉันเกี่ยวกับเป้าหมายของการถดถอยเชิงเส้นอย่างง่าย: การถดถอยเชิงเส้นอย่างง่ายกำลังพยายามค้นหาสูตรที่เมื่อคุณให้Xแล้วจะให้การประมาณที่ใกล้เคียงที่สุดแก่Yคุณ ดังนั้นที่ฉันเข้าใจมันสิ่งที่ต้องทำคือการเปรียบเทียบตัวทำนาย (ตัวอย่างเช่นพื้นที่ของบ้านในตารางฟุต) กับตัวแปรอิสระ (ราคา) ในตัวอย่างของฉันคุณอาจสร้างวิธีที่ไม่ได้มองเห็นเพื่อให้ได้สูตรที่ดีที่สุดในการคำนวณราคาของบ้านจากพื้นที่ ตัวอย่างเช่นคุณอาจได้รับพื้นที่และราคา 1,000 หลังในละแวกนั้นและแบ่งราคาออกเป็นพื้นที่ใช่ไหม ผลลัพธ์ (อย่างน้อยในอิหร่านที่ฉันอาศัยอยู่) จะมีความแปรปรวนเล็กน้อยมาก ดังนั้นคุณอาจได้รับสิ่งนี้: Price = 2333 Rials * Area of the house แน่นอนว่าคุณจะต้องผ่านบ้านทั้งหมด 1,000 หลังในชุดข้อมูลของคุณวางพื้นที่ในสูตรข้างต้นเปรียบเทียบราคากับราคาจริงจัดตารางผลลัพธ์ (ฉันเดาว่าจะป้องกันไม่ให้ผลต่างกันยกเลิก) จากนั้นรับตัวเลขแล้วเล่นต่อ2333ไปเรื่อยๆ ด้วยเครื่องหมายเพื่อลดข้อผิดพลาด แน่นอนว่านี่คือตัวเลือกกำลังดุร้ายซึ่งอาจใช้เวลานานในการคำนวณข้อผิดพลาดและมาถึงตัวเลือกที่ดีที่สุด แต่คุณเห็นสิ่งที่ฉันกำลังพูด ฉันไม่ได้พูดอะไรเกี่ยวกับกราฟเส้นหรือจุดหรือพล็อตหรือวิธีที่ดีที่สุดในการปรับเส้นให้พอดีกับข้อมูลที่คุณมีอยู่ แล้วทำไมคุณต้องใช้พล็อตกระจายและพีชคณิตเชิงเส้นสำหรับสิ่งนี้ ไม่มีวิธีที่ไม่ใช่ภาพหรือ? ก่อนอื่นฉันคิดถูกหรือไม่? ถ้าไม่ฉันชอบที่จะได้รับการแก้ไข แม้ว่าฉันจะเป็นหรือไม่มีสูตรวิธีใดที่จะไม่เล่นกับพีชคณิตเชิงเส้นหรือไม่? ฉันจะซาบซึ้งจริง ๆ ถ้าฉันได้รับตัวอย่างพร้อมคำอธิบายเพื่อที่ฉันจะได้ทำพร้อมกับข้อความเพื่อทดสอบความเข้าใจของฉัน

4
ความไม่สมดุลของคลาสในการเรียนรู้ของเครื่องภายใต้การควบคุม
นี่เป็นคำถามโดยทั่วไปไม่ใช่เฉพาะวิธีการหรือชุดข้อมูลใด ๆ เราจะจัดการกับปัญหาความไม่สมดุลของคลาสได้อย่างไรในการเรียนรู้ของเครื่องควบคุมโดยที่จำนวน 0 อยู่ที่ 90% และจำนวน 1 อยู่ที่ประมาณ 10% ในชุดข้อมูลของคุณเราจะฝึกอบรมตัวจําแนกอย่างเหมาะสมได้อย่างไร หนึ่งในวิธีที่ฉันติดตามคือการสุ่มตัวอย่างเพื่อทำให้ชุดข้อมูลมีความสมดุลจากนั้นทำการฝึกการจําแนก ฉันรู้สึกว่านี่เป็นการสุ่มมีกรอบใด ๆ ในการแก้ไขปัญหาเหล่านี้

3
AIC, BIC, CIC, DIC, EIC, FIC, GIC, HIC, IIC - ฉันสามารถใช้มันแทนกันได้หรือไม่?
บนหน้า 34 ของPRNN Brian Ripley ให้ความเห็นว่า "The AIC ได้รับการตั้งชื่อโดย Akaike (1974) ว่าเป็น 'An Information Criterion' ถึงแม้ว่าดูเหมือนว่าโดยทั่วไปเชื่อว่า A ย่อมาจาก Akaike" แน่นอนเมื่อแนะนำสถิติ AIC, Akaike (1974, p.719) อธิบายว่า "IC stands for information criterion and A is added so that similar statistics, BIC, DIC etc may follow". พิจารณาใบเสนอราคานี้เป็นคำทำนายที่ทำในปี 1974 เป็นที่น่าสนใจที่จะทราบว่าในเวลาเพียงสี่ปีสองประเภทของสถิติ BIC (Bayesian IC) ถูกเสนอโดย …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.