สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

4
เป็นความจริงหรือไม่ที่ไม่ควรใช้ bootstrap เปอร์เซ็นไทล์?
ใน MIT OpenCourseWare บันทึกสำหรับ 18.05 ความน่าจะเป็นและสถิติเบื้องต้นฤดูใบไม้ผลิ 2014 (ปัจจุบันมีให้บริการที่นี่ ) ระบุว่า: วิธีบูตสแตรปเปอร์เซ็นไทล์น่าดึงดูดเนื่องจากความเรียบง่าย แต่มันขึ้นอยู่กับการกระจายของบูตอยู่บนพื้นฐานโดยเฉพาะอย่างยิ่งกลุ่มตัวอย่างเป็นประมาณการที่ดีการกระจายที่แท้จริงของ{x} ข้าวกล่าวว่าจากวิธีเปอร์เซ็นต์ "แม้ว่านี้สมโดยตรงของ quantiles ของการกระจายบูตสุ่มตัวอย่างกับข้อ จำกัด ของความเชื่อมั่นอาจจะดูเหมือนเป็นครั้งแรกที่น่าสนใจของมันเหตุผลค่อนข้างปิดบัง." [2] ในระยะสั้นไม่ได้ใช้บูตเปอร์เซ็นต์วิธีการ ใช้ bootstrap เชิงประจักษ์แทน (เราได้อธิบายทั้งสองด้วยความหวังว่าคุณจะไม่สับสน bootstrap เชิงประจักษ์สำหรับ bootstrap เปอร์เซ็นไทล์) ˉ xx¯* * * *x¯∗\bar{x}^{*}x¯x¯\bar{x} [2] John Rice สถิติคณิตศาสตร์และการวิเคราะห์ข้อมูลรุ่นที่ 2 หน้า 272 หลังจากค้นหาออนไลน์นิดหน่อยนี่เป็นคำพูดเดียวที่ฉันได้พบว่ารัฐไหนที่ไม่ควรใช้ bootstrap เปอร์เซ็นไทล์ สิ่งที่ฉันจำได้จากการอ่านข้อความหลักการและทฤษฎีสำหรับการทำเหมืองข้อมูลและการเรียนรู้ของเครื่องโดย Clarke et al. นั่นคือเหตุผลหลักสำหรับ bootstrapping คือข้อเท็จจริงที่ว่า …

2
เราจำเป็นต้องมีการไล่ระดับสีเพื่อหาค่าสัมประสิทธิ์ของตัวแบบการถดถอยเชิงเส้นหรือไม่?
ผมพยายามที่จะเรียนรู้การเรียนรู้เครื่องใช้วัสดุ Coursera ในการบรรยายครั้งนี้แอนดรูว์อึ้งใช้อัลกอริธึมการไล่ระดับสีเพื่อค้นหาค่าสัมประสิทธิ์ของตัวแบบการถดถอยเชิงเส้นที่จะลดฟังก์ชั่นข้อผิดพลาด (ฟังก์ชันต้นทุน) สำหรับการถดถอยเชิงเส้นเราจำเป็นต้องมีการไล่ระดับสี ดูเหมือนว่าฉันสามารถวิเคราะห์ความแตกต่างของฟังก์ชั่นข้อผิดพลาดและตั้งค่าเป็นศูนย์เพื่อแก้ค่าสัมประสิทธิ์; นั่นถูกต้องใช่ไหม?

3
Naive Bayes เป็นลักษณนามเชิงเส้นอย่างไร
ฉันเห็นหัวข้ออื่นที่นี่แต่ฉันไม่คิดว่าคำตอบจะตอบคำถามที่แท้จริง สิ่งที่ฉันได้อ่านมาอย่างต่อเนื่องคือ Naive Bayes เป็นตัวแยกประเภทแบบเชิงเส้น (เช่น: ที่นี่ ) (เช่นวาดขอบเขตการตัดสินใจเชิงเส้น) โดยใช้การสาธิตอัตราต่อรองแบบล็อก อย่างไรก็ตามฉันจำลองเมฆแบบเกาส์สองแห่งและติดตั้งขอบเขตการตัดสินใจและได้ผลลัพธ์เช่นนี้ (ไลบรารี่ e1071 ใน r โดยใช้ naiveBayes ()) อย่างที่เราเห็นขอบเขตการตัดสินใจไม่ใช่แบบเส้นตรง มันพยายามที่จะบอกว่าพารามิเตอร์ (ความน่าจะเป็นเงื่อนไข) เป็นชุดค่าผสมเชิงเส้นในพื้นที่บันทึกแทนที่จะบอกตัวแยกประเภทเองแยกข้อมูลเป็นเส้นตรงหรือไม่?

4
การถดถอยโลจิสติก - ข้อผิดพลาดและการกระจาย
ว่ามีข้อผิดพลาดเกิดขึ้นในการถดถอยโลจิสติกส์ (และการกระจายที่สันนิษฐาน) ฉันได้อ่านในสถานที่ต่าง ๆ ที่: ไม่มีข้อผิดพลาดอยู่ คำผิดพลาดมีการแจกแจงแบบทวินาม (ตามการกระจายของตัวแปรตอบสนอง) คำผิดพลาดมีการกระจายโลจิสติก มีคนช่วยอธิบายได้ไหม?

4
การประมาณ bootstrap ของอคตินั้นถูกต้องเมื่อใด
มันมักจะอ้างว่า bootstrapping สามารถให้ค่าประมาณของอคติในตัวประมาณ ถ้าเป็นค่าประมาณสำหรับสถิติและเป็น bootstrap replicas (ที่มี ) ดังนั้นประมาณการ bootstrap ของ bias คือ ซึ่งดูง่ายและทรงพลังอย่างมากจนถึงจุดที่ไม่มั่นคง ~ Tฉันเสื้อ^t^\hat tเสื้อ~ผมt~i\tilde t_iขฉันs T ≈ 1ฉัน∈ { 1 , ⋯ , N}i∈{1,⋯,N}i\in\{1,\cdots,N\}ขฉันsเสื้อ≈ 1ยังไม่มีข้อความΣผมเสื้อ~ผม- t^biast≈1N∑it~i−t^\begin{equation} \mathrm{bias}_t \approx \frac{1}{N}\sum_i \tilde{t}_i-\hat t \end{equation} ฉันไม่เข้าใจเลยว่าเรื่องนี้เป็นไปได้อย่างไรหากไม่มีตัวประมาณค่าทางสถิติที่เป็นกลาง ตัวอย่างเช่นถ้าตัวประมาณของฉันคืนค่าคงที่ที่เป็นอิสระจากการสังเกตค่าประมาณของความเอนเอียงข้างต้นนั้นไม่ถูกต้องอย่างชัดเจน แม้ว่าตัวอย่างนี้เป็นพยาธิวิทยา แต่ฉันไม่สามารถเห็นสิ่งที่เป็นข้อสันนิษฐานที่สมเหตุสมผลเกี่ยวกับตัวประมาณและการแจกแจงที่จะรับประกันได้ว่าการประมาณ bootstrap นั้นสมเหตุสมผล ฉันพยายามอ่านการอ้างอิงอย่างเป็นทางการ แต่ฉันไม่ใช่นักสถิติหรือนักคณิตศาสตร์ดังนั้นจึงไม่มีอะไรชัดเจน ทุกคนสามารถให้ข้อมูลสรุประดับสูงว่าการคาดการณ์สามารถใช้งานได้เมื่อใด หากคุณรู้ว่ามีการอ้างอิงที่ดีในเรื่องที่จะดี แก้ไข: ความนุ่มนวลของตัวประมาณค่ามักถูกอ้างถึงเป็นข้อกำหนดสำหรับ bootstrap ในการทำงาน เป็นไปได้ไหมที่เราจะต้องมีการแปลงกลับบางส่วนในท้องถิ่น? …
31 bootstrap  bias 

6
หากช่วงเวลาที่เชื่อถือได้มีค่าคงที่ก่อนหน้านี้ช่วงความมั่นใจ 95% เท่ากับช่วงเวลาที่เชื่อถือได้ 95% หรือไม่
ฉันใหม่มากกับสถิติแบบเบย์และนี่อาจเป็นคำถามที่โง่ อย่างไรก็ตาม: พิจารณาช่วงเวลาที่น่าเชื่อถือด้วยค่าก่อนหน้าซึ่งระบุการแจกแจงแบบสม่ำเสมอ ตัวอย่างเช่นจาก 0 ถึง 1 โดยที่ 0 ถึง 1 แสดงถึงช่วงเต็มของค่าที่เป็นไปได้ของเอฟเฟกต์ ในกรณีนี้ช่วงเวลาที่เชื่อถือได้ 95% จะเท่ากับช่วงความมั่นใจ 95% หรือไม่

3
Mean Squared Error และผลรวมที่เหลือของกำลังสอง
ดูคำจำกัดความวิกิพีเดียของ: Mean Squared Error (MSE) ผลรวมที่เหลือของสี่เหลี่ยม (RSS) ดูเหมือนว่าฉันจะ MSE = 1ยังไม่มีข้อความRSS = 1ยังไม่มีข้อความ∑ ( fผม- yผม)2MSE=1ยังไม่มีข้อความRSS=1ยังไม่มีข้อความΣ(ฉผม-Yผม)2\text{MSE} = \frac{1}{N} \text{RSS} = \frac{1}{N} \sum (f_i -y_i)^2 โดยที่คือจำนวนตัวอย่างและคือการประมาณของเรายังไม่มีข้อความยังไม่มีข้อความNฉผมฉผมf_iYผมYผมy_i อย่างไรก็ตามบทความวิกิพีเดียไม่ได้พูดถึงความสัมพันธ์นี้ ทำไม? ฉันพลาดอะไรไปรึเปล่า?
31 residuals  mse 

2
ความสำคัญเชิงสัมพัทธ์ของชุดพยากรณ์ในการจำแนกประเภทป่าสุ่มใน R
ฉันต้องการพิจารณาความสำคัญสัมพัทธ์ของชุดของตัวแปรที่มีต่อการrandomForestจำแนกประเภทในอาร์importanceฟังก์ชั่นนี้ให้MeanDecreaseGiniตัวชี้วัดสำหรับตัวทำนายแต่ละตัว - มันง่ายเหมือนการรวมสิ่งนี้กับตัวทำนายแต่ละตัวในเซตหรือไม่? ตัวอย่างเช่น: # Assumes df has variables a1, a2, b1, b2, and outcome rf <- randomForest(outcome ~ ., data=df) importance(rf) # To determine whether the "a" predictors are more important than the "b"s, # can I sum the MeanDecreaseGini for a1 and a2 and compare to that of …

2
รูปแบบข้อมูล libsvm [ปิด]
ฉันใช้เครื่องมือ libsvm ( http://www.csie.ntu.edu.tw/~cjlin/libsvm/ ) เพื่อรองรับการจำแนกเวกเตอร์ อย่างไรก็ตามฉันสับสนเกี่ยวกับรูปแบบของข้อมูลอินพุต จาก README: รูปแบบของไฟล์ข้อมูลการฝึกอบรมและการทดสอบคือ: <label> <index1>:<value1> <index2>:<value2> ... . . . แต่ละบรรทัดมีอินสแตนซ์และสิ้นสุดด้วยอักขระ '\ n' สำหรับการจัดหมวดหมู่<label>เป็นจำนวนเต็มที่ระบุคลาสป้ายกำกับ (รองรับหลายคลาส) สำหรับการถดถอย<label>คือค่าเป้าหมายซึ่งอาจเป็นจำนวนจริงใด ๆ สำหรับ SVM แบบชั้นเดียวไม่ได้ใช้เพื่อให้เป็นหมายเลขใดก็ได้ ทั้งคู่<index>:<value>ให้ค่าคุณลักษณะ (คุณลักษณะ): <index>เป็นจำนวนเต็มเริ่มต้นจาก 1 และ<value> เป็นจำนวนจริง ข้อยกเว้นเพียงอย่างเดียวคือเคอร์เนลที่คำนวณล่วงหน้าซึ่ง <index>เริ่มต้นจาก 0; ดูส่วนของเมล็ดที่คำนวณล่วงหน้าได้ ดัชนีจะต้องอยู่ในลำดับ ASCENDING ฉลากในไฟล์ทดสอบใช้เพื่อคำนวณความแม่นยำหรือข้อผิดพลาดเท่านั้น หากไม่ทราบให้กรอกตัวเลขใด ๆ ในคอลัมน์แรก ฉันมีคำถามต่อไปนี้: การใช้งาน<index>คืออะไร? มันมีจุดประสงค์อะไร มีความสอดคล้องกันระหว่างค่าดัชนีเดียวกันของอินสแตนซ์ข้อมูลที่ต่างกันหรือไม่? ถ้าฉันพลาด / ข้ามดัชนีระหว่างนั้นล่ะ …

3
เป็นไปได้หรือไม่ที่จะคำนวณ AIC และ BIC สำหรับแบบจำลองการถดถอยแบบ lasso?
เป็นไปได้หรือไม่ที่จะคำนวณค่า AIC หรือ BIC สำหรับตัวแบบการถดถอยแบบบ่วงบาศและตัวแบบที่ทำให้เป็นมาตรฐานอื่นที่พารามิเตอร์จะเข้าสู่สมการเพียงบางส่วนเท่านั้น เรากำหนดระดับของเสรีภาพได้อย่างไร ฉันใช้ R เพื่อให้พอดีกับแบบจำลองการถดถอยแบบ lasso กับglmnet()ฟังก์ชันจากglmnetแพ็คเกจและฉันต้องการทราบวิธีคำนวณค่า AIC และ BIC สำหรับแบบจำลอง ด้วยวิธีนี้ฉันอาจเปรียบเทียบค่ากับแบบจำลองที่พอดีโดยไม่มีการทำให้เป็นมาตรฐาน เป็นไปได้ที่จะทำ?
31 r  model-selection  lasso  aic  bic 

2
ส่วนที่เหลือดิบกับส่วนที่เหลือมาตรฐานเมื่อเทียบกับส่วนที่เหลือ studentized - สิ่งที่จะใช้เมื่อไหร่?
นี่ดูเหมือนคำถามที่คล้ายกันและไม่ได้รับคำตอบมากมาย ละเว้นการทดสอบเช่น Cook's D และเพียงแค่ดูเศษเป็นกลุ่มฉันสนใจในวิธีที่คนอื่นใช้เศษเหลือใช้เมื่อประเมินความดีงามพอดี ฉันใช้ของเหลือใช้ดิบ: ใน QQ-plot เพื่อประเมินภาวะปกติ ในรูปแบบกระจายของเทียบกับส่วนที่เหลือสำหรับการตรวจลูกตาของ (a) hetereoscedasticity และ (b) autocorrelation ต่อเนื่องyyy สำหรับพล็อตเมื่อเทียบกับที่เหลือเพื่อตรวจสอบค่าสำหรับปีที่ผิดปกติอาจเกิดขึ้นฉันชอบที่จะใช้เหลือ studentized เหตุผลในการตั้งค่าของฉันคือมันช่วยให้ดูได้ง่ายว่าค่าที่เหลือซึ่งค่าyนั้นเป็นตัวปัญหาหรือไม่แม้ว่าค่าส่วนที่เหลือมาตรฐานจะให้ผลลัพธ์ที่คล้ายกันมาก ทฤษฎีของฉันที่ใช้คือมันขึ้นอยู่กับมหาวิทยาลัยที่เราไปyyyyyyyyy สิ่งนี้คล้ายกับวิธีที่คนอื่นใช้สารตกค้างหรือไม่ คนอื่น ๆ ใช้กราฟจำนวนนี้ร่วมกับสถิติสรุปหรือไม่

3
ข้อมูลของฉันมีการกระจายแบบใด
ให้เราบอกว่าฉันมีส่วนประกอบ 1,000 รายการและฉันได้รวบรวมข้อมูลเกี่ยวกับความล้มเหลวของบันทึกเหล่านี้กี่ครั้งและทุกครั้งที่พวกเขาบันทึกความล้มเหลวฉันยังติดตามว่าทีมของฉันใช้เวลานานแค่ไหนในการแก้ไขปัญหา ในระยะสั้นฉันได้รับการบันทึกเวลาในการซ่อมแซม (ในไม่กี่วินาที) สำหรับแต่ละองค์ประกอบ 1,000 เหล่านี้ ข้อมูลจะได้รับเมื่อสิ้นสุดคำถามนี้ ฉันเอาค่าเหล่านี้ทั้งหมดแล้วดึงกราฟ Cullen และ Frey เป็น R โดยใช้descdistจากfitdistrplusแพ็คเกจ ความหวังของฉันคือการเข้าใจว่าเวลาในการซ่อมแซมเป็นไปตามการแจกจ่ายเฉพาะ นี่คือพล็อตที่มีboot=500เพื่อรับค่า bootstrapped: ฉันเห็นว่าพล็อตนี้กำลังบอกฉันว่าการสังเกตตกอยู่ในการแจกแจงเบต้า (หรืออาจจะไม่ในกรณีนี้มันคืออะไรเปิดเผย) ตอนนี้เมื่อพิจารณาว่าฉันเป็นสถาปนิกระบบและไม่ใช่สถิติสถิติพล็อตนี้เปิดเผยอะไร ? (ฉันกำลังมองหาสัญชาตญาณในโลกแห่งความเป็นจริงที่อยู่เบื้องหลังผลการค้นหาเหล่านี้) แก้ไข: QQplot โดยใช้ฟังก์ชั่นในแพคเกจqqPlot carฉันก่อนประมาณพารามิเตอร์รูปร่างและขนาดโดยใช้fitdistrฟังก์ชั่น > fitdistr(Data$Duration, "weibull") shape scale 3.783365e-01 5.273310e+03 (6.657644e-03) (3.396456e+02) จากนั้นฉันทำสิ่งนี้: qqPlot(LB$Duration, distribution="weibull", shape=3.783365e-01, scale=5.273310e+03) แก้ไข 2: การอัพเดตด้วย QQplot lognormal นี่คือข้อมูลของฉัน: c(1528L, 285L, …

1
ความแตกต่างระหว่างฟังก์ชั่นการสูญเสียและฟังก์ชั่นข้อผิดพลาดคืออะไร?
คำว่า "สูญเสีย" ตรงกันกับ "ข้อผิดพลาด" หรือไม่? มีคำจำกัดความแตกต่างกันหรือไม่? นอกจากนี้ต้นกำเนิดของคำว่า "การสูญเสีย" คืออะไร? NB: ฟังก์ชั่นข้อผิดพลาดที่กล่าวถึงที่นี่จะไม่สับสนกับข้อผิดพลาดปกติ

4
เหตุใดเราจึงใช้ ReLU ในเครือข่ายประสาทและเราจะใช้อย่างไร
เหตุใดเราจึงใช้หน่วยเชิงเส้นแก้ไข (ReLU) กับเครือข่ายประสาทเทียม มันช่วยปรับปรุงโครงข่ายประสาทเทียมได้อย่างไร? ทำไมเราถึงบอกว่า ReLU เป็นฟังก์ชั่นการเปิดใช้งาน ฟังก์ชั่นการเปิดใช้งาน softmax ไม่ใช่สำหรับเครือข่ายประสาทหรือไม่ ฉันเดาว่าเราจะใช้ทั้ง ReLU และ softmax แบบนี้: เซลล์ประสาท 1 ที่มีเอาต์พุต softmax ----> ReLU บนเอาต์พุตของเซลล์ประสาท 1 ซึ่งเป็น อินพุตของเซลล์ประสาท 2 ---> เซลล์ประสาท 2 ที่มีเอาต์พุต softmax -> ... ดังนั้นอินพุตของเซลล์ประสาท 2 จึงเป็น ReLU (softmax (x1)) ถูกต้องหรือไม่

1
Cross-Entropy หรือ Log Likelihood ในเลเยอร์เอาต์พุต
ฉันอ่านหน้านี้: http://neuralnetworksanddeeplearning.com/chap3.html และมันบอกว่าชั้นเอาท์พุท sigmoid ที่มีการข้ามเอนโทรปีนั้นค่อนข้างจะคล้ายกับเลเยอร์เอาต์พุต softmax ที่มีความเป็นไปได้ในการบันทึก จะเกิดอะไรขึ้นถ้าฉันใช้ sigmoid กับ log-likelihood หรือ softmax กับ cross entropy ใน layer output มันดีไหม เพราะฉันเห็นว่ามีความแตกต่างเพียงเล็กน้อยในสมการระหว่างเอนโทรปีของครอส C= - 1nΣx( yLNa + ( 1 - y) ln( 1 - a ) )C=−1n∑x(yln⁡a+(1−y)ln⁡(1−a))C = -\frac{1}{n} \sum\limits_x (y \ln a + (1-y) \ln (1-a)) และบันทึกโอกาส (eq.80): C= - …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.