สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

7
ทำไมคำศัพท์ธรรมดาจึงถูกเพิ่มเข้าไปในฟังก์ชั่นต้นทุน (แทนที่จะเป็นแบบทวีคูณเป็นต้น)
เมื่อใดก็ตามที่มีการใช้การทำให้เป็นปกติจะมีการเพิ่มฟังก์ชันต้นทุนเช่นในฟังก์ชันต้นทุนต่อไปนี้ ทำให้ฉันเข้าใจได้ง่ายตั้งแต่ลดขนาด ฟังก์ชั่นค่าใช้จ่ายหมายถึงการลดข้อผิดพลาด (ด้านซ้าย) และลดขนาดของค่าสัมประสิทธิ์ (ระยะเวลาที่เหมาะสม) ในเวลาเดียวกัน (หรืออย่างน้อยสมดุลสองการย่อขนาด)J(θ)=12(y−θXT)(y−θXT)T+α∥θ∥22J(θ)=12(y−θXT)(y−θXT)T+α‖θ‖22 J(\theta)=\frac 1 2(y-\theta X^T)(y-\theta X^T)^T+\alpha\|\theta\|_2^2 คำถามของฉันคือเหตุผลว่าทำไมคำศัพท์ที่ทำให้เป็นมาตรฐานนี้α∥θ∥22α‖θ‖22\alpha\|\theta\|_2^2เพิ่มเข้ากับฟังก์ชั่นต้นทุนดั้งเดิมและไม่คูณหรือสิ่งอื่นใดที่ทำให้จิตใจของแรงจูงใจที่อยู่เบื้องหลังแนวคิดของการทำให้เป็นปกติ? เป็นเพราะถ้าเราเพิ่มคำง่ายๆมันก็ง่ายพอและทำให้เราสามารถแก้ปัญหาเชิงวิเคราะห์ได้หรือมีเหตุผลที่ลึกซึ้งกว่านี้?

4
ทำไมไม่จัดหมวดหมู่ผ่านการถดถอย?
เนื้อหาบางอย่างที่ฉันเห็นในการเรียนรู้ของเครื่องบอกว่าเป็นความคิดที่ไม่ดีที่จะเข้าถึงปัญหาการจัดหมวดหมู่ผ่านการถดถอย แต่ฉันคิดว่าเป็นไปได้เสมอที่จะทำการถดถอยอย่างต่อเนื่องเพื่อให้พอดีกับข้อมูลและตัดทอนการทำนายอย่างต่อเนื่องเพื่อให้ได้การจำแนกประเภทที่ไม่ต่อเนื่อง เหตุใดจึงเป็นความคิดที่ไม่ดี

6
วิธีการกำหนดจุดตัดที่ดีที่สุดและช่วงความมั่นใจโดยใช้เส้นโค้ง ROC ใน R?
ฉันมีข้อมูลการทดสอบที่สามารถใช้แยกแยะเซลล์ปกติและเนื้องอก ตามโค้ง ROC มันดูดีสำหรับจุดประสงค์นี้ (พื้นที่ใต้เส้นโค้งคือ 0.9): คำถามของฉันคือ: จะกำหนดจุดตัดสำหรับการทดสอบนี้และช่วงความมั่นใจได้อย่างไรโดยที่การอ่านควรถูกตัดสินว่าไม่ชัดเจน วิธีที่ดีที่สุดในการมองเห็นภาพนี้ggplot2คืออะไร กราฟแสดงผลโดยใช้ROCRและggplot2แพ็คเกจ: #install.packages("ggplot2","ROCR","verification") #if not installed yet library("ggplot2") library("ROCR") library("verification") d <-read.csv2("data.csv", sep=";") pred <- with(d,prediction(x,test)) perf <- performance(pred,"tpr", "fpr") auc <-performance(pred, measure = "auc")@y.values[[1]] rd <- data.frame(x=perf@x.values[[1]],y=perf@y.values[[1]]) p <- ggplot(rd,aes(x=x,y=y)) + geom_path(size=1) p <- p + geom_segment(aes(x=0,y=0,xend=1,yend=1),colour="black",linetype= 2) p <- p …

8
ทรัพยากรที่ดีในการออกแบบโต๊ะคืออะไร
ผมเคยเห็นการรักษาทางทฤษฎีต่างๆของกราฟิกเช่นไวยากรณ์ของกราฟิก แต่ฉันไม่เห็นสิ่งใดเทียบเท่ากับตาราง ในขณะที่ฉันได้พัฒนารูปแบบที่ไม่เป็นทางการของแนวปฏิบัติที่ดีในการออกแบบตาราง อย่างไรก็ตามฉันต้องการอ้างอิงที่ดีให้กับนักเรียน คู่มือการใช้งาน APA สไตล์มีเคล็ดลับในการออกแบบตาราง แต่มันก็เป็นเพียงจุดเริ่มต้น คำถาม: ทรัพยากรที่ดีที่ให้คำแนะนำทางทฤษฎีและการปฏิบัติเกี่ยวกับการนำเสนอผลตัวเลขในตารางคืออะไร? ปรับปรุง:มันจะมีประโยชน์อย่างยิ่งที่จะมีแหล่งข้อมูลออนไลน์ฟรีที่ดี หมายเหตุ: ฉันไม่แน่ใจว่าควรเป็นวิกิชุมชนหรือไม่ ฉันรู้สึกราวกับว่าอาจมีคำตอบที่ถูกต้อง
51 tables 

3
สถิติและการอนุมานสาเหตุ?
ใน 1,984 กระดาษของเขา"สถิติและการอนุมานสาเหตุ" Paul Holland ยกหนึ่งในคำถามพื้นฐานที่สุดในสถิติ: แบบจำลองทางสถิติสามารถพูดเกี่ยวกับสาเหตุได้อย่างไร สิ่งนี้นำไปสู่คำขวัญของเขา: ไม่มีการแย้งโดยไม่มีการจัดการ ซึ่งเน้นความสำคัญของข้อ จำกัด เกี่ยวกับการทดลองที่พิจารณาถึงสาเหตุ Andrew Gelman ทำให้ประเด็นที่คล้ายกัน : "เพื่อค้นหาว่าเกิดอะไรขึ้นเมื่อคุณเปลี่ยนแปลงบางสิ่งจำเป็นต้องเปลี่ยนมัน" ... มีบางสิ่งที่คุณเรียนรู้จากการรบกวนระบบที่คุณจะไม่พบจากการสังเกตเชิงรับจำนวนมาก ความคิดของเขาได้สรุปไว้ในบทความนี้ ข้อควรพิจารณาอะไรควรทำเมื่อทำการอนุมานเชิงสาเหตุจากแบบจำลองทางสถิติ
51 causality 

2
ความแตกต่างระหว่างตัวกรองอนุภาค (ลำดับมอนติคาร์โล) และตัวกรองคาลมานคืออะไร?
กรองฝุ่นละอองและกรองคาลมานมีทั้งประมาณคชกรรม recursive ฉันมักจะพบตัวกรองคาลมานในสาขาของฉัน แต่ไม่ค่อยเห็นการใช้ตัวกรองอนุภาค เมื่อไหร่จะใช้อีกอัน?


3
พวกเรามีปัญหาเรื่อง“ สงสาร upvotes” หรือไม่?
ฉันรู้ว่านี่อาจฟังดูเหมือนว่าเป็นหัวข้อนอก แต่ได้ยินฉัน ที่ Stack Overflow และที่นี่เราได้รับคะแนนโหวตจากโพสต์ทั้งหมดนี้เก็บไว้ในรูปแบบตาราง เช่น: โพสต์ id ผู้มีสิทธิเลือกตั้ง ID ลงคะแนนประเภท datetime ------- -------- --------- -------- 10 1 2 2000-1-1 10:00:01 11 3 3 2000-1-1 10:00:01 10 5 2 2000-1-1 10:00:01 ... และต่อไป โหวตประเภท 2 คือ upvote, โหวตโหวต 3 คือ downvote คุณสามารถสอบถามรุ่นนี้ของข้อมูลนี้แบบไม่เปิดเผยชื่อได้ที่http://data.stackexchange.com มีการรับรู้ว่าหากโพสต์ถึงคะแนน -1 หรือต่ำกว่าก็มีแนวโน้มที่จะ upvoted นี่อาจเป็นเพียงการยืนยันความลำเอียงหรือมันอาจจะหยั่งรากในความเป็นจริง เราจะวิเคราะห์ข้อมูลนี้เพื่อยืนยันหรือปฏิเสธสมมติฐานนี้อย่างไร เราจะวัดผลกระทบของอคตินี้อย่างไร

5
ฟอเรสต์แบบสุ่มเป็นอัลกอริธึมการส่งเสริมหรือไม่
คำนิยามสั้น ๆ ของการส่งเสริม : ชุดผู้เรียนที่อ่อนแอสามารถสร้างผู้เรียนที่เข้มแข็งเพียงคนเดียวได้หรือไม่? ผู้เรียนที่อ่อนแอถูกกำหนดให้เป็นตัวจําแนกซึ่งมีความสัมพันธ์เพียงเล็กน้อยกับการจัดหมวดหมู่ที่แท้จริง (มันสามารถติดป้ายตัวอย่างที่ดีกว่าการคาดเดาแบบสุ่ม) คำจำกัดความโดยย่อของRandom Forest : ป่าสุ่มเติบโตต้นไม้จัดประเภทจำนวนมาก ในการจัดประเภทวัตถุใหม่จากอินพุตเวกเตอร์ให้ใส่เวกเตอร์อินพุตลงต้นไม้แต่ละต้นในป่า ต้นไม้แต่ละต้นให้การจำแนกประเภทและเราพูดว่าต้นไม้ "โหวต" สำหรับชั้นเรียนนั้น ป่าเลือกการจำแนกที่มีคะแนนมากที่สุด (เหนือต้นไม้ทั้งหมดในป่า) อีกคำนิยามสั้น ๆ ของป่าสุ่ม : ฟอเรสต์แบบสุ่มเป็นตัวประมาณเมตาที่เหมาะกับตัวจัดประเภทต้นไม้ตัดสินใจจำนวนมากบนตัวอย่างย่อยต่างๆของชุดข้อมูลและใช้ค่าเฉลี่ยเพื่อปรับปรุงความแม่นยำในการทำนายและควบคุมการปรับให้เหมาะสม ตามที่ฉันเข้าใจ Random Forest เป็นอัลกอริธึมการเพิ่มประสิทธิภาพซึ่งใช้ต้นไม้เป็นตัวแยกประเภทที่อ่อนแอ ฉันรู้ว่ามันยังใช้เทคนิคอื่น ๆ และปรับปรุงให้ดีขึ้น มีใครบางคนแก้ไขฉันว่า Random Forest ไม่ใช่อัลกอริธึมการส่งเสริมใช่หรือไม่ ใครบางคนสามารถอธิบายอย่างละเอียดเกี่ยวกับเรื่องนี้ทำไม Random Forest ไม่ได้เป็นอัลกอริทึมการส่งเสริม


3
ฟอเรสต์แบบสุ่มสามารถนำมาใช้สำหรับการเลือกคุณสมบัติในการถดถอยเชิงเส้นหลายแบบได้หรือไม่?
เนื่องจาก RF สามารถจัดการแบบไม่เป็นเชิงเส้น แต่ไม่สามารถให้ค่าสัมประสิทธิ์ได้คุณควรใช้ฟอเรสต์แบบสุ่มเพื่อรวบรวมคุณลักษณะที่สำคัญที่สุดจากนั้นจึงเสียบคุณลักษณะเหล่านั้นเข้ากับแบบจำลองการถดถอยเชิงเส้นหลายแบบเพื่อให้ได้ค่าสัมประสิทธิ์

4
การถดถอยเชิงเส้นอย่างรวดเร็วแข็งแกร่งต่อค่าผิดปกติ
ฉันกำลังจัดการกับข้อมูลเชิงเส้นที่มีค่าผิดปกติซึ่งบางส่วนอยู่ที่ 5 ส่วนเบี่ยงเบนมาตรฐานห่างจากเส้นการถดถอยโดยประมาณ ฉันกำลังมองหาเทคนิคการถดถอยเชิงเส้นที่ลดอิทธิพลของจุดเหล่านี้ จนถึงตอนนี้สิ่งที่ฉันทำคือการประมาณค่าเส้นถดถอยกับข้อมูลทั้งหมดแล้วทิ้งจุดข้อมูลที่มีค่ากำลังสองเหลือมาก (พูดยอด 10%) และทำซ้ำการถดถอยซ้ำโดยไม่มีจุดเหล่านั้น ในวรรณคดีมีวิธีการที่เป็นไปได้มากมาย: สี่เหลี่ยมจัตุรัสที่ถูกตัดทอนน้อยที่สุดการถดถอยแบบควอไทล์เอ็ม - ตัวประมาณ ฯลฯ ฉันไม่รู้จริง ๆ ว่าวิธีใดที่ฉันควรลองดังนั้นฉันกำลังมองหาคำแนะนำ สิ่งสำคัญสำหรับฉันคือวิธีการที่เลือกควรเร็วเนื่องจากการคำนวณที่ถดถอยจะถูกคำนวณในแต่ละขั้นตอนของการปรับให้เหมาะสม ขอบคุณมาก!

9
ไม่มีใครรู้ว่าซอฟต์แวร์โอเพ่นซอร์สที่ดีสำหรับการแสดงข้อมูลจากฐานข้อมูล?
เมื่อเร็ว ๆ นี้ฉันเจอTableauและพยายามมองเห็นข้อมูลจากฐานข้อมูลและไฟล์ csv ผู้ใช้ iterface ช่วยให้ผู้ใช้สามารถเห็นภาพเวลาและข้อมูลเชิงพื้นที่และสร้างแปลงในทันที เครื่องมือดังกล่าวมีประโยชน์มากเพราะช่วยให้สามารถสังเกตข้อมูลกราฟิกได้โดยไม่ต้องเขียนโค้ด เนื่องจากมีแหล่งข้อมูลจำนวนมากที่ฉันต้องดึงและแสดงข้อมูลมันจะมีประโยชน์มากที่จะมีเครื่องมือที่เปิดใช้งานเพื่อสร้างแผนภูมิโดยเพียงลากคอลัมน์บนแกนและปรับเปลี่ยนการสร้างภาพด้วยการลากชื่อคอลัมน์ด้วย ไม่มีใครรู้ว่าซอฟต์แวร์โอเพนซอร์ซหรือฟรีหรือไม่?

8
หนังสือสำหรับอ่านก่อนองค์ประกอบของการเรียนรู้ทางสถิติ?
จากโพสต์นี้ฉันต้องการแยกย่อยองค์ประกอบของการเรียนรู้ทางสถิติ โชคดีมีให้ฟรีและฉันเริ่มอ่านมัน ฉันไม่มีความรู้เพียงพอที่จะเข้าใจ คุณช่วยแนะนำหนังสือที่แนะนำหัวข้อในหนังสือได้ดีขึ้นหรือไม่? หวังว่าสิ่งที่จะให้ความรู้ที่จำเป็นในการเข้าใจมัน? ที่เกี่ยวข้อง: ภูมิหลังที่แข็งแกร่งในวิชาคณิตศาสตร์เป็นสิ่งจำเป็นสำหรับ ML หรือไม่?

6
หนังสือประเภทใดที่แนะนำให้เริ่มต้นเรียนรู้สถิติโดยใช้ R ในเวลาเดียวกัน
หนังสือเพื่อเรียนรู้สถิติโดยใช้ R หนังสือที่ฉันกำลังมองหาคืออะไร สิ่งที่ฉันกำลังมองหาคือหนังสือที่สอนสถิติให้คุณในขณะที่ใช้ R เพื่อให้คุณได้รับประสบการณ์ตรงและท้ายที่สุดก็ช่วยให้คุณเรียนรู้ R ด้วยกัน ฉันเคยเห็น amazon หนังสือหลายเล่มที่พยายามทำเช่นนั้น แต่ไม่ใช่กับอาร์ตัวอย่างเช่น Minitab และ SAS ตัวเลือก R Book และการคำนวณเชิงสถิติเป็นตัวเลือกหรือไม่? - ยังไม่ได้รับคำตอบ R Bookและการคำนวณทางสถิติ: การวิเคราะห์ข้อมูลเบื้องต้นโดยใช้ S-Plusดูเหมือนว่าจะเป็นไปได้ แต่ความเห็นของผู้อ่านที่นี่จะเป็นประโยชน์และยินดีต้อนรับ หนังสือเล่มนี้เกี่ยวข้องกับหลักสูตรสถิติอย่างไร เพื่อให้แม่นยำยิ่งขึ้นกับสิ่งที่ฉันกำลังมองหาให้พิจารณาสองหลักสูตรการเรียนรู้ผลลัพธ์เกี่ยวกับสถิติจากแผนกคณิตศาสตร์ของมหาวิทยาลัยที่ฉันเป็นนักเรียนอยู่ในขณะนี้: สถิติระดับกลางและความน่าจะเป็นและสถิตินั่นคือฉันกำลังมองหาหนังสือหลักสูตรสถิติทั่วไปที่จะไปถึงระดับกลาง แต่แทนที่จะเป็นบอร์ดและกระดาษที่คุณได้เรียนรู้และใช้ R แทน นั่นหมายถึงฉันกำลังมองหาหนังสือที่คิดว่าฉันต้องการเรียนรู้สถิติตั้งแต่ต้น หนังสือเล่มนี้สำหรับนักวิจัยด้วย ฉันยังเป็นนักวิจัยวิศวกรซอฟต์แวร์ แต่ฉันเดาว่าสถานการณ์ปัจจุบันที่คุณพบกับภูเขาของข้อมูลและต้องการเรียนรู้สถิติเพื่อเขียนโค้ดเพื่อให้เป็นอัตโนมัติซึ่งค่อนข้างใช้ได้กับสาขาอื่น ๆ นั่นหมายความว่าฉันไม่สนใจที่จะเรียนรู้ทุกรายละเอียดของทุก ๆ ทรัพย์สินสำหรับทุก ๆ เส้นโค้ง แต่ฉันกังวลมากขึ้นเกี่ยวกับการทำความเข้าใจข้อมูลสำหรับโดเมนการวิจัยของฉันแม้ว่าฉันจะไม่สนใจว่าหนังสือเล่มนี้จะลึกลงไป . ในฐานะที่เป็นแรงจูงใจขั้นสุดท้ายฉันพบว่าตัวเองกำลังอ่านเอกสารทางวิทยาศาสตร์ในชุมชนประเภทต่าง ๆ ที่อ้างถึงผลลัพธ์โดยอาศัยการอนุมานเชิงสถิติในขณะที่ไม่มีข้อพิสูจน์ที่สามารถอ่านได้หากสมมติฐาน / ข้อ จำกัด …
50 r  references 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.