สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

4
วิธีคำนวณการแจกแจงสะสมใน R
ล็อคแล้ว คำถามและคำตอบนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ฉันต้องการคำนวณฟังก์ชันการแจกแจงสะสมของตัวอย่างข้อมูล มีบางอย่างที่คล้ายกับ hist () ใน R ที่วัดฟังก์ชันความหนาแน่นสะสมหรือไม่? ฉันลอง ecdf () แต่ฉันไม่เข้าใจตรรกะ
23 r  distributions  cdf 

2
เทคนิคการเรียนรู้ของเครื่อง“ อัลกอริธึมการประมาณค่า” หรือไม่?
เมื่อเร็ว ๆ นี้มีคำถามที่คล้าย ML มากกว่าใน cstheory stackexchange และฉันโพสต์คำตอบแนะนำวิธีการของ Powell, การไล่ระดับสี, ขั้นตอนวิธีพันธุกรรมหรืออื่น ๆ"ขั้นตอนวิธีการประมาณ" ในความคิดเห็นมีคนบอกฉันว่าวิธีการเหล่านี้คือ "การวิเคราะห์พฤติกรรม" และไม่ใช่ "อัลกอริทึมการประมาณ" และบ่อยครั้งไม่ได้เข้าใกล้ทฤษฎีที่เหมาะสมที่สุด (เพราะพวกเขา "มักติดอยู่ในท้องถิ่นน้อยที่สุด") คนอื่นเห็นด้วยไหม นอกจากนี้ดูเหมือนว่าสำหรับฉันแล้วมีความรู้สึกว่าอัลกอริธึมฮิวริสติกสามารถรับประกันได้ว่าจะใกล้เคียงกับทฤษฎีที่เหมาะสมที่สุดหากตั้งค่าให้สำรวจพื้นที่ส่วนใหญ่ในการค้นหา (เช่นการตั้งค่าพารามิเตอร์ / ขนาดขั้นตอนเล็ก) จะเห็นว่าในกระดาษ ไม่มีใครรู้ว่าสิ่งนี้ได้รับการแสดงหรือพิสูจน์ในกระดาษ (ถ้าไม่ใช่สำหรับอัลกอริธึมขนาดใหญ่อาจเป็นคลาสเล็ก ๆ ที่พูดว่า NNs เป็นต้น)

3
K ประสบความสำเร็จในการทดลอง Bernoulli หรือการทดลองภาพยนตร์ของ George Lucas
ฉันกำลังอ่าน "The Drunkard's Walk" ตอนนี้และไม่สามารถเข้าใจเรื่องใดเรื่องหนึ่งได้ นี่มันไป: ลองนึกภาพว่า George Lucas สร้างภาพยนตร์ Star Wars ใหม่และในตลาดการทดสอบเดียวตัดสินใจทำการทดลองที่บ้า เขาเผยแพร่ภาพยนตร์เรื่องเดียวกันภายใต้สองชื่อ: "Star Wars: Episode A" และ "Star Wars: Episode B" ภาพยนตร์แต่ละเรื่องมีแคมเปญการตลาดและตารางการจัดจำหน่ายของตัวเองโดยมีรายละเอียดที่เหมือนกันยกเว้นตัวอย่างภาพยนตร์และโฆษณาสำหรับภาพยนตร์เรื่องหนึ่งที่พูดว่า "Episode A" และภาพยนตร์อื่น ๆ "Episode B" ตอนนี้เราทำการประกวดออกมา ภาพยนตร์เรื่องใดที่จะได้รับความนิยมมากขึ้น สมมติว่าเราดูผู้ชมภาพยนตร์ 20,000 คนแรกและบันทึกภาพยนตร์ที่พวกเขาเลือกที่จะดู (ไม่สนใจแฟน ๆ ที่กำลังจะตายทั้งคู่และยืนยันว่ามีความแตกต่างที่ลึกซึ้ง แต่มีความหมายระหว่างทั้งสอง) เนื่องจากภาพยนตร์และแคมเปญการตลาดของพวกเขาเหมือนกันเราสามารถสร้างแบบจำลองทางคณิตศาสตร์ด้วยวิธีนี้: ลองนึกภาพผู้ชมทั้งหมดในแถวและพลิกเหรียญสำหรับผู้ชมแต่ละคน ถ้าเหรียญก้มลงหัวเขาหรือเธอเห็นตอนที่ A; หากเหรียญก้อยจบลงก็เป็นตอนที่ B. เนื่องจากเหรียญมีโอกาสเท่ากันที่จะเกิดขึ้นไม่ว่าด้วยวิธีใดคุณอาจคิดว่าในสงครามบ็อกซ์ออฟฟิศทดลองนี้ภาพยนตร์แต่ละเรื่องควรเป็นผู้นำในครึ่งเวลา แต่คณิตศาสตร์ของการสุ่มบอกว่าเป็นอย่างอื่น: จำนวนการเปลี่ยนแปลงที่น่าจะเป็นไปได้มากที่สุดในการเป็นผู้นำคือ 0 และมันน่าจะเป็น …

2
การกระจายของระยะทาง Mahalanobis ระดับสังเกต
ถ้าฉันมีตัวอย่าง iid ปกติหลายตัวแปรและกำหนด (ซึ่งเป็นชนิดของระยะทาง Mahalanobis [กำลังสอง] จากจุดตัวอย่างไปยังเวกเตอร์โดยใช้เมทริกซ์สำหรับการถ่วงน้ำหนัก) อะไรคือการกระจายตัวของ (ระยะทาง Mahalanobis sample meanโดยใช้เมทริกซ์ความแปรปรวนร่วมตัวอย่าง )?d 2 i ( b , A ) = ( X i - b ) ′ A - 1 ( X i - b ) a AX1, … , Xn∼ Nพี( μ , Σ )X1,…,Xn∼Np(μ,Σ)X_1, \ldots, X_n \sim …

4
ในฐานะผู้ตรวจทานฉันสามารถจัดให้มีการร้องขอข้อมูลและรหัสได้แม้ว่าวารสารจะไม่ได้ทำหรือไม่?
ในฐานะที่เป็นวิทยาศาสตร์จะต้องทำซ้ำโดยความหมายมีการรับรู้เพิ่มขึ้นว่าข้อมูลและรหัสเป็นองค์ประกอบที่สำคัญของ reproduciblity ตามที่กล่าวโดยเยลโต๊ะกลมสำหรับข้อมูลและการแบ่งปันรหัส ในการตรวจสอบต้นฉบับสำหรับวารสารที่ไม่ต้องการข้อมูลและการแชร์รหัสฉันสามารถขอให้มีการใช้ข้อมูลและรหัสได้หรือไม่ ถึงฉันในเวลาที่รีวิว สาธารณะในเวลาที่เผยแพร่ (วารสารสนับสนุนข้อมูลเพิ่มเติม) นอกจากนี้ฉันจะวลีคำขอดังกล่าวได้อย่างไร อัปเดต : แม้ว่าฉันสนใจกรณีทั่วไป แต่เฉพาะกรณีนี้ประกอบด้วยการวิเคราะห์ meta กับข้อมูลที่เผยแพร่ก่อนหน้านี้ทั้งหมดและรหัสเป็นตัวแบบเชิงเส้นง่าย ๆ ใน SAS หมายเหตุข้างเคียงความสามารถในการอนุมานการศึกษาข้าม (เช่นเดียวกับเป้าหมายของการวิเคราะห์อภิมาน) จะได้รับการปรับปรุงอย่างมากหากมีการศึกษาเพิ่มเติมที่ให้ข้อมูลดิบ อัปเดต 2 : ฉันขอข้อมูลและรหัสจากเครื่องมือแก้ไขเพื่อการตรวจทานบรรณาธิการพิจารณาคำขอที่สมเหตุสมผลและฉันได้รับเนื้อหาที่ร้องขอ (เพียงพอ แต่มีชื่อตัวแปรที่เข้ารหัสลับไม่มีข้อมูลเมตาดาต้าและความคิดเห็นแบบอินไลน์เล็กน้อย) ภายในหนึ่งวัน

4
มักจะมี maximizer สำหรับปัญหา MLE หรือไม่?
ฉันสงสัยว่าจะมี maximizer สำหรับปัญหาการประมาณโอกาสสูงสุด (บันทึก -) หรือไม่? กล่าวอีกนัยหนึ่งมีการแจกแจงบางส่วนและพารามิเตอร์บางอย่างซึ่งปัญหา MLE ไม่มี maximizer หรือไม่ คำถามของฉันมาจากการอ้างสิทธิ์ของวิศวกรว่าฟังก์ชั่นค่าใช้จ่าย (ความน่าจะเป็นหรือความเป็นไปได้ในการบันทึกฉันไม่แน่ใจว่ามีจุดประสงค์ใด) ใน MLE มักจะเป็นแบบเว้าเสมอและดังนั้นจึงมี maximizer เสมอ ขอบคุณและขอแสดงความนับถือ!

3
ไซต์สำหรับการแข่งขันการสร้างแบบจำลองการทำนาย
ผมมีส่วนร่วมในการแข่งขันการสร้างแบบจำลองการคาดการณ์ในKaggle , TunedItและCrowdAnalytix ฉันพบว่าเว็บไซต์เหล่านี้เป็นวิธีที่ดีในการ "ออกกำลังกาย" เพื่อการเรียนรู้ทางสถิติ / เครื่อง มีเว็บไซต์อื่น ๆ ที่ฉันควรรู้หรือไม่? คุณรู้สึกอย่างไรเกี่ยวกับการแข่งขันที่โฮสต์ต้องการทำกำไรจากการส่งผลงานของคู่แข่ง? / แก้ไข: นี่คือรายการที่สมบูรณ์มากขึ้น: Kaggle TunedIt Clopinte KDD Cup Innocentive Crowdanalytix Topcoder

3
สร้างข้อมูลที่มีความสัมพันธ์แบบสุ่มระหว่างไบนารีและตัวแปรต่อเนื่อง
ฉันต้องการสร้างตัวแปรสองตัว หนึ่งคือตัวแปรผลลัพธ์ไบนารี (พูดว่าสำเร็จ / ล้มเหลว) และอีกอันคืออายุในปีที่ผ่านมา ฉันต้องการอายุมีความสัมพันธ์เชิงบวกกับความสำเร็จ ตัวอย่างเช่นควรมีความสำเร็จมากกว่าในกลุ่มอายุที่สูงกว่าต่ำกว่า เป็นการดีที่ฉันควรอยู่ในตำแหน่งที่จะควบคุมระดับความสัมพันธ์ ฉันจะทำอย่างไร ขอบคุณ

4
วิธีที่มีประสิทธิภาพในการจัดระเบียบรหัส R และเอาท์พุทคืออะไร [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นจึงเป็นหัวข้อสำหรับการตรวจสอบข้าม ปิดเมื่อปีที่แล้ว ฉันกำลังมองหาวิธีการที่คนอื่นจัดระเบียบรหัส R และเอาท์พุทของพวกเขา การปฏิบัติปัจจุบันของฉันคือการเขียนรหัสในบล็อกในไฟล์ข้อความเช่น: #================================================= # 19 May 2011 date() # Correlation analysis of variables in sed summary load("/media/working/working_files/R_working/sed_OM_survey.RData") # correlation between estimated surface and mean perc.OM in epi samples cor.test(survey$mean.perc.OM[survey$Depth == "epi"], survey$est.surf.OM[survey$Depth == "epi"])) #================================================== ฉันจะวางผลลัพธ์ลงในไฟล์ข้อความอื่นโดยปกติแล้วจะมีคำอธิบายประกอบอยู่บ้าง ปัญหาเกี่ยวกับวิธีนี้คือ: รหัสและผลลัพธ์ไม่ได้เชื่อมโยงอย่างชัดเจนนอกเหนือจากวันที่ รหัสและผลลัพธ์มีการจัดเรียงตามลำดับเวลาซึ่งทำให้ค้นหาได้ยาก ฉันได้พิจารณาทำเอกสาร Sweave หนึ่งฉบับกับทุกสิ่งตั้งแต่ฉันสามารถสร้างสารบัญได้ …

3
จะคำนวณ p-value ของพารามิเตอร์สำหรับ ARIMA model ใน R ได้อย่างไร?
เมื่อทำการวิจัยอนุกรมเวลาใน R ฉันพบว่าarima ให้เฉพาะค่าสัมประสิทธิ์และข้อผิดพลาดมาตรฐานของโมเดลที่ติดตั้ง อย่างไรก็ตามฉันต้องการได้รับ p-value ของสัมประสิทธิ์ ฉันไม่พบฟังก์ชันใด ๆ ที่ให้ความสำคัญของ coef ดังนั้นฉันต้องการคำนวณด้วยตัวเอง แต่ฉันไม่รู้ระดับความอิสระในการแจกแจงค่า t หรือ chisq ของสัมประสิทธิ์ ดังนั้นคำถามของฉันคือทำอย่างไรจึงจะได้ค่า p สำหรับสัมประสิทธิ์ของแบบจำลอง arima ที่พอดีใน R?

4
จะทำการลบกรณีที่ถูกตั้งค่าสถานะเป็นค่าผิดปกติโดยซอฟต์แวร์ทางสถิติเมื่อทำการถดถอยหลายครั้งหรือไม่?
ฉันทำการวิเคราะห์การถดถอยหลายครั้งและฉันไม่แน่ใจว่าควรลบค่าผิดปกติในข้อมูลของฉันหรือไม่ ข้อมูลที่ฉันกังวลปรากฏเป็น "แวดวง" ในกล่องสี่เหลี่ยมของ SPSS อย่างไรก็ตามไม่มีเครื่องหมายดอกจัน (ซึ่งทำให้ฉันคิดว่าพวกเขาไม่ใช่ 'แย่') กรณีที่ฉันกังวลจะปรากฏภายใต้ตาราง "การวินิจฉัย casewise" ในผลลัพธ์ - ดังนั้นฉันควรลบกรณีเหล่านี้หรือไม่


5
ทางเลือกอื่นสำหรับต้นไม้ที่มีการจำแนกที่ดีกว่า (เช่น: CV)
ฉันกำลังมองหาทางเลือกในการจำแนกต้นไม้ซึ่งอาจให้พลังการทำนายที่ดีกว่า ข้อมูลที่ฉันจัดการมีปัจจัยสำหรับทั้งคำอธิบายและตัวแปรอธิบาย ฉันจำได้ว่าเคยเจอป่าสุ่มและเครือข่ายประสาทเทียมในบริบทนี้แม้ว่าจะไม่เคยลองมาก่อนมีผู้สมัครที่ดีอีกคนหนึ่งสำหรับงานสร้างแบบจำลอง (เช่นใน R หรือไม่)

3
วิธีการทดสอบความสัมพันธ์ของข้อมูลส่วนบุคคลอัตโนมัติได้อย่างไร
ฉันมีเมทริกซ์ที่มีสองคอลัมน์ที่มีราคามากมาย (750) ในภาพด้านล่างผมพล็อตส่วนที่เหลือของการถดถอยเชิงเส้นดังนี้ lm(prices[,1] ~ prices[,2]) ดูภาพดูเหมือนว่าจะเป็นระบบอัตโนมัติที่สัมพันธ์กันอย่างมากกับส่วนที่เหลือ อย่างไรก็ตามฉันจะทดสอบได้อย่างไรว่าค่าความสัมพันธ์แบบอัตโนมัติของสารตกค้างเหล่านั้นมีความแข็งแรงหรือไม่? ฉันควรใช้วิธีใด ขอขอบคุณ!

2
โมเดลเชิงพื้นที่เชิงสถิติ: CAR เทียบกับ SAR
เมื่อใดที่ผู้คนต้องการใช้แบบจำลองเงื่อนไขแบบอัตโนมัติเชิงเงื่อนไขมากกว่าแบบจำลองแบบจำลองอัตโนมัติพร้อมกันเมื่อสร้างแบบจำลองข้อมูลทางอากาศอ้างอิงทางภูมิศาสตร์โดยอัตโนมัติ?
23 modeling  spatial 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.