สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
เป็นไปได้ไหมที่จะแบ่งชั้นข้อมูลที่กำหนดโดยขนาดของส่วนที่เหลือและทำการเปรียบเทียบสองตัวอย่าง?
นี่คือสิ่งที่ฉันเห็นทำในรูปแบบของการเฉพาะกิจและดูเหมือนว่าจะคาวมากสำหรับฉัน แต่บางทีฉันอาจขาดอะไรบางอย่าง ฉันเคยเห็นสิ่งนี้ทำในหลาย ๆ การถดถอย แต่ลองทำมันให้ง่าย: yi=β0+β1xi+εiyi=β0+β1xi+εi y_{i} = \beta_{0} + \beta_{1} x_{i} + \varepsilon_{i} ตอนนี้นำส่วนที่เหลือจากรุ่นที่ติดตั้ง ei=yi−(β^0+β^1xi)ei=yi−(β^0+β^1xi) e_{i} = y_{i} - \left( \hat{\beta}_{0} + \hat{\beta}_{1} x_{i} \right) และจัดกลุ่มตัวอย่างตามขนาดของสารตกค้าง ตัวอย่างเช่นสมมติว่าตัวอย่างแรกคือ 90% ด้านล่างของส่วนที่เหลือและตัวอย่างที่สองคือด้านบน 10% จากนั้นดำเนินการเปรียบเทียบสองตัวอย่าง - ฉันเคยเห็นสิ่งนี้ทำทั้งในตัวทำนายในโมเดลxxxและ เกี่ยวกับตัวแปรที่ไม่ได้อยู่ในแบบจำลอง ตรรกะที่ไม่เป็นทางการที่ใช้คือบางทีจุดที่มีค่าสูงกว่าสิ่งที่คุณคาดหวังภายใต้แบบจำลอง (เช่นส่วนที่เหลือขนาดใหญ่) จะแตกต่างกันในบางวิธีและมีการตรวจสอบความแตกต่างด้วยวิธีนี้ ความคิดของฉันเกี่ยวกับเรื่องนี้คือ: หากคุณเห็นความแตกต่าง 2 ตัวอย่างกับตัวทำนายในแบบจำลองนั้นจะมีผลกระทบของตัวทำนายที่ไม่ได้รับการพิจารณาโดยตัวแบบในสถานะปัจจุบัน (เช่นผลที่ไม่ใช่เชิงเส้น) หากคุณเห็นความแตกต่าง 2 ตัวอย่างในตัวแปรที่ไม่ได้อยู่ในแบบจำลองบางทีมันควรจะอยู่ในรูปแบบในตอนแรก สิ่งหนึ่งที่ฉันได้พบโดยสังเกตุ (ผ่านการจำลอง) คือถ้าคุณเปรียบเทียบค่าเฉลี่ยของตัวทำนายในโมเดลและแบ่งชั้นด้วยวิธีนี้เพื่อสร้างค่าเฉลี่ยตัวอย่างสองตัวอย่างคือ¯ …

6
การใช้ SVM ที่เร็วที่สุด
คำถามทั่วไปเพิ่มเติม ฉันใช้ rbf SVM สำหรับการสร้างแบบจำลองการคาดการณ์ ฉันคิดว่าโปรแกรมปัจจุบันของฉันต้องใช้เวลาเพิ่มขึ้นเล็กน้อย ฉันใช้ scikit เรียนรู้ด้วยการค้นหากริดแบบหยาบไปจนถึงแบบละเอียด + การตรวจสอบความถูกต้องไขว้ การวิ่ง SVM แต่ละครั้งใช้เวลาประมาณหนึ่งนาที แต่ด้วยการวนซ้ำทั้งหมดฉันยังพบว่ามันช้าเกินไป สมมติว่าในที่สุดฉันก็มีหลายเธรดส่วนการตรวจสอบความถูกต้องข้ามหลายคอร์คำแนะนำใด ๆ ในการเร่งความเร็วโปรแกรมของฉัน มีการใช้งาน SVM ที่เร็วขึ้นหรือไม่ ฉันเคยได้ยิน GPU SVM บางตัวแล้ว แต่ยังไม่ได้เจาะเข้าไปมากนัก ผู้ใช้คนใดและเร็วกว่ากันไหม

2
อะไรคือทางเลือกของ VC-dimension สำหรับวัดความซับซ้อนของโครงข่ายประสาทเทียม?
ฉันได้พบวิธีการพื้นฐานบางอย่างในการวัดความซับซ้อนของเครือข่ายประสาท: ไร้เดียงสาและไม่เป็นทางการ: นับจำนวนเซลล์ประสาทเซลล์ที่ซ่อนอยู่เลเยอร์หรือเลเยอร์ที่ซ่อนอยู่ VC-dimension (Eduardo D. Sontag [1998] "มิติ VC ของเครือข่ายประสาท" [ pdf ]) เม็ดเล็กหลักสูตรและการ asymptotic วัดซับซ้อนในการคำนวณโดยเท่าเทียมกันที่จะTC0dTCd0TC^0_d d มีทางเลือกอื่นหรือไม่? เป็นที่ต้องการ: หากการวัดความซับซ้อนสามารถใช้ในการวัดโครงข่ายประสาทจากกระบวนทัศน์ต่าง ๆ (เพื่อวัด backprop, โครงข่ายประสาทเทียม, ความสัมพันธ์ของน้ำตก ฯลฯ ) ในระดับเดียวกัน ตัวอย่างเช่น VC-dimension สามารถใช้กับประเภทที่แตกต่างกันในเครือข่าย (หรือแม้แต่สิ่งอื่นที่ไม่ใช่เครือข่ายประสาท) ในขณะที่จำนวนของเซลล์ประสาทจะมีประโยชน์เฉพาะระหว่างรุ่นที่เฉพาะเจาะจงมากที่ฟังก์ชั่นการเปิดใช้งานสัญญาณ คุณสมบัติของเครือข่ายเหมือนกัน หากมีความสอดคล้องที่ดีกับการวัดมาตรฐานของความซับซ้อนของฟังก์ชั่นที่เรียนรู้ได้โดยเครือข่าย หากเป็นการง่ายในการคำนวณตัวชี้วัดในเครือข่ายเฉพาะ (อันสุดท้ายนี้ไม่จำเป็นต้องเป็น) หมายเหตุ คำถามนี้ขึ้นอยู่กับคำถามทั่วไปเพิ่มเติมเกี่ยวกับ CogSci.SE

4
สัญชาตญาณเบื้องหลังการกระจายอำนาจกฎหมาย
ฉันรู้ว่าไฟล์ pdf ของการแจกแจงกฎกำลังคือp(x)=α−1xmin(xxmin)−αp(x)=α−1xmin(xxmin)−α p(x) = \frac{\alpha-1}{x_{\text{min}}} \left(\frac{x}{x_{\text{min}}} \right)^{-\alpha} แต่มันหมายความว่าอย่างไรตัวอย่างเช่นถ้าราคาหุ้นเป็นไปตามการกระจายของกฎหมายพลังงาน นี่หมายความว่าการสูญเสียอาจสูงมาก แต่ไม่บ่อยนัก?

8
ขนาดตัวอย่างขั้นต่ำสำหรับการทดสอบทีไม่มีคู่
มี "กฎ" เพื่อกำหนดขนาดตัวอย่างขั้นต่ำที่จำเป็นสำหรับการทดสอบ t- ถูกต้องหรือไม่ ตัวอย่างเช่นการเปรียบเทียบจะต้องดำเนินการระหว่างค่าเฉลี่ยของ 2 ประชากร มี 7 จุดข้อมูลจากประชากรหนึ่งและเพียง 2 จุดข้อมูลจากที่อื่น น่าเสียดายที่การทดสอบมีราคาแพงมากและใช้เวลานานและการได้รับข้อมูลเพิ่มเติมนั้นไม่สามารถทำได้ สามารถใช้การทดสอบ t ได้ไหม? ทำไมหรือทำไมไม่? โปรดระบุรายละเอียด (ไม่ทราบความแปรปรวนของประชากรและการกระจาย) หากไม่สามารถใช้การทดสอบ t ได้จะสามารถใช้การทดสอบแบบไม่มีพารามิเตอร์ (Mann Whitney) ได้หรือไม่? ทำไมหรือทำไมไม่?

1
จะวิเคราะห์ข้อมูลการนับตามยาวได้อย่างไร: การบัญชีสำหรับการหาค่าสัมพันธ์อัตโนมัติใน GLMM?
สวัสดีปรมาจารย์ด้านสถิติและวิซาร์ดการเขียนโปรแกรม R ฉันสนใจในการสร้างแบบจำลองสัตว์จับเป็นฟังก์ชั่นของสภาพแวดล้อมและวันของปี เป็นส่วนหนึ่งของการศึกษาอื่นฉันได้นับการจับกุมในเวลาประมาณ 160 วันในระยะเวลาสามปี ในแต่ละวันฉันมีอุณหภูมิ, ฝน, ความเร็วลม, ความชื้นสัมพัทธ์และอื่น ๆ เนื่องจากข้อมูลถูกรวบรวมซ้ำ ๆ กันจาก 5 แปลงเดียวกันฉันใช้พล็อตเป็นผลแบบสุ่ม ความเข้าใจของฉันคือ nlme สามารถอธิบายความสัมพันธ์ระหว่างกาลชั่วคราวในส่วนที่เหลือได้อย่างง่ายดาย แต่ไม่ได้จัดการฟังก์ชั่นลิงค์ที่ไม่ใช่แบบเกาส์เช่น lme4 (ซึ่งไม่สามารถจัดการความสัมพันธ์แบบอัตโนมัติได้) ขณะนี้ฉันคิดว่ามันอาจใช้งานแพคเกจ nlme ใน R on log (นับ) ดังนั้นวิธีแก้ปัญหาของฉันตอนนี้คือการเรียกใช้สิ่งที่ชอบ: m1 <- lme(lcount ~ AirT + I(AirT^2) + RainAmt24 + I(RainAmt24^2) + RHpct + windspeed + sin(2*pi/360*DOY) + cos(2*pi/360*DOY), random …

2
อธิบายการทดสอบสองด้าน
ฉันกำลังมองหาวิธีต่างๆในการอธิบายให้นักเรียนของฉัน (ในหลักสูตรสถิติเบื้องต้น) การทดสอบสองแบบคืออะไรและการคำนวณค่า P ของมันอย่างไร คุณอธิบายให้นักเรียนของคุณทราบถึงการทดสอบแบบสองทางแบบหนึ่งได้อย่างไร

6
จะหาคลังข้อความขนาดใหญ่ได้ที่ไหน [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นจึงเป็นหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน6 ปีที่ผ่านมา ฉันกำลังมองหาคลังข้อความขนาดใหญ่ (> 1,000) ดาวน์โหลด โดยเฉพาะอย่างยิ่งกับข่าวโลกหรือชนิดของบางรายงาน ฉันพบเพียงสิทธิบัตรเดียวเท่านั้น ข้อเสนอแนะใด ๆ
16 dataset 

2
เหตุผลทางสถิติของการแก้ไขคืออะไร?
สมมติว่าเรามีสองจุด (รูปต่อไปนี้: วงกลมสีดำ) และเราต้องการหาค่าสำหรับจุดที่สามระหว่างพวกเขา (ข้าม) อันที่จริงเราจะประมาณโดยอ้างอิงจากผลการทดลองของเราจุดดำ กรณีที่ง่ายที่สุดคือการวาดเส้นแล้วหาค่า (เช่นการแก้ไขเชิงเส้น) หากเรามีจุดรองรับเช่นจุดสีน้ำตาลในทั้งสองด้านเราต้องการได้รับประโยชน์จากพวกเขาและพอดีกับเส้นโค้งที่ไม่ใช่เชิงเส้น (เส้นโค้งสีเขียว) คำถามคืออะไรคือเหตุผลเชิงสถิติในการทำเครื่องหมายกากบาทสีแดงเป็นวิธีการแก้ปัญหา? เหตุใดไม้กางเขนอื่น (เช่นสีเหลือง) จึงไม่ได้รับคำตอบว่าจะเป็นได้อย่างไร การอนุมานหรือ (?) ผลักเราให้ยอมรับสีแดง ฉันจะพัฒนาคำถามเดิมของฉันตามคำตอบที่ได้รับสำหรับคำถามง่ายๆนี้

5
หนังสือทฤษฎีความน่าจะเป็นสำหรับการศึกษาด้วยตนเอง
มีหนังสือที่ดีที่อธิบายแนวคิดที่สำคัญของทฤษฎีความน่าจะเป็นเช่นฟังก์ชันการแจกแจงความน่าจะเป็นและฟังก์ชันการแจกแจงสะสมหรือไม่ กรุณาหลีกเลี่ยงการอ้างอิงหนังสือเช่น "คณิตศาสตร์สถิติและการวิเคราะห์ข้อมูล" โดย John Rice ซึ่งเริ่มต้นด้วยแนวคิดการเปลี่ยนแปลงแบบง่าย ๆ จากนั้นทันใดนั้น (ในบทที่ 2) ใช้ความก้าวกระโดดที่สมมติว่ามีความรู้ในการวิเคราะห์จริง PDF และแสดงเป็นตัวเลขสามมิติ หนึ่งถูกทิ้งไว้ที่หัวเกาเป็นวิธีการเชื่อมต่อทุกอย่าง ฉันกำลังมองหาหนังสือเรียนด้วยตนเองและหนังสือทุกเล่มในหมวดหมู่เดียวกันกับ "แคลคูลัสสำหรับผู้ปฏิบัติ" จะเป็นประโยชน์อย่างมาก

3
การเดิมพันที่ยิ่งใหญ่และชาญฉลาด
ฉันพยายามเขียนรหัสอัลกอริทึมเพื่อแนะนำการเดิมพันในเกม 1X2 (น้ำหนัก) โดยพื้นฐานแล้วแต่ละเกมมีชุดการแข่งขัน (ทีมเจ้าบ้าน vs ทีมเยือน): 1: เจ้าบ้านชนะ X: วาด 2: ทีมเยือนชนะ สำหรับการแข่งขันแต่ละครั้งและสัญลักษณ์ ( 1, Xและ2) ฉันจะกำหนดอัตราร้อยละที่แสดงถึงโอกาส / ความน่าจะเป็นสัญลักษณ์ว่าเป็นผลการแข่งขันที่ถูกต้อง นี่คืออาร์เรย์ที่แสดงถึงโครงสร้าง: $game = array ( 'match #1' => array // stdev = 0.0471 ( '1' => 0.3, // 30% home wins 'X' => 0.4, // 40% draw '2' => 0.3, …

4
การจัดกลุ่มข้อมูล 1D
ฉันมีชุดข้อมูลฉันต้องการสร้างกลุ่มข้อมูลตามตัวแปรเดียวเท่านั้น (ไม่มีค่าที่หายไป) ฉันต้องการสร้าง 3 กลุ่มตามตัวแปรนั้น อัลกอริทึมการจัดกลุ่มที่จะใช้ k-mean, EM, DBSCAN ฯลฯ คำถามหลักของฉันคือในสถานการณ์ใดฉันควรใช้ k- หมายถึง EM หรือ EM มากกว่า k- หมายถึง?
16 clustering 

11
วิธีเริ่มต้นและเรียนรู้ R?
ฉันได้ลองหลายครั้งเพื่อ "ไปด้วยตัวเอง" - แต่ประสบความสำเร็จอย่าง จำกัด ฉันเป็นผู้ใช้ SPSS ชั่วคราวและมีประสบการณ์ SAS บางอย่าง จะขอบคุณตัวชี้หนึ่งหรือสองจากคนที่มีพื้นหลังที่คล้ายกันและตอนนี้ใช้ R
16 r  references 

1
ฉันสามารถใช้ Kolmogorov-Smirnov เพื่อเปรียบเทียบการแจกแจงเชิงประจักษ์สองแบบได้หรือไม่?
มันเป็นการดีหรือไม่ที่จะใช้การทดสอบความดีแบบพอดีของ Kolmogorov-Smirnov เพื่อเปรียบเทียบการแจกแจงเชิงประจักษ์สองครั้งเพื่อพิจารณาว่าพวกมันดูเหมือนว่ามาจากการแจกแจงพื้นฐานเดียวกันแทนที่จะเปรียบเทียบการกระจายเชิงประจักษ์หนึ่งไปสู่การแจกแจงอ้างอิงที่ระบุล่วงหน้าหรือไม่ ให้ฉันลองถามอีกวิธีนี้ ฉันรวบรวมตัวอย่าง N จากการแจกจ่ายในที่เดียว ฉันรวบรวมตัวอย่าง M ที่สถานที่อื่น ข้อมูลมีความต่อเนื่อง (แต่ละตัวอย่างเป็นจำนวนจริงระหว่าง 0 ถึง 10 พูด) แต่ไม่แจกแจงตามปกติ ฉันต้องการทดสอบว่าตัวอย่าง N + M เหล่านี้ทั้งหมดมาจากการแจกแจงพื้นฐานเดียวกันหรือไม่ มันเหมาะสมที่จะใช้การทดสอบ Kolmogorov-Smirnov เพื่อจุดประสงค์นี้หรือไม่? F0F0F_0NNNF1F1F_1MMMF0F0F_0F1F1F_1D=supx|F0(x)−F1(x)|D=supx|F0(x)−F1(x)|D = \sup_x |F_0(x) - F_1(x)|DDD (ฉันอ่านที่อื่นว่าการทดสอบ Kolmogorov-Smirnov สำหรับความดีของพอดีไม่ถูกต้องสำหรับการกระจายโดยสิ้นเชิงแต่ฉันยอมรับว่าฉันไม่เข้าใจสิ่งนี้หมายความว่าหรือทำไมมันอาจจะเป็นจริงนั่นหมายความว่าวิธีการเสนอของฉันไม่ดี ) หรือคุณแนะนำอย่างอื่นแทน

2
เราจะรวมการลดขนาดเข้ากับการรวมกลุ่มเมื่อใด
ฉันพยายามทำการจัดกลุ่มระดับเอกสาร ฉันสร้างเมทริกซ์ความถี่เอกสารระยะและฉันพยายามจัดกลุ่มเวกเตอร์มิติสูงเหล่านี้โดยใช้ค่าเฉลี่ย k แทนที่จะทำการจัดกลุ่มโดยตรงสิ่งที่ฉันทำคือการใช้การสลายตัวเวกเตอร์เอกพจน์ (การวิเคราะห์ความหมายแฝง) ของ LSA ก่อนเพื่อให้ได้เมทริกซ์ U, S, Vt เลือกเกณฑ์ที่เหมาะสมโดยใช้พล็อตหินกรวดและใช้การจัดกลุ่มบนเมทริกซ์ที่ลดลง มันทำให้ฉันมีข้อมูลเอกสารแนวคิด) ซึ่งดูเหมือนจะให้ผลลัพธ์ที่ดีแก่ฉัน ฉันเคยได้ยินบางคนพูดว่า SVD (เอกพจน์การสลายตัวของเวกเตอร์) เป็นการจัดกลุ่ม (โดยใช้การวัดความคล้ายคลึงกันของโคไซน์ ฯลฯ ) และไม่แน่ใจว่าฉันสามารถใช้ k-mean กับผลลัพธ์ของ SVD ได้หรือไม่ ฉันคิดว่ามันถูกต้องตามหลักเหตุผลเพราะ SVD เป็นเทคนิคการลดขนาดให้ฉันเป็นเวกเตอร์ใหม่ ในทางกลับกันค่า k จะใช้จำนวนกลุ่มเป็นอินพุตและแบ่งเวกเตอร์เหล่านี้เป็นจำนวนกลุ่มที่ระบุ ขั้นตอนนี้มีข้อบกพร่องหรือมีวิธีที่สามารถปรับปรุงได้หรือไม่ ข้อเสนอแนะใด ๆ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.