สถิติและข้อมูลขนาดใหญ่

3

การเรียนรู้แบบไม่ควบคุมดูแลและแบบกึ่งควบคุม

ในบริบทของการเรียนรู้ของเครื่องสิ่งที่แตกต่างกันคืออะไร การเรียนรู้แบบไม่มีผู้ดูแล การเรียนรู้ภายใต้การดูแลและ การเรียนรู้แบบกึ่งภายใต้การดูแล? และวิธีการบางอย่างของอัลกอริทึมหลักในการดูคืออะไร?

27 machine-learning unsupervised-learning supervised-learning semi-supervised

9

เครื่องมือซอฟต์แวร์สถิติและการขุดข้อมูลสำหรับการจัดการกับชุดข้อมูลขนาดใหญ่

ปัจจุบันฉันต้องวิเคราะห์ระเบียนประมาณ 20 ล้านรายการและสร้างแบบจำลองการทำนาย จนถึงตอนนี้ฉันได้ลอง Statistica, SPSS, RapidMiner และ R ในบรรดา Statistica เหล่านี้ดูเหมือนจะเหมาะสมที่สุดในการจัดการกับ data mining และส่วนต่อประสานผู้ใช้ RapidMiner นั้นมีประโยชน์มาก แต่ดูเหมือนว่า Statistica, RapidMiner และ SPSS นั้นเหมาะสำหรับชุดข้อมูลขนาดเล็ก . ใครช่วยแนะนำเครื่องมือที่ดีสำหรับชุดข้อมูลขนาดใหญ่? ขอบคุณ!

27 large-data software data-mining

5

จากมุมมองทางสถิติเราสามารถอนุมานสาเหตุของการใช้คะแนนความชอบด้วยการศึกษาเชิงสังเกตการณ์ได้หรือไม่?

คำถาม:จากมุมมองของนักสถิติ (หรือผู้ประกอบการ) เราสามารถอนุมานสาเหตุที่เป็นเหตุเป็นผลโดยใช้คะแนนความชอบด้วยการศึกษาเชิงสังเกตการณ์ ( ไม่ใช่การทดลอง ) ได้หรือไม่ กรุณาอย่าต้องการที่จะเริ่มสงครามเปลวไฟหรือการอภิปรายที่คลั่ง ที่มา:ภายในโปรแกรมปริญญาเอกสถิติของเราเราได้เพียงสัมผัสในการอนุมานสาเหตุผ่านกลุ่มการทำงานและช่วงหัวข้อไม่กี่ อย่างไรก็ตามมีนักวิจัยที่โดดเด่นบางคนในแผนกอื่น ๆ (เช่น HDFS, สังคมวิทยา) ที่ใช้งานพวกเขาอย่างแข็งขัน ฉันได้เห็นการถกเถียงที่ค่อนข้างร้อนแรงในเรื่องนี้ ฉันไม่ได้ตั้งใจที่จะเริ่มที่นี่ ที่กล่าวว่าสิ่งที่คุณได้พบอ้างอิง? คุณมีมุมมองอะไร ตัวอย่างเช่นข้อโต้แย้งหนึ่งที่ฉันเคยได้ยินเกี่ยวกับคะแนนความชอบในฐานะที่เป็นเทคนิคการอนุมานเชิงสาเหตุคือไม่มีใครสามารถอนุมานสาเหตุเวรกรรมได้เนื่องจากการละเว้นตัวแปรอคติ - ถ้าคุณทิ้งอะไรที่สำคัญไปคุณก็เลิกโซ่สาเหตุ นี่เป็นปัญหาที่แก้ไขไม่ได้หรือไม่ ข้อความปฏิเสธความรับผิดชอบ:คำถามนี้อาจไม่มีคำตอบที่ถูกต้อง - เจ๋งมากเมื่อคลิก cw แต่โดยส่วนตัวแล้วฉันสนใจในการตอบกลับมากและจะมีความสุขกับการอ้างอิงที่ดีเพียงไม่กี่ข้อซึ่งรวมถึงตัวอย่างจริง

27 causality propensity-scores

6

ความสัมพันธ์ระหว่างการแจกแจงแบบทวินามและเบต้า

ฉันเป็นโปรแกรมเมอร์มากกว่านักสถิติดังนั้นฉันหวังว่าคำถามนี้จะไร้เดียงสาเกินไป มันเกิดขึ้นในการสุ่มตัวอย่างการประมวลผลโปรแกรมในเวลาสุ่ม ถ้าฉันใช้เวลาสุ่มตัวอย่าง N = 10 ของสถานะของโปรแกรมฉันจะเห็นฟังก์ชั่น Foo ที่กำลังทำงานอยู่ตัวอย่างเช่น I = 3 ของตัวอย่างเหล่านั้น ฉันสนใจในสิ่งที่บอกฉันเกี่ยวกับเวลาจริง ๆ ที่ Foo กำลังดำเนินการ ฉันเข้าใจว่าฉันกระจายแบบทวินามด้วยค่าเฉลี่ย F * N ฉันก็รู้ว่าเนื่องจาก I และ N เป็น F ตามการแจกแจงแบบเบต้า อันที่จริงฉันได้ตรวจสอบแล้วโดยโปรแกรมความสัมพันธ์ระหว่างการแจกแจงสองอย่างนั่นคือ cdfBeta(I, N-I+1, F) + cdfBinomial(N, F, I-1) = 1 ปัญหาคือฉันไม่มีความรู้สึกที่เข้าใจได้ง่ายสำหรับความสัมพันธ์ ฉันไม่สามารถ "รูป" ทำไมจึงเป็นไปได้ แก้ไข: คำตอบทั้งหมดเป็นสิ่งที่ท้าทายโดยเฉพาะอย่างยิ่ง @ whuber ซึ่งฉันยังคงต้องห้อมล้อม แต่การนำสถิติในการสั่งซื้อเป็นประโยชน์มาก อย่างไรก็ตามฉันได้ตระหนักว่าฉันควรถามคำถามพื้นฐานเพิ่มเติม: …

27 binomial beta-binomial beta-distribution

4

ความน่าจะเป็นที่ไม่ได้วาดคำจากถุงตัวอักษรใน Scrabble

สมมติว่าคุณมีถุงที่มีกระเบื้องแต่ละคนมีตัวอักษรบนมัน มีมีตัวอักษร 'A',พร้อมด้วย 'B' และอื่น ๆ และ 'ไวด์การ์ด' (เรามี ) สมมติว่าคุณมีพจนานุกรมที่มีจำนวนคำ จำกัด คุณเลือกไพ่จากกระเป๋าโดยไม่มีการเปลี่ยน คุณจะคำนวณ (หรือประมาณ) ความน่าจะเป็นที่คุณสามารถจัดรูปแบบศูนย์คำจากพจนานุกรมที่ให้การเรียงตัวnnnnAnAn_AnBnBn_Bn∗n* * * *n_*n=nA+nB+…+nZ+n∗n=nA+nB+...+nZ+n* * * *n = n_A + n_B + \ldots + n_Z + n_*kkkkkk สำหรับผู้ที่ไม่คุ้นเคยกับ Scrabble (TM) สามารถใช้อักขระตัวแทนเพื่อจับคู่กับตัวอักษรใดก็ได้ ดังนั้นคำว่า [ BOOT ] จึงสามารถ 'สะกด' ด้วย 'B', '*', 'O', 'T' เพื่อให้เข้าใจถึงระดับของปัญหามีขนาดเล็กเช่น 7,ประมาณ 100 …

27 sampling games probability

6

เหตุใดจึงต้องศึกษาการปรับให้เหมาะสมของนูนสำหรับการเรียนรู้เชิงทฤษฎี?

ฉันกำลังทำงานเกี่ยวกับการเรียนรู้ของเครื่องจักรเชิงทฤษฎี - ในการเรียนรู้การถ่ายโอนเพื่อเจาะจง - สำหรับปริญญาเอก ด้วยความอยากรู้ทำไมฉันต้องเรียนหลักสูตรการเพิ่มประสิทธิภาพแบบนูน? สิ่งที่ได้จากการเพิ่มประสิทธิภาพของนูนฉันสามารถใช้ในการวิจัยของฉันในการเรียนรู้เครื่องทฤษฎี?

27 machine-learning optimization convex transfer-learning

4

เป็นไปได้อย่างไรที่การสูญเสียการตรวจสอบเพิ่มขึ้นในขณะที่ความแม่นยำในการตรวจสอบเพิ่มขึ้นเช่นกัน

ฉันกำลังฝึกโครงข่ายประสาทอย่างง่ายบนชุดข้อมูล CIFAR10 หลังจากเวลาผ่านไปการสูญเสียการตรวจสอบความถูกต้องก็เริ่มเพิ่มขึ้น การสูญเสียการทดสอบและความแม่นยำในการทดสอบยังคงปรับปรุง เป็นไปได้อย่างไร? ดูเหมือนว่าหากการสูญเสียการตรวจสอบเพิ่มขึ้นความแม่นยำควรลดลง ป.ล. มีคำถามที่คล้ายกันหลายประการ แต่ไม่มีใครอธิบายสิ่งที่เกิดขึ้นที่นั่น

27 neural-networks deep-learning conv-neural-network overfitting

2

พื้นที่ภายใต้ Precision-Recall Curve (AUC ของ PR-curve) และ Average Precision (AP)

Average Precision (AP) เป็นพื้นที่ภายใต้ Precision-Recall Curve (AUC ของ PR-curve) หรือไม่ แก้ไข: นี่คือความคิดเห็นเกี่ยวกับความแตกต่างใน PR AUC และ AP AUC นั้นได้มาจากการประมาณค่าความแม่นยำสี่เหลี่ยมคางหมู อีกทางเลือกหนึ่งและมักจะเทียบเท่ากับตัวชี้วัดคือ Average Precision (AP) ซึ่งส่งคืนเป็น info.ap นี่คือค่าเฉลี่ยของความแม่นยำที่ได้รับทุกครั้งที่มีการเรียกคืนตัวอย่างบวกใหม่ มันเป็นเช่นเดียวกับ AUC หากความแม่นยำถูกแก้ไขโดยส่วนคงที่และเป็นคำจำกัดความที่ใช้โดย TREC บ่อยที่สุด http://www.vlfeat.org/overview/plots-rank.html นอกจากนี้ผลลัพธ์ aucและaverage_precision_scoreไม่เหมือนกันใน scikit-Learn นี่เป็นเรื่องแปลกเพราะในเอกสารที่เรามี: คำนวณความแม่นยำเฉลี่ย (AP) จากคะแนนการทำนายคะแนนนี้สอดคล้องกับพื้นที่ใต้กราฟความแม่นยำในการจำ นี่คือรหัส: # Compute Precision-Recall and plot curve precision, recall, thresholds = precision_recall_curve(y_test, …

27 scikit-learn precision-recall auc average-precision

2

เหตุใดบทลงโทษของ Lasso จึงเทียบเท่ากับเลขชี้กำลังสองเท่า (Laplace) ก่อนหน้า?

ฉันได้อ่านจำนวนการอ้างอิงว่า Lasso ประมาณค่าสำหรับพารามิเตอร์การถดถอยเวกเตอร์เทียบเท่ากับโหมดหลังของซึ่งการแจกแจงก่อนหน้าสำหรับแต่ละเป็นการกระจายแบบเลขชี้กำลังสองเท่า (เรียกอีกอย่างว่าการกระจาย Laplace)B B iBBBBBBBiBiB_i ฉันพยายามพิสูจน์เรื่องนี้แล้วจะมีใครช่วยอธิบายรายละเอียดได้บ้างไหม?

27 regression bayesian lasso prior regularization

4

ชุดของ regressors ชนิดต่าง ๆ โดยใช้ scikit-Learn (หรือโครงร่างหลามอื่น ๆ )

ฉันพยายามที่จะแก้ปัญหาการถดถอย ฉันพบว่า 3 รุ่นทำงานได้ดีกับชุดย่อยของข้อมูลที่แตกต่างกัน: LassoLARS, SVR และการไล่ระดับต้นไม้แบบไล่ระดับ ฉันสังเกตเห็นว่าเมื่อฉันทำการทำนายโดยใช้ทั้ง 3 โมเดลจากนั้นสร้างตารางของ 'เอาท์พุทที่แท้จริง' และเอาท์พุทของโมเดล 3 ของฉันฉันเห็นว่าในแต่ละครั้งที่อย่างน้อยหนึ่งโมเดลนั้นใกล้เคียงกับเอาต์พุตจริง อาจอยู่ค่อนข้างไกล เมื่อฉันคำนวณข้อผิดพลาดน้อยที่สุดที่เป็นไปได้ (ถ้าฉันใช้การทำนายจากตัวทำนายที่ดีที่สุดสำหรับแต่ละตัวอย่างการทดสอบ) ฉันได้รับข้อผิดพลาดซึ่งเล็กกว่าข้อผิดพลาดของแบบจำลองใด ๆ เพียงอย่างเดียว ดังนั้นฉันจึงคิดว่าจะพยายามรวมการทำนายจากแบบจำลองต่าง ๆ ทั้งสามนี้เข้าด้วยกันเป็นชุด คำถามคือทำอย่างไรให้ถูกต้อง? โมเดล 3 แบบของฉันทั้งหมดได้รับการสร้างและปรับแต่งโดยใช้ Scikit-Learn มันมีวิธีการบางอย่างที่สามารถใช้ในการแพ็คแบบจำลองเป็นชุดหรือไม่? ปัญหาตรงนี้คือฉันไม่ต้องการเพียงแค่การคาดคะเนค่าเฉลี่ยจากทั้งสามรุ่นฉันต้องการทำสิ่งนี้ด้วยการถ่วงน้ำหนักซึ่งควรกำหนดน้ำหนักตามคุณสมบัติของตัวอย่างเฉพาะ แม้ว่า Scikit-Learn จะไม่ได้มีฟังก์ชั่นดังกล่าว แต่มันก็ดีถ้ามีคนรู้วิธีที่จะจัดการกับงานนี้ - การหาน้ำหนักของแต่ละรุ่นสำหรับแต่ละตัวอย่างในข้อมูล ฉันคิดว่ามันอาจจะทำได้โดย regressor แยกต่างหากที่สร้างไว้ด้านบนของทั้งสามรุ่นซึ่งจะลองใช้น้ำหนักที่เหมาะสมที่สุดสำหรับแต่ละรุ่น 3 รุ่น แต่ฉันไม่แน่ใจว่านี่เป็นวิธีที่ดีที่สุดในการทำสิ่งนี้หรือไม่

27 regression scikit-learn ensemble

6

ทำไมน้ำหนักที่เล็กลงส่งผลให้ตัวแบบที่เรียบง่ายขึ้นในการทำให้เป็นปกติ

ฉันเสร็จหลักสูตรการเรียนรู้ของ Machine Andrew เมื่อประมาณหนึ่งปีที่แล้วและตอนนี้ฉันกำลังเขียน Math High School Math ของฉันเกี่ยวกับการทำงานของ Logistic Regression และเทคนิคต่าง ๆ เพื่อเพิ่มประสิทธิภาพการทำงาน หนึ่งในเทคนิคเหล่านี้คือการทำให้เป็นมาตรฐาน เป้าหมายของการทำให้เป็นมาตรฐานคือการป้องกันไม่ให้เกิดการล้นเกินโดยการขยายฟังก์ชั่นค่าใช้จ่ายเพื่อรวมเป้าหมายของความเรียบง่ายของแบบจำลอง เราสามารถทำสิ่งนี้ได้โดยการลงโทษขนาดของน้ำหนักโดยการเพิ่มฟังก์ชั่นค่าใช้จ่ายของน้ำหนักแต่ละค่าที่ยกกำลังสองคูณด้วยพารามิเตอร์ปกติ ตอนนี้อัลกอริทึมการเรียนรู้ของเครื่องจะมุ่งที่จะลดขนาดของน้ำหนักในขณะที่ยังคงความถูกต้องในชุดการฝึกอบรม แนวคิดก็คือเราจะไปถึงจุดกึ่งกลางที่เราสามารถสร้างแบบจำลองที่สรุปข้อมูลและไม่พยายามที่จะปรับให้เหมาะกับเสียงรบกวนทั้งหมดโดยมีความซับซ้อนน้อยลง ความสับสนของฉันคือทำไมเราลงโทษขนาดของน้ำหนัก? ทำไมน้ำหนักที่ใหญ่ขึ้นจึงสร้างแบบจำลองที่ซับซ้อนมากขึ้นและน้ำหนักที่เล็กกว่าจึงสร้างแบบจำลองที่เรียบง่ายขึ้น Andrew Ng อ้างว่าในการบรรยายของเขาว่าคำอธิบายนั้นยากสำหรับการสอน แต่ฉันคิดว่าฉันกำลังมองหาคำอธิบายนี้ในตอนนี้ ศ. อึ้งได้ยกตัวอย่างจริง ๆ ว่าฟังก์ชั่นต้นทุนใหม่อาจทำให้น้ำหนักของคุณลักษณะ (เช่น. x ^ 3 และ x ^ 4) มีแนวโน้มเป็นศูนย์เพื่อให้ระดับของแบบจำลองลดลง แต่สิ่งนี้ไม่ได้สร้างความสมบูรณ์ คำอธิบาย ปรีชาญาณของฉันคือน้ำหนักที่น้อยกว่ามักจะเป็นที่ "ยอมรับ" ในคุณสมบัติที่มีเลขชี้กำลังมากกว่าคนที่มีเลขชี้กำลังขนาดเล็ก (เพราะคุณลักษณะที่มีน้ำหนักขนาดเล็กเป็นพื้นฐานของฟังก์ชั่น) น้ำหนักที่เล็กลงแสดงถึง "การมีส่วนร่วม" ที่เล็กลงสำหรับคุณลักษณะที่มีลำดับสูง แต่สัญชาตญาณนี้ไม่เป็นรูปธรรมมาก

27 regression machine-learning optimization regularization overfitting

1

ทำนาย () ฟังก์ชั่นสำหรับ lmer Mixed Effects Models

ปัญหา: ฉันได้อ่านในโพสต์อื่น ๆซึ่งpredictไม่สามารถใช้ได้กับเอ็ฟเฟ็กต์แบบผสมlmer{lme4} ใน [R] ฉันพยายามสำรวจเรื่องนี้ด้วยชุดของเล่น ... พื้นหลัง: ชุดข้อมูลถูกดัดแปลงจากแหล่งที่มานี้และมีให้ในรูปแบบ ... require(gsheet) data <- read.csv(text = gsheet2text('https://docs.google.com/spreadsheets/d/1QgtDcGJebyfW7TJsB8n6rAmsyAnlz1xkT3RuPFICTdk/edit?usp=sharing', format ='csv')) นี่คือแถวและส่วนหัวแรก: > head(data) Subject Auditorium Education Time Emotion Caffeine Recall 1 Jim A HS 0 Negative 95 125.80 2 Jim A HS 0 Neutral 86 123.60 3 Jim A HS 0 Positive …

27 r mixed-model lme4-nlme

2

วิธีการใช้ทั้งไบนารีและตัวแปรต่อเนื่องร่วมกันในการจัดกลุ่ม?

ฉันต้องการใช้ตัวแปรไบนารี (ค่า 0 & 1) ใน k-mean แต่ k-mean ใช้งานได้กับตัวแปรต่อเนื่องเท่านั้น ฉันรู้ว่าบางคนยังคงใช้ตัวแปรไบนารีเหล่านี้ใน k-mean โดยไม่สนใจข้อเท็จจริงที่ว่า k-หมายความว่าถูกออกแบบมาสำหรับตัวแปรต่อเนื่องเท่านั้น นี่เป็นสิ่งที่ฉันยอมรับไม่ได้ คำถาม: ดังนั้นวิธีที่ถูกต้องทางสถิติ / ทางคณิตศาสตร์ของการใช้ตัวแปรไบนารีในการจัดกลุ่ม k- หมายถึง / ลำดับชั้นคืออะไร? วิธีการนำโซลูชันไปใช้ใน SAS / R

27 r clustering binary-data k-means mixed-type-data

5

กลยุทธ์ในการจัดการกับการถดถอยโลจิสติกเหตุการณ์ที่หายาก

ฉันต้องการที่จะศึกษาเหตุการณ์ที่หายากในประชากรที่ จำกัด เนื่องจากฉันไม่แน่ใจว่ากลยุทธ์ใดเหมาะสมที่สุดฉันจะขอขอบคุณเคล็ดลับและข้อมูลอ้างอิงที่เกี่ยวข้องกับเรื่องนี้แม้ว่าฉันจะทราบดีว่ามันได้รับการครอบคลุมเป็นส่วนใหญ่ ฉันแค่ไม่รู้จริงๆว่าจะเริ่มจากตรงไหน ปัญหาของฉันคือวิทยาศาสตร์การเมืองหนึ่งและฉันมีประชากรที่ จำกัด ประกอบด้วย 515,843 บันทึก พวกเขาจะเชื่อมโยงกับตัวแปรไบนารีขึ้นอยู่กับ 513,334 "0" s และ 2,509 "1" s ฉันสามารถใส่เหรียญ "1" เป็นกิจกรรมที่หายากได้เพราะพวกเขาคิดเป็นเพียง 0.49% ของประชากรทั้งหมด ฉันมีชุดตัวแปรอิสระประมาณ 10 ตัวที่ฉันต้องการสร้างแบบจำลองเพื่ออธิบายสถานะของ "1" เช่นเดียวกับพวกเราหลายคนฉันอ่านบทความ 2001 ของ King & Zengเกี่ยวกับการแก้ไขเหตุการณ์ที่ไม่ค่อยเกิดขึ้น วิธีการของพวกเขาคือใช้การออกแบบตัวควบคุมเคสเพื่อลดจำนวน "0" จากนั้นใช้การแก้ไขกับดัก อย่างไรก็ตามโพสต์นี้บอกว่าการโต้แย้งของ King & Zeng นั้นไม่จำเป็นถ้าฉันรวบรวมข้อมูลของฉันครอบคลุมประชากรทั้งหมดซึ่งเป็นกรณีของฉัน ดังนั้นฉันต้องใช้แบบจำลอง logit แบบคลาสสิก น่าเสียดายสำหรับฉันแม้ว่าฉันจะได้รับค่าสัมประสิทธิ์ที่ดีมากแบบจำลองของฉันไร้ประโยชน์อย่างสมบูรณ์ในแง่ของการทำนาย (ล้มเหลวในการทำนาย 99.48% ของ "1" ของฉัน) หลังจากอ่านบทความของ …

27 logistic rare-events

7

ใน Naive Bayes ทำไมต้องกังวลกับ Laplace ที่ราบเรียบเมื่อเรามีคำที่ไม่รู้จักในชุดทดสอบ

วันนี้ฉันอ่านหนังสือจำแนก Naive Bayes ฉันอ่านภายใต้หัวข้อการประมาณค่าพารามิเตอร์ด้วยการเพิ่ม 1 การปรับให้เรียบ : ให้cccอ้างถึงคลาส (เช่นค่าบวกหรือค่าลบ) และให้wwwหมายถึงโทเค็นหรือคำ ตัวประมาณความน่าจะเป็นสูงสุดสำหรับP(w|c)P(w|c)P(w|c)คือcount(w,c)count(c)=counts w in class ccounts of words in class c.count(w,c)count(c)=counts w in class ccounts of words in class c.\frac{count(w,c)}{count(c)} = \frac{\text{counts w in class c}}{\text{counts of words in class c}}. การประมาณค่าP(w|c)P(w|c)P(w|c)อาจเป็นปัญหาได้เนื่องจากมันจะทำให้เรามีความน่าจะเป็น000สำหรับเอกสารที่มีคำที่ไม่รู้จัก วิธีทั่วไปในการแก้ปัญหานี้คือการใช้ Laplace smoothing ให้ V เป็นชุดของคำในชุดฝึกอบรมเพิ่มองค์ประกอบใหม่UNKUNKUNK (ไม่ทราบ) ลงในชุดคำ กำหนดP(w|c)=count(w,c)+1count(c)+|V|+1,P(w|c)=count(w,c)+1count(c)+|V|+1,P(w|c)=\frac{\text{count}(w,c) …

27 machine-learning classification text-mining naive-bayes laplace-smoothing