สถิติและข้อมูลขนาดใหญ่ machine-learning

5

มันเป็นการโกงที่จะปล่อยค่าผิดปกติตาม boxplot ของ Mean Absolute Error เพื่อปรับปรุงตัวแบบการถดถอยหรือไม่

ฉันมีแบบจำลองการทำนายทดสอบด้วยวิธีการสี่วิธีดังที่คุณเห็นในรูปแบบกล่องด้านล่าง แอตทริบิวต์ที่ตัวแบบทำนายนั้นอยู่ในช่วง 0-8 คุณอาจสังเกตเห็นว่ามีค่าผิดปกติที่มีขอบบนหนึ่งค่าและค่าผิดปกติที่ต่ำกว่าสามค่าที่ระบุโดยวิธีการทั้งหมด ฉันสงสัยว่าเหมาะสมที่จะลบอินสแตนซ์เหล่านี้ออกจากข้อมูลหรือไม่ หรือนี่เป็นการโกงเพื่อปรับปรุงตัวแบบการทำนาย?

15 regression machine-learning multiple-regression predictive-models outliers

2

วิธีที่ดีสำหรับการจัดกลุ่มข้อความสั้นคืออะไร

ฉันกำลังทำงานกับปัญหาการจัดกลุ่มข้อความ ข้อมูลมีหลายประโยค มีอัลกอริทึมที่ดีซึ่งมีความแม่นยำสูงในข้อความสั้นหรือไม่? คุณสามารถให้การอ้างอิงที่ดีได้หรือไม่? อัลกอริทึมเช่น KMeans การจัดกลุ่มสเปกตรัมไม่ทำงานได้ดีสำหรับปัญหานี้

15 machine-learning clustering text-mining

1

โคตรการไล่ระดับสีแบบสุ่มสามารถประหยัดเวลาได้อย่างไรเมื่อเปรียบเทียบกับการไล่ระดับสีแบบมาตรฐาน

Standard Gradient Descent จะคำนวณการไล่ระดับสีสำหรับชุดข้อมูลการฝึกอบรมทั้งหมด for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad สำหรับจำนวน epoch ที่กำหนดไว้ล่วงหน้าเราจะคำนวณเวกเตอร์ไล่ระดับ weights_grad ของฟังก์ชันการสูญเสียสำหรับชุดข้อมูลทั้งหมด wrt พารามิเตอร์เวกเตอร์พารามิเตอร์ของเรา ความแตกต่างของการไล่ระดับสีแบบสุ่มสุ่มทำการปรับปรุงพารามิเตอร์สำหรับแต่ละตัวอย่างการฝึกอบรม x (i) และเลเบล y (i) for i in range(nb_epochs): np.random.shuffle(data) for example in data: params_grad = evaluate_gradient(loss_function, example, params) params = params …

15 machine-learning optimization gradient-descent computational-statistics sgd

4

การเพิ่มความแม่นยำของเครื่องไล่ระดับสีจะลดลงเมื่อจำนวนการทำซ้ำเพิ่มขึ้น

ฉันกำลังทดลองกับอัลกอริทึมของเครื่องเร่งการไล่ระดับสีผ่านcaretแพ็คเกจใน R ใช้ชุดข้อมูลการรับสมัครวิทยาลัยขนาดเล็กฉันใช้รหัสต่อไปนี้: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

1

คำถามสัมภาษณ์ที่ดีสำหรับผู้สมัครขั้นตอนวิธีเชิงสถิติคืออะไร?

ฉันกำลังสัมภาษณ์ผู้คนถึงตำแหน่งนักพัฒนาอัลกอริทึม / นักวิจัยในด้านสถิติ / การเรียนรู้ของเครื่องจักร / บริบทการขุดข้อมูล ฉันกำลังมองหาคำถามที่จะถามเพื่อพิจารณาเป็นพิเศษความคุ้นเคยความเข้าใจและความลื่นไหลของผู้สมัครกับทฤษฎีพื้นฐานเช่นคุณสมบัติพื้นฐานของความคาดหวังและความแปรปรวนการแจกแจงทั่วไปบางอย่าง ฯลฯ คำถามไปที่ปัจจุบันของฉันคือ: "มีปริมาณที่ไม่รู้จักซึ่งเราอยากจะประเมินด้วยเหตุนี้เรามีตัวประมาณY 1 , Y 2 , … , Y nซึ่งได้รับXนั้นไม่เอนเอียงและเป็นอิสระและ แต่ละคนมีความแปรปรวนที่รู้จักกันσ 2 ฉันแตกต่างกันไปสำหรับแต่ละคนค้นหาตัวประมาณที่เหมาะสมที่สุดY = f ( Y 1 , … , Y n )ซึ่งไม่เอนเอียงและมีความแปรปรวนน้อยที่สุด "XXXY1, วาย2, … , YnY1,Y2,...,YnY_1, Y_2, \ldots, Y_nXXXσ2ผมσผม2\sigma_i^2Y= f( Y1, … , Yn)Y=ฉ(Y1,...,Yn)Y=f(Y_1,\ldots, Y_n) ฉันคาดหวังว่าผู้สมัครที่จริงจังในการจัดการกับมันได้อย่างง่ายดาย (ให้เวลาในการคำนวณการคำนวณ) …

15 machine-learning probability distributions

2

ทฤษฎีการเรียนรู้ PAC หมายถึงอะไร?

ฉันใหม่ในการเรียนรู้ของเครื่อง ฉันกำลังเรียนหลักสูตรการเรียนรู้ของเครื่องจักร (มหาวิทยาลัยสแตนฟอร์ด) และฉันไม่เข้าใจความหมายของทฤษฎีนี้และประโยชน์ของมัน ฉันสงสัยว่าถ้าใครสามารถอธิบายทฤษฎีนี้ให้ฉันได้ ทฤษฎีนี้มีพื้นฐานอยู่บนสมการนี้

15 machine-learning probability pac-learning

3

ในการปรับให้เรียบของ Kneser-Ney มีการจัดการคำที่มองไม่เห็นอย่างไร

จากสิ่งที่ฉันได้เห็นสูตรการปรับให้เรียบของ Kneser-Ney (ลำดับที่สอง) ไม่ทางใดก็ทางหนึ่ง P2KN(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn)PKN2(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn) \begin{align} P^2_{KN}(w_n|w_{n-1}) &= \frac{\max \left\{ C\left(w_{n-1}, w_n\right) - D, 0\right\}}{\sum_{w'} C\left(w_{n-1}, w'\right)} + \lambda(w_{n-1}) \times P_{cont}(w_n) \end{align} กับ normalizing factorให้เป็นλ(wn−1)λ(wn−1)\lambda(w_{n-1}) λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙)λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙) \begin{align} \lambda(w_{n-1}) &= \frac{D}{\sum_{w'} C\left(w_{n-1}, w'\right)} \times N_{1+}\left(w_{n-1}\bullet\right) \end{align} และความน่าจะเป็นอย่างต่อเนื่องPc o n t( ด้วยn)Pคโอnเสื้อ(Wn)P_{cont}(w_n)ของคำwnWnw_n Pcont(wn)=N1+(∙wn)∑w′N1+(∙w′)Pcont(wn)=N1+(∙wn)∑w′N1+(∙w′) \begin{align} P_{cont}(w_n) &= \frac{N_{1+}\left(\bullet w_{n}\right)}{\sum_{w'} N_{1+}\left(\bullet w'\right)} \end{align} ที่N1+(∙w)N1+(∙w)N_{1+}\left(\bullet …

15 machine-learning natural-language naive-bayes smoothing language-models

1

อรรถาภิธานสำหรับสถิติและเงื่อนไขการเรียนรู้ของเครื่อง

มีอรรถาภิธานอ้างอิงใด ๆ สำหรับสถิติและเงื่อนไขการเรียนรู้ของเครื่องหรือไม่? ฉันรู้ว่าบทความ Wikipedia มักจะมีคำพ้องความหมายเหมือนกัน แต่ฉันต้องการอรรถาภิธานที่สามารถผ่านได้อย่างง่ายดาย (เทียบกับสารานุกรมฉบับเต็ม) เพื่อให้แน่ใจว่าฉันรู้ศัพท์แสงทั้งหมด

15 machine-learning terminology

3

คำแนะนำสำหรับการเรียนรู้ที่คำนึงถึงต้นทุนในการตั้งค่าที่ไม่สมดุล

ฉันมีชุดข้อมูลที่มีไม่กี่ล้านแถวและประมาณ 100 คอลัมน์ ฉันต้องการตรวจสอบประมาณ 1% ของตัวอย่างในชุดข้อมูลซึ่งเป็นของชั้นสามัญ ฉันมีข้อ จำกัด ความแม่นยำขั้นต่ำ แต่เนื่องจากค่าใช้จ่ายไม่สมมาตรฉันไม่กระตือรือร้นในการเรียกคืนใด ๆ (ตราบใดที่ฉันไม่เหลือ 10 การแข่งขันที่เป็นบวก!) มีวิธีใดบ้างที่คุณอยากแนะนำในการตั้งค่านี้? (ยินดีต้อนรับสู่ลิงก์ไปยังเอกสารลิงค์ไปยังการนำไปปฏิบัติ)

15 machine-learning classification unbalanced-classes precision-recall

1

สัญชาตญาณของตัวอย่างที่แลกเปลี่ยนได้ภายใต้สมมติฐานว่างคืออะไร

การทดสอบการเปลี่ยนรูป (เรียกอีกอย่างว่าการทดสอบแบบสุ่มการทดสอบแบบสุ่มอีกครั้งหรือการทดสอบที่แน่นอน) มีประโยชน์มากและมีประโยชน์เมื่อสมมติฐานของการแจกแจงปกติที่ต้องการโดยตัวอย่างเช่นt-testไม่พบและเมื่อการเปลี่ยนแปลงของค่าโดยการจัดอันดับ การทดสอบแบบไม่มีพารามิเตอร์Mann-Whitney-U-testจะนำไปสู่การสูญเสียข้อมูลมากขึ้น อย่างไรก็ตามไม่ควรมองข้ามสมมุติฐานข้อเดียวและข้อเดียวเพียงข้อเดียวเมื่อใช้การทดสอบชนิดนี้คือข้อสมมติฐานของความสามารถแลกเปลี่ยนได้ของตัวอย่างภายใต้สมมติฐานว่าง เป็นที่น่าสังเกตว่าวิธีการแบบนี้สามารถใช้ได้เมื่อมีตัวอย่างมากกว่าสองตัวอย่างเช่นสิ่งที่นำไปใช้ในcoinแพ็คเกจ R คุณช่วยกรุณาใช้ภาษาที่เป็นรูปเป็นร่างหรือปรีชาเชิงแนวคิดในภาษาอังกฤษธรรมดาเพื่อแสดงสมมติฐานนี้ได้หรือไม่? นี่จะมีประโยชน์มากในการอธิบายปัญหาที่ถูกมองข้ามในหมู่ผู้ที่ไม่ใช่นักสถิติเช่นฉัน หมายเหตุ: จะเป็นประโยชน์อย่างมากหากพูดถึงกรณีที่การใช้การทดสอบการเปลี่ยนแปลงไม่ถือหรือไม่ถูกต้องภายใต้สมมติฐานเดียวกัน ปรับปรุง: สมมติว่าฉันมี 50 วิชาที่รวบรวมจากคลินิกท้องถิ่นในเขตของฉันโดยการสุ่ม พวกเขาถูกสุ่มให้รับยาหรือยาหลอกในอัตราส่วน 1: 1 พวกเขาทั้งหมดถูกวัดสำหรับ Paramerter 1 Par1ที่ V1 (พื้นฐาน), V2 (3 เดือนต่อมา) และ V3 (1 ปีต่อมา) วิชาทั้งหมด 50 กลุ่มสามารถแบ่งเป็น 2 กลุ่มตามคุณสมบัติ A; ค่าบวก = 20 และค่าลบ = 30 นอกจากนี้ยังสามารถจัดกลุ่มย่อยได้อีก 2 กลุ่มตามคุณลักษณะ B; B positive = …

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

1

ความหมายของเงื่อนไขการส่งออกในแพคเกจ gbm?

ฉันใช้แพ็คเกจ gbm เพื่อจัดหมวดหมู่ ตามที่คาดหวังผลลัพธ์ที่ดี แต่ฉันพยายามที่จะเข้าใจผลลัพธ์ของตัวจําแนก เอาต์พุตมีห้าเทอม `Iter TrainDeviance ValidDeviance StepSize Improve` ทุกคนสามารถอธิบายความหมายของแต่ละคำโดยเฉพาะอย่างยิ่งความหมายของการปรับปรุง

15 r machine-learning

3

การผสมข้อมูลคืออะไร

ระยะนี้จะปรากฏขึ้นบ่อย ๆ ในหัวข้อวิธีการที่เกี่ยวข้องกับ มีการผสมผสานวิธีการเฉพาะในการทำเหมืองข้อมูลและการเรียนรู้ทางสถิติ? ฉันไม่สามารถรับผลลัพธ์ที่เกี่ยวข้องจาก google ได้ ดูเหมือนว่าการผสมเป็นการผสมผสานผลลัพธ์จากหลาย ๆ โมเดลและทำให้ได้ผลลัพธ์ที่ดีขึ้น มีทรัพยากรใดที่ช่วยให้ฉันรู้เพิ่มเติมเกี่ยวกับมันหรือไม่?

15 machine-learning data-mining unsupervised-learning statistical-learning

2

รวมลักษณนามโดยการพลิกเหรียญ

ฉันกำลังศึกษาหลักสูตรการเรียนรู้ของเครื่องและสไลด์บรรยายมีข้อมูลที่ฉันพบว่าขัดแย้งกับหนังสือที่แนะนำ ปัญหาดังต่อไปนี้: มีตัวแยกประเภทสามตัว: ลักษณนาม Aให้ประสิทธิภาพที่ดีขึ้นในช่วงล่างของขีด จำกัด ลักษณนามขให้ประสิทธิภาพที่ดีขึ้นในช่วงที่สูงขึ้นของเกณฑ์ ลักษณนาม Cสิ่งที่เราได้รับโดยการโยนเหรียญและเลือกจากตัวแยกประเภทสองตัว ประสิทธิภาพของลักษณนาม C คืออะไรเมื่อดูบนเส้นโค้ง ROC สไลด์บรรยายระบุว่าเพียงแค่พลิกเหรียญนี้เราจะได้รับ " เรือนูน " ที่มีมนต์ขลังของตัวแยกประเภท A และ B ของเส้นโค้ง ROC ฉันไม่เข้าใจประเด็นนี้ เพียงแค่โยนเหรียญเราจะได้รับข้อมูลได้อย่างไร สไลด์บรรยาย หนังสือเล่มนี้พูดอะไร หนังสือที่แนะนำ ( Data Mining ... โดย Ian H. Witten, Eibe Frank และ Mark A. Hall ) ในทางกลับกันระบุว่า: หากต้องการดูสิ่งนี้ให้เลือกความน่าจะเป็นที่เฉพาะเจาะจงสำหรับวิธี A ที่ให้อัตราบวกจริงและเท็จของ tA และ fA …

15 machine-learning probability data-visualization classification roc

2

การวิเคราะห์แบบรันไทม์ของอัลกอริทึมการเรียนรู้ของเครื่องทั่วไป

ไม่มีใครอ้างอิงถึงบทสรุปของการวิเคราะห์แบบรันไทม์สำหรับอัลกอริทึมการเรียนรู้ของเครื่องทั่วไป (รสชาติที่แตกต่างของ NN, SVMs ฯลฯ )

15 machine-learning references algorithms

2

การเพิ่มจำนวนฟีเจอร์จะส่งผลให้ความแม่นยำลดลง แต่เพิ่มขึ้น / จำได้เร็วขึ้น

ฉันยังใหม่กับการเรียนรู้ของเครื่อง ในขณะนี้ฉันใช้ตัวจําแนก Naive Bayes (NB) เพื่อจัดประเภทข้อความขนาดเล็กใน 3 คลาสเป็นค่าบวกลบหรือเป็นกลางโดยใช้ NLTK และ python หลังจากทำการทดสอบด้วยชุดข้อมูลที่ประกอบด้วย 300,000 อินสแตนซ์ (ลบ 16,924 บวก 7,477 เชิงลบและ 275,599 นิวทรัล) ฉันพบว่าเมื่อฉันเพิ่มจำนวนฟีเจอร์ความแม่นยำจะลดลง แต่ความแม่นยำ / การเรียกคืนสำหรับคลาสบวกและลบ นี่เป็นพฤติกรรมปกติของลักษณนาม NB หรือไม่? เราสามารถพูดได้หรือไม่ว่าจะเป็นการดีกว่าถ้าใช้คุณสมบัติเพิ่มเติม ข้อมูลบางส่วน: Features: 50 Accuracy: 0.88199 F_Measure Class Neutral 0.938299 F_Measure Class Positive 0.195742 F_Measure Class Negative 0.065596 Features: 500 Accuracy: 0.822573 …

15 machine-learning classification naive-bayes precision-recall

คำถามติดแท็ก machine-learning