สถิติและข้อมูลขนาดใหญ่

2

การจัดกลุ่มตามลำดับชั้นด้วยข้อมูลชนิดผสม - มีระยะทาง / ความคล้ายคลึงกันในการใช้งานอย่างไร

ในชุดข้อมูลของฉันเรามีทั้งตัวแปรต่อเนื่องและไม่ต่อเนื่องตามธรรมชาติ ฉันต้องการทราบว่าเราสามารถทำการจัดกลุ่มแบบลำดับชั้นโดยใช้ตัวแปรทั้งสองประเภทได้หรือไม่ และถ้าใช่มีการวัดระยะทางที่เหมาะสม?

34 clustering similarities distance-functions mixed-type-data

7

เหตุใดจึงไม่ดีที่จะสอนนักเรียนว่าค่า p เป็นความน่าจะเป็นที่การค้นพบเกิดขึ้นเนื่องจากโอกาส

ใครช่วยได้โปรดอธิบายสั้น ๆ ว่าทำไมมันไม่ดีที่จะสอนนักเรียนว่าค่า p เป็นค่าโพรบ (การค้นพบของพวกเขาเกิดจาก [สุ่ม] โอกาส) ความเข้าใจของฉันคือว่า p-value เป็นโพรบ (รับข้อมูลที่มากขึ้น | สมมติฐานว่างเป็นจริง) ความสนใจที่แท้จริงของฉันคือสิ่งที่อันตรายจากการบอกพวกเขาว่ามันคืออดีต (นอกเหนือจากความจริงที่ว่ามันไม่ได้เป็นเช่นนั้น)

34 p-value randomness teaching

3

การตรวจสอบความถูกต้องไขว้มีผลต่อปัญหา overfitting อย่างไร

เหตุใดขั้นตอนการตรวจสอบข้ามจึงเอาชนะปัญหาการ overfitting แบบจำลอง?

34 regression model-selection cross-validation

3

เครือข่ายนิวรัลโมเดลแบบกราฟิกเครือข่ายแบบเบย์คืออะไรความสัมพันธ์ระหว่างแบบลำดับชั้น

พวกเขาทั้งหมดดูเหมือนจะเป็นตัวแทนของตัวแปรสุ่มโดยโหนดและ (ใน) การพึ่งพาผ่านขอบ (อาจกำกับ) ฉันสนใจในมุมมองแบบเบย์

34 causality neural-networks multilevel-analysis graphical-model

3

ทำไม t-SNE ไม่ถูกใช้เป็นเทคนิคการลดขนาดสำหรับการจัดกลุ่มหรือการจำแนก?

ในการมอบหมายเมื่อเร็ว ๆ นี้เราได้รับคำสั่งให้ใช้ PCA บนตัวเลข MNIST เพื่อลดขนาดจาก 64 (8 x 8 ภาพ) เป็น 2 จากนั้นเราต้องจัดกลุ่มตัวเลขโดยใช้แบบจำลองส่วนผสมของเกาส์เซียน PCA ที่ใช้ 2 องค์ประกอบหลักเท่านั้นไม่ได้ให้ผลที่แตกต่างกันของคลัสเตอร์และเป็นผลให้แบบจำลองไม่สามารถสร้างการจัดกลุ่มที่มีประโยชน์ได้ อย่างไรก็ตามการใช้ t-SNE พร้อมด้วย 2 องค์ประกอบกลุ่มจะถูกแยกออกจากกันได้ดีกว่ามาก แบบจำลองการผสมแบบเกาส์ผลิตกลุ่มที่แตกต่างกันมากขึ้นเมื่อนำไปใช้กับส่วนประกอบ t-SNE ความแตกต่างใน PCA ที่มี 2 องค์ประกอบและ t-SNE ที่มี 2 ส่วนประกอบสามารถมองเห็นได้ในภาพคู่ต่อไปนี้ที่มีการใช้การแปลงกับชุดข้อมูล MNIST ฉันได้อ่านแล้วว่า t-SNE ใช้สำหรับการสร้างภาพข้อมูลมิติสูงเท่านั้นเช่นในคำตอบนี้แต่ได้รับกลุ่มที่แตกต่างกันแล้วทำไมมันไม่ใช้เป็นเทคนิคการลดขนาดที่ใช้สำหรับแบบจำลองการจำแนกหรือ วิธีการทำคลัสเตอร์แบบสแตนด์อโลน

34 classification clustering pca dimensionality-reduction tsne

3

วิธีการตีความค่าเฉลี่ยลดลงในความแม่นยำและค่าเฉลี่ยลดลง GINI ในรูปแบบป่าสุ่ม

ฉันมีความยากลำบากในการทำความเข้าใจวิธีตีความผลลัพธ์ความสำคัญของตัวแปรจากแพ็คเกจ Random Forest การลดความแม่นยำหมายถึงการลดลงของความแม่นยำของแบบจำลองจากการอนุญาตให้ใช้ค่าในแต่ละคุณสมบัติ นี่เป็นคำแถลงเกี่ยวกับสถานที่ทั้งหมดหรือเกี่ยวกับค่าเฉพาะภายในสถานที่หรือไม่? ไม่ว่าในกรณีใดค่าเฉลี่ยลดลงในความแม่นยำจำนวนหรือสัดส่วนของการสังเกตที่จำแนกอย่างไม่ถูกต้องโดยการลบคุณลักษณะ (หรือค่าจากคุณลักษณะ) ออกจากแบบจำลองหรือไม่ สมมติว่าเรามีรูปแบบดังต่อไปนี้: require(randomForest) data(iris) set.seed(1) dat <- iris dat$Species <- factor(ifelse(dat$Species=='virginica','virginica','other')) model.rf <- randomForest(Species~., dat, ntree=25, importance=TRUE, nodesize=5) model.rf varImpPlot(model.rf) Call: randomForest(formula = Species ~ ., data = dat, ntree = 25, proximity = TRUE, importance = TRUE, nodesize = 5) Type of …

34 r machine-learning classification random-forest

5

แบบจำลอง Bayesian คืออะไร?

ฉันสามารถเรียกรูปแบบที่ทฤษฎีบทของเบย์ใช้ "แบบจำลองเบย์" ได้หรือไม่? ฉันกลัวคำจำกัดความดังกล่าวอาจกว้างเกินไป แบบจำลอง Bayesian คืออะไร?

34 machine-learning bayesian

2

เหตุใดการทดสอบอัตราส่วนความน่าจะเป็นกระจายแบบไคสแควร์

ทำไมสถิติการทดสอบของการทดสอบอัตราส่วนความน่าจะเป็นแบบกระจายไคสแควร์ 2(ln Lalt model−ln Lnull model)∼χ2dfalt−dfnull2(ln⁡ Lalt model−ln⁡ Lnull model)∼χdfalt−dfnull22(\ln \text{ L}_{\rm alt\ model} - \ln \text{ L}_{\rm null\ model} ) \sim \chi^{2}_{df_{\rm alt}-df_{\rm null}}

34 distributions chi-squared likelihood-ratio

5

ค้นหาค่าที่คาดหวังโดยใช้ CDF

ฉันจะเริ่มด้วยการบอกว่านี่เป็นปัญหาการบ้านตรงๆจากหนังสือ ฉันใช้เวลาสองสามชั่วโมงเพื่อค้นหาวิธีการค้นหาค่าที่คาดหวังและตัดสินใจว่าฉันไม่เข้าใจอะไรเลย Letมี CDFx ค้นหาสำหรับค่าเหล่านั้นของซึ่งมีอยู่XXXF(x)=1−x−α,x≥1F(x)=1−x−α,x≥1F(x) = 1 - x^{-\alpha}, x\ge1E(X)E(X)E(X)αα\alphaE(X)E(X)E(X) ฉันไม่รู้ว่าจะเริ่มต้นอย่างไร ฉันจะกำหนดค่าของมีอยู่ได้อย่างไร ฉันยังไม่รู้ว่าจะทำอย่างไรกับ CDF (ฉันสมมติว่านี่หมายถึง Cumulative Distribution Function) มีสูตรสำหรับค้นหาค่าที่คาดไว้เมื่อคุณมีฟังก์ชันความถี่หรือฟังก์ชันความหนาแน่น Wikipedia กล่าวว่า CDF ของสามารถนิยามได้ในรูปของฟังก์ชันความหนาแน่นของความน่าจะเป็นดังนี้:αα\alphaXXXfff F(x)=∫x−∞f(t)dtF(x)=∫−∞xf(t)dtF(x) = \int_{-\infty}^x f(t)\,dt เท่าที่ฉันได้รับ ฉันจะไปจากที่นี่ที่ไหน แก้ไข: ฉันหมายถึงการใส่xx≥1x≥1x\ge1

34 self-study expected-value

3

เหตุใดจึงมีความแตกต่างระหว่างการคำนวณช่วงความเชื่อมั่นแบบโลจิสติก 95% ด้วยตนเองและการใช้ฟังก์ชัน confint () ใน R

เรียนคุณทุกคน - ฉันสังเกตเห็นบางสิ่งแปลก ๆ ที่ไม่สามารถอธิบายได้ไหม โดยสรุป: แนวทางแบบแมนนวลเพื่อคำนวณช่วงความมั่นใจในโมเดลการถดถอยโลจิสติกและฟังก์ชัน R confint()ให้ผลลัพธ์ที่แตกต่างกัน ฉันเคยผ่านการถดถอยโลจิสติกประยุกต์ของ Hosmer & Lemeshow แล้ว (ฉบับที่ 2) ในบทที่ 3 มีตัวอย่างของการคำนวณอัตราส่วนอัตราต่อรองและช่วงความมั่นใจ 95% ด้วย R ฉันสามารถสร้างโมเดลได้อย่างง่ายดาย: Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value …

34 r regression logistic confidence-interval profile-likelihood correlation mcmc error mixture measurement data-augmentation r logistic goodness-of-fit r time-series exponential descriptive-statistics average expected-value data-visualization anova teaching hypothesis-testing multivariate-analysis r r mixed-model clustering categorical-data unsupervised-learning r logistic anova binomial estimation variance expected-value r r anova mixed-model multiple-comparisons repeated-measures project-management r poisson-distribution control-chart project-management regression residuals r distributions data-visualization r unbiased-estimator kurtosis expected-value regression spss meta-analysis r censoring regression classification data-mining mixture

4

ต้นไม้ด้านการตัดสินใจที่อ่อนแอคืออะไร?

ต้นไม้ตัดสินใจดูเหมือนจะเป็นวิธีการเรียนรู้ด้วยเครื่องที่เข้าใจได้ง่ายมาก เมื่อสร้างแล้วสามารถตรวจสอบได้ง่ายโดยมนุษย์ซึ่งเป็นข้อได้เปรียบที่ดีในการใช้งานบางอย่าง อะไรคือจุดอ่อนด้านการปฏิบัติของต้นไม้การตัดสินใจ?

34 machine-learning nonparametric cart

6

การขุดข้อมูล: ฉันจะหารูปแบบการใช้งานได้อย่างไร?

ฉันอยากรู้เกี่ยวกับขั้นตอนการทำซ้ำที่สามารถใช้เพื่อค้นหารูปแบบการทำงานของฟังก์ชัน y = f(A, B, C) + error_termที่การป้อนข้อมูลของฉันเท่านั้นเป็นชุดของการสังเกต ( y, A, BและC) โปรดทราบว่ารูปแบบการทำงานของfไม่เป็นที่รู้จัก พิจารณาชุดข้อมูลต่อไปนี้: AA BB CC DD EE FF == == == == == == 98 11 66 84 67 10500 71 44 48 12 47 7250 54 28 90 73 95 5463 34 95 15 45 75 2581 …

34 regression machine-learning algorithms model-selection data-mining

3

มีปัญหาการเรียนรู้ภายใต้การดูแลที่ชัดเจน (ลึก) เครือข่ายประสาทเทียมไม่สามารถทำได้ดีกว่าวิธีการอื่น ๆ ?

ฉันเคยเห็นผู้คนใช้ความพยายามอย่างมากกับ SVM และ Kernels และพวกเขาดูน่าสนใจทีเดียวในฐานะผู้เริ่มต้นในการเรียนรู้ของเครื่อง แต่ถ้าเราคาดหวังว่าเกือบตลอดเวลาเราจะพบทางออกที่ดีกว่าในแง่ของเครือข่ายประสาท (ลึก) ความหมายของการลองใช้วิธีการอื่นในยุคนี้คืออะไร? นี่คือข้อ จำกัด ของฉันในหัวข้อนี้ เราคิดถึงการเรียนรู้แบบมีผู้ควบคุมเท่านั้น การถดถอยและการจำแนก การอ่านผลลัพธ์จะไม่ถูกนับ เฉพาะความแม่นยำในปัญหาการเรียนรู้ภายใต้การควบคุมเท่านั้นที่จะนับ การคำนวณต้นทุนไม่ได้พิจารณา ฉันไม่ได้บอกว่าวิธีการอื่นใดไร้ประโยชน์

33 machine-learning svm kernel-trick supervised-learning

2

นี่เป็นวิธีการถดถอยที่ล้ำสมัยหรือไม่?

ฉันได้ติดตามการแข่งขัน Kaggle มาเป็นเวลานานและฉันได้ตระหนักว่ากลยุทธ์การชนะจำนวนมากเกี่ยวข้องกับการใช้ "threes ใหญ่" อย่างน้อยหนึ่งอย่าง: การใส่ถุงการส่งเสริมและการซ้อน สำหรับการถดถอยแทนที่จะมุ่งเน้นไปที่การสร้างแบบจำลองการถดถอยที่ดีที่สุดที่เป็นไปได้การสร้างแบบจำลองการถดถอยหลายแบบเช่นการถดถอยเชิงเส้นแบบทั่วไป (ทั่วไป) การสุ่มป่า KNN NN และ SVM และการผสมผสานผลลัพธ์เป็นวิธีที่สมเหตุสมผล - ดำเนินการแต่ละวิธีเป็นจำนวนมากครั้ง แน่นอนความเข้าใจที่มั่นคงของแต่ละวิธีคือกุญแจสำคัญและเรื่องราวที่ใช้งานง่ายสามารถบอกได้ตามแบบจำลองการถดถอยเชิงเส้น แต่ฉันสงสัยว่านี่เป็นวิธีการที่ทันสมัยเพื่อให้ได้ผลลัพธ์ที่ดีที่สุดหรือไม่

33 predictive-models boosting bagging stacking model-averaging

3

(เพราะอะไร) SOM สไตล์โคโนนันหลุดพ้นไปจากความโปรดปรานไหม?

เท่าที่ฉันสามารถบอกได้ SOM สไตล์โคโนนนั้นมีจุดสูงสุดในช่วงประมาณปี 2005 และไม่เคยได้รับความนิยมเท่านี้มาก่อน ฉันไม่พบกระดาษใด ๆ ที่ระบุว่า SOM ได้รับการแบ่งย่อยด้วยวิธีอื่นหรือได้รับการพิสูจน์แล้วว่าเทียบเท่ากับสิ่งอื่น (ในระดับที่สูงกว่าอย่างใด) แต่ดูเหมือนว่า tSNE และวิธีการอื่นจะได้รับหมึกเพิ่มมากขึ้นทุกวันตัวอย่างเช่นใน Wikipedia หรือใน SciKit Learn และ SOM ถูกกล่าวถึงมากขึ้นเป็นวิธีการทางประวัติศาสตร์ (ที่จริงแล้วบทความ Wikipedia ดูเหมือนจะระบุว่า SOM ยังคงมีข้อได้เปรียบเหนือคู่แข่งอยู่บ้าง แต่ก็เป็นรายการสั้นที่สุดในรายการแก้ไข: ตามคำขอของ gung ซึ่งเป็นหนึ่งในบทความที่ฉันคิดว่าเป็น: การลดขนาดแบบไม่เชิงเส้นโปรดทราบว่า SOM เขียนเกี่ยวกับเรื่องนี้น้อยกว่าวิธีอื่น ๆ ฉันไม่สามารถหาบทความที่กล่าวถึงข้อได้เปรียบที่ SOM ดูเหมือนว่าจะรักษาวิธีอื่น ๆ ได้ส่วนใหญ่) ข้อมูลเชิงลึกใด ๆ มีคนถามว่าทำไมไม่ใช้ SOM และได้รับการอ้างอิงเมื่อนานมาแล้วและฉันได้พบการดำเนินการจากการประชุม SOM แต่สงสัยว่าการเพิ่มขึ้นของ SVM หรือ tSNE และ …

33 clustering self-organizing-maps