สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
การจัดกลุ่มตามลำดับชั้นด้วยข้อมูลชนิดผสม - มีระยะทาง / ความคล้ายคลึงกันในการใช้งานอย่างไร
ในชุดข้อมูลของฉันเรามีทั้งตัวแปรต่อเนื่องและไม่ต่อเนื่องตามธรรมชาติ ฉันต้องการทราบว่าเราสามารถทำการจัดกลุ่มแบบลำดับชั้นโดยใช้ตัวแปรทั้งสองประเภทได้หรือไม่ และถ้าใช่มีการวัดระยะทางที่เหมาะสม?

7
เหตุใดจึงไม่ดีที่จะสอนนักเรียนว่าค่า p เป็นความน่าจะเป็นที่การค้นพบเกิดขึ้นเนื่องจากโอกาส
ใครช่วยได้โปรดอธิบายสั้น ๆ ว่าทำไมมันไม่ดีที่จะสอนนักเรียนว่าค่า p เป็นค่าโพรบ (การค้นพบของพวกเขาเกิดจาก [สุ่ม] โอกาส) ความเข้าใจของฉันคือว่า p-value เป็นโพรบ (รับข้อมูลที่มากขึ้น | สมมติฐานว่างเป็นจริง) ความสนใจที่แท้จริงของฉันคือสิ่งที่อันตรายจากการบอกพวกเขาว่ามันคืออดีต (นอกเหนือจากความจริงที่ว่ามันไม่ได้เป็นเช่นนั้น)


3
เครือข่ายนิวรัลโมเดลแบบกราฟิกเครือข่ายแบบเบย์คืออะไรความสัมพันธ์ระหว่างแบบลำดับชั้น
พวกเขาทั้งหมดดูเหมือนจะเป็นตัวแทนของตัวแปรสุ่มโดยโหนดและ (ใน) การพึ่งพาผ่านขอบ (อาจกำกับ) ฉันสนใจในมุมมองแบบเบย์

3
ทำไม t-SNE ไม่ถูกใช้เป็นเทคนิคการลดขนาดสำหรับการจัดกลุ่มหรือการจำแนก?
ในการมอบหมายเมื่อเร็ว ๆ นี้เราได้รับคำสั่งให้ใช้ PCA บนตัวเลข MNIST เพื่อลดขนาดจาก 64 (8 x 8 ภาพ) เป็น 2 จากนั้นเราต้องจัดกลุ่มตัวเลขโดยใช้แบบจำลองส่วนผสมของเกาส์เซียน PCA ที่ใช้ 2 องค์ประกอบหลักเท่านั้นไม่ได้ให้ผลที่แตกต่างกันของคลัสเตอร์และเป็นผลให้แบบจำลองไม่สามารถสร้างการจัดกลุ่มที่มีประโยชน์ได้ อย่างไรก็ตามการใช้ t-SNE พร้อมด้วย 2 องค์ประกอบกลุ่มจะถูกแยกออกจากกันได้ดีกว่ามาก แบบจำลองการผสมแบบเกาส์ผลิตกลุ่มที่แตกต่างกันมากขึ้นเมื่อนำไปใช้กับส่วนประกอบ t-SNE ความแตกต่างใน PCA ที่มี 2 องค์ประกอบและ t-SNE ที่มี 2 ส่วนประกอบสามารถมองเห็นได้ในภาพคู่ต่อไปนี้ที่มีการใช้การแปลงกับชุดข้อมูล MNIST ฉันได้อ่านแล้วว่า t-SNE ใช้สำหรับการสร้างภาพข้อมูลมิติสูงเท่านั้นเช่นในคำตอบนี้แต่ได้รับกลุ่มที่แตกต่างกันแล้วทำไมมันไม่ใช้เป็นเทคนิคการลดขนาดที่ใช้สำหรับแบบจำลองการจำแนกหรือ วิธีการทำคลัสเตอร์แบบสแตนด์อโลน

3
วิธีการตีความค่าเฉลี่ยลดลงในความแม่นยำและค่าเฉลี่ยลดลง GINI ในรูปแบบป่าสุ่ม
ฉันมีความยากลำบากในการทำความเข้าใจวิธีตีความผลลัพธ์ความสำคัญของตัวแปรจากแพ็คเกจ Random Forest การลดความแม่นยำหมายถึงการลดลงของความแม่นยำของแบบจำลองจากการอนุญาตให้ใช้ค่าในแต่ละคุณสมบัติ นี่เป็นคำแถลงเกี่ยวกับสถานที่ทั้งหมดหรือเกี่ยวกับค่าเฉพาะภายในสถานที่หรือไม่? ไม่ว่าในกรณีใดค่าเฉลี่ยลดลงในความแม่นยำจำนวนหรือสัดส่วนของการสังเกตที่จำแนกอย่างไม่ถูกต้องโดยการลบคุณลักษณะ (หรือค่าจากคุณลักษณะ) ออกจากแบบจำลองหรือไม่ สมมติว่าเรามีรูปแบบดังต่อไปนี้: require(randomForest) data(iris) set.seed(1) dat <- iris dat$Species <- factor(ifelse(dat$Species=='virginica','virginica','other')) model.rf <- randomForest(Species~., dat, ntree=25, importance=TRUE, nodesize=5) model.rf varImpPlot(model.rf) Call: randomForest(formula = Species ~ ., data = dat, ntree = 25, proximity = TRUE, importance = TRUE, nodesize = 5) Type of …

5
แบบจำลอง Bayesian คืออะไร?
ฉันสามารถเรียกรูปแบบที่ทฤษฎีบทของเบย์ใช้ "แบบจำลองเบย์" ได้หรือไม่? ฉันกลัวคำจำกัดความดังกล่าวอาจกว้างเกินไป แบบจำลอง Bayesian คืออะไร?

2
เหตุใดการทดสอบอัตราส่วนความน่าจะเป็นกระจายแบบไคสแควร์
ทำไมสถิติการทดสอบของการทดสอบอัตราส่วนความน่าจะเป็นแบบกระจายไคสแควร์ 2(ln Lalt model−ln Lnull model)∼χ2dfalt−dfnull2(ln⁡ Lalt model−ln⁡ Lnull model)∼χdfalt−dfnull22(\ln \text{ L}_{\rm alt\ model} - \ln \text{ L}_{\rm null\ model} ) \sim \chi^{2}_{df_{\rm alt}-df_{\rm null}}

5
ค้นหาค่าที่คาดหวังโดยใช้ CDF
ฉันจะเริ่มด้วยการบอกว่านี่เป็นปัญหาการบ้านตรงๆจากหนังสือ ฉันใช้เวลาสองสามชั่วโมงเพื่อค้นหาวิธีการค้นหาค่าที่คาดหวังและตัดสินใจว่าฉันไม่เข้าใจอะไรเลย Letมี CDFx ค้นหาสำหรับค่าเหล่านั้นของซึ่งมีอยู่XXXF(x)=1−x−α,x≥1F(x)=1−x−α,x≥1F(x) = 1 - x^{-\alpha}, x\ge1E(X)E(X)E(X)αα\alphaE(X)E(X)E(X) ฉันไม่รู้ว่าจะเริ่มต้นอย่างไร ฉันจะกำหนดค่าของมีอยู่ได้อย่างไร ฉันยังไม่รู้ว่าจะทำอย่างไรกับ CDF (ฉันสมมติว่านี่หมายถึง Cumulative Distribution Function) มีสูตรสำหรับค้นหาค่าที่คาดไว้เมื่อคุณมีฟังก์ชันความถี่หรือฟังก์ชันความหนาแน่น Wikipedia กล่าวว่า CDF ของสามารถนิยามได้ในรูปของฟังก์ชันความหนาแน่นของความน่าจะเป็นดังนี้:αα\alphaXXXfff F(x)=∫x−∞f(t)dtF(x)=∫−∞xf(t)dtF(x) = \int_{-\infty}^x f(t)\,dt เท่าที่ฉันได้รับ ฉันจะไปจากที่นี่ที่ไหน แก้ไข: ฉันหมายถึงการใส่xx≥1x≥1x\ge1

3
เหตุใดจึงมีความแตกต่างระหว่างการคำนวณช่วงความเชื่อมั่นแบบโลจิสติก 95% ด้วยตนเองและการใช้ฟังก์ชัน confint () ใน R
เรียนคุณทุกคน - ฉันสังเกตเห็นบางสิ่งแปลก ๆ ที่ไม่สามารถอธิบายได้ไหม โดยสรุป: แนวทางแบบแมนนวลเพื่อคำนวณช่วงความมั่นใจในโมเดลการถดถอยโลจิสติกและฟังก์ชัน R confint()ให้ผลลัพธ์ที่แตกต่างกัน ฉันเคยผ่านการถดถอยโลจิสติกประยุกต์ของ Hosmer & Lemeshow แล้ว (ฉบับที่ 2) ในบทที่ 3 มีตัวอย่างของการคำนวณอัตราส่วนอัตราต่อรองและช่วงความมั่นใจ 95% ด้วย R ฉันสามารถสร้างโมเดลได้อย่างง่ายดาย: Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

4
ต้นไม้ด้านการตัดสินใจที่อ่อนแอคืออะไร?
ต้นไม้ตัดสินใจดูเหมือนจะเป็นวิธีการเรียนรู้ด้วยเครื่องที่เข้าใจได้ง่ายมาก เมื่อสร้างแล้วสามารถตรวจสอบได้ง่ายโดยมนุษย์ซึ่งเป็นข้อได้เปรียบที่ดีในการใช้งานบางอย่าง อะไรคือจุดอ่อนด้านการปฏิบัติของต้นไม้การตัดสินใจ?

6
การขุดข้อมูล: ฉันจะหารูปแบบการใช้งานได้อย่างไร?
ฉันอยากรู้เกี่ยวกับขั้นตอนการทำซ้ำที่สามารถใช้เพื่อค้นหารูปแบบการทำงานของฟังก์ชัน y = f(A, B, C) + error_termที่การป้อนข้อมูลของฉันเท่านั้นเป็นชุดของการสังเกต ( y, A, BและC) โปรดทราบว่ารูปแบบการทำงานของfไม่เป็นที่รู้จัก พิจารณาชุดข้อมูลต่อไปนี้: AA BB CC DD EE FF == == == == == == 98 11 66 84 67 10500 71 44 48 12 47 7250 54 28 90 73 95 5463 34 95 15 45 75 2581 …

3
มีปัญหาการเรียนรู้ภายใต้การดูแลที่ชัดเจน (ลึก) เครือข่ายประสาทเทียมไม่สามารถทำได้ดีกว่าวิธีการอื่น ๆ ?
ฉันเคยเห็นผู้คนใช้ความพยายามอย่างมากกับ SVM และ Kernels และพวกเขาดูน่าสนใจทีเดียวในฐานะผู้เริ่มต้นในการเรียนรู้ของเครื่อง แต่ถ้าเราคาดหวังว่าเกือบตลอดเวลาเราจะพบทางออกที่ดีกว่าในแง่ของเครือข่ายประสาท (ลึก) ความหมายของการลองใช้วิธีการอื่นในยุคนี้คืออะไร? นี่คือข้อ จำกัด ของฉันในหัวข้อนี้ เราคิดถึงการเรียนรู้แบบมีผู้ควบคุมเท่านั้น การถดถอยและการจำแนก การอ่านผลลัพธ์จะไม่ถูกนับ เฉพาะความแม่นยำในปัญหาการเรียนรู้ภายใต้การควบคุมเท่านั้นที่จะนับ การคำนวณต้นทุนไม่ได้พิจารณา ฉันไม่ได้บอกว่าวิธีการอื่นใดไร้ประโยชน์

2
นี่เป็นวิธีการถดถอยที่ล้ำสมัยหรือไม่?
ฉันได้ติดตามการแข่งขัน Kaggle มาเป็นเวลานานและฉันได้ตระหนักว่ากลยุทธ์การชนะจำนวนมากเกี่ยวข้องกับการใช้ "threes ใหญ่" อย่างน้อยหนึ่งอย่าง: การใส่ถุงการส่งเสริมและการซ้อน สำหรับการถดถอยแทนที่จะมุ่งเน้นไปที่การสร้างแบบจำลองการถดถอยที่ดีที่สุดที่เป็นไปได้การสร้างแบบจำลองการถดถอยหลายแบบเช่นการถดถอยเชิงเส้นแบบทั่วไป (ทั่วไป) การสุ่มป่า KNN NN และ SVM และการผสมผสานผลลัพธ์เป็นวิธีที่สมเหตุสมผล - ดำเนินการแต่ละวิธีเป็นจำนวนมากครั้ง แน่นอนความเข้าใจที่มั่นคงของแต่ละวิธีคือกุญแจสำคัญและเรื่องราวที่ใช้งานง่ายสามารถบอกได้ตามแบบจำลองการถดถอยเชิงเส้น แต่ฉันสงสัยว่านี่เป็นวิธีการที่ทันสมัยเพื่อให้ได้ผลลัพธ์ที่ดีที่สุดหรือไม่

3
(เพราะอะไร) SOM สไตล์โคโนนันหลุดพ้นไปจากความโปรดปรานไหม?
เท่าที่ฉันสามารถบอกได้ SOM สไตล์โคโนนนั้นมีจุดสูงสุดในช่วงประมาณปี 2005 และไม่เคยได้รับความนิยมเท่านี้มาก่อน ฉันไม่พบกระดาษใด ๆ ที่ระบุว่า SOM ได้รับการแบ่งย่อยด้วยวิธีอื่นหรือได้รับการพิสูจน์แล้วว่าเทียบเท่ากับสิ่งอื่น (ในระดับที่สูงกว่าอย่างใด) แต่ดูเหมือนว่า tSNE และวิธีการอื่นจะได้รับหมึกเพิ่มมากขึ้นทุกวันตัวอย่างเช่นใน Wikipedia หรือใน SciKit Learn และ SOM ถูกกล่าวถึงมากขึ้นเป็นวิธีการทางประวัติศาสตร์ (ที่จริงแล้วบทความ Wikipedia ดูเหมือนจะระบุว่า SOM ยังคงมีข้อได้เปรียบเหนือคู่แข่งอยู่บ้าง แต่ก็เป็นรายการสั้นที่สุดในรายการแก้ไข: ตามคำขอของ gung ซึ่งเป็นหนึ่งในบทความที่ฉันคิดว่าเป็น: การลดขนาดแบบไม่เชิงเส้นโปรดทราบว่า SOM เขียนเกี่ยวกับเรื่องนี้น้อยกว่าวิธีอื่น ๆ ฉันไม่สามารถหาบทความที่กล่าวถึงข้อได้เปรียบที่ SOM ดูเหมือนว่าจะรักษาวิธีอื่น ๆ ได้ส่วนใหญ่) ข้อมูลเชิงลึกใด ๆ มีคนถามว่าทำไมไม่ใช้ SOM และได้รับการอ้างอิงเมื่อนานมาแล้วและฉันได้พบการดำเนินการจากการประชุม SOM แต่สงสัยว่าการเพิ่มขึ้นของ SVM หรือ tSNE และ …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.