คำถามติดแท็ก unsupervised-learning

การค้นหาโครงสร้าง (สถิติ) ที่ซ่อนอยู่ในข้อมูลที่ไม่มีป้ายกำกับรวมถึงการจัดกลุ่มและการแยกคุณลักษณะเพื่อการลดขนาด

3
วิธีการสร้างพล็อตสวยของผลลัพธ์ของการวิเคราะห์กลุ่ม k-mean?
ฉันใช้ R เพื่อทำคลัสเตอร์ K-mean ฉันใช้ตัวแปร 14 ตัวในการรันค่า K เป็นวิธีที่ดีในการพล็อตผลลัพธ์ของ K-mean คืออะไร? มีการใช้งานที่มีอยู่หรือไม่ การมี 14 ตัวแปรทำให้การวางแผนผลลัพธ์ซับซ้อนหรือไม่? ฉันพบสิ่งที่เรียกว่า GGcluster ซึ่งดูดี แต่ก็ยังอยู่ในระหว่างการพัฒนา ฉันยังอ่านอะไรบางอย่างเกี่ยวกับการทำแผนที่แบบแซมมอน แต่ไม่เข้าใจดีนัก นี่จะเป็นตัวเลือกที่ดีหรือไม่?

2
ANN เครือข่ายประสาทเทียมสามารถใช้สำหรับการจัดกลุ่มที่ไม่ได้รับการดูแลได้อย่างไร?
ฉันเข้าใจวิธีartificial neural network (ANN)สามารถฝึกอบรมในลักษณะที่มีการควบคุมดูแลโดยใช้ backpropogation เพื่อปรับปรุงอุปกรณ์ให้เหมาะสมโดยลดข้อผิดพลาดในการทำนาย ฉันเคยได้ยินว่า ANN สามารถใช้สำหรับการเรียนรู้ที่ไม่มีผู้ดูแลแต่วิธีการนี้สามารถทำได้โดยไม่ต้องมีฟังก์ชั่นค่าใช้จ่ายบางอย่างเพื่อเป็นแนวทางในขั้นตอนการปรับให้เหมาะสม ด้วย k-mean หรืออัลกอริทึม EM มีฟังก์ชันที่แต่ละการค้นหาซ้ำเพื่อเพิ่ม เราจะทำคลัสเตอร์กับ ANN ได้อย่างไรและใช้กลไกใดในการจัดกลุ่มจุดข้อมูลในท้องที่เดียวกัน (และมีความสามารถพิเศษอะไรบ้างที่มาพร้อมกับเพิ่มเลเยอร์ให้มากขึ้น)

1
ตัวชี้วัดประสิทธิภาพเพื่อประเมินการเรียนรู้ที่ไม่ได้รับการดูแล
ด้วยความเคารพต่อการเรียนรู้ที่ไม่ได้รับการดูแล (เช่นการจัดกลุ่ม) มีตัวชี้วัดใดเพื่อประเมินประสิทธิภาพหรือไม่

4
ความแตกต่างระหว่างการเข้ารหัสแบบเบาบางและตัวเข้ารหัสอัตโนมัติคืออะไร
การเข้ารหัสแบบเบาบางหมายถึงการเรียนรู้ชุดเวกเตอร์พื้นฐานที่ครบวงจรเพื่อเป็นตัวแทนเวกเตอร์อินพุต (<- ทำไมเราต้องการสิ่งนี้) ความแตกต่างระหว่างการเข้ารหัสแบบเบาบางและตัวเข้ารหัสอัตโนมัติคืออะไร เมื่อใดที่เราจะใช้การเข้ารหัสแบบเบาบางและตัวเข้ารหัสอัตโนมัติ

3
เหตุใดจึงมีความแตกต่างระหว่างการคำนวณช่วงความเชื่อมั่นแบบโลจิสติก 95% ด้วยตนเองและการใช้ฟังก์ชัน confint () ใน R
เรียนคุณทุกคน - ฉันสังเกตเห็นบางสิ่งแปลก ๆ ที่ไม่สามารถอธิบายได้ไหม โดยสรุป: แนวทางแบบแมนนวลเพื่อคำนวณช่วงความมั่นใจในโมเดลการถดถอยโลจิสติกและฟังก์ชัน R confint()ให้ผลลัพธ์ที่แตกต่างกัน ฉันเคยผ่านการถดถอยโลจิสติกประยุกต์ของ Hosmer & Lemeshow แล้ว (ฉบับที่ 2) ในบทที่ 3 มีตัวอย่างของการคำนวณอัตราส่วนอัตราต่อรองและช่วงความมั่นใจ 95% ด้วย R ฉันสามารถสร้างโมเดลได้อย่างง่ายดาย: Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

2
การเลือกวิธีการเชื่อมโยงที่ถูกต้องสำหรับการทำคลัสเตอร์แบบลำดับชั้น
ฉันกำลังทำการจัดกลุ่มตามลำดับชั้นกับข้อมูลที่ฉันรวบรวมและประมวลผลจากการถ่ายโอนข้อมูล reddit ใน Google BigQuery กระบวนการของฉันมีดังต่อไปนี้: รับโพสต์ล่าสุด 1,000 รายการใน / r / การเมือง รวบรวมความคิดเห็นทั้งหมด ประมวลผลข้อมูลและคำนวณn x mเมทริกซ์ข้อมูล (n: ผู้ใช้ / ตัวอย่าง, m: โพสต์ / คุณสมบัติ) คำนวณเมทริกซ์ระยะทางสำหรับการจัดกลุ่มลำดับชั้น เลือกวิธีการลิงก์และดำเนินการจัดกลุ่มตามลำดับชั้น ลงจุดข้อมูลเป็น dendrogram คำถามของฉันคือฉันจะกำหนดวิธีการเชื่อมโยงที่ดีที่สุดได้อย่างไร ฉันกำลังใช้Wardแต่ฉันจะรู้ว่าฉันควรจะใช้single, complete, averageetc? ฉันยังใหม่กับสิ่งนี้ แต่ฉันไม่สามารถหาคำตอบที่ชัดเจนออนไลน์ได้เพราะฉันไม่แน่ใจว่ามี ดังนั้นอาจเป็นความคิดที่ดีสำหรับใบสมัครของฉัน? โปรดทราบว่าข้อมูลค่อนข้างเบาบางในแง่ที่ว่าn x mเมทริกซ์มีศูนย์เป็นจำนวนมาก (คนส่วนใหญ่ไม่แสดงความคิดเห็นในโพสต์มากกว่าสองสามโพสต์)

2
การเรียนรู้แบบมีผู้เรียนการเรียนรู้แบบไม่มีผู้ดูแลและการเสริมแรง: พื้นฐานการทำงาน
การเรียนรู้ภายใต้การดูแล 1) มนุษย์สร้างลักษณนามอยู่บนพื้นฐานของการป้อนข้อมูลและการส่งออกข้อมูล 2) ลักษณนามนั้นได้รับการฝึกอบรมพร้อมชุดข้อมูลการฝึกอบรม 3) ลักษณนามนั้นทดสอบด้วยชุดข้อมูลทดสอบ 4) การปรับใช้ถ้าผลลัพธ์เป็นที่น่าพอใจ หากต้องการใช้เมื่อ "ฉันรู้วิธีจัดประเภทข้อมูลนี้ฉันแค่ต้องการให้คุณ (ตัวจําแนก) เพื่อจัดเรียงข้อมูล" จุดของวิธีการ: ใช้ป้ายกำกับคลาสหรือสร้างจำนวนจริง การเรียนรู้ที่ไม่จำเป็น 1) มนุษย์สร้างอัลกอริทึมบนพื้นฐานของการป้อนข้อมูล 2) อัลกอริทึมนั้นทดสอบด้วยชุดทดสอบข้อมูล (ซึ่งอัลกอริทึมสร้างลักษณนาม) 3) การปรับใช้ถ้าลักษณนามเป็นที่น่าพอใจ เมื่อต้องการใช้เมื่อ "ฉันไม่รู้ว่าจะจัดประเภทข้อมูลนี้ได้อย่างไรคุณ (อัลกอริทึม) สามารถสร้างตัวจําแนกสำหรับฉันได้หรือไม่" จุดของวิธีการ: ใช้ป้ายกำกับคลาสหรือทำนาย (PDF) เสริมการเรียนรู้ 1) มนุษย์สร้างอัลกอริทึมบนพื้นฐานของการป้อนข้อมูล 2) อัลกอริทึมนั้นนำเสนอสถานะที่ขึ้นอยู่กับข้อมูลอินพุตที่ผู้ใช้ให้รางวัลหรือลงโทษอัลกอริทึมผ่านการกระทำที่อัลกอริทึมดำเนินการซึ่งจะดำเนินต่อไปตามกาลเวลา 3) อัลกอริทึมนั้นเรียนรู้จากการให้รางวัล / การลงโทษและอัปเดตตัวเองซึ่งจะดำเนินต่อไป 4) มันอยู่ในการผลิตเสมอมันต้องเรียนรู้ข้อมูลจริงเพื่อให้สามารถนำเสนอการกระทำจากรัฐ เพื่อใช้เมื่อ "ฉันไม่รู้ว่าจะจำแนกข้อมูลนี้อย่างไรคุณสามารถจำแนกข้อมูลนี้และฉันจะให้รางวัลแก่คุณหากมันถูกต้องหรือฉันจะลงโทษคุณหากไม่ใช่" นี่คือการไหลของการปฏิบัติเหล่านี้ฉันได้ยินมามากมายเกี่ยวกับสิ่งที่พวกเขาทำ แต่ข้อมูลที่เป็นประโยชน์และเป็นแบบอย่างนั้นน่ากลัวเล็กน้อย!

5
การแยกความแตกต่างระหว่างสองกลุ่มในสถิติและการเรียนรู้ของเครื่อง: การทดสอบสมมติฐานเทียบกับการจำแนกและการทำคลัสเตอร์
สมมติว่าฉันมีกลุ่มข้อมูลสองกลุ่มระบุว่า A และ B (แต่ละกลุ่มประกอบด้วยตัวอย่าง 200 ตัวอย่างและคุณสมบัติ 1) และฉันต้องการทราบว่าพวกเขาแตกต่างกันหรือไม่ ฉันทำได้: a) ทำการทดสอบทางสถิติ (เช่น t-test) เพื่อดูว่ามีความแตกต่างทางสถิติหรือไม่ b) ใช้การเรียนรู้ของเครื่องควบคุม (เช่นการสนับสนุนตัวจําแนกเวกเตอร์หรือลักษณนามฟอเรสต์แบบสุ่ม) ฉันสามารถฝึกอบรมสิ่งนี้ในส่วนของข้อมูลของฉันและตรวจสอบในส่วนที่เหลือ หากอัลกอริทึมการเรียนรู้ของเครื่องจำแนกส่วนที่เหลืออย่างถูกต้องหลังจากนั้นฉันสามารถมั่นใจได้ว่าตัวอย่างจะแตกต่างกัน c) ใช้อัลกอริทึมที่ไม่มีผู้ดูแล (เช่น K-Means) และปล่อยให้มันแบ่งข้อมูลทั้งหมดออกเป็นสองตัวอย่าง ฉันสามารถตรวจสอบว่าตัวอย่างที่พบทั้งสองนี้เห็นด้วยกับฉลากของฉัน A และ B หรือไม่ คำถามของฉันคือ: วิธีที่แตกต่างกันสามวิธีนี้ทับซ้อนกัน / พิเศษอย่างไร b) และ c) มีประโยชน์สำหรับข้อโต้แย้งทางวิทยาศาสตร์หรือไม่? ฉันจะได้รับ“ นัยสำคัญ” สำหรับความแตกต่างระหว่างตัวอย่าง A และ B จากวิธีการ b) และ c) อย่างไร จะเกิดอะไรขึ้นถ้าข้อมูลมีคุณสมบัติหลายอย่างมากกว่า …

3
การเรียนรู้แบบไม่ควบคุมดูแลและแบบกึ่งควบคุม
ในบริบทของการเรียนรู้ของเครื่องสิ่งที่แตกต่างกันคืออะไร การเรียนรู้แบบไม่มีผู้ดูแล การเรียนรู้ภายใต้การดูแลและ การเรียนรู้แบบกึ่งภายใต้การดูแล? และวิธีการบางอย่างของอัลกอริทึมหลักในการดูคืออะไร?

5
ขั้นตอนการทำคลัสเตอร์ที่แต่ละกลุ่มมีจำนวนคะแนนเท่ากันหรือไม่
ฉันมีบางจุดในR pและฉันต้องการจัดกลุ่มคะแนนเพื่อให้:X= { x1, . . . , xn}X={x1,...,xn}X=\{x_1,...,x_n\}RพีRพีR^p แต่ละคลัสเตอร์มีจำนวนเท่ากันขององค์ประกอบของX(สมมติว่าจำนวนกลุ่มหารn )XXXnnn แต่ละกลุ่มมี "ความสัมพันธ์เชิงพื้นที่" ในบางกรณีเช่นกลุ่มจาก -meanskkk เป็นเรื่องง่ายที่จะนึกถึงกระบวนการจัดกลุ่มจำนวนมากที่ตอบสนองความต้องการอย่างใดอย่างหนึ่ง แต่ไม่มีใครรู้วิธีที่จะทำให้ทั้งสองอย่างพร้อมกันได้หรือไม่

3
การวิเคราะห์อนุกรมเวลารายวัน
ฉันกำลังพยายามทำการวิเคราะห์อนุกรมเวลาและยังใหม่กับฟิลด์นี้ ฉันมีการนับเหตุการณ์ทุกวันตั้งแต่ปี 2549-2552 และฉันต้องการให้พอดีกับแบบจำลองอนุกรมเวลา นี่คือความก้าวหน้าที่ฉันได้ทำ: timeSeriesObj = ts(x,start=c(2006,1,1),frequency=365.25) plot.ts(timeSeriesObj) พล็อตผลที่ฉันได้รับคือ: เพื่อตรวจสอบว่ามีฤดูกาลและแนวโน้มในข้อมูลหรือไม่ฉันทำตามขั้นตอนที่กล่าวถึงในโพสต์นี้: ets(x) fit <- tbats(x) seasonal <- !is.null(fit$seasonal) seasonal และในบล็อกของ Rob J Hyndman : library(fma) fit1 <- ets(x) fit2 <- ets(x,model="ANN") deviance <- 2*c(logLik(fit1) - logLik(fit2)) df <- attributes(logLik(fit1))$df - attributes(logLik(fit2))$df #P value 1-pchisq(deviance,df) ทั้งสองกรณีระบุว่าไม่มีฤดูกาล เมื่อฉันพล็อต ACF & PACF ของซีรีส์นี่คือสิ่งที่ฉันได้รับ: …

3
การจัดกลุ่มหรือการจัดหมวดหมู่ภายใต้การดูแล?
คำถามที่สองคือฉันพบในการสนทนาที่ไหนสักแห่งบนเว็บที่พูดถึง "การจัดกลุ่มแบบมีผู้ดูแล" เท่าที่ฉันทราบการจัดกลุ่มไม่ได้รับการสำรองดังนั้นความหมายที่อยู่เบื้องหลัง "การจัดกลุ่มแบบมีผู้ดูแล" คืออะไร ความแตกต่างเกี่ยวกับ "การจำแนกประเภท" คืออะไร? มีลิงค์มากมายที่พูดถึง: http://www.cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf http://books.nips.cc/papers/files/nips23/NIPS2010_0427.pdf http://engr.case.edu/ray_soumya/mlrg/supervised_clustering_finley_joachims_icml05.pdf http://www.public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf http://www.machinelearning.org/proceedings/icml2007/papers/366.pdf http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf http://jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf ฯลฯ ...

2
Generative vs discriminative models (ในบริบทของ Bayesian)
อะไรคือความแตกต่างระหว่างแบบจำลองเชิงกำเนิดและแบบเลือกปฏิบัติ (แบบเลือกปฏิบัติ) (ในบริบทของการเรียนรู้และการอนุมานแบบเบย์)? และอะไรคือสิ่งที่เกี่ยวข้องกับการทำนายทฤษฎีการตัดสินใจหรือการเรียนรู้ที่ไม่มีผู้ดูแล

3
วิธีการทำนายผลลัพธ์ด้วยการฝึกอบรมเชิงบวกเท่านั้น?
เพื่อความเรียบง่ายสมมติว่าฉันทำงานกับตัวอย่างคลาสสิกของอีเมลสแปม / จดหมายขยะ ฉันมีอีเมลหนึ่งชุด ในบรรดาสิ่งเหล่านี้ฉันรู้ว่า 2000 เป็นสแปม แต่ฉันไม่มีตัวอย่างของอีเมลขยะ ฉันต้องการที่จะคาดการณ์ว่าส่วนที่เหลืออีก 18,000 เป็นสแปมหรือไม่ ตามหลักการแล้วผลลัพธ์ที่ฉันค้นหาคือความน่าจะเป็น (หรือค่า p) ที่อีเมลเป็นสแปม ฉันสามารถใช้อัลกอริทึมใดในการทำนายอย่างสมเหตุสมผลในสถานการณ์นี้ ในขณะนี้ฉันกำลังคิดถึงวิธีการทางไกลที่จะบอกฉันว่าอีเมลของฉันคล้ายกับอีเมลสแปมที่รู้จักกันอย่างไร ฉันมีตัวเลือกอะไรบ้าง โดยทั่วไปฉันสามารถใช้วิธีการเรียนรู้แบบมีผู้สอนหรือฉันจำเป็นต้องมีกรณีที่เป็นลบในชุดฝึกอบรมเพื่อทำเช่นนั้นหรือไม่? ฉัน จำกัด วิธีการเรียนรู้ที่ไม่ได้รับการดูแลหรือไม่? วิธีการกึ่งควบคุมดูแล?

2
สมมติฐานที่หลากหลายในการเรียนรู้แบบกึ่งดูแลคืออะไร
ฉันพยายามที่จะเข้าใจว่าสมมติฐานที่หลากหลายมีความหมายอย่างไรในการเรียนรู้แบบกึ่งมีผู้สอน ทุกคนสามารถอธิบายด้วยวิธีง่าย ๆ ได้ไหม? ฉันไม่สามารถรับสัญชาตญาณที่อยู่เบื้องหลังได้ มันบอกว่าข้อมูลของคุณวางอยู่บนท่อร่วมมิติขนาดเล็กที่ฝังอยู่ในพื้นที่มิติที่สูงขึ้น ฉันไม่ได้รับสิ่งที่หมายถึง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.