คำถามติดแท็ก classification

การจำแนกทางสถิติเป็นปัญหาของการระบุประชากรย่อยที่การสังเกตใหม่เป็นของที่ไม่ทราบตัวตนของประชากรย่อยบนพื้นฐานของชุดการฝึกอบรมของข้อมูลที่มีการสังเกตซึ่งมีประชากรย่อยเป็นที่รู้จัก ดังนั้นการจำแนกประเภทเหล่านี้จะแสดงพฤติกรรมที่เปลี่ยนแปลงได้ซึ่งสามารถศึกษาได้จากสถิติ

1
แพคเกจ GBM กับ Caret ใช้ GBM
ฉันเคยใช้การจูนโมเดลcaretแต่แล้วก็รันโมเดลอีกครั้งโดยใช้gbmแพ็คเกจ ฉันเข้าใจว่าcaretแพ็กเกจที่ใช้gbmและเอาต์พุตควรเหมือนกัน อย่างไรก็ตามการทดสอบการทำงานอย่างรวดเร็วโดยใช้data(iris)แสดงความแตกต่างในรูปแบบประมาณ 5% โดยใช้ RMSE และ R ^ 2 เป็นตัวชี้วัดการประเมินผล ฉันต้องการค้นหาประสิทธิภาพของแบบจำลองที่ดีที่สุดโดยใช้caretแต่เรียกใช้อีกครั้งgbmเพื่อใช้ประโยชน์จากแผนการพึ่งพาบางส่วน รหัสด้านล่างสำหรับการทำซ้ำ คำถามของฉันจะเป็น: 1) เหตุใดฉันจึงเห็นความแตกต่างระหว่างแพ็คเกจทั้งสองนี้ถึงแม้ว่าพวกเขาจะเหมือนกัน (ฉันเข้าใจว่าพวกมันสุ่ม แต่ 5% ค่อนข้างแตกต่างกันมากโดยเฉพาะอย่างยิ่งเมื่อฉันไม่ได้ใช้ชุดข้อมูลที่ดีirisสำหรับการสร้างแบบจำลองของฉัน) . 2) มีข้อดีหรือข้อเสียในการใช้ทั้งสองแพคเกจหรือไม่ 3) ไม่เกี่ยวข้อง: การใช้irisชุดข้อมูลที่ดีที่สุดinteraction.depthคือ 5 แต่สูงกว่าที่ฉันได้อ่านควรจะใช้สูงสุดfloor(sqrt(ncol(iris)))ซึ่งควรจะเป็น 2 นี่เป็นกฎง่ายๆหรือเข้มงวดหรือไม่? library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric …

3
เครื่องจักร Boltzmann ที่ จำกัด สำหรับการถดถอย
ผมติดตามคำถามที่ผมถามก่อนหน้านี้เมื่อRBMs ฉันเห็นวรรณกรรมจำนวนมากที่อธิบายถึงพวกเขา แต่ไม่มีใครพูดถึงการถดถอยได้ (ไม่ใช่การจำแนกด้วยข้อมูลที่มีป้ายกำกับ) ฉันรู้สึกว่ามันใช้สำหรับข้อมูลที่ไม่มีป้ายกำกับเท่านั้น มีทรัพยากรใดบ้างสำหรับจัดการกับการถดถอย หรือมันง่ายเหมือนการเพิ่มเลเยอร์อื่นที่ด้านบนของเลเยอร์ที่ซ่อนอยู่และรันอัลกอริทึมซีดีขึ้นและลง? ขอบคุณมากล่วงหน้า

2
การถดถอยโลจิสติกส์เหมาะสมเมื่อใด
ขณะนี้ฉันกำลังสอนตัวเองเกี่ยวกับการจำแนกประเภทและโดยเฉพาะฉันกำลังดูวิธีการสามวิธี: การสนับสนุนเครื่องเวกเตอร์เครือข่ายประสาทและการถดถอยโลจิสติก สิ่งที่ฉันพยายามเข้าใจคือเหตุที่การถดถอยโลจิสติกจะทำงานได้ดีกว่าอีกสอง จากความเข้าใจของฉันในการถดถอยโลจิสติกความคิดคือการปรับฟังก์ชั่นโลจิสติกให้พอดีกับข้อมูลทั้งหมด ดังนั้นถ้าข้อมูลของฉันเป็นเลขฐานสองข้อมูลทั้งหมดที่มีป้ายกำกับ 0 ควรถูกแมปกับค่า 0 (หรือใกล้เคียง) และข้อมูลทั้งหมดที่มีค่า 1 ควรถูกแมปกับค่า 1 (หรือใกล้เคียง) ตอนนี้เนื่องจากฟังก์ชันโลจิสติกส์นั้นต่อเนื่องและราบรื่นการดำเนินการถดถอยนี้จึงต้องการข้อมูลทั้งหมดของฉันเพื่อให้พอดีกับเส้นโค้ง ไม่มีความสำคัญมากขึ้นนำไปใช้กับจุดข้อมูลที่อยู่ใกล้กับขอบเขตการตัดสินใจและจุดข้อมูลทั้งหมดมีส่วนทำให้เกิดการสูญเสียตามจำนวนที่แตกต่างกัน อย่างไรก็ตามด้วยการสนับสนุนเวกเตอร์แมชชีนและเครือข่ายนิวรัลเฉพาะจุดข้อมูลเหล่านั้นที่อยู่ใกล้กับขอบเขตการตัดสินใจมีความสำคัญ ตราบใดที่จุดข้อมูลยังคงอยู่ในขอบเขตเดียวกันของขอบเขตการตัดสินใจมันจะมีส่วนทำให้เกิดการสูญเสียเท่ากัน ดังนั้นเหตุใดการถดถอยของโลจิสติกจึงมีประสิทธิภาพสูงกว่าเครื่องเวกเตอร์หรือโครงข่ายประสาทเนื่องจากว่า "เสียทรัพยากร" ในการพยายามที่จะปรับเส้นโค้งให้เข้ากับข้อมูลที่ไม่สำคัญ (จำแนกได้ง่าย ๆ ) ขอบเขต?

2
เหตุใดจึงใช้ n-gram ในการระบุภาษาข้อความแทนที่จะเป็นคำ?
ในไลบรารีการระบุภาษาที่ได้รับความนิยมสองเครื่อง Compact Language Detector 2 สำหรับ C ++ และเครื่องตรวจจับภาษาสำหรับ Java ทั้งคู่ใช้ (ตามอักขระ) n-grams เพื่อแยกคุณลักษณะข้อความ ทำไมไม่ใช้ถุงแบบคำ (คำเดียว / พจนานุกรม) และข้อดีและข้อเสียของถุงแบบคำและ n-g คืออะไร นอกจากนี้การใช้แบบจำลอง n-grams อื่น ๆ ในการจำแนกข้อความมีประโยชน์อะไรบ้าง? โอ้โห ดูเหมือนว่ามีคำถามที่คล้ายกันที่นี่: เกี่ยวกับการใช้แบบจำลอง Bigram (N-Gram) เพื่อสร้างเวกเตอร์คุณลักษณะสำหรับเอกสารข้อความ แต่ใครบางคนสามารถให้คำตอบที่ครอบคลุมมากขึ้น? ในกรณีที่มีการระบุภาษาดีกว่า (หวังว่าฉันจะได้ความหมายของ n-gg และถุงของคำถูกต้องฮ่าฮ่าถ้าไม่ได้โปรดช่วยฉันด้วย)

2
วิธีการคำนวณน้ำหนักเกณฑ์ฟิชเชอร์
ฉันกำลังศึกษาการจดจำรูปแบบและการเรียนรู้ของเครื่องและฉันพบคำถามต่อไปนี้ พิจารณาปัญหาการจำแนกประเภทสองระดับที่มีความน่าจะเป็นคลาสก่อนหน้าเท่ากับP(D1)=P(D2)=12P(D1)=P(D2)=12P(D_1)=P(D_2)= \frac{1}{2} และการแจกแจงอินสแตนซ์ในแต่ละคลาสที่กำหนดโดย p(x|D1)=N([00],[2001]),p(x|D1)=N([00],[2001]), p(x|D_1)= {\cal N} \left( \begin{bmatrix} 0 \\0 \end{bmatrix}, \begin{bmatrix} 2 & 0 \\ 0 & 1 \end{bmatrix} \right), p(x|D2)=N([44],[1001]).p(x|D2)=N([44],[1001]). p(x|D_2)= {\cal N} \left( \begin{bmatrix} 4 \\ 4 \end{bmatrix}, \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix} \right). วิธีการคำนวณน้ำหนักเกณฑ์ฟิชเชอร์ อัปเดต 2:น้ำหนักที่คำนวณได้จากหนังสือของฉันคือ: W=[−43−29]W=[−43−29]W=\begin{bmatrix} \frac{-4}{3} \\ \frac{-2}{9} …

5
จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?
ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
ฉันจะฝึกอบรม HMM เพื่อการจัดหมวดหมู่ได้อย่างไร
ดังนั้นฉันเข้าใจว่าเมื่อคุณฝึกฝน HMM สำหรับการจัดประเภทแนวทางมาตรฐานคือ: แยกชุดข้อมูลของคุณออกเป็นชุดข้อมูลสำหรับแต่ละชั้นเรียน ฝึกหนึ่ง HMM ต่อคลาส ในชุดทดสอบเปรียบเทียบความเป็นไปได้ของแต่ละรุ่นเพื่อจำแนกแต่ละหน้าต่าง แต่ฉันจะฝึก HMM ในแต่ละชั้นได้อย่างไร ฉันเพิ่งต่อข้อมูลที่เกี่ยวข้องกับหนึ่งคลาสเข้าด้วยกันหรือไม่ แต่ไม่ใช่ข้อมูลอนุกรมเวลาหมายถึงการเรียงลำดับ - และถ้าฉันทำอย่างนั้นฉันกำลังบอกว่าจุดข้อมูลบางอย่างต่อเนื่องกันเมื่อพวกเขาไม่ได้? เพื่อให้เป็นรูปธรรมมากขึ้นฉันมีข้อมูล EEG ซึ่งเป็นเมทริกซ์ 96xT ที่ฉันมีเวกเตอร์ฟีเจอร์ 96 เวกเตอร์ซึ่งเป็นความหนาแน่นสเปกตรัมพลังงานของความถี่ที่แตกต่างกันจากช่องสัญญาณที่แตกต่างกันและ T คือระยะเวลาของสัญญาณ สิ่งนี้สามารถแบ่งออกเป็นหน้าต่างที่ฉันรู้จากโปรโตคอลทดลอง (ข้อมูลมีป้ายกำกับ) ดังนั้นฉันจึงสามารถรวบรวมเมทริกซ์ 96 * t สำหรับแต่ละชั้นเรียนได้ โดยที่ t น้อยกว่า T และระบุขนาดของแต่ละหน้าต่าง จากนั้นฉันจะฝึก HMM กับข้อมูลนี้ได้อย่างไร ถ้ามันช่วยให้ฉันพยายามใช้ชุดเครื่องมือ pmtk3 แต่ฉันเปิดให้ใช้อะไรก็ได้จริง ๆ - มันแค่ต้องสามารถจัดการกับการสังเกตที่มีคุณค่าจริง ๆ เพราะความหนาแน่นสเปกตรัมพลังงานนั้นไม่ต่อเนื่องกัน (กล่องเครื่องมือ MATLAB เริ่มต้นเท่านั้นที่สามารถจัดการได้ …

3
ความน่าจะเป็นของ Naive Bayes: ฉันควรนับจำนวนคำสองเท่าหรือไม่
ฉันทำต้นแบบของ Naive Bayes bag model และฉันมีคำถามเกี่ยวกับการคำนวณความน่าจะเป็นของคุณลักษณะ สมมติว่าฉันมีสองคลาสฉันจะใช้สแปมและไม่ใช่สแปมเพราะนั่นคือสิ่งที่ทุกคนใช้ และขอยกคำว่า "ไวอากร้า" เป็นตัวอย่าง ฉันมี 10 อีเมลในชุดการฝึกอบรมของฉัน 5 สแปมและ 5 ไม่ใช่สแปม "viagra" ปรากฏในเอกสารสแปมทั้ง 5 ฉบับ หนึ่งในเอกสารการฝึกอบรมปรากฏขึ้น 3 ครั้ง (นี่คือสิ่งที่คำถามของฉันเป็นเรื่องเกี่ยวกับ) ดังนั้นนั่นจึงเป็นลักษณะที่ปรากฏ 7 ประการในจดหมายขยะทั้งหมด ในชุดฝึกอบรมที่ไม่ใช่สแปมจะปรากฏขึ้น 1 ครั้ง หากฉันต้องการประมาณ p (viagra | spam) เพียง: p (viagra | spam) = 5 เอกสารสแปมประกอบด้วย viagra / 5 เอกสารสแปมทั้งหมด = 1 …

2
ทำไมการเพิ่มจำนวนคุณสมบัติจึงทำให้ประสิทธิภาพลดลง?
ฉันพยายามที่จะเพิ่มสัญชาตญาณว่าทำไมการเพิ่มจำนวนคุณสมบัติจึงสามารถลดประสิทธิภาพลงได้ ขณะนี้ฉันใช้ตัวแยกประเภท LDA ซึ่งทำงานได้ดีกว่าในฟีเจอร์บางอย่าง แต่ก็แย่ลงเมื่อดูฟีเจอร์อื่น ๆ ความแม่นยำในการจัดหมวดหมู่ของฉันดำเนินการโดยใช้ช่วงเวลา 10 เท่า x มีกรณีง่ายๆหรือไม่ที่เมื่อตัวจําแนกจะทำงานได้ดีกว่าแบบไม่มีเงื่อนไขโดยดีกว่าการได้รับ bivaraiately เพื่อให้ได้สัญชาตญาณทางกายภาพหรือเชิงพื้นที่ของสิ่งที่เกิดขึ้นในมิติที่สูงขึ้นเหล่านี้หรือไม่

1
ความสัมพันธ์ระหว่างจำนวนเวกเตอร์สนับสนุนและจำนวนของคุณสมบัติ
ฉันใช้ SVM กับชุดข้อมูลที่กำหนดและทำการสังเกตต่อไปนี้: ถ้าฉันเปลี่ยนจำนวนของคุณสมบัติสำหรับการสร้างตัวจําแนก ฉันต้องการทราบวิธีอธิบายสถานการณ์ประเภทนี้

2
PCA และฟอเรสต์แบบสุ่ม
สำหรับการแข่งขัน Kaggle เมื่อเร็ว ๆ นี้ฉัน (กำหนดเอง) กำหนดคุณสมบัติเพิ่มเติมอีก 10 รายการสำหรับชุดการฝึกอบรมของฉันซึ่งจะใช้ในการฝึกอบรมตัวจําแนกป่าแบบสุ่ม ฉันตัดสินใจเรียกใช้ PCA บนชุดข้อมูลด้วยคุณสมบัติใหม่เพื่อดูว่าพวกเขาเปรียบเทียบกันอย่างไร ฉันพบว่าประมาณ 98% ของความแปรปรวนดำเนินการโดยองค์ประกอบแรก (eigenvector แรก) จากนั้นฉันฝึกตัวจําแนกหลายครั้งเพิ่มคุณสมบัติทีละรายการและใช้การตรวจสอบข้ามและข้อผิดพลาด RMS เพื่อเปรียบเทียบคุณภาพของการจําแนก ฉันพบว่าการจัดหมวดหมู่ได้รับการปรับปรุงด้วยคุณสมบัติเพิ่มเติมแต่ละรายการและผลลัพธ์สุดท้าย (พร้อมคุณสมบัติใหม่ทั้ง 10 รายการ) นั้นดีกว่าการเรียกใช้ครั้งแรกด้วย (พูด) คุณสมบัติ 2 อย่าง เนื่องจาก PCA อ้างว่า ~ 98% ของความแปรปรวนอยู่ในองค์ประกอบแรกของชุดข้อมูลของฉันทำไมคุณภาพของการจำแนกประเภทจึงพัฒนาขึ้นมาก สิ่งนี้จะเป็นจริงสำหรับตัวแยกประเภทอื่นหรือไม่ RF ปรับข้ามหลายคอร์ดังนั้นจึงเร็วกว่าในการฝึกอบรม (พูด) SVM ถ้าฉันแปลงชุดข้อมูลไปเป็นพื้นที่ "PCA" แล้วเรียกใช้ตัวจําแนกในพื้นที่แปลง ผลลัพธ์ของฉันจะเปลี่ยนแปลงอย่างไร

2
การวิเคราะห์จำแนกเชิงเส้นและกฎของเบย์: การจำแนกประเภท
ความสัมพันธ์ระหว่างการวิเคราะห์จำแนกเชิงเส้นและกฎเบย์คืออะไร? ฉันเข้าใจว่า LDA ถูกใช้ในการจัดหมวดหมู่โดยพยายามลดอัตราส่วนความแปรปรวนภายในกลุ่มและระหว่างความแปรปรวนกลุ่ม แต่ฉันไม่ทราบว่ากฎของ Bayes ใช้งานอย่างไร

1
ชุดฝึกกระจัดกระจายส่งผลเสียต่อ SVM หรือไม่?
ฉันพยายามแบ่งข้อความเป็นหมวดหมู่ต่างๆโดยใช้ SVM ฉันได้รวบรวมรายการคำ / สัญลักษณ์ที่ต้องการจากชุดฝึกอบรม สำหรับเวกเตอร์แต่ละอันซึ่งแทนข้อความฉันจะตั้งค่าแถวที่เกี่ยวข้องเป็น1หากคำนั้นมีอยู่: "corpus" คือ: [mary, little, lamb, star, twinkle] ข้อความแรก: "mary มีลูกแกะน้อย" -> [1 1 1 0 0 0] ข้อความที่สอง: "twinkle little star" -> [0 1 0 1 1] ฉันคิดว่านี่เป็นการตั้งค่าทั่วไปของ SVM แต่คำถามของฉันคือมีหลายพันคำในชุดจะเกิดอะไรขึ้นถ้ามีเพียง 1-2 คำต่อข้อความที่ปรากฏขึ้นจริง การพึ่งพาเชิงเส้นของเซตเวกเตอร์การฝึกของฉันจะส่งผลเสียต่อความสามารถของอัลกอริธึมที่จะมาบรรจบกันหรือไม่?

2
การใช้การเรียนรู้ของเครื่องสำหรับการกรอง DDoS
ในหลักสูตรการเรียนรู้ของ Machine Stanford Andrew Ng กล่าวถึงการใช้ ML ใน IT บางเวลาต่อมาเมื่อฉันมีขนาดปานกลาง (ประมาณบอท 20k) DDoS บนเว็บไซต์ของเราฉันตัดสินใจที่จะต่อสู้กับมันโดยใช้ตัวจําแนกเครือข่ายประสาทอย่างง่าย ฉันได้เขียนสคริปต์ไพ ธ อนนี้ในเวลาประมาณ 30 นาที: https://github.com/SaveTheRbtz/junk/tree/master/neural_networks_vs_ddos มันใช้pyBrainและนำบันทึกnginx 3 อันมาเป็นข้อมูลป้อนเข้าสองไฟล์เพื่อฝึกอบรม Neural Network: ด้วยคำสั่งที่ดี กับคนเลว และหนึ่งบันทึกสำหรับการจำแนก จากการสอบถามที่ไม่ดี .. 0.0.0.0 - - [20/Dec/2011:20:00:08 +0400] "POST /forum/index.php HTTP/1.1" 503 107 "http://www.mozilla-europe.org/" "-" ...และดี... 0.0.0.0 - - [20/Dec/2011:15:00:03 +0400] "GET /forum/rss.php?topic=347425 …

2
การทำนายเป้าหมายหรือคลาสหลายอัน?
สมมติว่าฉันกำลังสร้างแบบจำลองการทำนายที่ฉันพยายามทำนายเหตุการณ์หลาย ๆ เหตุการณ์ (ตัวอย่างเช่นทั้งการตายและการโยนเหรียญ) อัลกอริทึมส่วนใหญ่ที่ฉันคุ้นเคยกับการทำงานกับเป้าหมายเดียวเท่านั้นดังนั้นฉันสงสัยว่ามีวิธีการมาตรฐานสำหรับสิ่งนี้ ฉันเห็นสองตัวเลือกที่เป็นไปได้ บางทีวิธีที่ไร้เดียงสาที่สุดก็คือการปฏิบัติต่อพวกเขาเป็นสองปัญหาที่แตกต่างกันแล้วรวมผลลัพธ์ อย่างไรก็ตามนั่นมีข้อเสียอย่างร้ายแรงเมื่อเป้าหมายทั้งสองนั้นไม่ได้เป็นอิสระ (และในหลาย ๆ กรณีพวกเขาอาจต้องพึ่งพาอย่างมาก ) แนวทางที่เหมาะสมกว่าสำหรับฉันคือการสร้างแอตทริบิวต์เป้าหมายแบบรวม ดังนั้นในกรณีของการตายและเหรียญเราจะมีสถานะ ( , ฯลฯ ) อย่างไรก็ตามสิ่งนี้สามารถนำไปสู่จำนวนของรัฐ / คลาสในเป้าหมายคอมโพสิตที่ค่อนข้างใหญ่ได้อย่างรวดเร็ว (ถ้าเรามี 2 ลูกเต๋าเป็นต้น) นอกจากนี้ดูเหมือนว่าจะแปลกในกรณีที่คุณลักษณะหนึ่งเป็นหมวดหมู่ในขณะที่คนอื่นเป็นตัวเลข (ตัวอย่างเช่นถ้าทำนายอุณหภูมิและประเภทของการเร่งรัด)6⋅2=126⋅2=126\cdot 2=12(1,H),(1,T),(2,H)(1,H),(1,T),(2,H)(1, H), (1, T), (2, H) มีวิธีมาตรฐานในการจัดเรียงของสิ่งนี้หรือไม่? นอกจากนี้ยังมีอัลกอริทึมการเรียนรู้ที่ออกแบบมาเพื่อจัดการกับสิ่งนี้โดยเฉพาะหรือไม่?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.