คำถามติดแท็ก naive-bayes

ลักษณนาม Bayes ที่ไร้เดียงสาเป็นตัวจำแนกความน่าจะเป็นอย่างง่ายโดยอาศัยการใช้ทฤษฎีบทของ Bayes กับสมมติฐานความเป็นอิสระที่แข็งแกร่ง คำที่สื่อความหมายมากขึ้นสำหรับโมเดลความน่าจะเป็นที่อยู่เบื้องหลังคือ "แบบจำลองคุณลักษณะอิสระ"

3
ตัวอย่าง: การถดถอย LASSO โดยใช้ glmnet สำหรับผลลัพธ์ไบนารี
ฉันเริ่มตะลุยกับการใช้งานglmnetกับการถดถอยแบบ LASSOซึ่งผลลัพธ์ของความสนใจของฉันนั้นเป็นแบบขั้วคู่ ฉันได้สร้างกรอบข้อมูลจำลองขนาดเล็กด้านล่าง: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

3
ทำความเข้าใจกับ Naive Bayes
จากStatSoft, Inc. (2013), ตำราสถิติอิเล็กทรอนิกส์ , "Naive Bayes Classifier" : เพื่อแสดงแนวคิดของการจำแนกประเภทNaïve Bayes ให้พิจารณาตัวอย่างที่แสดงในภาพประกอบด้านบน ตามที่ระบุไว้วัตถุสามารถจัดเป็นสีเขียวหรือสีแดง งานของฉันคือการจำแนกกรณีใหม่เมื่อพวกเขามาถึงคือตัดสินใจว่าพวกเขาอยู่ในระดับใดบนพื้นฐานของวัตถุที่กำลังออกไป เนื่องจากมีวัตถุสีเขียวจำนวนมากเป็นสองเท่าของสีแดงจึงมีเหตุผลที่จะเชื่อว่ากรณีใหม่ (ซึ่งยังไม่ได้รับการสังเกต) จึงมีความเป็นไปได้ที่จะเป็นสมาชิก GREEN มากกว่าสองเท่า ในการวิเคราะห์แบบเบย์ความเชื่อนี้เรียกว่าความน่าจะเป็นก่อนหน้า ความน่าจะเป็นมาก่อนขึ้นอยู่กับประสบการณ์ก่อนหน้านี้ในกรณีนี้เปอร์เซ็นต์ของวัตถุสีเขียวและสีแดงและมักใช้เพื่อทำนายผลลัพธ์ก่อนที่จะเกิดขึ้นจริง ดังนั้นเราสามารถเขียน: เนื่องจากมีวัตถุทั้งหมด 60 ชิ้นซึ่ง 40 รายการเป็นสีเขียวและ 20 สีแดงความน่าจะเป็นก่อนหน้านี้สำหรับการเป็นสมาชิกชั้นเรียนคือ: ด้วยการกำหนดความน่าจะเป็นก่อนหน้าของเราตอนนี้เราพร้อมที่จะจำแนกวัตถุใหม่ (วงกลมสีขาว) เนื่องจากวัตถุมีการรวมกลุ่มกันเป็นอย่างดีจึงมีเหตุผลที่จะสมมติว่ามีวัตถุสีเขียว (หรือสีแดง) จำนวนมากในบริเวณใกล้เคียงของ X ยิ่งมีโอกาสมากขึ้นที่กรณีใหม่จะเป็นของสีนั้น ในการวัดความเป็นไปได้นี้เราจะวาดวงกลมรอบ X ซึ่งครอบคลุมจำนวน (เพื่อเลือกนิรนัย) ของคะแนนโดยไม่คำนึงถึงฉลากระดับของพวกเขา จากนั้นเราคำนวณจำนวนคะแนนในวงกลมที่อยู่ในป้ายกำกับของแต่ละชั้นเรียน จากนี้เราจะคำนวณความน่าจะเป็น: จากภาพประกอบด้านบนเป็นที่แน่ชัดว่าโอกาสของ X ที่ได้รับ GREEN นั้นน้อยกว่าความน่าจะเป็นของ X ที่ได้รับ …

3
เหตุใดตัวจําแนกเบส์แบบไร้เดียงสาจึงทําได้ดี?
ตัวแยกประเภท Naive Bayes เป็นตัวเลือกยอดนิยมสำหรับปัญหาการจำแนกประเภท มีสาเหตุหลายประการรวมถึง: "Zeitgeist" - การรับรู้อย่างกว้างขวางหลังจากความสำเร็จของตัวกรองสแปมเมื่อสิบปีที่แล้ว ง่ายต่อการเขียน รูปแบบลักษณนามนั้นรวดเร็วในการสร้าง โมเดลสามารถแก้ไขได้ด้วยข้อมูลการฝึกอบรมใหม่โดยไม่ต้องสร้างโมเดลใหม่ อย่างไรก็ตามพวกมันคือ 'ไร้เดียงสา' - นั่นคือถือว่าคุณสมบัติเหล่านี้เป็นอิสระ - ซึ่งตรงกันข้ามกับตัวแยกประเภทอื่น ๆ เช่นตัวแยกประเภทสูงสุดของเอนโทรปี (ซึ่งช้าในการคำนวณ) มักจะไม่สามารถสันนิษฐานได้ว่าสมมติฐานความเป็นอิสระและในกรณีส่วนใหญ่ (ส่วนใหญ่) รวมถึงตัวอย่างตัวกรองสแปม เหตุใดตัวจําแนก Naive Bayes จึงยังทํางานได้ดีมากในแอปพลิเคชันดังกล่าวแม้ว่าคุณสมบัติจะไม่แยกจากกันหรือไม่

3
Naive Bayes เป็นลักษณนามเชิงเส้นอย่างไร
ฉันเห็นหัวข้ออื่นที่นี่แต่ฉันไม่คิดว่าคำตอบจะตอบคำถามที่แท้จริง สิ่งที่ฉันได้อ่านมาอย่างต่อเนื่องคือ Naive Bayes เป็นตัวแยกประเภทแบบเชิงเส้น (เช่น: ที่นี่ ) (เช่นวาดขอบเขตการตัดสินใจเชิงเส้น) โดยใช้การสาธิตอัตราต่อรองแบบล็อก อย่างไรก็ตามฉันจำลองเมฆแบบเกาส์สองแห่งและติดตั้งขอบเขตการตัดสินใจและได้ผลลัพธ์เช่นนี้ (ไลบรารี่ e1071 ใน r โดยใช้ naiveBayes ()) อย่างที่เราเห็นขอบเขตการตัดสินใจไม่ใช่แบบเส้นตรง มันพยายามที่จะบอกว่าพารามิเตอร์ (ความน่าจะเป็นเงื่อนไข) เป็นชุดค่าผสมเชิงเส้นในพื้นที่บันทึกแทนที่จะบอกตัวแยกประเภทเองแยกข้อมูลเป็นเส้นตรงหรือไม่?

2
ความแตกต่างระหว่าง Bayes ไร้เดียงสาและ Bayes ไร้เดียงสาหลายอัน
ฉันเคยจัดการตัวจําแนกNaive Bayesมาก่อน ฉันได้อ่านเกี่ยวกับMultinomial Naive Bayesเมื่อเร็ว ๆ นี้ นอกจากนี้หลังน่าจะเป็น = (ก่อน * โอกาส) / (หลักฐาน) ข้อแตกต่างที่สำคัญเพียงอย่างเดียว (ในขณะที่เขียนโปรแกรมตัวแยกประเภทเหล่านี้) ที่ฉันพบระหว่าง Naive Bayes และ Multinomial Naive Bayes ก็คือ Multinomial Naive Bayesคำนวณความน่าจะเป็นที่จะนับคำ / โทเค็น (ตัวแปรสุ่ม) และNaive Bayesคำนวณความน่าจะเป็นที่จะติดตาม: ช่วยแก้ให้ด้วยนะถ้าฉันผิด!

7
ใน Naive Bayes ทำไมต้องกังวลกับ Laplace ที่ราบเรียบเมื่อเรามีคำที่ไม่รู้จักในชุดทดสอบ
วันนี้ฉันอ่านหนังสือจำแนก Naive Bayes ฉันอ่านภายใต้หัวข้อการประมาณค่าพารามิเตอร์ด้วยการเพิ่ม 1 การปรับให้เรียบ : ให้cccอ้างถึงคลาส (เช่นค่าบวกหรือค่าลบ) และให้wwwหมายถึงโทเค็นหรือคำ ตัวประมาณความน่าจะเป็นสูงสุดสำหรับP(w|c)P(w|c)P(w|c)คือcount(w,c)count(c)=counts w in class ccounts of words in class c.count(w,c)count(c)=counts w in class ccounts of words in class c.\frac{count(w,c)}{count(c)} = \frac{\text{counts w in class c}}{\text{counts of words in class c}}. การประมาณค่าP(w|c)P(w|c)P(w|c)อาจเป็นปัญหาได้เนื่องจากมันจะทำให้เรามีความน่าจะเป็น000สำหรับเอกสารที่มีคำที่ไม่รู้จัก วิธีทั่วไปในการแก้ปัญหานี้คือการใช้ Laplace smoothing ให้ V เป็นชุดของคำในชุดฝึกอบรมเพิ่มองค์ประกอบใหม่UNKUNKUNK (ไม่ทราบ) ลงในชุดคำ กำหนดP(w|c)=count(w,c)+1count(c)+|V|+1,P(w|c)=count(w,c)+1count(c)+|V|+1,P(w|c)=\frac{\text{count}(w,c) …

3
การเรียนรู้ของเครื่องเพื่อทำนายความน่าจะเป็นในชั้นเรียน
ฉันกำลังมองหาตัวแยกประเภทที่เอาต์พุตความน่าจะเป็นซึ่งเป็นตัวอย่างของหนึ่งในสองคลาส ฉันรู้ว่าการถดถอยโลจิสติกและเบย์ไร้เดียงสา แต่คุณสามารถบอกฉันเกี่ยวกับคนอื่น ๆ ที่ทำงานในลักษณะเดียวกันได้หรือไม่? นั่นคือตัวแยกประเภทที่ไม่ได้คาดคะเนคลาสที่เป็นของตัวอย่าง แต่ความน่าจะเป็นที่ตัวอย่างนั้นเหมาะสมกับคลาสเฉพาะหรือไม่ คะแนนโบนัสสำหรับความคิดที่คุณสามารถแบ่งปันเกี่ยวกับข้อดีและข้อเสียของตัวแยกประเภทที่แตกต่างกันเหล่านี้ (รวมถึงการถดถอยโลจิสติกและ Bayes ไร้เดียงสา) ตัวอย่างเช่นมีการจัดหมวดหมู่หลายชั้นที่ดีกว่าบ้างไหม?

1
Naive Bayes ทำงานได้ดีกว่า SVM เมื่อใด
ในปัญหาการจัดหมวดหมู่ข้อความเล็ก ๆ ที่ฉันกำลังดู Naive Bayes แสดงผลงานที่คล้ายหรือมากกว่า SVM และฉันสับสนมาก ฉันสงสัยว่าปัจจัยใดเป็นตัวตัดสินชัยชนะของอัลกอริทึมหนึ่งเหนืออีกอัน มีสถานการณ์ที่ไม่มีจุดในการใช้ Naive Bayes เหนือ SVM หรือไม่? ใครบางคนสามารถให้แสงสว่างกับเรื่องนี้ได้หรือไม่?

3
ขั้นตอนวิธีใดที่จำเป็นต้องมีการปรับขนาดคุณลักษณะนอกเหนือจาก SVM
ฉันทำงานกับอัลกอริทึมมากมาย: RandomForest, DecisionTrees, NaiveBayes, SVM (เคอร์เนล = เชิงเส้นและ rbf), KNN, LDA และ XGBoost ทุกคนนั้นค่อนข้างเร็วยกเว้น SVM นั่นคือเมื่อฉันได้รู้ว่ามันต้องมีคุณสมบัติการปรับขนาดเพื่อให้ทำงานได้เร็วขึ้น จากนั้นฉันเริ่มสงสัยว่าฉันควรทำแบบเดียวกันกับอัลกอริทึมอื่นหรือไม่

3
ในการปรับให้เรียบของ Kneser-Ney มีการจัดการคำที่มองไม่เห็นอย่างไร
จากสิ่งที่ฉันได้เห็นสูตรการปรับให้เรียบของ Kneser-Ney (ลำดับที่สอง) ไม่ทางใดก็ทางหนึ่ง P2KN(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn)PKN2(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn) \begin{align} P^2_{KN}(w_n|w_{n-1}) &= \frac{\max \left\{ C\left(w_{n-1}, w_n\right) - D, 0\right\}}{\sum_{w'} C\left(w_{n-1}, w'\right)} + \lambda(w_{n-1}) \times P_{cont}(w_n) \end{align} กับ normalizing factorให้เป็นλ(wn−1)λ(wn−1)\lambda(w_{n-1}) λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙)λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙) \begin{align} \lambda(w_{n-1}) &= \frac{D}{\sum_{w'} C\left(w_{n-1}, w'\right)} \times N_{1+}\left(w_{n-1}\bullet\right) \end{align} และความน่าจะเป็นอย่างต่อเนื่องPc o n t( ด้วยn)Pคโอnเสื้อ(Wn)P_{cont}(w_n)ของคำwnWnw_n Pcont(wn)=N1+(∙wn)∑w′N1+(∙w′)Pcont(wn)=N1+(∙wn)∑w′N1+(∙w′) \begin{align} P_{cont}(w_n) &= \frac{N_{1+}\left(\bullet w_{n}\right)}{\sum_{w'} N_{1+}\left(\bullet w'\right)} \end{align} ที่N1+(∙w)N1+(∙w)N_{1+}\left(\bullet …

3
เหตุใดจึงไม่มีใครใช้ตัวจําแนกแบบหลายคนของ Bayesian Naive Bayes?
ดังนั้นในการสร้างแบบจำลองข้อความ (ที่ไม่ได้รับอนุญาต) ดังนั้น Latent Dirichlet Allocation (LDA) จึงเป็นแบบจำลอง Bayesian ของ Probabilistic Latent Semantic Analysis (PLSA) เป็นหลัก LDA = PLSA + Dirichlet ก่อนพารามิเตอร์ ความเข้าใจของฉันคือตอนนี้ LDA เป็นอัลกอริธึมอ้างอิงและนำไปใช้ในแพ็คเกจต่าง ๆ ในขณะที่ PLSA ไม่ควรใช้อีก แต่ในการจัดหมวดหมู่ข้อความ (ภายใต้การดูแล) เราสามารถทำสิ่งเดียวกันสำหรับตัวจําแนกหลายกลุ่ม Naive Bayes และวาง Dirichlet ไว้เหนือพารามิเตอร์ แต่ฉันไม่คิดว่าฉันจะเคยเห็นใครทำอย่างนั้นและเวอร์ชั่น "พอยต์ประมาณ" ของ Naive Bayes multinomial ดูเหมือนจะเป็นเวอร์ชั่นที่ติดตั้งในแพ็คเกจส่วนใหญ่ มีเหตุผลอะไรบ้าง?

2
การเพิ่มจำนวนฟีเจอร์จะส่งผลให้ความแม่นยำลดลง แต่เพิ่มขึ้น / จำได้เร็วขึ้น
ฉันยังใหม่กับการเรียนรู้ของเครื่อง ในขณะนี้ฉันใช้ตัวจําแนก Naive Bayes (NB) เพื่อจัดประเภทข้อความขนาดเล็กใน 3 คลาสเป็นค่าบวกลบหรือเป็นกลางโดยใช้ NLTK และ python หลังจากทำการทดสอบด้วยชุดข้อมูลที่ประกอบด้วย 300,000 อินสแตนซ์ (ลบ 16,924 บวก 7,477 เชิงลบและ 275,599 นิวทรัล) ฉันพบว่าเมื่อฉันเพิ่มจำนวนฟีเจอร์ความแม่นยำจะลดลง แต่ความแม่นยำ / การเรียกคืนสำหรับคลาสบวกและลบ นี่เป็นพฤติกรรมปกติของลักษณนาม NB หรือไม่? เราสามารถพูดได้หรือไม่ว่าจะเป็นการดีกว่าถ้าใช้คุณสมบัติเพิ่มเติม ข้อมูลบางส่วน: Features: 50 Accuracy: 0.88199 F_Measure Class Neutral 0.938299 F_Measure Class Positive 0.195742 F_Measure Class Negative 0.065596 Features: 500 Accuracy: 0.822573 …

5
การจำแนกข้อความแบบชั้นเดียวทำอย่างไร?
ฉันต้องจัดการกับปัญหาการจำแนกข้อความ โปรแกรมรวบรวมข้อมูลเว็บรวบรวมข้อมูลหน้าเว็บของโดเมนบางโดเมนและสำหรับแต่ละหน้าเว็บฉันต้องการทราบว่าเป็นของชั้นเรียนเฉพาะหรือไม่ นั่นคือถ้าผมเรียกชั้นนี้บวกแต่ละหน้าเว็บรวบรวมข้อมูลเป็นอย่างใดอย่างหนึ่งในชั้นเรียนในเชิงบวกหรือไปเรียนไม่ใช่ในเชิงบวก ฉันมีการฝึกอบรมชุดใหญ่ของหน้าเว็บสำหรับการเรียนในเชิงบวก แต่จะสร้างชุดการฝึกอบรมสำหรับชั้นเรียนNon-Positiveซึ่งเป็นตัวแทนได้อย่างไร ฉันหมายความว่าฉันสามารถใช้ทุกอย่างโดยพื้นฐานสำหรับชั้นเรียนนั้นได้ ฉันสามารถรวบรวมหน้าเว็บตามอำเภอใจบางอย่างที่ไม่ได้เป็นของPositive Positiveหรือไม่? ฉันแน่ใจว่าประสิทธิภาพของอัลกอริทึมการจัดหมวดหมู่ข้อความ (ฉันต้องการใช้อัลกอริทึม Naive Bayes) ขึ้นอยู่กับว่าฉันเลือกเว็บเพจแบบไหนสำหรับคลาสที่ไม่เป็นบวก แล้วฉันจะทำยังไงดี? ใครช่วยกรุณาให้คำแนะนำกับฉันได้ไหม ขอบคุณมาก!

2
Naive Bayes ทำงานอย่างไรกับตัวแปรต่อเนื่อง
เพื่อความเข้าใจ (พื้นฐานมาก) ของฉัน Naive Bayes ประมาณการความน่าจะเป็นไปตามความถี่ของคลาสของแต่ละคุณสมบัติในข้อมูลการฝึก แต่มันคำนวณความถี่ของตัวแปรต่อเนื่องได้อย่างไร และเมื่อทำการคาดการณ์มันจะจำแนกการสังเกตใหม่ที่อาจไม่มีค่าเดียวกันของการสังเกตใด ๆ ในชุดฝึกอบรมอย่างไร มันใช้การวัดระยะทางบางอย่างหรือหา 1NN หรือไม่?

3
ตัวอย่างการหลอกลวง log-sum-exp ใน Naive Bayes
ฉันได้อ่านเกี่ยวกับเคล็ดลับการบันทึกผลรวมในหลายสถานที่ (เช่นที่นี่และที่นี่ ) แต่ไม่เคยเห็นตัวอย่างของวิธีการใช้งานเฉพาะกับตัวจําแนก Naive Bayes (เช่นด้วยคุณสมบัติแยกและสองคลาส) เราจะหลีกเลี่ยงปัญหาอันเดอร์โฟลว์ที่เป็นตัวเลขโดยใช้เคล็ดลับนี้ได้อย่างไร?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.