Naive Bayes เป็นลักษณนามเชิงเส้นอย่างไร


31

ฉันเห็นหัวข้ออื่นที่นี่แต่ฉันไม่คิดว่าคำตอบจะตอบคำถามที่แท้จริง สิ่งที่ฉันได้อ่านมาอย่างต่อเนื่องคือ Naive Bayes เป็นตัวแยกประเภทแบบเชิงเส้น (เช่น: ที่นี่ ) (เช่นวาดขอบเขตการตัดสินใจเชิงเส้น) โดยใช้การสาธิตอัตราต่อรองแบบล็อก

อย่างไรก็ตามฉันจำลองเมฆแบบเกาส์สองแห่งและติดตั้งขอบเขตการตัดสินใจและได้ผลลัพธ์เช่นนี้ (ไลบรารี่ e1071 ใน r โดยใช้ naiveBayes ()) 1- สีเขียว, 0 - สีแดง

อย่างที่เราเห็นขอบเขตการตัดสินใจไม่ใช่แบบเส้นตรง มันพยายามที่จะบอกว่าพารามิเตอร์ (ความน่าจะเป็นเงื่อนไข) เป็นชุดค่าผสมเชิงเส้นในพื้นที่บันทึกแทนที่จะบอกตัวแยกประเภทเองแยกข้อมูลเป็นเส้นตรงหรือไม่?


คุณสร้างขอบเขตการตัดสินใจอย่างไร ฉันสงสัยว่ามันจะทำอย่างไรกับกิจวัตรที่เหมาะสมของคุณมากกว่าขอบเขตการตัดสินใจที่แท้จริงของตัวจําแนก โดยปกติจะสร้างขอบเขตการตัดสินใจโดยการคำนวณการตัดสินใจทุก ๆ จุดในจตุภาคของคุณ
seanv507

นั่นคือสิ่งที่ฉันทำฉันใช้สองช่วงคือ X = [Min (x), Max (x)] และ Y = [Min (Y), Max (Y)] ด้วยระยะห่าง 0.1 จากนั้นฉันติดตั้งจุดข้อมูลเหล่านั้นทั้งหมดด้วยลักษณนามที่ผ่านการฝึกอบรมและพบว่าคะแนนอัตราล็อกอยู่ระหว่าง -0.05 ถึง 0.05
Kevin Pei

คำตอบ:


30

โดยทั่วไปตัวจําแนกแบบไร้เดียงสา Bayes ไม่ใช่แบบเชิงเส้น แต่ถ้าปัจจัยความน่าจะเป็นมาจากครอบครัวแบบเอ็กซ์โพเนนเชียลตัวจําแนกแบบไร้เดียงสา Bayes นั้นจะตรงกับตัวจําแนกเชิงเส้น นี่คือวิธีการดูนี้พี(xผม|)

คุณสามารถเขียนตัวจําแนกเบส์ที่ไร้เดียงสาเป็น *

พี(=1|x)=σ(Σผมเข้าสู่ระบบพี(xผม|=1)พี(xผม|=0)+เข้าสู่ระบบพี(=1)พี(=0)),

ที่เป็นฟังก์ชั่นโลจิสติก ถ้ามาจากตระกูล exponential เราสามารถเขียนมันเป็นp ( x ฉันc )σพี(xผม|)

พี(xผม|)=ชั่วโมงผม(xผม)ประสบการณ์(ยูผมφผม(xผม)-Aผม(ยูผม)),

และด้วยเหตุนี้

พี(=1|x)=σ(ΣผมWผมφผม(xผม)+),

ที่ไหน

Wผม=ยูผม1-ยูผม0,=เข้าสู่ระบบพี(=1)พี(=0)-Σผม(Aผม(ยูผม1)-Aผม(ยูผม0)).

โปรดทราบว่านี้จะคล้ายกับการถดถอยโลจิสติก - ลักษณนามเชิงเส้น - ในพื้นที่คุณลักษณะที่กำหนดโดย\เป็นเวลากว่าสองชั้นเราได้รับ analogously โลจิสติกพหุนาม (หรือ softmax) ถดถอยφผม

ถ้าเป็น Gaussian แล้วและเราควรมี ϕ ฉัน ( x i ) = ( x i , x 2 i ) w ฉัน1พี(xผม|)φผม(xผม)=(xผม,xผม2)

Wผม1=σ1-2μ1-σ0-2μ0,Wผม2=2σ0-2-2σ1-2,ผม=เข้าสู่ระบบσ0-เข้าสู่ระบบσ1,

สมมติว่า{2}พี(=1)=พี(=0)=12


* นี่คือวิธีรับผลลัพธ์นี้:

พี(=1|x)=พี(x|=1)พี(=1)พี(x|=1)พี(=1)+พี(x|=0)พี(=0)=11+พี(x|=0)พี(=0)พี(x|=1)พี(=1)=11+ประสบการณ์(-เข้าสู่ระบบพี(x|=1)พี(=1)พี(x|=0)พี(=0))=σ(Σผมเข้าสู่ระบบพี(xผม|=1)พี(xผม|=0)+เข้าสู่ระบบพี(=1)พี(=0))

ขอบคุณที่มาซึ่งฉันเข้าใจตอนนี้คุณสามารถอธิบายสัญลักษณ์ในสมการที่ 2 และด้านล่างได้ไหม (u, h (x_i), phi (x_i) และอื่น ๆ ) P (x_i | c) อยู่ภายใต้ตระกูลเอ็กซ์โปเนนเชียลเพียงแค่รับค่าจาก pdf หรือไม่
Kevin Pei

มีวิธีที่แตกต่างกันคุณสามารถแสดงหนึ่งและการกระจายเดียวกัน สมการที่สองคือการแจกแจงแบบเอ็กซ์โพเนนเชียลในรูปแบบบัญญัติ การแจกแจงจำนวนมากคือตระกูลเอ็กซ์โพเนนเชียล (Gaussian, Laplace, Dirichlet, Bernoulli, binomial, เพื่อตั้งชื่อไม่กี่) แต่ความหนาแน่น / ฟังก์ชันมวลของพวกมันมักไม่ได้รับในรูปแบบมาตรฐาน ดังนั้นก่อนอื่นคุณต้องซ่อมแซมการกระจายตัว ตารางนี้จะบอกวิธีการคำนวณ (พารามิเตอร์ธรรมชาติ) และ (สถิติที่เพียงพอ) สำหรับการแจกแจงต่าง ๆ : en.wikipedia.org/wiki/Exponential_family#Table_of_distribution ϕยูφ
Lucas

1
ขอให้สังเกตจุดสำคัญที่2) สิ่งนี้หมายความว่าลักษณนามเชิงเส้นคือการรวมกันของน้ำหนักและฟังก์ชั่นที่ไม่ใช่เชิงเส้นของคุณสมบัติ! ดังนั้นไปที่จุดของผู้โพสต์ต้นฉบับพล็อตของดาต้าพอยน์อาจไม่แสดงว่าพวกเขาจะแยกออกจากกันโดยบรรทัด wφ(x)=(x,x2)W
RMurphy

ฉันพบว่าคำตอบนี้ทำให้เข้าใจผิด: ตามที่ระบุไว้ในความคิดเห็นและคำตอบด้านล่างอ่าว Gaussian ไร้เดียงสาไม่ได้เป็นแบบเส้นตรงในพื้นที่คุณลักษณะดั้งเดิม แต่เป็นการแปลงแบบไม่เป็นเชิงเส้น ดังนั้นมันจึงไม่ใช่ลักษณนามเชิงเส้นแบบดั้งเดิม
Gael Varoquaux

ทำไมคือ Gaussian แล้ว ? ผมคิดว่าสถิติเพียงพอสำหรับการกระจายแบบเกาส์ควรจะxพี(xผม|)φผม(xผม)=(xผม,xผม2)T(x)x/σ
นาโอมิ

8

มันเป็นแบบเชิงเส้นก็ต่อเมื่อเมทริกซ์ความแปรปรวนแบบมีเงื่อนไขมีเงื่อนไขเดียวกันสำหรับทั้งสองคลาส หากต้องการดูสิ่งนี้ให้คำนึงถึงสัดส่วนของผู้โพสต์บันทึกและคุณจะได้ฟังก์ชันเชิงเส้นออกมาถ้าความแปรปรวนที่สอดคล้องกันเท่ากัน มิฉะนั้นจะเป็นกำลังสอง


3

ฉันต้องการเพิ่มอีกหนึ่งจุด: เหตุผลของความสับสนบางอย่างขึ้นอยู่กับความหมายของการแสดง "การจำแนก Naive Bayes"

ภายใต้หัวข้อคร่าว ๆ ของ "การวิเคราะห์การจำแนกแบบเกาส์เซียน (GDA)" มีหลายเทคนิค: QDA, LDA, GNB และ DLDA (สมการกำลังสอง DA, linear DA, Linear DA, อ่าวไร้เดียงสา Gaussian, LDA แนวทแยง) [อัพเดท] LDA และ DLDA ควรเป็นเส้นตรงในพื้นที่ของตัวทำนายที่ให้มา (ดูเช่นMurphy , 4.2, pg. 101 สำหรับ DA และ pg. 82 สำหรับ NB หมายเหตุ: GNB นั้นไม่จำเป็นต้องเป็นเส้นตรง Discrete NB (ซึ่งใช้การกระจายแบบมัลติโนเมียลภายใต้ประทุน) เป็นเส้นตรงคุณสามารถตรวจสอบ Duda ได้ , Hart & Stork Section 2.6) QDA เป็นกำลังสองตามที่คำตอบอื่น ๆ ได้ชี้ให้เห็น (และฉันคิดว่าเป็นสิ่งที่เกิดขึ้นในกราฟิกของคุณ - ดูด้านล่าง)

เทคนิคเหล่านี้ก่อให้เกิดตาข่ายที่มีข้อ จำกัด ที่ดีใน "เมทริกซ์ความแปรปรวนร่วมระดับที่ชาญฉลาด" :Σ

  • QDA:โดยพล: ftr โดยพลการ COV เมทริกซ์ต่อคลาสΣ
  • LDA: : cov ที่ใช้ร่วมกัน เมทริกซ์ (มากกว่าคลาส)Σ=Σ
  • GNB: : คลาส cov เส้นทแยงมุมฉลาด เมทริกซ์ (สมมติฐานของ ind. ในโมเดล diagonal cov. matrix)Σ=dผมaก.
  • DLDA: : shared & diagonal cov มดลูกΣ=dผมaก.

ในขณะที่เอกสารสำหรับ e1071 อ้างว่ามันเป็นความเป็นอิสระระดับเงื่อนไข (เช่น GNB) ฉันสงสัยว่าจริง ๆ แล้วมันกำลังทำ QDA บางคนพูดว่า "ไร้เดียงสาเบย์" (การตั้งสมมติฐานอย่างอิสระ) กับ "การจำแนกแบบเบย์แบบง่ายๆ" วิธีการ GDA ทั้งหมดมาจากภายหลัง แต่มีเพียง GNB และ DLDA เท่านั้นที่ใช้แบบเดิม

คำเตือนครั้งใหญ่ฉันยังไม่ได้อ่านซอร์สโค้ด e1071 เพื่อยืนยันสิ่งที่กำลังทำอยู่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.