ไฮเปอร์เพลนจำแนกข้อมูลได้อย่างเหมาะสมที่สุดเมื่ออินพุตไม่ขึ้นกับเงื่อนไข - ทำไม?


10

ในกระดาษที่เรียกว่าการเรียนรู้อย่างลึกซึ้งและหลักการคอขวดข้อมูลผู้เขียนระบุไว้ในส่วน II A) ดังต่อไปนี้:

เซลล์ประสาทเดี่ยวจัดประเภทอินพุตแบบแยกได้เชิงเส้นเท่านั้นเนื่องจากพวกมันสามารถนำไฮเปอร์เพลนมาใช้ในพื้นที่อินพุตเท่านั้น u=wh+b. ไฮเปอร์เพลนสามารถจำแนกข้อมูลได้อย่างเหมาะสมที่สุดเมื่ออินพุทถูกปล่อยให้เป็นอิสระ

เพื่อแสดงสิ่งนี้พวกเขาได้รับสิ่งต่อไปนี้ ใช้ทฤษฎีบทของเบย์พวกเขาได้:

p(y|x)=11+exp(logp(x|y)p(x|y)logp(y)p(y)) (1)

ที่ไหน x คืออินพุต y เป็นชั้นเรียนและ y คือคลาสที่ทำนายไว้ (ฉันถือว่า yไม่ได้กำหนด) พวกเขากล่าวว่า:

p(x|y)p(x|y)=j=1N[p(xj|y)p(xj|y)]np(xj) (2)

ที่ไหน N เป็นมิติข้อมูลเข้าและ nฉันไม่แน่ใจ (ทั้งคู่ไม่ได้กำหนด) พิจารณาเซลล์ประสาท sigmoidal ด้วยฟังก์ชันการเปิดใช้งาน sigmoidσ(u)=11+exp(u) และการเตรียมการล่วงหน้า uหลังจากใส่ (2) เป็น (1) เราจะได้ค่าน้ำหนักที่เหมาะสมที่สุด wj=logp(xj|y)p(xj|y) และ b=logp(y)p(y)เมื่อค่าอินพุต hj=np(xj).

ตอนนี้คำถามของฉัน ฉันเข้าใจว่าการแทรก (2) ลงใน (1) นำไปสู่น้ำหนักที่เหมาะสมและค่าอินพุตได้อย่างไรw,b,h. อย่างไรก็ตามสิ่งที่ฉันไม่เข้าใจมีดังต่อไปนี้:

  1. (1) มาจากการใช้ทฤษฎีบทของเบย์ได้อย่างไร
  2. ได้รับ (2) อย่างไร คืออะไรn? ความหมายของมันคืออะไร? ฉันคิดว่ามันเกี่ยวข้องกับความเป็นอิสระตามเงื่อนไข
  3. แม้ว่ามิติของ x จะมีความเป็นอิสระตามเงื่อนไขเงื่อนไขใดสถานะหนึ่งจะมีค่าเท่ากับความน่าจะเป็นที่ปรับขนาดได้อย่างไร (เช่นคุณจะระบุได้อย่างไรhj=np(xj)?)

แก้ไข: ตัวแปร yเป็นตัวแปรคลาสไบนารี จากนี้ฉันคิดว่าyเป็นคลาส "อื่น ๆ " สิ่งนี้จะแก้คำถามที่ 1 คุณเห็นด้วยไหม


ฉันพยายามที่จะเข้าใจว่า eq 2 มาจากไหนแม้จะมีคำแนะนำจากผู้เขียนรายงาน (ศ. Tishby) ฉันเข้าใจส่วนที่มาจากการสันนิษฐานความเป็นอิสระตามเงื่อนไข อย่างไรก็ตามฉันไม่แน่ใจเกี่ยวกับเลขชี้กำลังnp(xj)- ทำไมถึงอยู่ที่นั่น?
IcannotFix นี้

คำตอบ:


5

ขออภัยเกี่ยวกับรายละเอียดที่ขาดหายไปในเอกสารสั้น ๆ ของเรา แต่ความสัมพันธ์และการเชื่อมต่อระหว่างการทดสอบอัตราส่วนความน่าจะเป็นและเซลล์ประสาท sigmoidal นั้นไม่ใช่เรื่องใหม่แน่นอนและสามารถพบได้ในตำรา (เช่นบิชอป 2006) ในกระดาษของเรา 'N' คือมิติข้อมูลเข้าและ 'n' คือขนาดตัวอย่างทดสอบ (ซึ่งแปลเป็นจริงไปยังอินพุต SNR ภายใต้สมมติฐานว่า SNR เติบโตเช่น sqrt (n)) การเชื่อมต่อกับฟังก์ชั่น sigmoidal นั้นทำผ่านกฎของเบย์ซึ่งเป็นส่วนหลังของคลาส ไม่มีอะไรในกระดาษที่เหลือและกระดาษที่ใหม่กว่าและสำคัญกว่าของเราในปี 2560 ขึ้นอยู่กับสิ่งนี้

Naftali Tishby


2
ขอบคุณสำหรับการชี้แจงที่นี่ มันเป็นมาตรฐานการปฏิบัติในชุมชนนี้ในการเขียนการอ้างอิงแบบเต็มเพื่อให้ผู้อ่านที่สนใจสามารถค้นหาแหล่งที่มา คุณช่วยทำสิ่งนี้ให้กับบิชอปได้ไหม?
mkt - Reinstate Monica

5

นี่คือการตั้งค่ารูปแบบที่ผู้เขียนกำลังใช้รูปแบบพิเศษของทฤษฎีบทเบย์ที่ใช้เมื่อคุณมีตัวแปรไบนารีที่น่าสนใจ ก่อนอื่นพวกเขาจะได้รับทฤษฎีบทของเบย์แบบพิเศษนี้เป็นสมการ (1) แล้วพวกเขาก็แสดงให้เห็นว่าสภาพในสมการ (2) นำพวกเขาไปสู่รูปแบบเชิงเส้นที่ระบุสำหรับเครือข่ายของพวกเขา สิ่งสำคัญคือให้สังเกตว่าสมการหลังไม่ได้มาจากเงื่อนไขก่อนหน้า --- แต่เป็นเงื่อนไขสำหรับรูปแบบเชิงเส้นที่ใช้สำหรับเครือข่าย


การได้รับสมการแรก:สมการ (1) ในกระดาษเป็นเพียงรูปแบบของทฤษฎีบทของเบย์ที่แสดงความน่าจะเป็นเงื่อนไขที่น่าสนใจในแง่ของฟังก์ชันลอจิสติกมาตรฐาน (sigmoid) ที่ทำงานบนฟังก์ชันของความน่าจะเป็น สละy และ y เป็นสองผลลัพธ์ไบนารีของตัวแปรสุ่ม Yและการใช้ทฤษฎีบท Bayes ให้:

p(y|x)=p(y,x)p(x)=p(x|y)p(y)p(x|y)p(y)+p(x|y)p(y)=11+p(x|y)p(y)/p(x|y)p(y)=11+exp(log(p(x|y)p(y)p(x|y)p(y)))=11+exp(logp(x|y)p(x|y)logp(y)p(y))=logistic(logp(x|y)p(x|y)+logp(y)p(y)).

การใช้สมการ (2) เป็นเงื่อนไขสำหรับรูปแบบ lienar ของเครือข่าย:ตามที่ระบุไว้ข้างต้นสมการนี้ไม่ใช่สิ่งที่ได้มาจากผลลัพธ์ก่อนหน้า ค่อนข้างเป็นเงื่อนไขที่เพียงพอที่จะนำไปสู่รูปแบบเชิงเส้นที่ผู้เขียนใช้ในรูปแบบของพวกเขา --- กล่าวคือผู้เขียนบอกว่าถ้าสมการนี้ถือแล้วผลที่ตามมาบางอย่างตามมา ปล่อยเวกเตอร์อินพุตx=(x1,...,xN) มีความยาว Nถ้าถือ Equation (2) แล้วนำลอการิทึมของทั้งสองด้านมาให้:

logp(x|y)p(x|y)=logi=1N[p(xi|y)p(xi|y)]np(xi)=i=1Nnp(xi)log[p(xi|y)p(xi|y)]=i=1Nhiwi.

ภายใต้เงื่อนไขนี้เราจึงได้รับแบบฟอร์มด้านหลัง:

p(y|x)=logistic(logp(x|y)p(x|y)+logp(y)p(y))=logistic(i=1Nhiwi+b),

รูปแบบที่ผู้เขียนใช้ในเครือข่ายของตน นี่คือรูปแบบโมเดลที่ถูกอ้างถึงโดยผู้แต่งในส่วนพื้นหลังก่อนที่จะระบุสมการ (1) - (2) กระดาษไม่ได้กำหนดnอยู่ในการตั้งค่ารุ่นนี้ แต่เมื่อคุณชี้ให้เห็นคำตอบของศาสตราจารย์ Tishby บอกว่านี่คือขนาดตัวอย่างทดสอบ เมื่อพิจารณาถึงคำถามที่สามของคุณปรากฏว่าข้อกำหนดของสมการ (2) หมายถึงค่าต่างๆxจะไม่ได้รับอิสระตามเงื่อนไขy.


ศ. Tishby (ผู้เขียน) กล่าวว่าในคำตอบของเขาเองว่า nคือขนาดตัวอย่างทดสอบ นี่คือเหตุผลที่ฉันรู้สึกว่า eq (2) มีการตีความที่สมบูรณ์ยิ่งขึ้นกว่าเงื่อนไขที่กำหนดเองในรูปแบบเชิงเส้นของเครือข่าย
IcannotFix นี้

ขอบคุณ - ฉันได้แก้ไขคำตอบของฉันเพื่อให้สะท้อนถึงข้อมูลเพิ่มเติมนี้
เบ็น - รับสถานะ Reinstate Monica

4

สำหรับ 1

P(yx)=P(y,x)P(x)

=P(y,x)iP(yi,x)

ตอนนี้เป็น yi เป็นไบนารีสิ่งนี้จะกลายเป็น:

=P(y,x)P(y,x)+P(y,x)

=11+P(y,x)P(y,x)

=11+exp[log P(y,x)P(y,x)]

และจากที่นั่นเป็นเพียงคุณสมบัติของลอการิทึมเพื่อไปยังแบบฟอร์มสุดท้าย (ควรมีความชัดเจนเพียงพอโดยจุดนี้แจ้งให้เราทราบหากไม่ได้)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.