เครือข่ายประสาทเทียมเรียนรู้ฟังก์ชันหรือฟังก์ชันความหนาแน่นของความน่าจะเป็นหรือไม่?


19

คำถามอาจฟังดูแปลก ๆ เพราะฉันใหม่กับการอนุมานเชิงสถิติและเครือข่ายประสาท

เมื่ออยู่ในปัญหาการจำแนกประเภทโดยใช้โครงข่ายประสาทเราบอกว่าเราต้องการเรียนรู้ฟังก์ชั่นที่แมปพื้นที่ของอินพุตเข้ากับพื้นที่ของเอาต์พุต :fxy

f(x;θ)=y

เราปรับพารามิเตอร์ ( ) ให้เหมาะกับฟังก์ชันที่ไม่ใช่เชิงเส้นหรือเพื่อจำลองฟังก์ชันความหนาแน่นของความน่าจะเป็นหรือไม่?θ

ฉันไม่รู้วิธีการเขียนคำถามด้วยวิธีที่ดีกว่า ฉันได้อ่านมาแล้วหลายครั้งทั้งสองอย่าง (ฟังก์ชันความหนาแน่นของความน่าจะเป็นหรือฟังก์ชันแบบนั้น) ดังนั้นความสับสนของฉัน

คำตอบ:


15

เครือข่ายประสาทเทียมพูดอย่างเคร่งครัดทำให้ฟังก์ชั่นที่ไม่ใช่เชิงเส้นเหมาะสม

พวกเขาสามารถตีความได้ว่าเป็นฟังก์ชั่นความหนาแน่นของความน่าจะเป็นที่เหมาะสมถ้าเลือกฟังก์ชั่นการเปิดใช้งานที่เหมาะสมและเงื่อนไขบางอย่างเป็นที่เคารพ (ค่าจะต้องเป็นบวกและ 1, ฯลฯ ... ) แต่นั่นเป็นคำถามว่าคุณเลือกที่จะตีความผลลัพธ์ของพวกเขาไม่ใช่สิ่งที่พวกเขากำลังทำจริง ภายใต้ประทุนพวกเขายังคงเป็นตัวประมาณฟังก์ชันแบบไม่เชิงเส้นซึ่งคุณเลือกที่จะใช้กับปัญหาเฉพาะของการประมาณ PDF


3
@sdiabr จริงๆแล้วคุณจะไม่ใช้ธรณีประตูหากคุณต้องการให้เครือข่ายจำลองไฟล์ PDF เนื่องจาก PDF สามารถมีค่าอื่น ๆ นอกเหนือจาก 1 และ 0 ด้วยค่าเริ่มต้นมันจะกลายเป็นลักษณนามที่ตรงไปตรงมา
Skander H.

2
วิธีที่เหมาะสมในการดูสิ่งนี้คือการกำหนดเกณฑ์ใหม่เป็นปัญหาภายนอกสิ่งที่เรียนรู้จากเครือข่าย การไม่เคารพความแตกต่างนี้ทำให้เกิดปัญหามากมายในการประยุกต์ใช้ ML กับปัญหาโลกแห่งความจริง
Matthew Drury

1
ใช่ฉันเข้าใจแล้ว ดังนั้นลืมเกี่ยวกับ thresholding แล้วฉันจะสร้างแบบจำลอง PDF? ฉันคิดว่าฉันสับสนกับการกำหนดเกณฑ์ขั้นสูงเพราะฉันอ่านบางอย่างเกี่ยวกับการสร้างแบบจำลองการแจกแจงเบอร์นูอิลลี อย่างไรก็ตามหากไม่มีเกณฑ์นั่นก็คือเบอร์โนอิลลีใช่ไหม? ในกรณีที่เรามีเพียงหนึ่งโหนดเอาท์พุทที่มีฟังก์ชั่นการเปิดใช้งาน sigmoid ที่จะส่งออก 0 หรือ 1 ที่มีความน่าจะเป็น p หรือ (1-p)
sdiabr

1
ใช่ฉันสับสนอีกครั้งขอบคุณ @CagdasOzgenc ลองอีกครั้ง: โดยใช้ฟังก์ชั่น sigmoid ในเลเยอร์เอาท์พุทเรากำลังสร้างแบบจำลอง PDF โดยตรงใช่ไหม ติดตามการกระจายอะไรก็ตามที่มันอาจเรียนรู้ที่จะติดตาม
sdiabr

2
อย่างไรก็ตามคุณไม่ได้เรียนรู้เกี่ยวกับการแจกแจงความน่าจะเป็นของสัมประสิทธิ์ที่ไม่รู้จักดังนั้นคุณจึงไม่ได้เรียนรู้เกี่ยวกับการแจกแจงการทำนายหลัง
Brash Equilibrium

11

โดยทั่วไปโครงข่ายประสาทเทียมไม่ได้ใช้เพื่อจำลองความหนาแน่นของความน่าจะเป็นที่สมบูรณ์ การมุ่งเน้นของพวกเขาคือเพียงทำแบบจำลองค่าเฉลี่ยของการแจกแจง (หรือในสถานการณ์ที่กำหนดได้ง่าย ๆ คือฟังก์ชันที่ไม่ใช่เชิงเส้น) อย่างไรก็ตามมันเป็นไปได้ที่จะสร้างแบบจำลองความหนาแน่นของความน่าจะเป็นที่สมบูรณ์ผ่านโครงข่ายประสาทเทียม

วิธีที่ง่ายวิธีหนึ่งในการทำเช่นนี้สำหรับกรณีเกาส์เซียนคือการปล่อยค่าเฉลี่ยจากเอาต์พุตหนึ่งและความแปรปรวนจากเอาต์พุตอื่นของเครือข่ายและจากนั้นย่อเป็นส่วนหนึ่งของ กระบวนการฝึกอบรมแทนข้อผิดพลาดกำลังสองทั่วไป นี่เป็นขั้นตอนความน่าจะเป็นสูงสุดสำหรับโครงข่ายประสาทเทียมlogN(y|x;μ,σ)

เมื่อคุณฝึกฝนเครือข่ายนี้ทุกครั้งที่คุณเสียบค่าเป็นอินพุตมันจะให้μและσจากนั้นคุณสามารถเสียบทริปเลตทั้งหมดy , μ , σกับความหนาแน่นf ( y | x ) N ( μ , σ )เพื่อให้ได้ค่าความหนาแน่นสำหรับy ที่คุณชอบ ในขั้นตอนนี้คุณสามารถเลือกค่าy ที่จะใช้ตามฟังก์ชันการสูญเสียโดเมนจริง สิ่งหนึ่งที่ต้องจำไว้ก็คือสำหรับμการเปิดใช้งานเอาต์พุตควรไม่ถูก จำกัด เพื่อให้คุณสามารถปล่อย-xμσy,μ,σf(y|x)N(μ,σ)yyμถึง + infขณะที่ σควรเป็นการเปิดใช้งานเชิงบวกเท่านั้นinf+infσ

โดยทั่วไปเว้นแต่เป็นฟังก์ชันที่กำหนดไว้แล้วหลังจากที่เราฝึกอบรมการสูญเสียกำลังสองมาตรฐานที่ใช้ในเครือข่ายประสาทเทียมเป็นขั้นตอนเดียวกับที่ฉันอธิบายไว้ข้างต้น ภายใต้ประทุนที่กระจายสันนิษฐานโดยปริยายโดยไม่ต้องดูแลเกี่ยวกับσและถ้าคุณตรวจสอบอย่างรอบคอบ- L o กรัมN ( Y | x ; μ , σ )ช่วยให้คุณแสดงออกสำหรับการสูญเสียกำลังสอง ( การสูญเสีย ฟังก์ชั่นของเครื่องมือประมาณความเป็นไปได้สูงสุดของเกาส์เซียน ) ในสถานการณ์สมมตินี้แทนที่จะเป็นyGaussianσlogN(y|x;μ,σ)yค่าที่คุณชอบคุณติดอยู่กับการเปล่งทุกครั้งเมื่อได้รับค่าxใหม่μx

สำหรับการจำแนกการส่งออกจะเป็นกระจายแทนG U s s ฉันnซึ่งมีพารามิเตอร์เดียวในการปล่อย ตามที่ระบุในคำตอบอื่น ๆ พารามิเตอร์นี้อยู่ระหว่าง0ถึง1ดังนั้นการเปิดใช้งานเอาต์พุตควรเป็นไปตามนั้น มันอาจเป็นฟังก์ชันลอจิสติกหรืออย่างอื่นที่บรรลุวัตถุประสงค์เดียวกันBernoulliGaussian01

วิธีการที่ซับซ้อนมากขึ้นคือเครือข่ายความหนาแน่นของส่วนผสมของบิชอป คุณสามารถอ่านเกี่ยวกับเรื่องนี้ได้ในเอกสารอ้างอิงบ่อยที่นี่:

https://publications.aston.ac.uk/373/1/NCRG_94_004.pdf


คุณจะเอาชนะฉันได้ไหม😀ฉันต้องการอ้าง MDN ของบิชอป ... นอกจากนี้ยังมีวิธีอื่นในการทำให้ Neural Networks สามารถส่งออกไฟล์ PDF ซึ่งเป็นกระบวนทัศน์ของ Bayesian ฉันจะเขียนคำตอบในเรื่องนั้น
DeltaIV

อีกกระดาษที่สนุกในเครือข่ายความหนาแน่นของส่วนผสมที่ใช้ในการทำนายสภาพการท่อง: icml.cc/Conferences/2005/proceedings/papers/…
Matthew Drury

ควรเปลี่ยน "ทั้ง triplet y, μ, σ" เป็น "triplet ทั้งหมด x, μ, σ"?
moh

@ โมห์ไม่ ได้รับ x และจะไม่ปรากฏในความหนาแน่น
Cagdas Ozgenc

1

คำตอบที่ไม่เห็นด้วยของฉันคือในแอปพลิเคชั่นที่ใช้งานได้จริงที่น่าประทับใจที่สุด (ที่ที่พวกเขาได้รับความครอบคลุมมากที่สุดในสื่อเช่น) มันไม่ใช่ทั้งฟังก์ชั่นและความน่าจะเป็น พวกเขาใช้การตัดสินใจสุ่ม

บนพื้นผิวมันดูเหมือนว่า NN เป็นเพียงฟังก์ชั่นที่เหมาะสมให้จัดคิวข้อมูลอ้างอิงการประมาณค่าสากล ในบางกรณีเมื่อฟังก์ชั่นการเปิดใช้งานและข้อสันนิษฐานบางอย่างเช่นข้อผิดพลาดแบบเกาส์ถูกนำมาใช้หรือเมื่อคุณอ่านเอกสารบนเครือข่ายแบบเบย์ดูเหมือนว่า NN สามารถสร้างการแจกแจงความน่าจะเป็น

อย่างไรก็ตามทั้งหมดนี้เป็นเพียงวิธี สิ่งที่ NN ตั้งใจจะทำคือทำตัวเป็นแบบอย่างการตัดสินใจ เมื่อรถยนต์ขับเคลื่อนโดย AI, NN ของมันจะไม่พยายามคำนวณความน่าจะเป็นที่มีวัตถุอยู่ข้างหน้าจากนั้นเนื่องจากมีวัตถุที่จะคำนวณความน่าจะเป็นที่เป็นมนุษย์ ไม่ได้ทำการคำนวณการจับคู่ของอินพุตเซ็นเซอร์กับวัตถุประเภทต่างๆ ไม่ NN ควรตัดสินใจตามข้อมูลทั้งหมดเพื่อคัดท้ายด้านข้างหรือขับรถต่อไป มันไม่ได้คำนวณความน่าจะเป็น แต่มันบอกกับรถว่าควรทำอย่างไร

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.