ความแตกต่างระหว่างการถดถอยโลจิสติกและเครือข่ายประสาทคืออะไร?


32

เราจะอธิบายความแตกต่างระหว่างการถดถอยโลจิสติกและเครือข่ายประสาทเทียมให้กับผู้ชมที่ไม่มีพื้นฐานด้านสถิติได้อย่างไร


7
ใครบ้างที่ไม่มีพื้นฐานด้านสถิติต้องการที่จะรู้ และอะไรคือคำอธิบายที่ยอมรับได้เกี่ยวกับความแตกต่าง บางทีอุปมา แน่นอนว่าไม่มีคำตอบใด ๆ ด้านล่าง (จนถึงปัจจุบัน) ซึ่งทั้งหมดนี้พลาดข้อกำหนด "ไม่มีพื้นหลัง" ทั้งหมด
rolando2

3
คำถาม: "เราจะอธิบายความแตกต่างระหว่างการถดถอยโลจิสติกและเครือข่ายประสาทกับผู้ชมที่ไม่มีพื้นฐานด้านสถิติได้อย่างไร" ตอบ: ก่อนอื่นคุณต้องให้ข้อมูลพื้นฐานทางสถิติแก่พวกเขา
Firebug

2
ฉันเห็นเหตุผลที่ไม่ควรเปิด เราไม่จำเป็นต้องใช้ "อธิบาย ... ไม่มีภูมิหลังในสถิติ" อย่างแท้จริง เป็นเรื่องปกติที่จะขอคำอธิบายที่ใช้กับ 'เด็กอายุ 5 ปี' หรือ 'คุณยาย' เหล่านี้เป็นเพียงวิธีการพูดภาษาเพื่อขอคำตอบทางเทคนิคที่ไม่ใช่ (หรืออย่างน้อย ) หากต้องการให้ชัดเจนยิ่งขึ้นคำตอบจะพยายามตอบสนองข้อ จำกัด หลายอย่างพร้อมกันเสมอเช่นความแม่นยำ & ความกะทัดรัด ที่นี่เราเพิ่มการย่อให้เล็กที่สุดว่ามันเป็นทางเทคนิค ไม่มีเหตุผลที่เราไม่มีคำถามที่ต้องการคำอธิบายทางเทคนิคน้อยลงเกี่ยวกับความแตกต่าง b / t LR & ANNs
gung - Reinstate Monica

2
@mbq มันตลกที่ในเดือนพฤศจิกายน 2012 มันเป็นไปได้ที่จะอธิบายโครงข่ายประสาทเทียมว่าล้าสมัย
littleO

2
@littleO สวยมากยังคงยืนอยู่; เปรียบเทียบ NNs'18 กับ NNs'12 และคุณจะเห็นความคืบหน้ามาจากการลบความคล้ายคลึงกับเครือข่ายที่เกิดขึ้นจริงและเซลล์ประสาทที่เกิดขึ้นจริงแทนที่จะไปเพิ่มเติมในการดำเนินงานเกี่ยวกับพีชคณิตด้วยการเพิ่มประสิทธิภาพสุ่ม แต่แน่นอนว่าเครื่องหมายการค้าของ NN ได้พิสูจน์แล้วว่ามีประสิทธิภาพมากมันจะมีอายุยืนยาวและรุ่งเรืองโดยไม่คำนึงว่ามันหมายถึงอะไร

คำตอบ:


27

ฉันคิดว่าคุณกำลังนึกถึงสิ่งที่เคยเป็นและอาจจะยังถูกเรียกว่า 'หลายคนรับรู้' ในคำถามของคุณเกี่ยวกับเครือข่ายประสาท ถ้าเป็นเช่นนั้นฉันจะอธิบายเรื่องทั้งหมดในแง่ของความยืดหยุ่นเกี่ยวกับรูปแบบของขอบเขตการตัดสินใจในฐานะหน้าที่ของตัวแปรอธิบาย โดยเฉพาะอย่างยิ่งสำหรับผู้ชมนี้ฉันจะไม่พูดถึงฟังก์ชั่นลิงก์ / อัตราต่อรองของบันทึกเป็นต้นเพียง แต่คิดว่าความน่าจะเป็นของเหตุการณ์นั้นอยู่บนพื้นฐานของการสังเกตการณ์

นี่เป็นลำดับที่เป็นไปได้:

  • ตรวจสอบให้แน่ใจว่าพวกเขารู้ว่าความน่าจะเป็นที่คาดการณ์คืออะไร แสดงเป็นฟังก์ชันหนึ่งตัวแปรในบริบทของข้อมูลที่คุ้นเคย อธิบายบริบทการตัดสินใจที่จะแบ่งปันโดยการถดถอยโลจิสติกและเครือข่ายประสาท
  • เริ่มต้นด้วยการถดถอยโลจิสติก ระบุว่าเป็นกรณีเชิงเส้น แต่แสดงความเป็นเส้นตรงของขอบเขตการตัดสินใจที่เกิดขึ้นโดยใช้พล็อตความร้อนหรือเส้นโครงร่างของความน่าจะเป็นเอาต์พุตที่มีตัวแปรอธิบายสองตัว
  • โปรดทราบว่าสองคลาสอาจไม่ได้รับการแยกจากกันโดยขอบเขตที่พวกเขาเห็นและกระตุ้นโมเดลที่ยืดหยุ่นมากขึ้นเพื่อสร้างขอบเขตโค้งขึ้น หากจำเป็นต้องแสดงข้อมูลบางอย่างที่จะแยกความแตกต่างด้วยวิธีนี้ (นี่คือเหตุผลที่คุณเริ่มต้นด้วย 2 ตัวแปร)
  • โปรดทราบว่าคุณสามารถเริ่มสร้างความซับซ้อนให้โมเดลเชิงเส้นดั้งเดิมด้วยเงื่อนไขพิเศษเช่นสี่เหลี่ยมหรือการแปลงอื่น ๆ และอาจแสดงขอบเขตที่สิ่งเหล่านี้สร้างขึ้น
  • แต่ให้ทิ้งสิ่งเหล่านี้โดยสังเกตว่าคุณไม่ทราบล่วงหน้าว่าควรจะใช้แบบฟอร์มฟังก์ชันใดและคุณต้องการเรียนรู้จากข้อมูล เช่นเดียวกับที่พวกเขากระตือรือร้นเกี่ยวกับเรื่องนี้ให้สังเกตความเป็นไปไม่ได้ของเรื่องนี้อย่างครบถ้วนและแนะนำว่าคุณมีความสุขที่จะคิดว่าอย่างน้อยก็ควรจะ 'ราบรื่น' แทนที่จะเป็น 'ขาด ๆ หาย ๆ ' แต่เป็นข้อมูลอื่น (ยืนยันว่าพวกเขาอาจจะมีอยู่แล้วคิดเพียงเรียบขอบเขตในลักษณะเดียวกับที่พวกเขาต้องการได้รับการพูดร้อยแก้วทุกชีวิตของพวกเขา)
  • แสดงผลลัพธ์ของโมเดลเสริมทั่วไปที่ความน่าจะเป็นผลลัพธ์เป็นฟังก์ชันร่วมของคู่ของตัวแปรดั้งเดิมมากกว่าชุดค่าผสมที่แท้จริง - นี่เป็นเพียงเพื่อวัตถุประสงค์ในการสาธิต ที่สำคัญเรียกมันว่านุ่มนวลกว่าเพราะมันดีและกว้างและอธิบายสิ่งต่าง ๆ ได้โดยสัญชาตญาณ แสดงให้เห็นถึงขอบเขตการตัดสินใจที่ไม่ใช่เชิงเส้นในภาพเหมือนก่อน
  • โปรดทราบว่านี่ (ไม่ระบุชื่อปัจจุบัน) นุ่มนวลมีพารามิเตอร์ความราบรื่นที่ควบคุมวิธีการที่ราบรื่นเป็นจริงอ้างถึงสิ่งนี้ในการผ่านเป็นเหมือนความเชื่อก่อนหน้าเกี่ยวกับความเรียบของฟังก์ชั่นการเปลี่ยนตัวแปรอธิบายเป็นความน่าจะเป็นทำนาย อาจแสดงผลที่ตามมาของการตั้งค่าความเรียบต่างกันในขอบเขตการตัดสินใจ
  • ตอนนี้แนะนำ net neural เป็นไดอะแกรม ชี้ให้เห็นว่าเลเยอร์ที่สองเป็นเพียงรูปแบบการถดถอยโลจิสติก แต่ยังชี้ให้เห็นถึงการเปลี่ยนแปลงแบบไม่เชิงเส้นที่เกิดขึ้นในหน่วยที่ซ่อนอยู่ เตือนผู้ชมว่านี่เป็นเพียงฟังก์ชั่นอื่นจากอินพุตไปยังเอาต์พุตที่จะไม่เป็นเส้นตรงในขอบเขตการตัดสินใจ
  • ทราบว่ามีจำนวนมากของพารามิเตอร์และว่าบางส่วนของพวกเขาจะต้องมีข้อ จำกัด ที่จะทำให้ขอบเขตการตัดสินใจได้อย่างราบรื่น - รื้อฟื้นความคิดของจำนวนที่ควบคุมความเรียบเนียนเป็นเดียวกัน (แนวคิดพูด) จำนวนที่ช่วยให้พารามิเตอร์ที่ผูกติดกันและอยู่ห่างจาก ค่าสุดขีด นอกจากนี้โปรดทราบว่ายิ่งมีหน่วยที่ซ่อนอยู่มากเท่าไหร่ก็ยิ่งมีรูปแบบการทำงานที่แตกต่างกันมากขึ้นเท่านั้น เพื่อรักษาสัญชาตญาณพูดคุยเกี่ยวกับหน่วยที่ซ่อนอยู่ในแง่ของความยืดหยุ่นและข้อ จำกัด พารามิเตอร์ในแง่ของความราบรื่น (แม้จะมีความเลอะเทอะทางคณิตศาสตร์ของตัวละครนี้)
  • จากนั้นทำให้พวกเขาประหลาดใจด้วยการอ้างสิทธิ์เนื่องจากคุณยังไม่ทราบรูปแบบการใช้งานดังนั้นคุณจึงต้องการความยืดหยุ่นแบบไม่ จำกัดโดยการเพิ่มจำนวนยูนิตที่ซ่อนอยู่แบบไม่ จำกัด ให้เป็นไปไม่ได้ในทางปฏิบัติของอ่างล้างจานนี้ในเล็กน้อย จากนั้นสังเกตว่าขีด จำกัด นี้สามารถนำมาใช้ในวิชาคณิตศาสตร์แล้วถาม (วาทศิลป์) ว่าเรื่องแบบนี้จะเป็นอย่างไร
  • ตอบว่ามันจะราบรื่นขึ้นอีกครั้ง (กระบวนการแบบเกาส์นที่เกิดขึ้น Neal, 1996 แต่รายละเอียดนี้ไม่สำคัญ) เช่นเดียวกับที่พวกเขาเห็นมาก่อน สังเกตว่ามีอีกปริมาณที่ควบคุมความนุ่มนวล แต่ไม่มีพารามิเตอร์เฉพาะอื่น ๆ (รวมเข้าด้วยกันสำหรับผู้ที่สนใจสิ่งเหล่านี้)
  • สรุปว่าโครงข่ายประสาทเทียมนั้น จำกัด เฉพาะการนำไปใช้งานของเครื่องปรับแบบธรรมดาซึ่งเป็นแบบไม่เชิงเส้นไม่จำเป็นต้องมีส่วนเสริมเพิ่มเติมของตัวแบบการถดถอยโลจิสติกส์ จากนั้นทำอีกวิธีหนึ่งโดยสรุปว่าการถดถอยโลจิสติกนั้นเทียบเท่ากับโมเดลโครงข่ายประสาทเทียมหรือราบรื่นกว่าด้วยพารามิเตอร์การปรับให้เรียบเป็น 'Extra extra smooth' เช่น linear

ข้อดีของวิธีนี้คือคุณไม่จำเป็นต้องเข้าไปดูรายละเอียดทางคณิตศาสตร์เพื่อให้ความคิดที่ถูกต้อง ในความเป็นจริงพวกเขาไม่จำเป็นต้องเข้าใจการถดถอยโลจิสติกส์หรือเครือข่ายประสาทเพื่อเข้าใจความเหมือนและความแตกต่าง

ข้อเสียของวิธีการคือการที่คุณต้องทำภาพจำนวนมากและต่อต้านสิ่งล่อใจที่จะวางลงในพีชคณิตเพื่ออธิบายสิ่งต่าง ๆ อย่างมาก


14

สำหรับการสรุปที่ง่ายกว่า:

การถดถอยโลจิสติกส์: รูปแบบที่ง่ายที่สุดของโครงข่ายประสาทเทียมซึ่งส่งผลให้เกิดขอบเขตการตัดสินใจที่เป็นเส้นตรง

ป้อนคำอธิบายรูปภาพที่นี่

Neural Networks: superset ที่รวมถึงการถดถอยโลจิสติกและตัวแยกประเภทอื่น ๆ ที่สามารถสร้างขอบเขตการตัดสินใจที่ซับซ้อนมากขึ้น

ป้อนคำอธิบายรูปภาพที่นี่

(หมายเหตุ: ฉันหมายถึงการถดถอยโลจิสติก "ธรรมดา" โดยไม่ได้รับความช่วยเหลือจากเมล็ดหนึ่ง)

(การอ้างอิง: หลักสูตร deeplearning.ai โดย Andrew Ng "การถดถอยโลจิสติกในฐานะเครือข่ายประสาท" และ "การจัดหมวดหมู่ข้อมูลภาพถ่ายด้วยเลเยอร์ที่ซ่อนอยู่หนึ่งชั้น")


1
จากคำตอบในปัจจุบันทั้งหมดฉันคิดว่านี่เป็นคำอธิบายที่ใกล้เคียงที่สุดกับการอธิบายแนวคิดให้กับบุคคลที่ไม่มีพื้นฐานทางสถิติ
Firebug

1
ดังนั้นลอจิสติกการถดถอยลอจิสติกลอจิสติกเป็นเครือข่ายประสาท? นั่นทำให้รู้สึกมาก
Björn Lindqvist

8

ฉันจะใช้คำถามอย่างแท้จริง: คนที่ไม่มีพื้นฐานด้านสถิติ และฉันจะไม่พยายามให้ข้อมูลพื้นฐานทางสถิติแก่บุคคลนั้น ตัวอย่างเช่นสมมติว่าคุณต้องอธิบายความแตกต่างของ CEO ของ บริษัท หรืออะไรทำนองนั้น

ดังนั้น: การถดถอยโลจิสติกเป็นเครื่องมือสำหรับการสร้างแบบจำลองตัวแปรเด็ดขาดในแง่ของตัวแปรอื่น ๆ มันให้วิธีในการค้นหาว่าการเปลี่ยนแปลงในตัวแปร "อื่น ๆ " แต่ละตัวมีผลต่ออัตราต่อรองของผลลัพธ์ที่แตกต่างกันอย่างไรในตัวแปรแรก ผลลัพธ์ค่อนข้างง่ายต่อการตีความ

โครงข่ายประสาทเทียมเป็นวิธีการหนึ่งที่ให้คอมพิวเตอร์ลองเรียนรู้จากตัวอย่างในรูปแบบที่คล้ายกับวิธีที่มนุษย์เรียนรู้เกี่ยวกับสิ่งต่าง ๆ มันอาจส่งผลให้ตัวแบบที่เป็นตัวทำนายที่ดี แต่โดยปกติแล้วพวกมันจะทึบกว่าตัวแบบถดถอยโลจิสติกส์


5
+1 นี่เป็นความพยายามเริ่มต้นที่ดีที่จะก้าวไปสู่ความท้าทายดั้งเดิมในการให้คำอธิบายที่บุคคลทั่วไปสามารถเข้าใจได้ แต่มีความชัดเจนและถูกต้องตามสมควร
whuber

2
คุณจะต้องอธิบายว่า "เด็ดขาด", "ตัวแปร", "อัตราต่อรอง" คืออะไร นอกจากนี้เครือข่ายประสาทเทียมจะเป็นเพียงแค่แรงบันดาลใจจากเครือข่ายประสาทจริง สมองของเราไม่สามารถเรียนรู้ได้ด้วยการขยายพันธุ์ด้านหลังเท่าที่เรารู้ ดังนั้นใช่มันเป็นศัพท์ที่ยอดเยี่ยมสำหรับแนวคิดที่ค่อนข้างง่าย นอกจากนี้การถดถอยโลจิสติกยังเป็นรูปแบบหนึ่งของโครงข่ายประสาทเทียม
Firebug

7

ฉันได้รับการสอนว่าคุณสามารถนึกถึงเครือข่ายประสาท (ด้วยฟังก์ชั่นการเปิดใช้งานโลจิสติก) เป็นค่าเฉลี่ยของฟังก์ชั่น logit โดยมีน้ำหนักตัวประมาณ ด้วยการเลือกการบันทึกจำนวนมากคุณสามารถใส่แบบฟอร์มการทำงานใดก็ได้ มีสัญชาตญาณกราฟิกในโพสต์บล็อกความรู้สึกทางเศรษฐกิจ


6

คำตอบอื่น ๆ ที่ดี ฉันแค่เพิ่มรูปภาพที่แสดงว่าคุณสามารถนึกถึงการถดถอยโลจิสติกและการถดถอยโลจิสติกหลายระดับ

จากSebastian Raschka, Michigan State University บน KDnuggets :

ป้อนคำอธิบายรูปภาพที่นี่


ภาพประกอบเพิ่มเติมอีกเล็กน้อยสำหรับการถดถอยโลจิสติกหลายระดับ:

ป้อนคำอธิบายรูปภาพที่นี่

ภาพประกอบที่คล้ายกันที่นำมาจากhttp://www.deeplearningbook.org/บทที่ 1:

ป้อนคำอธิบายรูปภาพที่นี่

และอีกหนึ่งบทเรียนจากTensorFlow :

ป้อนคำอธิบายรูปภาพที่นี่

เช่นในCaffeคุณจะดำเนินการถดถอยโลจิสติดังต่อไปนี้ :

ป้อนคำอธิบายรูปภาพที่นี่


2
ดังนั้นการแพร่กระจายย้อนกลับบนเครือข่ายประสาทเทียมจึงคำนวณน้ำหนักเดียวกันกับการถดถอยโลจิสติก
มิทช์

1
@ Mitch - ฉันอาจจะสายเกินไปที่จะมีส่วนร่วมในเกม ความแตกต่างที่สำคัญอย่างหนึ่งก็คือสำหรับการถดถอยโลจิสติกหนึ่งใช้ mle เพื่อรับค่าสัมประสิทธิ์ ในสาระสำคัญที่เป็นตัวเลือกของข้อผิดพลาดเฉพาะหรือฟังก์ชั่นการสูญเสีย สำหรับตาข่ายประสาทฟังก์ชันการสูญเสียเป็นหนึ่งในตัวเลือก ดังนั้นด้วยการสูญเสียที่ถูกต้อง fn (ฉันคิดว่าส่วนบนของหัวของฉันมันเป็นมาตรฐาน L ^ 2 มาตรฐาน) นี่เป็นกรณี
aginensky

ดังนั้นการถดถอยแบบลอจิสติกจึงสามารถกำหนดได้เหมือนกับ ADALINE (เครือข่ายประสาทชั้นเดียวที่ใช้การไล่ระดับสีแบบแบทช์ / สุ่ม) ด้วยความแตกต่างที่สำคัญเพียงอย่างเดียวคือการเปิดใช้งานฟังก์ชั่นการเปิดใช้งานเป็น sigmoid แทนที่จะเป็นเชิงเส้น 0,1 ป้ายกำกับแทนที่จะ> = 0 พร้อม -1,1 ป้ายกำกับ สิ่งที่ต้องการอีกอย่างหนึ่ง แต่ความแตกต่างที่เป็นทางเลือกคือการเปลี่ยนฟังก์ชั่นต้นทุนจาก RSS เป็นฟังก์ชั่นต้นทุนโลจิสติกส์เนื่องจากการเปิดใช้งาน sigmoid ทำให้ RSS ไม่นูนดังนั้น RSS สามารถติดอยู่ในมินิมัลท้องถิ่น
Austin

5

ฉันจะใช้ตัวอย่างของปัญหาที่ซับซ้อน แต่เป็นรูปธรรมที่ผู้ชมเข้าใจ ใช้โหนดที่ซ่อนอยู่ซึ่งการตีความไม่ได้รับการฝึกอบรม แต่มีความหมายเฉพาะ

64×12 อินพุตไบนารีระบุว่ามีชิ้นส่วนของแต่ละประเภทในแต่ละตารางหรือไม่

การถดถอยเชิงเส้นเป็นตัวกำหนดว่าอัศวินม้าขาวบน h4 นั้นดีแค่ไหน อาจไม่ชัดเจนว่าเป็นสิ่งที่ดี แต่ถ้าอยู่ใน h4 จะไม่ถูกบันทึกซึ่งอาจเทียบกับข้อพิจารณาอื่น ๆ การถดถอยเชิงเส้นอาจกู้คืนค่าหยาบของชิ้นและมันจะดีกว่าที่จะมีชิ้นส่วนของคุณไปที่ศูนย์กลางของกระดานและบนฝั่งของฝ่ายตรงข้ามของกระดาน การถดถอยเชิงเส้นไม่สามารถให้คุณค่ากับการรวมกันเช่นว่าราชินีของคุณใน b2 นั้นมีค่ามากกว่าถ้ากษัตริย์ผู้ต่อต้านอยู่บน a1

โครงข่ายประสาทเทียมอาจมีโหนดที่ซ่อนอยู่สำหรับแนวคิดเช่น "ความได้เปรียบเชิงวัตถุ" "ความปลอดภัยของราชาดำ" "การควบคุมของศูนย์กลาง" "ทั้งสอง rooks บน d-file," "Queen rook pawn" หรือ "bishop การเคลื่อนไหว." บางส่วนของสิ่งเหล่านี้สามารถประมาณได้จากอินพุตของบอร์ดเท่านั้นในขณะที่บางอันอาจต้องอยู่ในเลเยอร์ที่สองหรือหลังจากนั้น โครงข่ายประสาทเทียมสามารถใช้สิ่งเหล่านี้เป็นข้อมูลป้อนเข้าไปในการประเมินขั้นสุดท้ายของตำแหน่ง แนวคิดเหล่านี้ช่วยให้ผู้เชี่ยวชาญประเมินตำแหน่งดังนั้นเครือข่ายประสาทควรมีความสามารถในการประเมินที่แม่นยำกว่าการถดถอยเชิงเส้น อย่างไรก็ตามการสร้างโครงข่ายประสาทต้องใช้เวลามากกว่านี้เนื่องจากคุณต้องเลือกโครงสร้างของมันและมีพารามิเตอร์ในการฝึกอบรมอีกมากมาย

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.