'Eugene Goostman' ผ่านการทดสอบทัวริงจริงหรือไม่


18

มีการกล่าวกันว่า 'Eugene Goostman' โปรแกรมคอมพิวเตอร์ที่พัฒนาขึ้นเพื่อจำลองเด็กชายอายุ 13 ปีพยายามโน้มน้าวผู้พิพากษาร้อยละ 33 ว่าเป็นมนุษย์และผ่านการทดสอบทัวริง

โปรแกรมคอมพิวเตอร์หรือที่รู้จักกันในชื่อ chatbot ถูกแกล้งทำเป็นเด็กชายชาวยูเครนอายุ 13 ปีซึ่งภาษาอังกฤษเป็นภาษาที่สองซึ่งมีความแตกต่างกันมาก

สำหรับฉันแล้ว Eugene ฟังดูเหมือน chatbot ธรรมดา ๆ ควร: ซ้ำซากไร้สาระและเกลื่อนไปด้วยผู้ไม่เสแสร้ง ฉันไม่รู้ว่ามันทำให้ผู้พิพากษาตัดสินอย่างไร (ซึ่งดูไม่เป็นมืออาชีพ)

หลายคนวิพากษ์วิจารณ์ยูจีนเหมือนศาสตราจารย์ Stevan Harnad ที่กล่าวว่า "มันไร้สาระ" และ "เราไม่ได้ผ่านการทดสอบของทัวริง

ความคิดเห็นที่แตกต่างกัน แต่ฉันอยากจะรู้ว่ามันผ่านการทดสอบอย่างเป็นทางการ?

มันก็ถูกกล่าวว่า:

สองรางวัลแบบครั้งเดียวเท่านั้นที่ไม่เคยได้รับ 25K นั้นถูกนำเสนอสำหรับผู้พูดคุยคนแรกที่ผู้พิพากษาไม่สามารถแยกความแตกต่างจากมนุษย์จริงและสามารถโน้มน้าวผู้พิพากษาว่ามนุษย์เป็นโปรแกรมคอมพิวเตอร์ $ 100,000 เป็นรางวัลสำหรับนักแชตบ็อตคนแรกที่ผู้พิพากษาไม่สามารถแยกความแตกต่างจากมนุษย์จริงในการทดสอบทัวริงซึ่งรวมถึงการถอดรหัสและการทำความเข้าใจข้อความภาพและการรับฟัง การแข่งขันประจำปีจะสิ้นสุดลง

หมายความว่ายูจีนได้รับรางวัล $ 25,000 หรือไม่?


2
มันสำคัญมากที่ผู้พิพากษารู้ว่าพวกเขาอยู่ในสถานการณ์
Thorbjørn Ravn Andersen

3
ผู้ตัดสิน 2/3 คิดว่าบอทนี้ไม่ใช่มนุษย์ สำหรับฉันที่บอกว่าธรรมชาติของการมีปฏิสัมพันธ์แบบนี้เห็นได้ชัดมากกว่าผู้พิพากษาส่วนใหญ่ ฉันเรียกสิ่งนี้ว่าล้มเหลวอย่างชัดเจน (และแม้ว่า "Eugene" "ชนะ" - คนเทียมเก็บเงินจริงอย่างไร BitCoin? :-)
Bob Jarvis - Reinstate Monica

คุณสามารถให้ตัวอย่างการสนทนาได้หรือไม่? ฉันโต้ตอบกับ Ukrainians เป็นประจำทุกวันและวิธีที่พวกเขาพูดภาษาอังกฤษนั้นเป็นที่จดจำได้ง่าย
Stephan Bijzitter

คำตอบ:


18

ไม่มี "การทดสอบทัวริงอย่างเป็นทางการ" ดังนั้นจึงไม่มีแนวคิด "การทดสอบอย่างเป็นทางการผ่าน [วัน]" ทัวริงอธิบายวิธีการที่อาจใช้ประเมินปัญญาประดิษฐ์ ผู้จัดงานของเหตุการณ์ที่ Eugene Goostman ชนะการใช้วิธีการนั้นในลักษณะเฉพาะและโปรแกรมนั้นเป็นไปตามเกณฑ์ที่ผู้จัดงานเลือกไว้ ในแง่นั้นมันผ่านการทดสอบ

เนื่องจากไม่มี "การทดสอบของทัวริงอย่างเป็นทางการ" อาจเป็นการเหมาะสมกว่าถ้าจะบอกว่า Eugene Goostman ผ่านการทดสอบของทัวริงหรือผ่านการทดสอบของทัวริง ไม่น่าเป็นไปได้ที่สื่อจะหยิบจับรายละเอียดปลีกย่อยเหล่านั้นโดยเฉพาะอย่างยิ่งชื่อเสียงของทัวริงและแนวคิดของ " การทดสอบทัวริง" ในจิตสำนึกสาธารณะ


3
นอกจากนี้แล้ว Eugene Goostman ก็จะถูกขยะในเกมเลียนแบบดั้งเดิมของทัวริง ;-)
Steve Jessop

9

ผมคิดว่ารางวัลที่คุณกำลังหมายถึงเป็นรางวัล Loebner ตามหน้า Wikipedia (ดูลิงค์ก่อนหน้า) ผู้ชนะในปี 2014 คือ 'Rose' โดย Bruce Wilcox โปรแกรมนั้นไม่ได้รับรางวัลเพียงครั้งเดียวหนึ่งรางวัล แต่ได้รับเงินรางวัล 4,000 ดอลลาร์ 'Eugene Goostman' เข้าแข่งขันในปี 2005 และ 2008 จบสองครั้ง

การแข่งขัน 'Eugene Goostman' ชนะโดย Kevin Warwick แห่ง Coventry University จัดขึ้นเป็นเวลา 60 ปีนับตั้งแต่อลันทัวริงผ่าน ฉันไม่รู้เงินรางวัลใด ๆ

ลองชมผลงานของRay Kurzweilทั้งการแข่งขันและรายการที่เป็นปัญหา ข้อความที่ตัดตอนมา:

ศาสตราจารย์วอร์วิคอ้างว่าการทดสอบนั้น“ ไม่ จำกัด ” อย่างไรก็ตามการที่แชทบ็อตอ้างว่าเป็นเด็กอายุ 13 ปีและภาษาอังกฤษที่ไม่ใช่ภาษาแรกนั้นเป็นข้อ จำกัด ที่มีประสิทธิภาพ นอกจากนี้ยังมีรายงานว่าการโต้ตอบถูก จำกัด ไว้ที่ห้านาทีในแต่ละครั้ง มีโอกาสสูงที่จะหลอกผู้พิพากษาไร้เดียงสาในช่วงเวลาสั้น ๆ

ฉันพูดคุยกับ chatbot Eugene Goostman และไม่ประทับใจ ยูจีนไม่ได้ติดตามบทสนทนาพูดซ้ำคำต่อ ๆ กันและมักจะตอบโต้กับคนที่ไม่ใช่ซีตรองแชททั่วไป

ฉันก็พบว่านี่เป็นคำวิจารณ์ที่ดี: WIRED - คอมพิวเตอร์เครื่องนั้นมีการทดสอบทัวริงจริง


1
ฉันชอบบิตของ Wired เช่นกันโดยเฉพาะ "ในการแข่งขันปี 1991 บอทชื่อ PC Therapist ก็สามารถได้ผู้พิพากษาห้าใน 10 คนที่เชื่อว่าเป็นมนุษย์" นอกจากนี้เกี่ยวกับเกณฑ์พิเศษ "พิเศษ"> 30%: "ดังนั้นพ่อของการทดสอบของทัวริงไม่ได้ใช้สิ่งนี้เป็นเกณฑ์สำหรับหน่วยสืบราชการลับเขาเพียงแค่ระบุคำทำนายของเขาว่าเขาคิดว่าคอมพิวเตอร์จะเป็นห้าสิบปีในอนาคต "
Fizz

10
โดยสรุป: The bot Eugene "ผ่าน" การทดสอบนี้ไม่ได้โดยการจำลองความฉลาดของมนุษย์ แต่เป็นการจำลองความโง่เขลาของมนุษย์
ขนุน

2

การเพิ่มลิงค์ Wikipedia เพื่อความเข้าใจที่ลึกซึ้งยิ่งขึ้นเกี่ยวกับการทดสอบทัวริง "ดั้งเดิม" มีการทดสอบมากมายที่เรียกว่า "การทดสอบทัวริง" Wikipedia กล่าวถึง "รุ่นหลักอย่างน้อย 3" การทดสอบที่ผ่านโดย Eugeene นั้นไม่ใช่การทดสอบเหล่านั้น 3. การทดสอบที่ผ่านโดย Eugeene นั้นไม่ได้ถูกคิดค้นโดย Alan Turing แต่เป็นการทดสอบที่เรียกว่า Turing Test ซึ่งได้รับแรงบันดาลใจจาก Alan Turing และ Eugeene ผ่านการทดสอบนั้นแล้ว

ส่วนที่กล่าวถึงการทดสอบทัวริงอย่างน้อย 3 เวอร์ชัน:

Saul Traiger ให้เหตุผลว่ามีการทดสอบทัวริงอย่างน้อยสามเวอร์ชันซึ่งสองข้อเสนอใน "คอมพิวเตอร์เครื่องจักรและหน่วยสืบราชการลับ" และหนึ่งในนั้นที่เขาอธิบายว่าเป็น "การตีความมาตรฐาน" ในขณะที่มีการถกเถียงกันว่า "การตีความมาตรฐาน" นั้นเป็นสิ่งที่อธิบายโดยทัวริงหรือแทนที่จะตีความผิดจากบทความของเขาทั้งสามรุ่นนี้ไม่ถือว่าเท่าเทียมกันและจุดแข็งและจุดอ่อนต่างกัน

รุ่น 1

เกมดั้งเดิมของทัวริงอธิบายเกมปาร์ตี้ง่าย ๆ ที่เกี่ยวข้องกับผู้เล่นสามคน ผู้เล่น A เป็นผู้ชายผู้เล่น B เป็นผู้หญิงและผู้เล่น C (ผู้เล่นบทซักถาม) เป็นเพศใดก็ได้ ในเกมเลียนแบบผู้เล่น C ไม่สามารถเห็นผู้เล่น A หรือผู้เล่น B และสามารถสื่อสารกับพวกเขาผ่านบันทึกย่อที่เขียนขึ้นเท่านั้น ด้วยการถามคำถามของผู้เล่น A และผู้เล่น B ผู้เล่น C พยายามที่จะตัดสินว่าคนใดในสองคนที่เป็นผู้หญิง บทบาทของผู้เล่น A คือการหลอกให้ผู้ซักถามทำการตัดสินใจผิดในขณะที่ผู้เล่น B พยายามช่วยเหลือผู้ซักถามในการทำให้ถูกต้อง

เวอร์ชัน 2

รุ่นที่สองปรากฏในภายหลังใน 1,950 กระดาษของทัวริง. คล้ายกับการทดสอบเกมเลียนแบบดั้งเดิมบทบาทของผู้เล่น A นั้นดำเนินการโดยคอมพิวเตอร์ อย่างไรก็ตามบทบาทของผู้เล่น B นั้นดำเนินการโดยผู้ชายมากกว่าผู้หญิง [... ] ในรุ่นนี้ผู้เล่น A (คอมพิวเตอร์) และผู้เล่น B กำลังพยายามหลอกให้ผู้ซักถามทำการตัดสินใจที่ไม่ถูกต้อง

เวอร์ชัน 3

มีความเข้าใจร่วมกันว่าจุดประสงค์ของการทดสอบทัวริงนั้นไม่ได้มีจุดประสงค์เพื่อพิจารณาว่าคอมพิวเตอร์สามารถหลอกผู้สอบสวนให้เชื่อว่าเป็นมนุษย์หรือไม่ แต่คอมพิวเตอร์จะเลียนแบบมนุษย์ได้หรือไม่ ในขณะที่มีข้อโต้แย้งว่าการตีความนี้ตั้งใจทำโดยทัวริง - Sterrett เชื่อว่ามันเป็นเช่นนั้นและทำให้รุ่นที่สองกับ conflates นี้ในขณะที่คนอื่น ๆ เช่น Traiger ไม่ - นี่คือสิ่งที่สามารถนำมาดูอย่างไรก็ตาม " การตีความมาตรฐาน " ในเวอร์ชั่นนี้ผู้เล่น A เป็นคอมพิวเตอร์และผู้เล่น B เป็นเพศเดียวกัน บทบาทของผู้สอบปากคำไม่ได้ระบุว่าเป็นเพศชายและเพศหญิง แต่เป็นคอมพิวเตอร์และเป็นมนุษย์ ประเด็นพื้นฐานที่มีการตีความมาตรฐานคือผู้สอบปากคำไม่สามารถแยกความแตกต่างที่ผู้ตอบคำถามเป็นมนุษย์และเป็นกลไก มีปัญหาเกี่ยวกับระยะเวลา แต่การตีความมาตรฐานโดยทั่วไปพิจารณาข้อ จำกัด นี้ว่าเป็นสิ่งที่ควรมีเหตุผล

ในทางตรงกันข้ามการทดสอบที่ผ่านมาโดย Eugeene มีผู้พิพากษามนุษย์สนทนากับ chatbot เป็นเวลา 5 นาทีหลังจากนั้นพวกเขาต้องตัดสินใจว่ามันเป็นบอทหรือไม่


0

ใช่มันได้รับรางวัล "การทดสอบทัวริง" ซึ่งเป็นไปตามคำอธิบายดั้งเดิมของอลันทัวริงใกล้เคียงที่สุด
นี่ไม่ใช่รุ่นเงินรางวัล $ 25,000 ที่เป็นรางวัล Loebner ซึ่งมีรายละเอียดที่แตกต่างจากคำอธิบายของ Alan Turing
ที่สำคัญกว่านั้น Alan Turing ไม่เคยตั้งใจให้เป็นแบบทดสอบของแท้ในตอนแรกดังนั้นผลลัพธ์จึงไม่ใช่หลักฐานของความฉลาดถ้านั่นคือสิ่งที่คุณต้องการรู้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.