การทดสอบทัวริงหรือการแปรผันใด ๆ เป็นการทดสอบความน่าเชื่อถือของปัญญาประดิษฐ์หรือไม่?


34

การทดสอบของทัวริงเป็นการทดสอบครั้งแรกของปัญญาประดิษฐ์และล้าสมัยไปเล็กน้อย การทดสอบทัวริงโดยรวมมีจุดมุ่งหมายที่จะเป็นการทดสอบที่ทันสมัยกว่าซึ่งต้องใช้ระบบที่ซับซ้อนมากขึ้น เทคนิคใดที่เราสามารถใช้เพื่อระบุปัญญาประดิษฐ์ (AI อ่อนแอ) และปัญญาประดิษฐ์ทั่วไป (AI ที่แข็งแกร่ง)


6
แน่นอนต้องใช้วิธีการทางสถิติกับจำนวนผู้เข้าร่วม ฉันได้พบกับมนุษย์บางคนที่ไม่ผ่านการทดสอบทัวริง
เอสเอฟ

1
มันขึ้นอยู่กับสิ่งที่คุณกำหนดสติปัญญาเป็น
baranskistad

คำตอบ:


15

จุดวาทศิลป์ของการทดสอบทัวริงก็คือว่ามันวาง 'ทดสอบ' สำหรับ 'มนุษยชาติ' ในผลลัพธ์ที่สังเกตแทนในชิ้นส่วนภายใน หากคุณทำตัวเหมือนกันในการโต้ตอบกับ AI เหมือนกับที่คุณทำกับบุคคลคุณจะทราบความแตกต่างระหว่างพวกเขาได้อย่างไร

แต่นั่นไม่ได้หมายความว่ามันน่าเชื่อถือเพราะความฉลาดมีส่วนประกอบต่าง ๆ มากมายและมีงานทางปัญญาหลายประเภท บางครั้งการทดสอบของทัวริงเป็นเรื่องเกี่ยวกับปฏิกิริยาของผู้คนที่มีต่อพฤติกรรมซึ่งไม่น่าเชื่อถือเลย - จำไว้ว่าหลายคนคิดว่าELIZAซึ่งเป็น chatbot ที่เรียบง่ายมากเป็นผู้ฟังที่ยอดเยี่ยมและมีส่วนร่วมทางอารมณ์อย่างรวดเร็ว มันเรียกร้องให้นึกถึงโฆษณาของ Ikea เกี่ยวกับการขว้างโคมไฟออกมาซึ่งสิ่งที่แนบมาทางอารมณ์นั้นมาจากผู้ชมของมนุษย์ (และดนตรี) แทนที่จะเป็นโคมไฟ

การทดสอบทัวริงสำหรับกิจกรรมทางเศรษฐกิจที่เฉพาะเจาะจงนั้นมีความน่าสนใจมากกว่าในทางปฏิบัติ - ถ้าเราสามารถเขียน AI ที่แทนที่ไดรเวอร์ Uber ตัวอย่างเช่นสิ่งที่จะบ่งบอกชัดเจนกว่าถ้ามีคนสร้างแชทสนทนา


10

ปัญหาของการทดสอบทัวริงคือการทดสอบความสามารถของเครื่องจักรในการคล้ายกับมนุษย์ ไม่จำเป็นว่า AI ทุกรูปแบบจะต้องคล้ายกับมนุษย์ สิ่งนี้ทำให้การทดสอบของทัวริงน่าเชื่อถือน้อยลง อย่างไรก็ตามมันยังมีประโยชน์เนื่องจากเป็นการทดสอบจริง นอกจากนี้ยังเป็นที่น่าสังเกตว่ามีความเป็นรางวัลสำหรับการส่งผ่านหรือมาใกล้เคียงกับที่ผ่านการทดสอบทัวริงที่ได้รับรางวัล Loebner

นิยามตัวแทนอัจฉริยะของหน่วยข่าวกรองระบุว่าตัวแทนฉลาดถ้ามันทำเช่นนั้นเพื่อเพิ่มมูลค่าที่คาดหวังของการวัดประสิทธิภาพตามประสบการณ์และความรู้ที่ผ่านมา (ถอดความจากWikipedia ) คำจำกัดความนี้ใช้บ่อยขึ้นและไม่ได้ขึ้นอยู่กับความสามารถในการคล้ายกับมนุษย์ อย่างไรก็ตามมันยากที่จะทดสอบสิ่งนี้


7

การทดสอบทัวริงแบบคลาสสิคมีข้อ จำกัด อย่างแน่นอน เพราะฉันยังไม่เห็นพูดถึงที่นี่ฉันจะแนะนำให้คุณอ่านเกี่ยวกับThe Chinese Roomซึ่งเป็นหนึ่งในเหตุผลที่ถูกอ้างถึงมากที่สุดว่าทำไมการทดสอบของทัวริงจึงขาดการตรวจสอบ 'สติ' ที่แท้จริง อย่างไรก็ตามฉันยังทราบด้วยว่าในทัวริงเองในบทความต้นฉบับที่เสนอการทดสอบทัวริงยอมรับอย่างชัดเจนว่าการทดสอบไม่ใช่การทดสอบเพื่อตรวจสอบความรู้สึกมีสติ :

ฉันเสนอให้พิจารณาคำถาม "เครื่องจักรคิดได้หรือไม่" สิ่งนี้ควรเริ่มต้นด้วยคำจำกัดความของความหมายของคำว่า "เครื่องจักร" และ "คิด" คำจำกัดความอาจมีกรอบเพื่อสะท้อนให้เห็นเท่าที่เป็นไปได้การใช้งานปกติของคำ แต่ทัศนคตินี้เป็นอันตรายหากความหมายของคำว่า "เครื่องจักร" และ "คิด" จะพบได้โดยการตรวจสอบวิธีการที่พวกเขาใช้กันทั่วไป เป็นการยากที่จะหลีกเลี่ยงข้อสรุปที่ความหมายและคำตอบของคำถาม "เครื่องจักรสามารถคิดได้หรือไม่" จะทำการค้นหาในแบบสำรวจทางสถิติเช่นแบบสำรวจของ Gallup แต่นี่เป็นเรื่องไร้สาระ แทนที่จะพยายามนิยามเช่นนี้ฉันจะแทนที่คำถามด้วยคำถามอื่นซึ่งเกี่ยวข้องอย่างใกล้ชิดกับคำถามนั้นและแสดงออกด้วยคำที่ค่อนข้างคลุมเครือ

รูปแบบใหม่ของปัญหาสามารถอธิบายได้ในแง่ของเกมที่เราเรียกว่า 'เกมเลียนแบบ'

เกมเลียนแบบนี้เป็นบททดสอบที่เรารู้กันแล้วในวันนี้


1
คำตอบที่ดี ฉันยังแบ่งปันความคิดเห็นที่การเปลี่ยนจาก "เกมเลียนแบบ" เป็น "การทดสอบทัวริง" ได้นำไปสู่ความเข้าใจผิดบางประการเกี่ยวกับการขยายสาขา (Pornbots ผ่านการทดสอบทัวริงตลอดเวลา;)
DukeZhou

5

มีคำจำกัดความของปัญญาประดิษฐ์มากมายในป่า คำจำกัดความทั้งหมดนี้เป็นส่วนหนึ่งของพื้นที่ (หรือมากกว่า) มีโดเมนหลักอยู่สี่โดเมนและรูปภาพด้านล่างนี้จะให้แสงบางส่วน

ป้อนคำอธิบายรูปภาพที่นี่



การทดสอบทัวริงหมุนรอบด้านซ้ายของความเป็นหัวใจซึ่งส่วนใหญ่เกี่ยวข้องกับความคิดหรือการกระทำของมนุษย์ แต่เรารู้ว่านี่ไม่ใช่ทั้งหมด การทดสอบของทัวริงไม่ได้มีอะไรมากนักเมื่อพูดถึง AI ในแง่ทั่วไป
การทดสอบทัวริงในฐานะรัฐวิกิพีเดียสร้างขึ้นเพื่อทดสอบเครื่องจักรที่แสดงพฤติกรรมเทียบเท่าหรือแยกไม่ออกจากมนุษย์ ปัญญาประดิษฐ์เป็นมากกว่าสิ่งที่มนุษย์สามารถทำได้หรือวิธีที่พวกเขากระทำ มีการกระทำของมนุษย์หลายอย่างที่ไม่ฉลาดและบางครั้งก็ไร้มนุษยธรรมเช่นกัน
อาร์กิวเมนต์ของห้องจีนมุ่งเน้นไปที่สิ่งที่สำคัญมากเมื่อพูดถึง"ความมีสติ v / s การจำลองของความมีสติ". John Searle แย้งว่ามีความเป็นไปได้ที่เครื่องจักร (หรือมนุษย์) จะปฏิบัติตามกฎที่กำหนดไว้ล่วงหน้าจำนวนมาก (อัลกอริทึม) เพื่อให้งานสำเร็จโดยไม่ต้องคิดหรือมีจิตใจ อ่อนแอ AIs เก่งในการจำลองความสามารถในการเข้าใจ แต่ไม่เข้าใจจริงๆว่าพวกเขากำลังทำอะไร พวกเขาไม่แสดง"ความตระหนักในตนเอง"และไม่ได้เป็นตัวแทนเกี่ยวกับตัวเอง "ฉันต้องการ v / s ฉันรู้ว่าฉันต้องการ"เป็นสองสิ่งที่แตกต่างกัน

ตามทฤษฎีของจิตใจระบุว่า AI ที่ดีไม่เพียง แต่ควรเป็นตัวแทนเกี่ยวกับโลกนี้เท่านั้น แต่ยังรวมถึงตัวแทนและองค์กรอื่น ๆ ในโลกด้วย ทั้งสองแนวคิดเกี่ยวกับการตระหนักรู้ในตนเองและทฤษฎีของจิตใจวาดเส้นบาง ๆ ระหว่าง AI ที่อ่อนแอและแข็งแรง

เมื่อพูดถึงการทดสอบทัวริงการทดสอบทัวริงล้มเหลวในหลายพื้นที่และรวมถึงการทดสอบทัวริงซึ่งเพิ่มเลเยอร์อื่นในการทดสอบ นักวิจัยส่วนใหญ่เชื่อว่าการทดสอบของทัวริงเป็นเพียงการเบี่ยงเบนความสนใจจากเป้าหมายหลักสิ่งที่ขัดขวางพวกเขาจากการทำงานที่มีผล พิจารณาสิ่งนี้สมมติว่าคุณถามปัญหาทางคณิตศาสตร์ที่ยากเพื่อแยกความแตกต่างระหว่างมนุษย์และเครื่องจักร หากเครื่องต้องการแกล้งเป็นมนุษย์ก็จะโกหก นี่ไม่ใช่สิ่งที่เราต้องการ การทดสอบทัวริงจะกำหนดขอบเขตบนของ AI ที่สามารถสร้างขึ้นได้ การทำ AI และทำตัวเหมือนมนุษย์นั้นไม่ใช่ความคิดที่ดีนัก มนุษย์ไม่ค่อยดีนักในการตัดสินใจที่ถูกต้องตลอดเวลา นี่คือเหตุผลที่เราอ่านเกี่ยวกับสงครามในหนังสือประวัติศาสตร์ของเรา การตัดสินใจที่เราทำมักจะลำเอียงมีต้นกำเนิดที่เห็นแก่ตัวเป็นต้นเราไม่ได้

ฉันไม่คิดว่าจะมีหนึ่งการทดสอบเพื่อทดสอบ AI นี่เป็นเพราะ AI มีคำจำกัดความมากมายหลายประเภท ไม่ว่า AI จะอ่อนแอหรือแข็งแกร่งสามารถติดแท็กในขณะที่ค้นหาคำตอบสำหรับคำถามเช่น "ฉันต้องการ v / s ที่ฉันรู้ว่าฉันต้องการ", "ฉันเป็นใครและฉันกำลังทำอะไร (จากมุมมองของเครื่อง)" บวก คำถามอื่น ๆ ที่ฉันพูดถึงข้างต้น


3

ขึ้นอยู่กับวิธีการทดสอบที่ได้รับ ตัวอย่างเช่นเมื่อคนอ้างว่าเครื่องผ่านการทดสอบทัวริงไม่กี่ปีที่ผ่านมาเกณฑ์ก็ค่อนข้างอ่อนแอ มันแค่หลอก 30% ของผู้คนเป็นเวลา 5 นาที นั่นไม่ใช่การทดสอบมากนัก หากต้องการกล่าวถึงสิ่งนี้ในมุมมองคุณอาจจะไม่ตรวจพบโรคจิตเภทออทิสติกความบกพร่องทางการเรียนรู้หรือภาวะสมองเสื่อมด้วยเกณฑ์นี้

ทั้งๆที่ขัดต่อ hype, AI ปัจจุบันสามารถตรวจพบได้ 100% ของเวลาโดยใช้คำถามที่ค่อนข้างง่าย


จุดดี. "ได้รับคำถามจำนวนเพียงพอ ... " (แน่นอนว่าในการ ทดสอบ Voight-Kampff นั้นค่อนข้างมีประสิทธิภาพเมื่อใช้คำถามจำนวน จำกัด )
DukeZhou

2

การทดสอบทัวริงหรือการแปรผันใด ๆ เป็นการทดสอบความน่าเชื่อถือของปัญญาประดิษฐ์หรือไม่?

สายตาสั้น

ใช่ถ้าใครนิยามคำว่าปัญญาประดิษฐ์ในแง่ของเกมเลียนแบบของ Alan Turing หรือหนึ่งในสายพันธุ์ วิธีการอาจเป็นไปได้ในเวลาเดียวกันทั้งที่ถูกต้องและ จำกัด อย่างมากในฐานะที่เป็นนิยามของหน่วยสืบราชการลับในขณะที่ผู้คนตีความคำก่อนที่ AI จะปรากฏ

หน่วยสืบราชการลับที่พิสูจน์แล้ว

ดังนั้นจึงมีวิธีการทางเลือกมากมายในการวัดความฉลาดทางปัญญาหรืออื่น ๆ

  • กลายเป็นหมากรุกแกรนด์มาสเตอร์
  • การเขียนโปรแกรมหมากรุกที่ชนะ
  • ได้รับรางวัลระดับนานาชาติที่คัดสรรมาอย่างดี
  • สร้างกลยุทธ์ที่ชนะในสงครามหรือสันติภาพ
  • เอาชนะการกำจัดหลายพันรอบในการทำธุรกิจหรือการเมืองเพื่อเป็นประธานาธิบดี
  • การเขียนบทความที่ยอดเยี่ยมเอกสารบทภาพยนตร์การบรรยายสุนทรพจน์หนังสือหรือบทกวีที่สร้างกระบวนทัศน์ของมนุษย์ที่สำคัญ
  • แสดงผลลัพธ์ระดับอัจฉริยะในการทดสอบ Mensa
  • กลายเป็นหนึ่งในคนที่ร่ำรวยที่สุดในโลก

การวัดปกติของหน่วยสืบราชการลับปกติ

แต่สิ่งเหล่านี้เป็นการวัดความฉลาดพิเศษบางประเภทส่วนใหญ่เป็นเพราะผู้นำในพื้นที่เหล่านี้มีการใช้ความฉลาดอย่างน่าเชื่อถือมากกว่าหลายโดเมนในรูปแบบที่นำไปสู่ความสำเร็จที่น่าทึ่งผ่านสถานการณ์ในชีวิตจริงหลายแห่ง ความน่าเชื่อถือเป็นคุณสมบัติของบุคคลที่มีความฉลาดไม่ใช่การทดสอบความฉลาด

สิ่งเหล่านี้เป็นเรื่องธรรมดามากขึ้น แต่อาจมีความฉลาดและน่าเชื่อถือมากกว่า

  • เลี้ยงดูเด็กที่มีสุขภาพดีและมีความรักให้สามารถตรวจสอบได้ผ่านการสัมภาษณ์อย่างระมัดระวังจากเพื่อนและผู้ร่วมงานของสมาชิกในครอบครัว
  • การรักษาซ้ำหลายครั้งและประสบความสำเร็จในหลายเงื่อนไขของประเภทที่แตกต่างกันซึ่งครั้งหนึ่งเคยถูกระบุว่าถูกทำลายในรูปแบบที่จับต้องได้และสามารถวัดได้และพบว่าได้รับการแก้ไขอย่างถูกต้องอันเป็นผลมาจากการประยุกต์ใช้
  • เชาวน์ปัญญาที่สามารถวัดได้จากผู้เข้าร่วมในการสนทนาที่แสดงถึงความสำเร็จของตนเองต่อแนวคิดและตัวอย่างที่กำหนดโดยนักสนทนา

อะไรคือเป้าหมายสุดท้ายที่ปรารถนาอย่างแท้จริง?

บางทีคุณสมบัติหลักของการทดสอบของทัวริงก็คือมันเป็นสิ่งประดิษฐ์ หากปัญญาประดิษฐ์เป็นสิ่งที่เราต้องการจากซอฟต์แวร์ AI นั่นคือสิ่งที่เราจะได้รับ อย่างไรก็ตามมีโอกาสที่เราต้องการบางสิ่งบางอย่างไม่มากก็น้อย

เราต้องการสิ่งที่ดีกว่าในคอมพิวเตอร์บางเครื่องอาจเป็นเพื่อนที่ปรึกษาของเราและพนักงานที่ไม่ได้รับค่าจ้างซึ่งมีความสามารถพิเศษที่นำไปสู่ความสำเร็จส่วนตัวของเราในแง่ของรายได้อิทธิพลความนิยมหรือมรดก

เราต้องการน้อยลงในการที่เราต้องการให้คอมพิวเตอร์บางเครื่องทำงานเฉพาะโดเมนและยังคงเป็นเครื่องมือที่ใช้งานได้อย่างเต็มที่บางทีอาจมีบุคลิกและความอบอุ่นเช่นเรือหรืออุปกรณ์ที่ซับซ้อนอื่น ๆ ที่เราให้ชื่อมนุษย์ แต่ไม่มีความสามารถ ของความฉลาดของมนุษย์

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.