ข้อกำหนดเฉพาะของการทดสอบของทัวริงคืออะไร

10

มีข้อกำหนดอะไรบ้างหากผู้ประเมินต้องปฏิบัติตามเพื่อให้ผ่านการรับรองสำหรับการทดสอบ
ต้องมีผู้เข้าร่วมสองคนเสมอในการสนทนา (หนึ่งคนและคอมพิวเตอร์หนึ่งเครื่อง) หรือมากกว่านั้นอีกหรือไม่
การทดสอบยาหลอก (ในกรณีที่ไม่มีคอมพิวเตอร์เกี่ยวข้อง) อนุญาตหรือสนับสนุนหรือไม่
มีผู้ประเมินหลายคนได้ไหม ถ้าเป็นเช่นนั้นการตัดสินใจจะต้องเป็นเอกฉันท์ในหมู่ผู้ประเมินทั้งหมดเพื่อให้เครื่องผ่านการทดสอบ?

9

"การทดสอบทัวริง" โดยทั่วไปแล้วหมายถึงเวอร์ชั่นเลียนแบบเกมอลันทัวริงที่ได้รับการปรับปรุงในปี 1951 ในชื่อเดียวกัน รุ่นแรกมีมนุษย์ (ชายหรือหญิง) และคอมพิวเตอร์และผู้พิพากษาจะต้องตัดสินใจว่าอะไรคือสิ่งที่และเพศพวกเขาถ้ามนุษย์ หากพวกเขาถูกต้องน้อยกว่า 50% แสดงว่าคอมพิวเตอร์นั้น "ฉลาด"

เวอร์ชันที่ยอมรับกันโดยทั่วไปในปัจจุบันต้องการผู้เข้าแข่งขันเพียงคนเดียวและผู้ตัดสินตัดสินว่าเป็นมนุษย์หรือเครื่องจักร ใช่บางครั้งสิ่งนี้จะเป็นยาหลอกอย่างมีประสิทธิภาพถ้าเราพิจารณาว่ามนุษย์เป็นยาหลอก

คำถามแรกและคำถามที่สี่ของคุณเกี่ยวข้อง - และไม่มีหลักเกณฑ์ที่เข้มงวด หากคอมพิวเตอร์สามารถหลอกผู้พิพากษาจำนวนมากได้แน่นอนว่ามันจะเป็น AI ที่ดีกว่า

มหาวิทยาลัยโตรอนโตมีหัวข้อความถูกต้องในบทความนี้เกี่ยวกับทัวริงซึ่งรวมถึงลิงก์ไปยังคำอธิบายของ Jason Hutchens เกี่ยวกับสาเหตุที่การทดสอบของทัวริงอาจไม่เกี่ยวข้อง (มนุษย์อาจล้มเหลว) และLoebner Prizeการยกตัวอย่างเป็นทางการของทัวริง ทดสอบ

— Rory Alsop
แหล่งที่มา

2

ที่นี่มีสองคำถามจริง ๆ ที่ฉันเห็น หนึ่งคือ "สิ่งที่เป็นข้อกำหนดเฉพาะของการทดสอบทัวริงเดิมตามที่ระบุไว้โดยทัวริงเอง?" ข้อกำหนดอื่นของการทดสอบทัวริงสมัยใหม่ควรเป็นอย่างไร? ทุกอย่างก้าวหน้าไปมากตั้งแต่วันทัวริงและฉันคิดว่ามันสมเหตุสมผลที่เราจะพิจารณาขยาย / แก้ไขการทดสอบของเขาเพื่อสะท้อนความเข้าใจในปัจจุบันของเรา

คำตอบสำหรับคำถามแรกนั้นง่ายพอที่จะค้นหาดังนั้นฉันคิดว่าสิ่งที่น่าสนใจคือคำถามที่สอง สิ่งที่ควรมีการทดสอบเพื่อตรวจสอบดูปัญญาเช่น? โดยที่ในใจฉันคิดว่าคำตอบของคำถามทั้งสี่ที่โพสต์โดย OP คือ "มันขึ้นอยู่กับ" ฉันไม่คิดว่าจะมีฉันทามติสากลเกี่ยวกับวิธีจัดโครงสร้างการทดสอบทัวริงที่สมบูรณ์แบบดังนั้นผู้ทดลองที่ได้รับจึงมีอิสระที่จะจัดเตรียมสิ่งต่างๆตามที่ต้องการ

แน่นอนว่าทั้งหมดนี้ขึ้นอยู่กับข้อสันนิษฐานว่าการทดสอบทัวริงหรือการทดสอบแบบทัวริงนั้นมีคุณค่า นั่นไม่จำเป็นต้องให้ พิจารณาว่าในระดับหนึ่งสิ่งที่เรากำลังพูดถึงคือการออกแบบ AI ที่มีความสามารถพิเศษในการหลอกลวง! กล่าวคือสมมติว่าผู้ถามได้รับอนุญาตให้ถามว่า "คุณเป็นมนุษย์" หรือไม่จากนั้นเราต้องสมมติว่า AI นั้นควรโกหกหากต้องการผ่านการทดสอบ ดังนั้นใครคนหนึ่งอาจถามอย่างถูกต้องว่าการออกแบบระบบให้เก่งในการบอกเรื่องโกหกเป็นวิธีที่มีค่าสำหรับ AI หรือไม่?

— Mindcrime
แหล่งที่มา

0

หากคุณต้องการเข้าใจทฤษฏีสัมพัทธภาพอ่าน Einstein ^1,2ไม่ใช่หนังสือเกี่ยวกับสัมพัทธภาพที่เขียนโดยศาสตราจารย์ที่คิดว่าเขาเข้าใจแล้ว หากคุณต้องการที่จะเข้าใจการทดสอบของ Alan Turing สำหรับความฉลาดในบริบทของบทสนทนาของมนุษย์อ่าน Turing ^{3 การ} ตีความอาจเลวร้ายยิ่งกว่าไร้ค่า พวกเขามักจะทำให้เข้าใจผิด หากหลักการดูหนาเกินไปอ่านอีกครั้งจนกว่าคุณจะเข้าใจ

ในกรณีของการทดสอบทัวริงของหน่วยสืบราชการลับในบริบทของบทสนทนาของมนุษย์เพื่อให้เข้าใจอย่างถ่องแท้ภูมิหลังต่อไปนี้จะถูกนำมาใช้เมื่อทัวริงเขียนซึ่งถ้าคุณอ่านบทความปี 1950 ของเขาจะชัดเจน

ทฤษฎีความสมบูรณ์ของทัวริงตอบสนองอย่างไรกับทฤษฎีความไม่สมบูรณ์ครั้งที่สองของ Kurt Gödel
กลยุทธ์การทดสอบแบบควบคุม
ความแตกต่างระหว่าง (a) การได้ยินและการพูดและ (b) การฟังและการตอบสนองอย่างเฉียบแหลม - โดยเฉพาะอย่างยิ่งในวันนี้เพราะแชทบอททำ (a) และอาจอยู่ห่างจากการทำ (b) 5 ถึง 500 ปี ในการเข้าถึง (c) เข้าใจอย่างลึกซึ้งและตอบสนองด้วยแรงบันดาลใจนักวิจัย AI ต้องทำมากกว่าการสร้างแบบจำลองจิตใจมนุษย์และเข้าใกล้ความท้าทายในการสร้างแบบจำลองจิตใจของคนเช่นGödel, Einstein และทัวริง ไม่ว่าจะเกิดขึ้นจะยังไม่ถูกเปิดเผย

ข้อกำหนดเฉพาะของเกมเลียนแบบคำบรรยายของอลันทัวริงเหนือคำอธิบายของการทดลองทางความคิดของเขานั้นเป็นเรื่องของการบันทึก

ข้อกำหนดเฉพาะ [ข้อความที่ตัดตอนมาจากบทความจริง]

[เกมเลียนแบบ] เล่นกับคนสามคนผู้ชาย (A) ผู้หญิง (B) และผู้ซักถาม (C) ที่อาจมีเพศสัมพันธ์ทั้งคู่ ผู้สอบปากคำจะอยู่ในห้องแยกจากกันกับอีกสองหน้า เป้าหมายของเกมสำหรับผู้สอบปากคำคือการกำหนดว่าอีกสองคนเป็นผู้ชายและเป็นผู้หญิง เขารู้จักพวกเขาด้วยเลเบล X และ Y และในตอนท้ายของเกมเขากล่าวว่า "X คือ A และ Y คือ B" หรือ "X คือ B และ Y คือ A" ผู้ถามได้รับอนุญาตให้ตั้งคำถามกับ A และ B ดังนี้:

C: X ช่วยบอกความยาวของผมของเขาหรือเธอได้ไหม?

ทีนี้สมมติว่า X เป็น A จริงแล้ว A ต้องตอบ มันเป็นวัตถุของ A ในเกมเพื่อพยายามทำให้ C ทำการระบุผิด คำตอบของเขาอาจเป็น:

ผมของฉันร่วงโรยและเส้นที่ยาวที่สุดจะยาวประมาณเก้านิ้ว

เพื่อที่ว่าน้ำเสียงอาจไม่ช่วยให้ผู้ซักถามควรเขียนคำตอบหรือยังพิมพ์ดีดได้ดีขึ้น การจัดการที่เหมาะสมคือการมีเครื่องส่งสัญญาณทางไกลระหว่างสองห้อง อีกทางเลือกหนึ่งโดยคนกลางทำซ้ำคำถามและคำตอบ เป้าหมายของเกมสำหรับผู้เล่นที่สาม (B) คือการช่วยผู้สอบสวน

กลยุทธ์ที่ดีที่สุดสำหรับเธอน่าจะเป็นคำตอบที่จริง เธอสามารถเพิ่มสิ่งต่าง ๆ เช่น "ฉันเป็นผู้หญิงอย่าฟังเขา!" ถึงคำตอบของเธอ แต่มันจะไม่มีประโยชน์อะไรอย่างที่ผู้ชายพูดออกมาได้

ตอนนี้เราถามคำถามว่า "จะเกิดอะไรขึ้นเมื่อเครื่องจักรเข้าเป็นส่วนหนึ่งของ A ในเกมนี้" ผู้ซักถามจะตัดสินผิดพลาดบ่อยครั้งแค่ไหนเมื่อเล่นเกมแบบนี้เหมือนกับที่เขาทำเมื่อเล่นเกมระหว่างผู้ชายกับผู้หญิง คำถามเหล่านี้มาแทนที่ต้นฉบับของเรา "เครื่องจักรสามารถคิดได้หรือไม่"

มีการวิพากษ์วิจารณ์หลายพันเรื่องจากทฤษฎีสัมพัทธภาพของไอน์สไตน์และการทดสอบของทัวริง ศึกษาความคิดของผู้มีส่วนร่วมที่ยอดเยี่ยมผ่านคำพูดของพวกเขาเองและการปฏิเสธทั้งหมดที่ตามมานั้นจะน่าสนใจเป็นหลักเมื่อขาดความยิ่งใหญ่

คำถามรองในหัวข้อนี้

มีข้อกำหนดอะไรบ้างหากผู้ประเมินต้องปฏิบัติตามเพื่อให้ผ่านการรับรองสำหรับการทดสอบ

ผู้สอบถาม (C) ไม่ใช่ผู้ประเมิน การประเมินผลจะเป็นความพยายามที่จะเป็นไปตามวัตถุประสงค์อย่างไรก็ตามหลักฐานการทดลองทางความคิดของทัวริงคือผู้สอบปากคำให้การตัดสินส่วนตัวของเขาหรือเธอ จากมุมมองทางสถิติผู้ซักถามควรเลือกแบบสุ่มจากประชากรโลกที่ใช้ภาษาพูดร่วมกับ (A) และ (B)

ต้องมีผู้เข้าร่วมสองคนเสมอในการสนทนา (หนึ่งคนและคอมพิวเตอร์หนึ่งเครื่อง) หรือมากกว่านั้นอีกหรือไม่

ต้องมีสองสิ่งพอดีกับสถานการณ์ที่อธิบายโดย Alan Turing (ดูรายละเอียดเพิ่มเติมด้านล่าง)

การทดสอบยาหลอก (ในกรณีที่ไม่มีคอมพิวเตอร์เกี่ยวข้อง) อนุญาตหรือสนับสนุนหรือไม่

เราสามารถทดสอบทุกสิ่งได้และนักวิจัยก็ทำเช่นนั้นซึ่งอยู่นอกขอบเขตของการทดลองทางความคิดของทัวริง ⁴

มีผู้ประเมินหลายคนได้ไหม ถ้าเป็นเช่นนั้นการตัดสินใจจะต้องเป็นเอกฉันท์ในหมู่ผู้ประเมินทั้งหมดเพื่อให้เครื่องผ่านการทดสอบ?

สิ่งที่จะเปิดเผยข้อมูลส่วนใหญ่ให้กับผู้ที่สนับสนุนเกมเลียนแบบที่เกิดขึ้นจริงนั้นเป็นการทดสอบแบบสุ่มเต็มรูปแบบโดยที่ (A), (B), และ (C) ถูกสุ่มจากตัวอย่างของผู้ชายผู้หญิงหรือซอฟต์แวร์เหล่านั้น ระบบของประเภทที่อยู่ภายใต้การทดสอบที่สามารถสนทนาในภาษาทั่วไปและการทดสอบจะทำงานหลายครั้งด้วยการสุ่มเลือกจากตัวอย่าง

ความเป็นเอกภาพการประเมินความซับซ้อนที่เพิ่มขึ้นและการสื่อสารอื่น ๆ นอกเหนือจากที่ระบุไว้ในการทดสอบจะทำให้เกิดปัญหาได้ถ้าหากใครมีความตั้งใจดั้งเดิมของทัวริงในคำถาม "คอมพิวเตอร์สามารถคิดได้หรือไม่"

มุมมองอื่น ๆ ของหน่วยสืบราชการลับ

ทัวริงเช่นเดียวกับRené Descartes ผู้ซึ่งระบุว่าเครื่องจักรจะไม่ผ่านเกมเลียนแบบของทัวริงที่มีการควบคุมน้อยกว่าดูสติปัญญาผ่านเลนส์การสนทนา คนอื่น ๆ ถือว่าการสนทนาประเภทอื่นและบริบทอื่นที่ไม่ใช่บทสนทนา ฉันพูดถึงเรื่องนี้ในคำถามอื่น:

สมองสามารถฉลาดโดยไม่มีร่างกายได้หรือไม่?

การอ้างอิงและเชิงอรรถ

[1] สัมพัทธภาพ: ทฤษฎีพิเศษและทฤษฎีทั่วไปโดย Albert Einstein, 1916

[2] หลักการสัมพัทธภาพโดย Albert Einstein และ Francis A. Davis, 1923

[3] การคำนวณโดยเครื่องจักรทัวริง (1950) ใจ 49: 433-460 https://www.csee.umbc.edu/courses/471/papers/turing.pdf

บทความของทัวริงในปี 1950 ไม่ได้แนะนำว่าควรทำการทดลองทางความคิดของเขาและใช้ในการตรวจสอบเชิงพาณิชย์ของระบบ AI ในอนาคต อย่างไรก็ตามอลันทัวริงเกี่ยวข้องกับการใช้คอมพิวเตอร์ในจุดหนึ่งในอาชีพของเขา นั่นคือตอนที่พวกนาซีบุกฝรั่งเศสทำให้ป่นปี้บ้านเกิดของเขาจากอากาศและจมลงไปในกองทัพเรืออังกฤษเป็นส่วนสำคัญจากด้านล่างด้วยความช่วยเหลือของ Enigma วิทยาการเข้ารหัสลับ

— ดักลาสดาเซโก
แหล่งที่มา