Lovelace Test 2.0 ประสบความสำเร็จในการตั้งค่าทางวิชาการหรือไม่?

ในเดือนตุลาคม 2014 ดร. มาร์คริเดลตีพิมพ์วิธีการทดสอบความฉลาดทางไอเรียกว่า"เลิฟเลซทดสอบ 2.0"หลังจากได้รับแรงบันดาลใจจากการทดสอบเลิฟเลซดั้งเดิม (เผยแพร่ในปี 2544) มาร์คเชื่อว่าการทดสอบเลิฟเลซดั้งเดิมนั้นเป็นไปไม่ได้ที่จะผ่านดังนั้นแนะนำเวอร์ชันที่อ่อนแอกว่าและมีประโยชน์มากกว่า

การทดสอบ Lovelace 2.0 ทำให้ข้อสันนิษฐานว่า AI จะฉลาดต้องแสดงความคิดสร้างสรรค์ จากกระดาษเอง:

การทดสอบ Lovelace 2.0 มีดังนี้: เอเจนต์เทียม a ถูกท้าทายดังต่อไปนี้:

a ต้องสร้างสิ่งประดิษฐ์ o ประเภท t;

o ต้องเป็นไปตามชุดของข้อ จำกัด C ที่ ci ∈ C เป็นเกณฑ์ใด ๆ ที่แสดงออกได้ในภาษาธรรมชาติ

มนุษย์ผู้ประเมิน h เมื่อเลือก t และ C พอใจว่า o เป็นตัวอย่างที่ถูกต้องของ t และตรงกับ C; และ

ผู้ตัดสิน r กำหนดชุดของ t และ C ที่จะไม่เป็นจริงสำหรับมนุษย์โดยเฉลี่ย

เนื่องจากมีความเป็นไปได้ที่ผู้ประเมินมนุษย์จะมีข้อ จำกัด ที่ค่อนข้างง่ายสำหรับ AI ที่จะเอาชนะผู้ประเมินมนุษย์จึงคาดว่าจะมีข้อ จำกัด ที่ซับซ้อนมากขึ้นสำหรับ AI จนกระทั่ง AI ล้มเหลว จุดของการทดสอบเลิฟเลซ 2.0 คือการเปรียบเทียบความคิดสร้างสรรค์ของ AIs ที่แตกต่างกันเพื่อไม่ให้เส้นแบ่งที่ชัดเจนระหว่าง 'ความฉลาด' และ 'ไม่ฉลาด' เช่นการทดสอบของทัวริง

อย่างไรก็ตามฉันอยากรู้ว่าการทดสอบนี้มีการใช้งานจริงในสภาพแวดล้อมทางวิชาการหรือไม่หรือมันถูกมองว่าเป็นการทดลองทางความคิดเท่านั้น การทดสอบเลิฟเลซนั้นใช้ง่ายในการตั้งค่าทางวิชาการ (คุณเพียงแค่ต้องพัฒนาข้อ จำกัด ที่สามารถวัดได้ซึ่งคุณสามารถใช้เพื่อทดสอบตัวแทนเทียม) แต่มันก็อาจเป็นอัตวิสัยเกินไปด้วยเช่นกัน (มนุษย์อาจไม่เห็นด้วยกับข้อ จำกัด บางประการและ สิ่งประดิษฐ์สร้างสรรค์ที่ AI ทำขึ้นจริงจะได้ผลลัพธ์สุดท้าย)

history intelligence-testing

— เหลือทางตะวันออกใน 10_6_19
แหล่งที่มา

เลขที่

TL; DR: การทดสอบ Lovelace 2.0 นั้นคลุมเครือมากทำให้ไม่เหมาะสำหรับการประเมินความฉลาด นอกจากนี้ยังถูกละเว้นโดยนักวิจัยของการคำนวณความคิดสร้างสรรค์ที่มีการทดสอบของตัวเองเพื่อประเมินความคิดสร้างสรรค์

คำตอบอีกต่อไป: ตาม Google Scholar มี 10 การอ้างอิงถึงกระดาษ "Lovelace Test 2.0" การอ้างอิงทั้งหมดเหล่านี้มีอยู่เพียงเพื่อชี้ให้เห็นว่า Lovelace Test 2.0 มีอยู่ ในความเป็นจริงบทความอย่างน้อยสองเรื่องที่ฉันปรึกษา ( แนวทางใหม่ในการระบุพฤติกรรมที่คำนึง ถึงความเป็นมนุษย์และFraMoTEC: กรอบสำหรับการก่อสร้างแบบแยกส่วน - สภาพแวดล้อมเพื่อประเมินระบบควบคุมแบบปรับได้ ) เสนอการทดสอบของตนเองแทน

หนึ่งในผู้เขียนที่เขียนกระดาษ FraMoTEC ก็เขียนวิทยานิพนธ์ของเขาใน FraMoTECและวิจารณ์การทดสอบ Lovelace 2.0 และการทดสอบอื่น ๆ ที่คล้ายคลึงกันโดยอ้อม:

ปัญหาห้อง Piaget-MacGyver [Bringsjord and Licato, 2012], Lovelace Test 2.0 [Riedl, 2014] และปัญหา Toy Box [Johnston, 2010] ทั้งหมดมาพร้อมกับคำเตือนที่กำหนดชัดเจนมาก - วิธีการประเมินเหล่านี้อาจจะเกิดขึ้น แต่ก็ยากที่จะเปรียบเทียบตัวแทนสองตัว (หรือตัวควบคุม) ที่เข้าร่วมในการประเมินโดเมนเฉพาะของตัวเองซึ่งเป็นสิ่งที่เกิดขึ้นบ่อยครั้งเมื่อตัวแทนได้รับการปรับแต่งให้ผ่านการประเมินที่เฉพาะเจาะจง

ประเด็นสำคัญอีกข้อหนึ่งของ Lovelace Test 2.0 ก็คือมีการแพร่กระจายของการทดสอบอื่น ๆเพื่อ "วัด" ความคิดสร้างสรรค์ของ AI การประเมินผลการประเมิน: การประเมินความคืบหน้าในการวิจัยความคิดสร้างสรรค์เชิงคำนวณจัดพิมพ์โดย Anna Jordanous ในปี 2011 (3 ปีก่อนการประดิษฐ์ Lovelace Test 2.0) วิเคราะห์งานวิจัยเกี่ยวกับความคิดสร้างสรรค์ของ AI และเขียน:

จาก 18 บทความที่ใช้วิธีการประเมินความคิดสร้างสรรค์เพื่อประเมินความคิดสร้างสรรค์ของระบบของพวกเขาไม่มีวิธีการใดวิธีหนึ่งที่กลายเป็นมาตรฐานทั่วทั้งชุมชน กรอบการสร้างสรรค์ขาตั้งกล้องของColton ( Colton 2008 ) ใช้บ่อยที่สุด (6 ครั้ง) โดยใช้ 4 เอกสารโดยใช้เกณฑ์เชิงประจักษ์ของRitchie ( Ritchie 2007 )

ใบนี้เหลือ10ฉบับด้วยวิธีการประเมินความคิดสร้างสรรค์อื่น

เป้าหมายของ "การประเมินผลการประเมินผล" คือการทำให้กระบวนการประเมินความคิดสร้างสรรค์เป็นมาตรฐานเพื่อหลีกเลี่ยงความเป็นไปได้ของสนามที่ซบเซาเนื่องจากการเพิ่มจำนวนของการทดสอบความคิดสร้างสรรค์จำนวนมาก แอนนา Jordanous ยังคงให้ความสนใจในการประเมินการทดสอบความคิดสร้างสรรค์การเผยแพร่บทความเช่น"ก้าวกลับไปที่ความคืบหน้าการส่งต่อ: การตั้งค่ามาตรฐานสำหรับการ Meta-การประเมินผลการคำนวณความคิดสร้างสรรค์"และPPPPerspectives สี่ในการคำนวณความคิดสร้างสรรค์

"การประเมินการประเมินผล" จะให้ความเห็นเพื่ออธิบายการแพร่กระจายของระบบเพื่อประเมินความคิดสร้างสรรค์:

มาตรฐานการประเมินไม่ง่ายที่จะกำหนด เป็นการยากที่จะประเมินความคิดสร้างสรรค์และยากยิ่งที่จะอธิบายว่าเราประเมินความคิดสร้างสรรค์ในความคิดสร้างสรรค์ของมนุษย์เช่นเดียวกับความคิดสร้างสรรค์ในการคำนวณ ในความเป็นจริงแม้แต่คำจำกัดความของความคิดสร้างสรรค์ก็เป็นปัญหา (Plucker, Beghetto และ Dow 2004) เป็นการยากที่จะระบุว่าการ 'สร้างสรรค์' เกิดขึ้นได้อย่างไรจึงไม่มีการวัดเปรียบเทียบหรือความจริงพื้นฐานที่จะวัด

ความจริงที่ว่ามีการทดสอบความคิดสร้างสรรค์มากมายอยู่แล้ว (เท่าที่ Jordanous สามารถประกอบอาชีพทางวิชาการในการศึกษาได้) หมายความว่ามันยากมากสำหรับการทดสอบใหม่ใด ๆ (เช่น Lovelace Test 2.0) ถึงแม้จะสังเกตได้ (อ้างน้อยกว่ามาก ) ทำไมคุณถึงต้องการใช้ Lovelace Test 2.0 เมื่อมีการทดสอบอื่น ๆ มากมายที่คุณสามารถใช้แทนได้

— เหลือทางตะวันออกใน 10_6_19
แหล่งที่มา