เลขที่
TL; DR: การทดสอบ Lovelace 2.0 นั้นคลุมเครือมากทำให้ไม่เหมาะสำหรับการประเมินความฉลาด นอกจากนี้ยังถูกละเว้นโดยนักวิจัยของการคำนวณความคิดสร้างสรรค์ที่มีการทดสอบของตัวเองเพื่อประเมินความคิดสร้างสรรค์
คำตอบอีกต่อไป: ตาม Google Scholar มี 10 การอ้างอิงถึงกระดาษ "Lovelace Test 2.0" การอ้างอิงทั้งหมดเหล่านี้มีอยู่เพียงเพื่อชี้ให้เห็นว่า Lovelace Test 2.0 มีอยู่ ในความเป็นจริงบทความอย่างน้อยสองเรื่องที่ฉันปรึกษา ( แนวทางใหม่ในการระบุพฤติกรรมที่คำนึงถึงความเป็นมนุษย์และFraMoTEC: กรอบสำหรับการก่อสร้างแบบแยกส่วน - สภาพแวดล้อมเพื่อประเมินระบบควบคุมแบบปรับได้ ) เสนอการทดสอบของตนเองแทน
หนึ่งในผู้เขียนที่เขียนกระดาษ FraMoTEC ก็เขียนวิทยานิพนธ์ของเขาใน FraMoTECและวิจารณ์การทดสอบ Lovelace 2.0 และการทดสอบอื่น ๆ ที่คล้ายคลึงกันโดยอ้อม:
ปัญหาห้อง Piaget-MacGyver [Bringsjord and Licato, 2012], Lovelace Test 2.0 [Riedl, 2014] และปัญหา Toy Box [Johnston, 2010] ทั้งหมดมาพร้อมกับคำเตือนที่กำหนดชัดเจนมาก - วิธีการประเมินเหล่านี้อาจจะเกิดขึ้น แต่ก็ยากที่จะเปรียบเทียบตัวแทนสองตัว (หรือตัวควบคุม) ที่เข้าร่วมในการประเมินโดเมนเฉพาะของตัวเองซึ่งเป็นสิ่งที่เกิดขึ้นบ่อยครั้งเมื่อตัวแทนได้รับการปรับแต่งให้ผ่านการประเมินที่เฉพาะเจาะจง
ประเด็นสำคัญอีกข้อหนึ่งของ Lovelace Test 2.0 ก็คือมีการแพร่กระจายของการทดสอบอื่น ๆเพื่อ "วัด" ความคิดสร้างสรรค์ของ AI การประเมินผลการประเมิน: การประเมินความคืบหน้าในการวิจัยความคิดสร้างสรรค์เชิงคำนวณจัดพิมพ์โดย Anna Jordanous ในปี 2011 (3 ปีก่อนการประดิษฐ์ Lovelace Test 2.0) วิเคราะห์งานวิจัยเกี่ยวกับความคิดสร้างสรรค์ของ AI และเขียน:
จาก 18 บทความที่ใช้วิธีการประเมินความคิดสร้างสรรค์เพื่อประเมินความคิดสร้างสรรค์ของระบบของพวกเขาไม่มีวิธีการใดวิธีหนึ่งที่กลายเป็นมาตรฐานทั่วทั้งชุมชน กรอบการสร้างสรรค์ขาตั้งกล้องของColton ( Colton 2008 ) ใช้บ่อยที่สุด (6 ครั้ง) โดยใช้ 4 เอกสารโดยใช้เกณฑ์เชิงประจักษ์ของRitchie ( Ritchie 2007 )
ใบนี้เหลือ10ฉบับด้วยวิธีการประเมินความคิดสร้างสรรค์อื่น
เป้าหมายของ "การประเมินผลการประเมินผล" คือการทำให้กระบวนการประเมินความคิดสร้างสรรค์เป็นมาตรฐานเพื่อหลีกเลี่ยงความเป็นไปได้ของสนามที่ซบเซาเนื่องจากการเพิ่มจำนวนของการทดสอบความคิดสร้างสรรค์จำนวนมาก แอนนา Jordanous ยังคงให้ความสนใจในการประเมินการทดสอบความคิดสร้างสรรค์การเผยแพร่บทความเช่น"ก้าวกลับไปที่ความคืบหน้าการส่งต่อ: การตั้งค่ามาตรฐานสำหรับการ Meta-การประเมินผลการคำนวณความคิดสร้างสรรค์"และPPPPerspectives สี่ในการคำนวณความคิดสร้างสรรค์
"การประเมินการประเมินผล" จะให้ความเห็นเพื่ออธิบายการแพร่กระจายของระบบเพื่อประเมินความคิดสร้างสรรค์:
มาตรฐานการประเมินไม่ง่ายที่จะกำหนด เป็นการยากที่จะประเมินความคิดสร้างสรรค์และยากยิ่งที่จะอธิบายว่าเราประเมินความคิดสร้างสรรค์ในความคิดสร้างสรรค์ของมนุษย์เช่นเดียวกับความคิดสร้างสรรค์ในการคำนวณ ในความเป็นจริงแม้แต่คำจำกัดความของความคิดสร้างสรรค์ก็เป็นปัญหา (Plucker, Beghetto และ Dow 2004) เป็นการยากที่จะระบุว่าการ 'สร้างสรรค์' เกิดขึ้นได้อย่างไรจึงไม่มีการวัดเปรียบเทียบหรือความจริงพื้นฐานที่จะวัด
ความจริงที่ว่ามีการทดสอบความคิดสร้างสรรค์มากมายอยู่แล้ว (เท่าที่ Jordanous สามารถประกอบอาชีพทางวิชาการในการศึกษาได้) หมายความว่ามันยากมากสำหรับการทดสอบใหม่ใด ๆ (เช่น Lovelace Test 2.0) ถึงแม้จะสังเกตได้ (อ้างน้อยกว่ามาก ) ทำไมคุณถึงต้องการใช้ Lovelace Test 2.0 เมื่อมีการทดสอบอื่น ๆ มากมายที่คุณสามารถใช้แทนได้