ขอบคุณAryeh ที่นำคำถามนี้มาให้ความสนใจ
ดังที่คนอื่น ๆ ได้กล่าวไว้คำตอบสำหรับ (1) คือใช่และวิธีการง่าย ๆ ของการลดความเสี่ยงเชิงประจักษ์ในCทำให้เกิดความซับซ้อนของตัวอย่างO((d/ε)log(1/ε))ซับซ้อน (ดู Vapnik และ Chervonenkis, 1974; Blumer, Ehrenfeucht, Haussler และ Warmuth, 1989)
ในฐานะที่เป็น (2) ในความเป็นจริงที่รู้กันว่ามีอยู่ช่องว่างC
ที่ไม่เหมาะสมประสบความสำเร็จในขั้นตอนวิธีการเรียนรู้ที่ดีกว่าΩ((d/ε)log(1/ε))ซับซ้อนตัวอย่างและการเรียนรู้ที่เหมาะสมจึงไม่สามารถบรรลุที่ดีที่สุดO(d/ε)ความซับซ้อนตัวอย่าง สำหรับความรู้ของฉันความจริงข้อนี้ไม่เคยได้รับการเผยแพร่จริง ๆ แต่มีรากฐานมาจากข้อโต้แย้งที่เกี่ยวข้องของ Daniely และ Shalev-Shwartz (COLT 2014) (เดิมเป็นสูตรสำหรับคำถามที่แตกต่างกัน
พิจารณากรณีที่เรียบง่ายd=1และใส่พื้นที่Xเป็น{1,2,...,1/ε} , และCคือ singletons fz(x):=I[x=z],z∈X : นั่นคือตัวจําแนกแต่ละตัวในCประเภทหนึ่งจุดจากXเป็น1และอื่น ๆ เป็น0. สำหรับขอบเขตล่างใช้ฟังก์ชันเป้าหมายเป็นการสุ่มซิงเกิลตันfx∗โดยที่x∗∼Uniform(X) , และP , การกระจายตัวของส่วนขอบของXเป็นชุดบนX∖{x∗} . ตอนนี้ผู้เรียนไม่เคยเห็นตัวอย่างใด ๆ ที่มีป้ายกำกับ1แต่จะต้องเลือกจุดzเพื่อเดาว่ามีป้ายกำกับ1 (ที่สำคัญฟังก์ชั่น `'ทั้งหมดเป็นศูนย์' ' ไม่ได้อยู่ในCใด ๆ ดังนั้นผู้เรียนที่เหมาะสมจะต้องเดาบางz ) และจนกว่าจะได้เห็นทุกจุดในX∖{x∗}มันมีอย่างน้อย1/2โอกาสของการคาดเดาไม่ถูกต้อง (เช่นความน่าจะเป็นหลังของfzมีz≠x∗อย่างน้อย1/2 ) อาร์กิวเมนต์สะสมคูปองหมายถึงมันจะต้องΩ((1/ε)log(1/ε))ตัวอย่างที่จะเห็นจุดในทุกX∖{x∗} } ดังนั้นนี้พิสูจน์ต่ำผูกพันของΩ ( ( 1 / ε ) เข้าสู่ระบบ( 1 / ε ) )สำหรับผู้เรียนที่เหมาะสมทั้งหมด
สำหรับทั่วไปd> 1เราใช้Xเป็น{ 1 , 2 , . . , d/ (4ε)} , ใช้คเป็นตัวแยกประเภทผมAสำหรับชุดA ⊂ Xมีขนาดตรงd , เลือกฟังก์ชั่นเป้าหมายโดยการสุ่มจากค , และใช้Pอีกครั้งเหมือนกันในจุดที่ฟังก์ชั่นเป้าหมายจำแนก0 ( ดังนั้นผู้เรียนจะไม่เห็นจุดที่มีป้ายกำกับ1) แล้วลักษณะทั่วไปของการโต้แย้งคูปองสะสมหมายถึงเราต้องΩ((d/ε)log(1/ε))ตัวอย่างที่จะเห็นอย่างน้อย| X| -2วันจุดที่แตกต่างจากXและไม่เห็นจุดนี้แตกต่างกันมาก ๆ เรียนที่เหมาะสมมีอย่างน้อย1 / 3โอกาสในการได้รับมากกว่าd/ 4ของการคาดเดาของของdจุดผิดพลาดในการได้รับการแต่งตั้งสมมติฐานของเอชAdชั่วโมงAหมายถึงอัตราความผิดพลาดของตนเป็นใหญ่กว่าεεดังนั้นในกรณีนี้ไม่มีการเรียนรู้ที่เหมาะสมกับความซับซ้อนตัวอย่างขนาดเล็กกว่าΩ ( ( d/ ε)บันทึก( 1 / ε ) )ซึ่งหมายความว่าไม่มีการเรียนรู้ที่เหมาะสมประสบความสำเร็จในความซับซ้อนตัวอย่างที่ดีที่สุดO ( d/ ε) )
โปรดทราบว่าผลลัพธ์ค่อนข้างเฉพาะกับพื้นที่คสร้างขึ้น มีช่องว่างที่มีอยู่ทำคที่เรียนที่เหมาะสมสามารถบรรลุO ( d/ ε)ซับซ้อนตัวอย่างที่ดีที่สุดและแน่นอนแม้ที่แน่นอนแสดงออกเต็มO ( ( d/ ε)+(1 / ε)เข้าสู่ระบบ( 1 / δ) )จาก ( Hanneke, 2016a) ขอบเขตบนและล่างสำหรับผู้เรียน ERM ทั่วไปได้รับการพัฒนาใน (Hanneke, 2016b) ซึ่งวัดปริมาณในแง่ของคุณสมบัติของพื้นที่ครวมถึงการพูดคุยกรณีพิเศษบางอย่างที่บางครั้งผู้เรียนที่เหมาะสมสามารถบรรลุความซับซ้อนของตัวอย่างที่ดีที่สุดได้
อ้างอิง:
Vapnik และ Chervonenkis (1974) ทฤษฎีการจดจำรูปแบบ Nauka มอสโก 2517
Blumer, Ehrenfeucht, Haussler และ Warmuth (1989) ความสามารถในการเรียนรู้และมิติของ Vapnik-Chervonenkis วารสารสมาคมเพื่อการคำนวณเครื่องจักร, 36 (4): 929–965
Daniely และ Shalev-Shwartz (2014) ผู้เรียนที่เหมาะสมที่สุดสำหรับปัญหาหลายคลาส ในการประชุมวิชาการทฤษฎีการเรียนรู้ครั้งที่ 27.
Hanneke (2016a) ความซับซ้อนของตัวอย่างที่เหมาะสมที่สุดของการเรียนรู้ PAC วารสารการวิจัยการเรียนรู้ของเครื่องภาคการ 17 (38), pp. 1-15
Hanneke (2016b) ขอบเขตข้อผิดพลาดที่บริสุทธิ์สำหรับอัลกอริทึมการเรียนรู้หลายอย่าง วารสารการวิจัยการเรียนรู้ของเครื่องภาคการ 17 (135), pp. 1-55