การเรียนรู้ขอบเขต PAC VC ที่เหมาะสม


11

เป็นที่ทราบกันดีว่าสำหรับแนวคิดคลาสCมีมิติ VC dมันเพียงพอที่จะได้O(dεlog1ε)ตัวอย่างที่มีข้อความที่จะเรียนรู้ PACCCไม่ชัดเจนสำหรับฉันหากอัลกอริทึมการเรียนรู้ PAC (ซึ่งใช้ตัวอย่างจำนวนมากเหล่านี้) เหมาะสมหรือไม่เหมาะสม? ในหนังสือเรียนของ Kearns และ Vazirani เช่นเดียวกับ Anthony และ Biggs ดูเหมือนว่าขั้นตอนวิธีการเรียนรู้ PAC นั้นไม่เหมาะสม (เช่นข้อสมมติผลลัพธ์ไม่ได้อยู่ในC)

  1. บางคนสามารถอธิบายได้ไหมว่าขอบเขตบนที่คล้ายกันมีไว้สำหรับการตั้งค่าการเรียนรู้ PAC ที่เหมาะสมหรือไม่ ถ้าเป็นเช่นนั้นคุณสามารถให้การอ้างอิงกับฉันได้ที่นี่ถูกกล่าวถึงอย่างชัดเจนและมีหลักฐานที่มีอยู่ในตัวเองด้วยหรือไม่

  2. เมื่อเร็ว ๆ นี้การปรับปรุง Hanneke ผูกพันโดยการกำจัดของlog(1/ε)ปัจจัย ใครบางคนสามารถอธิบายได้ว่าเป็นที่รู้กันว่าสามารถถอดออกได้สำหรับการตั้งค่าการเรียนรู้ PAC ที่เหมาะสม? หรือมันเป็นคำถามเปิดยัง?log(1/ε)


เอกสารอ้างอิงของ Hanneke ฉบับใดที่คุณอ้างถึง
นักเรียนระดับบัณฑิตศึกษา

คำตอบ:


9

ขอบคุณAryeh ที่นำคำถามนี้มาให้ความสนใจ

ดังที่คนอื่น ๆ ได้กล่าวไว้คำตอบสำหรับ (1) คือใช่และวิธีการง่าย ๆ ของการลดความเสี่ยงเชิงประจักษ์ในCทำให้เกิดความซับซ้อนของตัวอย่างO((d/ε)log(1/ε))ซับซ้อน (ดู Vapnik และ Chervonenkis, 1974; Blumer, Ehrenfeucht, Haussler และ Warmuth, 1989)

ในฐานะที่เป็น (2) ในความเป็นจริงที่รู้กันว่ามีอยู่ช่องว่างC ที่ไม่เหมาะสมประสบความสำเร็จในขั้นตอนวิธีการเรียนรู้ที่ดีกว่าΩ((d/ε)log(1/ε))ซับซ้อนตัวอย่างและการเรียนรู้ที่เหมาะสมจึงไม่สามารถบรรลุที่ดีที่สุดO(d/ε)ความซับซ้อนตัวอย่าง สำหรับความรู้ของฉันความจริงข้อนี้ไม่เคยได้รับการเผยแพร่จริง ๆ แต่มีรากฐานมาจากข้อโต้แย้งที่เกี่ยวข้องของ Daniely และ Shalev-Shwartz (COLT 2014) (เดิมเป็นสูตรสำหรับคำถามที่แตกต่างกัน

พิจารณากรณีที่เรียบง่ายd=1และใส่พื้นที่Xเป็น{1,2,...,1/ε} , และCคือ singletons fz(x):=I[x=z],zX : นั่นคือตัวจําแนกแต่ละตัวในCประเภทหนึ่งจุดจากXเป็น1และอื่น ๆ เป็น0. สำหรับขอบเขตล่างใช้ฟังก์ชันเป้าหมายเป็นการสุ่มซิงเกิลตันfxโดยที่xUniform(X) , และP , การกระจายตัวของส่วนขอบของXเป็นชุดบนX{x} . ตอนนี้ผู้เรียนไม่เคยเห็นตัวอย่างใด ๆ ที่มีป้ายกำกับ1แต่จะต้องเลือกจุดzเพื่อเดาว่ามีป้ายกำกับ1 (ที่สำคัญฟังก์ชั่น `'ทั้งหมดเป็นศูนย์' ' ไม่ได้อยู่ในCใด ๆ ดังนั้นผู้เรียนที่เหมาะสมจะต้องเดาบางz ) และจนกว่าจะได้เห็นทุกจุดในX{x}มันมีอย่างน้อย1/2โอกาสของการคาดเดาไม่ถูกต้อง (เช่นความน่าจะเป็นหลังของfzมีzxอย่างน้อย1/2 ) อาร์กิวเมนต์สะสมคูปองหมายถึงมันจะต้องΩ((1/ε)log(1/ε))ตัวอย่างที่จะเห็นจุดในทุกX{x} } ดังนั้นนี้พิสูจน์ต่ำผูกพันของΩ((1/ε)เข้าสู่ระบบ(1/ε))สำหรับผู้เรียนที่เหมาะสมทั้งหมด

สำหรับทั่วไปd>1เราใช้Xเป็น{1,2,...,d/(4ε)} , ใช้เป็นตัวแยกประเภทผมAสำหรับชุดAXมีขนาดตรงd , เลือกฟังก์ชั่นเป้าหมายโดยการสุ่มจาก , และใช้Pอีกครั้งเหมือนกันในจุดที่ฟังก์ชั่นเป้าหมายจำแนก0 ( ดังนั้นผู้เรียนจะไม่เห็นจุดที่มีป้ายกำกับ1) แล้วลักษณะทั่วไปของการโต้แย้งคูปองสะสมหมายถึงเราต้องΩ((d/ε)เข้าสู่ระบบ(1/ε))ตัวอย่างที่จะเห็นอย่างน้อย|X|-2dจุดที่แตกต่างจากXและไม่เห็นจุดนี้แตกต่างกันมาก ๆ เรียนที่เหมาะสมมีอย่างน้อย1/3โอกาสในการได้รับมากกว่าd/4ของการคาดเดาของของdจุดผิดพลาดในการได้รับการแต่งตั้งสมมติฐานของเอชAdชั่วโมงAหมายถึงอัตราความผิดพลาดของตนเป็นใหญ่กว่าεεดังนั้นในกรณีนี้ไม่มีการเรียนรู้ที่เหมาะสมกับความซับซ้อนตัวอย่างขนาดเล็กกว่าΩ((d/ε)เข้าสู่ระบบ(1/ε))ซึ่งหมายความว่าไม่มีการเรียนรู้ที่เหมาะสมประสบความสำเร็จในความซับซ้อนตัวอย่างที่ดีที่สุดO(d/ε) )

โปรดทราบว่าผลลัพธ์ค่อนข้างเฉพาะกับพื้นที่สร้างขึ้น มีช่องว่างที่มีอยู่ทำที่เรียนที่เหมาะสมสามารถบรรลุO(d/ε)ซับซ้อนตัวอย่างที่ดีที่สุดและแน่นอนแม้ที่แน่นอนแสดงออกเต็มO((d/ε)+(1/ε)เข้าสู่ระบบ(1/δ))จาก ( Hanneke, 2016a) ขอบเขตบนและล่างสำหรับผู้เรียน ERM ทั่วไปได้รับการพัฒนาใน (Hanneke, 2016b) ซึ่งวัดปริมาณในแง่ของคุณสมบัติของพื้นที่รวมถึงการพูดคุยกรณีพิเศษบางอย่างที่บางครั้งผู้เรียนที่เหมาะสมสามารถบรรลุความซับซ้อนของตัวอย่างที่ดีที่สุดได้

อ้างอิง:

Vapnik และ Chervonenkis (1974) ทฤษฎีการจดจำรูปแบบ Nauka มอสโก 2517

Blumer, Ehrenfeucht, Haussler และ Warmuth (1989) ความสามารถในการเรียนรู้และมิติของ Vapnik-Chervonenkis วารสารสมาคมเพื่อการคำนวณเครื่องจักร, 36 (4): 929–965

Daniely และ Shalev-Shwartz (2014) ผู้เรียนที่เหมาะสมที่สุดสำหรับปัญหาหลายคลาส ในการประชุมวิชาการทฤษฎีการเรียนรู้ครั้งที่ 27.

Hanneke (2016a) ความซับซ้อนของตัวอย่างที่เหมาะสมที่สุดของการเรียนรู้ PAC วารสารการวิจัยการเรียนรู้ของเครื่องภาคการ 17 (38), pp. 1-15

Hanneke (2016b) ขอบเขตข้อผิดพลาดที่บริสุทธิ์สำหรับอัลกอริทึมการเรียนรู้หลายอย่าง วารสารการวิจัยการเรียนรู้ของเครื่องภาคการ 17 (135), pp. 1-55


น่าสนใจ ... มีการจำแนกลักษณะเฉพาะของคลาสที่การเรียนรู้ PAC ที่เหมาะสมเป็นแบบตัวอย่างหรือไม่? หรืออย่างน้อยก็มีเงื่อนไขเพียงพอ (ปิดใต้การรวมกันเป็นสหภาพ?)C
Clement C.

2
@ClementC ไม่มีการระบุลักษณะที่สมบูรณ์ของชั้นเรียนใดที่มีอัตราที่เหมาะสมที่สุดที่ทำได้โดยผู้เรียนที่เหมาะสมโดยทั่วไป กระดาษอ้างอิง "ขอบเขตข้อผิดพลาดที่ได้รับการขัดเกลา ... " ให้การจำแนกลักษณะของ combinatorial ซึ่งคลาสนั้นยอมรับอัตราที่เหมาะสมที่สุดสำหรับผู้เรียน ERM ทั้งหมด (ข้อพิสูจน์ 14) ปริมาณที่เกี่ยวข้องคือ "หมายเลขดาว": จำนวนคะแนนมากที่สุดซึ่งสามารถพลิกฉลากของจุดใดจุดหนึ่งได้โดยไม่ต้องเปลี่ยนจุดอื่น (คำจำกัดความที่ 9) ชั้นเรียนที่ปิดทางแยกมีผู้เรียนที่เหมาะสมที่สุด: "การปิด" alg (ทฤษฎีบทที่ 5 ในบทความและได้รับการพิสูจน์โดยDarnstädt, 2015)
S. Hanneke

ขอบคุณ!
ผ่อนผัน C.

6

คำถามของคุณ (1) และ (2) เกี่ยวข้อง อันดับแรกให้พูดถึงการเรียนรู้ PAC ที่เหมาะสม เป็นที่ทราบกันดีว่ามีผู้เรียน PAC ที่เหมาะสมที่บรรลุข้อผิดพลาดของตัวอย่างเป็นศูนย์และยังต้องการตัวอย่าง สำหรับหลักฐานที่เรียบง่ายของεพึ่งพาพิจารณาระดับแนวคิดของช่วงเวลา[,][0,1]ภายใต้การกระจายชุด ถ้าเราเลือกที่เล็กที่สุดช่วงเวลาที่สอดคล้องกันเราแน่นอนได้รับความซับซ้อนตัวอย่างO(1/ε) อย่างไรก็ตามเราเลือกช่วงเวลาที่สอดคล้องกันมากที่สุดและแนวคิดเป้าหมายคือช่วงเวลาเช่น[0,0]Ω(dϵlog1ϵ)ϵ[a,b][0,1]O(1/ϵ)[0,0]. จากนั้นอาร์กิวเมนต์ตัวรวบรวมคูปองแบบง่ายแสดงให้เห็นว่าถ้าเราไม่ได้รับประมาณตัวอย่างเราจะถูกหลอกโดยการเว้นวรรคระหว่างตัวอย่างเชิงลบ (ชนิดเดียวที่เราเห็น) - ซึ่งมีพฤติกรรมลักษณะ1/[ขนาดตัวอย่าง] ภายใต้การแจกแจงแบบเดียวกัน ขอบเขตทั่วไปที่ต่ำกว่าของประเภทนี้มีให้ใน1ϵlog1ϵ1/

P. Auer, R. Ortner PAC ใหม่ถูกผูกไว้สำหรับคลาสคอนเซปต์ที่ปิดทางแยก การเรียนรู้ของเครื่อง 66 (2-3): 151-163 (2007) http://personal.unileoben.ac.at/rortner/Pubs/PAC-intclosed.pdf

สิ่งที่เกี่ยวกับ PAC ที่เหมาะสมคือเพื่อให้ได้ผลลัพธ์ที่เป็นบวกในกรณีที่เป็นนามธรรมเราไม่สามารถระบุอัลกอริทึมที่นอกเหนือจาก ERM ซึ่งระบุว่า "ค้นหาแนวคิดที่สอดคล้องกับตัวอย่างที่มีข้อความ" เมื่อคุณมีโครงสร้างเพิ่มเติมเช่นช่วงเวลาคุณสามารถตรวจสอบอัลกอริทึม ERM ที่แตกต่างกันสองรายการดังกล่าวข้างต้น: ส่วนที่สอดคล้องกันน้อยที่สุดและสูงสุด และสิ่งเหล่านี้มีความซับซ้อนของตัวอย่างที่แตกต่างกัน!

พลังของ PAC ที่ไม่เหมาะสมคือคุณได้รับการออกแบบรูปแบบการลงคะแนนต่าง ๆ (ผลลัพธ์ของ Hanneke) - และโครงสร้างเพิ่มเติมนี้ช่วยให้คุณพิสูจน์อัตราที่ดีขึ้น (เรื่องราวนั้นง่ายกว่าสำหรับผู้ไม่เชื่อเรื่องพระเจ้า PAC ที่ ERM ให้อัตรากรณีเลวร้ายที่สุดเท่าที่จะเป็นไปได้ดีที่สุดจนถึงค่าคงที่)

แก้ไข ตอนนี้มันเกิดขึ้นกับฉันแล้วว่ากลยุทธ์การทำนายกราฟแบบรวม 1 รายการของ D. Haussler, N. Littlestone, Md K. Warmuth การทำนาย {0,1} - ความสามารถในการสุ่มจับคะแนน Inf คอมพิวเต 115 (2): 248-292 (1994) อาจเป็นผู้สมัครที่เป็นธรรมชาติสำหรับผู้เรียน PAC สากลที่เหมาะสมO(d/ϵ)


ขอบคุณ! ตกลงดังนั้นถ้าฉันเข้าใจคุณอย่างถูกต้องตัวอย่างความซับซ้อนของการเรียนรู้ PAC ที่ไม่เหมาะสมคือและสำหรับการเรียนรู้ PAC ที่เหมาะสมมันคือΘ ( d / ϵ log ( 1 / ϵ ) )ขอบเขตล่างสำหรับการเรียนหลังPAC ประสบความสำเร็จสำหรับตัวอย่างที่คุณให้ นั่นถูกต้องใช่ไหม? Θ(d/ϵ)Θ(d/ϵlog(1/ϵ))
Annonymous

ใช่ด้วยการจองเล็กน้อยสำหรับ PAC ที่ไม่เหมาะสมคุณต้องใช้อัลกอริทึมเฉพาะ (ของ Hanneke) ไม่ใช่ ERM เก่า ๆ อย่าลังเลที่จะรับคำตอบ :)
Aryeh

ฉันมาสายไปงานเลี้ยง แต่ไม่ได้ระบุไว้ข้างต้น Proper-PAC ขอบเขตล่างตัวอย่างความซับซ้อนที่ต่ำกว่าขอบเขตสำหรับอัลกอริทึมการเรียนรู้ที่เฉพาะเจาะจง (หรือคลาสที่ จำกัด ของมัน) เท่านั้นหรือ ฉันหมายความว่าหากไม่มีข้อ จำกัด เช่นนี้ก็จะไม่มีการแยกข้อมูลระหว่าง PAC ที่เหมาะสมและไม่เหมาะสมใช่ไหม? (และดังนั้นจึงไม่มีการแยกโดยไม่มีสมมติฐานการคำนวณเช่นหรือคล้ายกัน)?)NPRP
Clement C.

1
คำจำกัดความปกติของการเรียนรู้ PAC จะขออัลกอริธึมแบบโพลีเวลา ประเด็นของฉันคือ (i) การผ่อนคลายที่เหมาะสมและไม่เหมาะสมมีความซับซ้อนตัวอย่างเดียวกัน (ii) ด้วยข้อกำหนดนี้เราไม่สามารถพิสูจน์ได้ว่าการแยกที่ไม่มีเงื่อนไขระหว่างเหมาะสมและไม่เหมาะสม (เพราะโดยพื้นฐานแล้วมันจะพิสูจน์อะไรบางอย่างเช่น NP ไม่เท่ากับ RP) (เราสามารถพิสูจน์ขอบเขตที่ต่ำกว่าในความซับซ้อนของตัวอย่างของอัลกอริทึมการเรียนรู้ที่เหมาะสมโดยเฉพาะซึ่งเท่าที่ฉันเข้าใจคือสิ่งที่ Aryeh ใช้อ้างอิง)
Clement C.

1
@ClementC ในหนึ่งในความคิดเห็นก่อนหน้าของคุณคุณกล่าวถึงหลังจากใช้อัลกอริทึม PAC ที่ไม่เหมาะสมผู้เรียนจะได้รับสมมติฐานที่ไม่เหมาะสมและผู้เรียนสามารถหาสมมติฐานที่เหมาะสมที่สุดจากคลาสแนวคิด (โดยไม่มีตัวอย่างเพิ่มเติม) แต่ผู้เรียนสามารถทำสิ่งนี้ได้โดยไม่รู้การกระจายภายใต้ตัวอย่างที่ได้รับ การวัดที่ใกล้เคียงที่สุดตามการแจกแจงที่ไม่รู้จักหรือไม่
Annonymous

5

หากต้องการเพิ่มคำตอบที่ยอมรับในปัจจุบัน:

  1. ใช่. The ซับซ้อนตัวอย่างที่ถูกผูกไว้บนถือสำหรับที่เหมาะสม PAC เรียนรู้ได้เป็นอย่างดี(แม้ว่ามันจะเป็นสิ่งสำคัญที่จะทราบว่ามันอาจจะไม่นำไปสู่ขั้นตอนวิธีการเรียนรู้ที่มีประสิทธิภาพคอมพิวเตอร์. ซึ่งเป็นเรื่องปกติเนื่องจากเว้นแต่NP=RPมันเป็นที่รู้จักกันว่าบางคนเรียนอยู่ ไม่เหมาะสมที่จะเรียนรู้ PAC ได้อย่างมีประสิทธิภาพเช่นทฤษฎีบท 1.3 ใน Kearns— Vazirani หนังสือที่คุณพูดถึง) นี้จะแสดงจริงในหนังสือเล่ม Kearns-Vazirani (ทฤษฎีบท 3.3) เนื่องจากLมีการค้นหาสมมติฐานที่สอดคล้องกับระดับสมมติฐานH=C ดูเพิ่มเติมที่ [1]

    O(dεlog1ε)
    NP=RPLH=C
  2. ไม่ทราบ อัลกอริทึมของ Hanneke [2] เป็นอัลกอริทึมการเรียนรู้ที่ไม่เหมาะสม ไม่ว่าจะเป็นปัจจัยพิเศษ( 1 / ε )ในตัวอย่างความซับซ้อนสามารถลบออกได้สำหรับการเรียนรู้ PAC ที่เหมาะสม(ข้อมูลเชิงทฤษฎีเช่นการตั้งค่าข้อกำหนดด้านประสิทธิภาพการคำนวณใด ๆ ) ยังคงเป็นคำถามเปิดอยู่ cf เลย คำถามเปิดท้าย [3]:log(1/ε)

    คลาสสิกก็ยังคงเป็นคำถามเปิดว่า -factor ในขอบเขตบนของ [1] สำหรับ( ε , δ ) -proper การเรียนรู้ PAC เป็นสิ่งที่จำเป็นlog(1/ε)(ε,δ)

    (เชิงอรรถ 1 ในกระดาษเดียวกันก็มีความเกี่ยวข้องเช่นกัน)


[1] A. Blumer, A. Ehrenfeucht, D. Haussler และ MK Warmuth ความสามารถในการเรียนรู้และมิติของ Vapnik-Chervonenkis วารสาร ACM, 36 (4): 929–965, 1989

[2] S. Hanneke ความซับซ้อนตัวอย่างที่ดีที่สุดของการเรียนรู้ PAC เจมัค เรียน Res 17, 1, 1319-1333, 2016

[3] S. Arunachalam และ R. de Wolf ความซับซ้อนของตัวอย่างควอนตัมที่เหมาะสมที่สุดของอัลกอริทึมการเรียนรู้ ในการประชุมที่ซับซ้อนเชิงคอมพิวเตอร์ครั้งที่ 32 (CCC) 2017


มันอนุมานหรือไม่ว่ากราฟรวม 1 ครั้งของ Haussler และคณะ เป็นผู้เรียน PAC ที่ดีที่สุดหรือไม่
Aryeh

@ Aryeh ฉันไม่แน่ใจ จากสิ่งที่ฉันสามารถค้นหาได้ Warmuth คาดการณ์ไว้ในปี 2547 ฉันไม่รู้อะไรมากกว่านั้น
ผ่อนผัน C.
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.