เครื่องเรียนรู้ขั้นสูง: มันคืออะไรกัน?


20

ฉันได้คิดถึงการนำไปใช้และใช้กระบวนทัศน์ Extreme Learning Machine (ELM) มานานกว่าหนึ่งปีแล้วและยิ่งฉันทำอีกต่อไปฉันยิ่งสงสัยว่ามันเป็นสิ่งที่ดีจริงๆ อย่างไรก็ตามความคิดเห็นของฉันดูเหมือนจะตรงกันข้ามกับชุมชนวิทยาศาสตร์ที่ - เมื่อใช้การอ้างอิงและสิ่งพิมพ์ใหม่เป็นมาตรการ - ดูเหมือนว่าจะเป็นประเด็นร้อน

Huang และ ELM ได้รับการแนะนำให้รู้จักกับ อัล ประมาณปี 2003 แนวคิดพื้นฐานนั้นค่อนข้างง่าย: เริ่มต้นด้วยโครงข่ายประสาทเทียม 2 ชั้นและสุ่มค่าสัมประสิทธิ์ในชั้นแรก สิ่งนี้หนึ่งแปลงปัญหาการปรับให้เหมาะสมแบบไม่เป็นเชิงเส้นซึ่งโดยทั่วไปจะถูกจัดการผ่าน backpropagation เป็นปัญหาการถดถอยเชิงเส้นอย่างง่าย รายละเอียดเพิ่มเติมสำหรับxRDรุ่นคือ

f(x)=i=1Nhiddenwiσ(vi0+k=1Dvikxk).

ทีนี้มีการปรับเฉพาะwi (เพื่อลดความผิดพลาดกำลังสองน้อยที่สุด) ในขณะที่vikถูกเลือกแบบสุ่มทั้งหมด เพื่อเป็นการชดเชยการสูญเสียในองศาอิสระคำแนะนำตามปกติคือการใช้โหนดที่ซ่อนอยู่จำนวนมาก (เช่นพารามิเตอร์อิสระwi )

จากมุมมองอื่น (ไม่ใช่สิ่งที่มักจะได้รับการส่งเสริมในวรรณคดีซึ่งมาจากเครือข่ายประสาทเทียม) กระบวนการทั้งหมดเป็นแค่การถดถอยเชิงเส้น แต่สิ่งหนึ่งที่คุณเลือกฟังก์ชั่นพื้นฐานของคุณสุ่มϕ

φผม(x)=σ(โวลต์ผม0+Σk=1Dโวลต์ผมkxk).

(ตัวเลือกอื่น ๆ อีกมากมายนอกเหนือจาก sigmoid เป็นไปได้สำหรับฟังก์ชั่นแบบสุ่มเช่นหลักการเดียวกันนี้ยังถูกนำมาใช้โดยใช้ฟังก์ชั่นพื้นฐานของรัศมีด้วย)

จากมุมมองนี้วิธีทั้งหมดกลายเป็นเรื่องง่ายเกินไปและนี่ก็เป็นจุดที่ฉันเริ่มสงสัยว่าวิธีนี้เป็นวิธีที่ดีจริงๆ ดังนั้นนี่คือคำถามของฉัน:

  • แนวคิดในการแรสเตอร์พื้นที่อินพุตโดยใช้ฟังก์ชั่นพื้นฐานแบบสุ่มคือในความคิดของฉันดีสำหรับขนาดต่ำ ในมิติที่สูงฉันคิดว่ามันเป็นไปไม่ได้เลยที่จะหาทางเลือกที่ดีโดยใช้การเลือกแบบสุ่มด้วยฟังก์ชั่นพื้นฐานที่เหมาะสม ดังนั้น ELM จึงลดขนาดในระดับสูง (เนื่องจากคำสาปของมิติ) หรือไม่

  • คุณรู้หรือไม่ว่าผลการทดลองสนับสนุน / ขัดแย้งกับความคิดเห็นนี้ ในกระดาษที่เชื่อมโยงมีชุดข้อมูลการถดถอย 27 มิติเพียงชุดเดียว (PYRIM) ซึ่งวิธีการทำงานคล้ายกับ SVMs (ในขณะที่ฉันอยากจะดูการเปรียบเทียบกับ ANP backpropagation)

  • โดยทั่วไปแล้วฉันต้องการแสดงความคิดเห็นของคุณเกี่ยวกับวิธีการ ELM


ดูที่นี่สำหรับเรื่องราวแบบเต็ม: theanonymousemail.com/view/?msg=ZHEZJ1AJ
davidhigh

คำตอบ:


10

สัญชาตญาณของคุณเกี่ยวกับการใช้ ELM สำหรับปัญหามิติสูงนั้นถูกต้องฉันมีผลลัพธ์บางอย่างเกี่ยวกับเรื่องนี้ซึ่งฉันกำลังเตรียมการเผยแพร่ สำหรับปัญหาในทางปฏิบัติจำนวนมากข้อมูลไม่ได้เป็นแบบไม่เชิงเส้นและ ELM ทำได้ค่อนข้างดี แต่จะมีชุดข้อมูลที่การสาปแช่งของมิติหมายความว่าโอกาสในการหาฟังก์ชั่นพื้นฐานที่ดีด้วยความโค้งที่คุณต้องการ เล็กแม้มีเวกเตอร์พื้นฐานมากมาย

โดยส่วนตัวฉันจะใช้บางอย่างเช่นเครื่องเวกเตอร์สนับสนุนกำลังสองน้อยที่สุด (หรือเครือข่ายฟังก์ชันพื้นฐานของรัศมี) และลองเลือกเวกเตอร์พื้นฐานจากชุดฝึกอบรมในลักษณะโลภ (ดูเช่นกระดาษของฉันแต่มีอื่น ๆ / ดีกว่า วิธีการที่เผยแพร่ในเวลาเดียวกันเช่นในหนังสือที่ดีมากโดย Scholkopf และ Smola เรื่อง "การเรียนรู้กับเมล็ด" ฉันคิดว่าเป็นการดีกว่าที่จะคำนวณวิธีแก้ปัญหาโดยประมาณกับปัญหาที่แน่นอนแทนที่จะเป็นวิธีแก้ไขปัญหาโดยประมาณและเครื่องเคอร์เนลมีการสนับสนุนทางทฤษฎีที่ดีกว่า (สำหรับเคอร์เนลแบบคงที่; o)


1
+1 ฉันไม่เคยได้ยินเกี่ยวกับ ELM มาก่อน แต่จากคำอธิบายใน OP มันฟังดูคล้ายกับเครื่องสถานะของเหลว (LSM): การเชื่อมต่อเครือข่ายแบบสุ่มและปรับน้ำหนักที่อ่านได้ให้เหมาะสมเท่านั้น อย่างไรก็ตามใน LSM สุ่ม "อ่างเก็บน้ำ" สุ่มเกิดขึ้นอีกในขณะที่ใน ELM มันเป็น feedforward นั่นคือความเหมือนและความแตกต่างใช่ไหม?
อะมีบาพูดว่า Reinstate Monica

1
k(x,xผม)xผม

@ amoeba: ฉันไม่ทราบว่าเครื่องสถานะของเหลว แต่จากสิ่งที่คุณพูดมันฟังดูคล้ายกันมาก ... และแน่นอนทั่วไปมากขึ้น techinically ถึงกระนั้นการเกิดขึ้นอีกเพียงเพิ่มรูปแบบการสุ่มที่ซับซ้อนมากขึ้นกับปัญหาซึ่งในความคิดของฉันไม่ได้แก้ปัญหาการสาปแช่งของมิติ (... แต่ตกลงที่ทำสิ่งนี้?) น้ำหนักที่เกิดซ้ำเหล่านั้นถูกเลือกด้วยความระมัดระวังหรือสุ่มอย่างสมบูรณ์หรือไม่
davidhigh

@davidhigh สำหรับเคอร์เนล RBF "theorem representer theorems" แสดงว่าไม่มีวิธีแก้ปัญหาที่ดีไปกว่าการจัดฟังก์ชันพื้นฐานให้กับแต่ละตัวอย่างการฝึกอบรม นี่เป็นหนึ่งในคุณสมบัติที่ดีของวิธีการเคอร์เนล (และเส้นโค้ง) ดังนั้นจึงไม่จำเป็นต้องกระจายแบบสุ่ม โดยวิธีการสร้างแบบจำลองเชิงเส้นในการส่งออกของฟังก์ชั่นพื้นฐานที่เลือกแบบสุ่มมีประวัติศาสตร์ที่ยาวนานมากที่ฉันชื่นชอบคือชั้นเดียวมองขึ้น perceptron ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=51949&tag=1แต่ฉัน อาจจะลำเอียง!
Dikran Marsupial

1
@DikranMarsupial คุณเผยแพร่หรือมีสิ่งพิมพ์ใดบ้าง
Tom Hale

0

ELM "เรียนรู้" จากข้อมูลโดยการวิเคราะห์เพื่อหาค่าน้ำหนักขาออก ดังนั้นข้อมูลที่ป้อนเข้าสู่เครือข่ายที่ใหญ่กว่าจะให้ผลลัพธ์ที่ดีกว่า อย่างไรก็ตามสิ่งนี้ยังต้องการจำนวนโหนดที่ซ่อนอยู่อีกจำนวนมาก หาก ELM ได้รับการฝึกอบรมโดยมีข้อผิดพลาดน้อยหรือไม่มีเลยเมื่อได้รับชุดอินพุตใหม่มันจะไม่สามารถสร้างเอาต์พุตที่ถูกต้องได้

ข้อได้เปรียบหลักของ ELM เหนือโครงข่ายประสาทแบบดั้งเดิมเช่นการขยายพันธุ์กลับคือเวลาการฝึกอบรมที่รวดเร็ว เวลาในการคำนวณส่วนใหญ่ใช้ในการแก้น้ำหนักเลเยอร์เอาท์พุทตามที่กล่าวไว้ในกระดาษหวาง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.