จะเข้าใกล้การแข่งขัน numer.ai ด้วยวิธีทำนายตัวเลขแบบไม่ระบุชื่อได้อย่างไร


9

Numer.aiอยู่มาระยะหนึ่งแล้วและดูเหมือนจะมีเพียงไม่กี่โพสต์หรือการสนทนาอื่น ๆ เกี่ยวกับมันบนเว็บ

ระบบมีการเปลี่ยนแปลงเป็นครั้งคราวและการตั้งค่าวันนี้มีดังต่อไปนี้:

  1. ฝึกอบรม (N = 96K) และทดสอบข้อมูล (N = 33K) พร้อมคุณสมบัติ 21 อย่างที่มีค่าต่อเนื่องใน [0,1] และเป้าหมายไบนารี
  2. ข้อมูลสะอาด (ไม่มีค่าขาดหาย) และอัปเดตทุก 2 สัปดาห์ คุณสามารถอัปโหลดการทำนายของคุณ (ในชุดทดสอบ) และดูการสูญเสียบันทึก ส่วนหนึ่งของข้อมูลการทดสอบคือข้อมูลสดและคุณจะได้รับเงินสำหรับการคาดการณ์ที่ดี

สิ่งที่ฉันต้องการจะพูดคุย:

เนื่องจากคุณสมบัติไม่ระบุชื่อโดยสิ้นเชิงฉันคิดว่ามีวิศวกรรมคุณสมบัติไม่มากที่เราสามารถทำได้ ดังนั้นวิธีการของฉันมีกลไกมาก:

  1. แรงบันดาลใจจากนี้ฉันจะใช้ขั้นตอนวิธีการจัดหมวดหมู่ในการกรองข้อมูลการฝึกอบรมผู้ที่พอดีกับการทดสอบข้อมูลที่ดีที่สุดของฉัน
  2. คิดออกก่อนการประมวลผลที่ดี
  3. ฝึกอัลกอริทึมการจำแนกที่ดี
  4. สร้างตระการตาของพวกเขา (ซ้อน, .. )

คำถามที่เป็นรูปธรรม:

เกี่ยวกับขั้นตอนที่ 1: คุณมีประสบการณ์เกี่ยวกับวิธีการดังกล่าวหรือไม่? สมมติว่าฉันสั่งความน่าจะเป็นของตัวอย่างรถไฟให้เป็นของการทดสอบ (ปกติต่ำกว่า 0.5) จากนั้นฉันหาค่าความน่าจะเป็น K ที่ใหญ่ที่สุด คุณจะเลือก K อย่างไร ฉันพยายามกับ 15K .. แต่ส่วนใหญ่จะมีชุดข้อมูลการฝึกอบรมขนาดเล็กเพื่อเร่งการฝึกอบรมในขั้นตอนที่ 3

เกี่ยวกับขั้นตอนที่ 2: ข้อมูลอยู่ในสเกล 0,1 อยู่แล้ว ถ้าฉันใช้การแปลงเชิงเส้นใด ๆ (เช่น PCA) จากนั้นฉันก็จะแบ่งสเกลนี้ คุณจะลองทำอย่างไรในการประมวลผลล่วงหน้าหากคุณมีข้อมูลตัวเลขดังกล่าวและไม่ทราบว่านี่เป็นจริง

PS: ฉันรู้ว่าเพราะ numer.ai จ่ายคนคุยเรื่องนี้จะช่วยให้ฉันทำเงิน แต่นี่เป็นสาธารณะจึงจะช่วยให้ทุกคนออกไปที่นั่น ...

PPS: ลีดเดอร์บอร์ดของวันนี้มีรูปแบบที่น่าสนใจ: สองอันดับแรกที่มี logloss 0.64xx จากนั้นเป็นอันดับ 3 ด้วย 0.66xx และผู้ทำนายส่วนใหญ่ถึง 0.6888x

ดังนั้นดูเหมือนว่าจะเป็นสนามเล็ก ๆ และมีคนที่ประสบความสำเร็จพอสมควร (รวมถึงฉันด้วย)

คำตอบ:


2

ฉันได้ดูวิธีการแล้วและฉันเลือก K โดยลองใช้ช่วงเช่น 5k, 10k, 15k เป็นต้นจากนั้นสำรวจช่วงที่ผลลัพธ์ดีที่สุดลดลงบอกว่าดีที่สุดคือ 15k แล้วฉันอาจทำ 13, 14 15, 16, 17 และอื่น ๆ

จนถึงตอนนี้ฉันไม่พบการประมวลผลล่วงหน้าใด ๆ ที่จะมีประสิทธิภาพ

ตอบความคิดเห็น:

ฉันลองใช้ LogisticRegression, SVM, Neural Networks, RandomForests, Multinomial NB, Extra Trees ทั้งหมดยกเว้นเครือข่ายนิวรัลโดยใช้การใช้งานใน sklearn PyBrain สำหรับ NN


บางทีคุณสามารถเพิ่มรายละเอียดเพิ่มเติมได้ไหม? ใช่เราลองข้อมูลการฝึกอบรมในขนาดต่างๆ คุณได้ลองประมวลผลพรีโปรเซสเซอร์ใดบ้าง ตัวแยกประเภทใด ขอบคุณ!
Richard
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.