Numer.aiอยู่มาระยะหนึ่งแล้วและดูเหมือนจะมีเพียงไม่กี่โพสต์หรือการสนทนาอื่น ๆ เกี่ยวกับมันบนเว็บ
ระบบมีการเปลี่ยนแปลงเป็นครั้งคราวและการตั้งค่าวันนี้มีดังต่อไปนี้:
- ฝึกอบรม (N = 96K) และทดสอบข้อมูล (N = 33K) พร้อมคุณสมบัติ 21 อย่างที่มีค่าต่อเนื่องใน [0,1] และเป้าหมายไบนารี
- ข้อมูลสะอาด (ไม่มีค่าขาดหาย) และอัปเดตทุก 2 สัปดาห์ คุณสามารถอัปโหลดการทำนายของคุณ (ในชุดทดสอบ) และดูการสูญเสียบันทึก ส่วนหนึ่งของข้อมูลการทดสอบคือข้อมูลสดและคุณจะได้รับเงินสำหรับการคาดการณ์ที่ดี
สิ่งที่ฉันต้องการจะพูดคุย:
เนื่องจากคุณสมบัติไม่ระบุชื่อโดยสิ้นเชิงฉันคิดว่ามีวิศวกรรมคุณสมบัติไม่มากที่เราสามารถทำได้ ดังนั้นวิธีการของฉันมีกลไกมาก:
- แรงบันดาลใจจากนี้ฉันจะใช้ขั้นตอนวิธีการจัดหมวดหมู่ในการกรองข้อมูลการฝึกอบรมผู้ที่พอดีกับการทดสอบข้อมูลที่ดีที่สุดของฉัน
- คิดออกก่อนการประมวลผลที่ดี
- ฝึกอัลกอริทึมการจำแนกที่ดี
- สร้างตระการตาของพวกเขา (ซ้อน, .. )
คำถามที่เป็นรูปธรรม:
เกี่ยวกับขั้นตอนที่ 1: คุณมีประสบการณ์เกี่ยวกับวิธีการดังกล่าวหรือไม่? สมมติว่าฉันสั่งความน่าจะเป็นของตัวอย่างรถไฟให้เป็นของการทดสอบ (ปกติต่ำกว่า 0.5) จากนั้นฉันหาค่าความน่าจะเป็น K ที่ใหญ่ที่สุด คุณจะเลือก K อย่างไร ฉันพยายามกับ 15K .. แต่ส่วนใหญ่จะมีชุดข้อมูลการฝึกอบรมขนาดเล็กเพื่อเร่งการฝึกอบรมในขั้นตอนที่ 3
เกี่ยวกับขั้นตอนที่ 2: ข้อมูลอยู่ในสเกล 0,1 อยู่แล้ว ถ้าฉันใช้การแปลงเชิงเส้นใด ๆ (เช่น PCA) จากนั้นฉันก็จะแบ่งสเกลนี้ คุณจะลองทำอย่างไรในการประมวลผลล่วงหน้าหากคุณมีข้อมูลตัวเลขดังกล่าวและไม่ทราบว่านี่เป็นจริง
PS: ฉันรู้ว่าเพราะ numer.ai จ่ายคนคุยเรื่องนี้จะช่วยให้ฉันทำเงิน แต่นี่เป็นสาธารณะจึงจะช่วยให้ทุกคนออกไปที่นั่น ...
PPS: ลีดเดอร์บอร์ดของวันนี้มีรูปแบบที่น่าสนใจ: สองอันดับแรกที่มี logloss 0.64xx จากนั้นเป็นอันดับ 3 ด้วย 0.66xx และผู้ทำนายส่วนใหญ่ถึง 0.6888x
ดังนั้นดูเหมือนว่าจะเป็นสนามเล็ก ๆ และมีคนที่ประสบความสำเร็จพอสมควร (รวมถึงฉันด้วย)