ชุดข้อมูลฟรีสำหรับการจำแนกมิติที่สูงมาก [ปิด]


35

อะไรคือข้อมูลที่มีอยู่ได้อย่างอิสระที่กำหนดไว้สำหรับการจัดหมวดหมู่ที่มีมากกว่า 1000 คุณสมบัติ (หรือจุดตัวอย่างถ้ามีเส้นโค้ง)?

มีวิกิชุมชนเกี่ยวกับชุดข้อมูลฟรีอยู่แล้ว: การ ค้นหาตัวอย่างข้อมูลที่มีอยู่อย่างอิสระ

แต่ที่นี่จะเป็นการดีหากมีรายการที่เน้นที่สามารถใช้งานได้สะดวกยิ่งขึ้นนอกจากนี้ฉันขอเสนอกฎต่อไปนี้:

  1. หนึ่งโพสต์ต่อชุดข้อมูล
  2. ไม่มีลิงก์ไปยังชุดของชุดข้อมูล
  3. แต่ละชุดข้อมูลจะต้องเชื่อมโยงกับ

    • ชื่อ (จะคิดออกว่ามันเป็นเรื่องเกี่ยว) และเชื่อมโยงไปยังชุดที่ (R ชุดข้อมูลสามารถตั้งชื่อที่มีชื่อแพคเกจ)

    • จำนวนฟีเจอร์ (สมมติว่ามันคือp ) ขนาดของชุดข้อมูล (สมมุติว่ามันคือn ) และจำนวนเลเบล / คลาส (สมมติว่ามันคือk )

    • อัตราความผิดพลาดทั่วไปจากประสบการณ์ของคุณ (ระบุอัลกอริธึมที่ใช้เป็นคำ) หรือจากครอก (ในกรณีนี้ลิงก์กระดาษ)


+1 แต่ผู้ที่มาจาก NIPS2003 มีรถไฟป้ายกำกับเท่านั้น - กระดาษ NIPS2003 กล่าวอย่างชัดเจนว่า "การตรวจสอบความถูกต้องและฉลากชุดทดสอบถูกระงับ"
ปฏิเสธ

ขอบคุณ ความคิดเห็นเกี่ยวกับ NIPS สำหรับคำตอบจาก @mbq
robin girard

ทุกคนที่นี่มีชุดข้อมูลมิติสูงที่มีเลเบลมากกว่าสองคลาสหรือไม่
hlin117

คำตอบ:


3

โดโรธี
n = 1950
p = 100000 (0.1M ครึ่งหนึ่งจะมีการเพิ่มเทียมเสียง)
k = 2 (~ 10 เท่าไม่สมดุล)
จากNIPS2003


คุณช่วยอธิบายได้ไหมว่านี่คือคุณลักษณะ 100000 รายการ ฉันดูข้อมูลการฝึกอบรมและแต่ละบรรทัดอาจมีจำนวนเต็ม 2,500 ต่อบรรทัด
JeremyKun

มันเป็นอาร์เรย์ที่กระจัดกระจายจำนวนเต็ม N หมายความว่าค่า N เป็น 1


3

Dexter
n = 2600
p = 20000 (10k + 53 เสียงเทียม)
k = 2 (สมดุล)
จากNIPS2003


ฉันไม่เข้าใจ ... หนึ่งชุดต่อคน?

@robin & @mbq ฉันขอแนะนำให้เก็บไว้หนึ่งชุดข้อมูลต่อโพสต์ เพื่อให้ผู้คนสามารถระบุด้วยคะแนนโหวตว่าคนใดที่แนะนำที่นั่นแนะนำ / สนับสนุนด้วย
Peter Smit

@ ปีเตอร์โอเคฉันติดตามความคิดของคุณฉันได้เปลี่ยนคำถามแล้ว
robin girard


2

ต่อมลูกหมาก (อาเรย์การแสดงออกของยีน)

  • k = 2
  • n = 48 + 52
  • p = 6033

พร้อมใช้งานผ่าน (ในชุดอื่น ๆ ) R ชื่อแพคเกจแยกของชุดข้อมูล: ต่อมลูกหมาก

error rate = 3/102 (ดูที่นี่ ) และฉันคิดว่ามีกระดาษซึ่งแสดงอัตราข้อผิดพลาด 1/102 ฉันจะบอกว่านี่เป็นกรณีทดสอบที่ง่าย

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.