การทำนายด้วยคุณสมบัติที่ไม่ใช่อะตอม


10

ฉันต้องการใช้ข้อมูลที่ไม่ใช่ปรมาณูเป็นคุณลักษณะสำหรับการคาดการณ์ สมมติว่าฉันมีตารางที่มีคุณสมบัติเหล่านี้:

- Column 1: Categorical - House
- Column 2: Numerical - 23.22
- Column 3: A Vector - [ 12, 22, 32 ]
- Column 4: A Tree - [ [ 2323, 2323 ],[2323, 2323] , [ Boolean, Categorical ] ]
- Column 5: A List [ 122, Boolean ]

ฉันต้องการทำนาย / จำแนกตัวอย่างเช่นคอลัมน์ 2

ฉันกำลังทำบางสิ่งบางอย่างเพื่อตอบคำถามโดยอัตโนมัติคำถามประเภทใด ๆ เช่น "Where is Foo Born" ...

ฉันสร้างเคียวรีให้กับเครื่องมือค้นหาก่อนแล้วจึงได้รับข้อมูลตัวอักษรจากนั้นฉันทำการแยกวิเคราะห์ข้อมูลทั้งหมด (การติดแท็กการกั้นการแยกวิเคราะห์การแยก ... )

วิธีแรกของฉันคือการสร้างตารางแต่ละแถวที่มีบรรทัดข้อความและคุณลักษณะมากมายเช่น "First Word", "Tag of First Word", "Chunks" ฯลฯ ...

แต่ด้วยวิธีนี้ฉันขาดความสัมพันธ์ระหว่างประโยค

ฉันอยากจะรู้ว่ามีอัลกอริทึมที่มองเห็นภายในโครงสร้างต้นไม้ (หรือเวกเตอร์) และทำให้ความสัมพันธ์และแยกสิ่งที่เกี่ยวข้องกับการทำนาย / การจำแนก ฉันต้องการทราบเกี่ยวกับห้องสมุดที่ทำสิ่งนั้นมากกว่าอัลกอริทึมที่ฉันต้องใช้


โปรดชี้แจง: คุณบอกว่าคุณต้องการใช้คอลัมน์ 2 เป็นคุณลักษณะ แต่คุณบอกว่าคุณต้องการทำนาย / จำแนกคอลัมน์ 2 นอกจากนี้คุณเรียกคุณลักษณะนี้ว่า "ไม่มีอะตอมมิก" ... คุณหมายถึงว่ามันไม่ได้จัดหมวดหมู่หรือไม่?
logc

คำตอบ:


7

เมื่อพูดถึงการจัดการกับข้อมูลหลายประเภทที่แตกต่างกันโดยเฉพาะเมื่อความสัมพันธ์ระหว่างพวกเขาไม่ชัดเจนฉันขอแนะนำเทคนิคที่ใช้ต้นไม้ตัดสินใจต้นไม้ที่ได้รับความนิยมมากที่สุดในวันนี้ถึงที่สุดของความรู้ของฉันคือป่าสุ่มและสุ่มมาก ต้นไม้

ทั้งสองมีการใช้งานในsklearnและพวกเขาค่อนข้างตรงไปตรงมาเพื่อใช้ ในระดับที่สูงมากเหตุผลที่decision treeแนวทางแบบฐานมีประโยชน์สำหรับข้อมูลหลายประเภทที่แตกต่างกันเพราะต้นไม้การตัดสินใจส่วนใหญ่เป็นอิสระจากข้อมูลเฉพาะที่พวกเขากำลังติดต่อด้วยตราบใดที่พวกเขาสามารถเข้าใจการเป็นตัวแทนของคุณ

คุณจะยังคงต้องปรับข้อมูลของคุณให้เป็นเวกเตอร์คุณสมบัติบางอย่าง แต่จากตัวอย่างของคุณที่ดูเหมือนจะเป็นงานที่ค่อนข้างตรงไปตรงมาและหากคุณเต็มใจที่จะใช้งานของคุณให้ลึกลงไปอีกนิดหน่อย กฎการแยกต้นไม้แบบกำหนดเองโดยไม่ต้องเปลี่ยนแปลงอะไรในอัลกอริทึมพื้นฐาน กระดาษเดิมเป็นสถานที่ที่ดีงามที่จะเริ่มต้นถ้าคุณต้องการที่จะให้ยิง

หากคุณต้องการข้อมูลโครงสร้างแบบหลอกจากข้อมูลตัวอักษรของคุณฉันอาจแนะนำให้doc2vecคุณศึกษาโดย Google เมื่อเร็ว ๆ นี้ ฉันไม่คิดว่ามีผู้ใดใช้งานโอเพนซอร์สที่ดีในขณะนี้ แต่ก็มีการปรับปรุงตรงไปตรงสวยในword2vecขั้นตอนวิธีการซึ่งมีการใช้งานอย่างน้อยและCpython

หวังว่าจะช่วย! แจ้งให้เราทราบหากคุณมีคำถามเพิ่มเติม

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.