ฉันจะเลือกคุณสมบัติที่เกี่ยวข้องของข้อมูลได้อย่างไร


11

เมื่อเร็ว ๆ นี้ฉันกำลังพยายามแก้ไขปัญหาเพื่อทำการวิเคราะห์ต้นทุนการใช้จ่ายทรัพยากรบางอย่าง ฉันมักจะทำการตัดสินใจด้วยตนเองจากการวิเคราะห์และวางแผนตามลำดับ

ฉันมีชุดข้อมูลขนาดใหญ่ในรูปแบบ excel และมีคอลัมน์นับร้อยรายการซึ่งกำหนดการใช้ทรัพยากรในกรอบเวลาและประเภทต่างๆ (การใช้รายละเอียดอื่น ๆ ที่หลากหลาย) ฉันยังมีข้อมูลเกี่ยวกับข้อมูล 4 ปีที่ผ่านมาและการใช้ทรัพยากรจริงและค่าใช้จ่ายที่เกิดขึ้นตามลำดับ

ฉันหวังว่าจะฝึกอบรม NN เพื่อทำนายค่าใช้จ่ายล่วงหน้าและวางแผนแม้กระทั่งก่อนที่ฉันจะทำการวิเคราะห์ต้นทุนด้วยตนเอง

แต่ปัญหาที่ใหญ่ที่สุดที่ฉันกำลังเผชิญคือความต้องการในการระบุคุณสมบัติสำหรับการวิเคราะห์ดังกล่าว ฉันหวังว่าจะมีวิธีการระบุคุณสมบัติจากชุดข้อมูล

PS - ฉันมีความคิดเกี่ยวกับ PCA และเทคนิคการลดชุดคุณลักษณะอื่น ๆ สิ่งที่ฉันกำลังดูอยู่คือวิธีการระบุพวกเขาตั้งแต่แรก

คำตอบ:


1

เนื่องจากคุณมีข้อมูลทั้งหมดของคุณในตารางสิ่งที่ค่อนข้างง่ายที่ต้องทำคือพิจารณาแต่ละคอลัมน์อย่างอิสระแล้วดูว่าตัวแปรเอาต์พุต (ต้นทุนที่เกิดขึ้น) มีความสัมพันธ์กับสิ่งนั้นหรือไม่

หากคอลัมน์ไม่มี (หรือสหสัมพันธ์ต่ำมาก) กับตัวแปรเอาต์พุตให้พิจารณาว่าไม่สำคัญ คนที่ทำให้การตัดนั้นจะพิจารณาเพิ่มเติม

เห็นได้ชัดว่าไม่แตกต่างจากอัลกอริธึมการตัดสินใจแบบต้นไม้ (เช่น ID3)


0

ไม่มีกฎที่ยากและรวดเร็วสำหรับการเลือกคุณสมบัติคุณต้องตรวจสอบชุดข้อมูลด้วยตนเองและลองใช้เทคนิคต่างๆสำหรับวิศวกรรมฟีเจอร์ และไม่มีกฎใดที่คุณควรใช้โครงข่ายประสาทสำหรับสิ่งนี้เครือข่ายประสาทนั้นต้องใช้เวลาในการฝึกอบรมแทนคุณสามารถทดสอบด้วยวิธีการที่ใช้ต้นไม้ตัดสินใจ (ป่าสุ่ม) เนื่องจากข้อมูลของคุณอยู่ในโครงสร้างแบบตาราง


ขอบคุณสำหรับการป้อนข้อมูล 1. ฉันยอมรับ NN ไม่ใช่วิธีที่ดีที่สุดในการทดสอบสมมติฐาน แต่ฉันเดาว่าการใช้ NN เราสามารถบรรลุความสัมพันธ์ที่กว้างขึ้นระหว่างคุณลักษณะต่างๆเพื่อให้ได้ผลลัพธ์ที่ดีขึ้น (ในกรณีส่วนใหญ่) 2. ปัญหาที่ฉันเผชิญคือการเลือกคุณสมบัติที่จริงจะกำหนดรูปแบบสำหรับปัญหาของฉันรวมถึงวิธีการกำหนดน้ำหนักของคุณลักษณะ
Karan Chopra

0

นั่นเป็นคำถามที่ยอดเยี่ยมและอาจเป็นหนึ่งในงานที่ยากที่สุดของ ML

คุณมีตัวเลือกน้อย:

  1. คุณสามารถใช้อัลกอริธึมการถ่วงน้ำหนัก (เช่น Chi-squared) เพื่อทำความเข้าใจว่าคุณลักษณะใดที่สนับสนุนการส่งออกของคุณมากที่สุด
  2. คุณสามารถใช้อัลกอริทึม ML อื่น ๆ เพื่อจำแนกว่าสถานที่นั้นมีส่วนช่วยในการคาดการณ์ของคุณหรือไม่
  3. คุณสามารถใช้อัลกอริทึม ML อื่น ๆ (นอกเหนือจาก NN) ที่ให้น้ำหนักกับฟีเจอร์ของคุณ (เช่นฟอเรสต์แบบสุ่ม)

หวังว่าจะช่วย


0

ก็ควรที่จะพิจารณาไม่เพียง แต่ความสัมพันธ์ของการมีส่วนร่วมของทรัพยากรกับค่าใช้จ่าย แต่ยังรวมถึงผลตอบแทนของต้นทุนของการมีส่วนร่วมของทรัพยากรด้วย ความท้าทายโดยทั่วไปคือผลตอบแทนเหล่านั้นมักจะสะสมหรือล่าช้าอยู่เสมอ กรณีของการสะสมคือเมื่อทรัพยากรคือการปรับแต่งอย่างต่อเนื่องหรือการปรับปรุงกระบวนการการขาดซึ่งจะชะลอการสร้างรายได้ กรณีของความล่าช้าคือเมื่อทรัพยากรการวิจัยต้องเสียค่าใช้จ่ายโดยไม่มีผลกระทบต่อรายได้เป็นระยะเวลาหนึ่ง แต่การสร้างรายได้ที่เริ่มต้นขึ้นถ้าการวิจัยให้ผลลัพธ์ที่มีประสิทธิผลอาจเป็นปัจจัยสำคัญเหนือต้นทุนรวมของผลลัพธ์ที่ส่งมอบ

ข้อมูลค่าใช้จ่ายด้วยเหตุผลสามารถนำไปสู่การเรียนรู้เครือข่ายที่ไม่เหมาะสมได้เนื่องจากเครือข่ายที่ผ่านการฝึกอบรมเพื่อลดค่าใช้จ่ายตัวอย่างเช่นค่าใช้จ่ายทางการตลาดจะเป็นศูนย์ ซึ่งมักจะทำให้แนวโน้มการขายลดลงจนกระทั่งธุรกิจพับ โดยไม่รวมถึงผลตอบแทนในข้อมูลการฝึกอบรมอาจไม่มีการเรียนรู้ที่เป็นประโยชน์

MLP ขั้นพื้นฐาน (ตัวรับหลายเลเยอร์) จะไม่เรียนรู้ลักษณะชั่วคราวของข้อมูลการสะสมและการหน่วงเวลา คุณจะต้องมีเครือข่ายไร้รัฐ ประเภทเครือข่ายที่ประสบความสำเร็จสูงสุดอย่างต่อเนื่องสำหรับการเรียนรู้ประเภทนี้ในขณะที่เขียนนี้คือประเภทเครือข่าย LSTM (หน่วยความจำระยะสั้นระยะยาว) หรือหนึ่งในรูปแบบอนุพันธ์ ข้อมูลรายได้และยอดคงเหลือจะต้องใช้ร่วมกับข้อมูลค่าใช้จ่ายในการฝึกอบรมเครือข่ายเพื่อคาดการณ์ผลลัพธ์ทางธุรกิจสำหรับลำดับของการมีส่วนร่วมของทรัพยากรที่เสนอ (แผนงบประมาณรายละเอียดทั้งหมด)

ฟังก์ชั่นการสูญเสียจะต้องสมดุลคำศัพท์การเรียงลำดับอย่างเหมาะสมกับวัตถุประสงค์ทางการเงินระยะกลางและระยะยาว เงินสดที่มีอยู่ติดลบควรสร้างฟังก์ชั่นการสูญเสียที่เพิ่มขึ้นอย่างเด่นชัดเพื่อหลีกเลี่ยงความเสี่ยงขั้นพื้นฐานต่อชื่อเสียงและต้นทุนเครดิต

คอลัมน์ใดในข้อมูลของคุณมีความสัมพันธ์ที่ดีกับผลตอบแทนจากการลงทุนเป็นการยากที่จะกำหนดล่วงหน้า คุณสามารถยกเว้นคอลัมน์ที่สอดคล้องกับเกณฑ์ใดเกณฑ์หนึ่งต่อไปนี้ได้ทันที

  • ว่างเสมอ
  • ค่าคงที่อื่นคือค่าที่มีค่าเท่ากันทุกแถว
  • ที่สามารถได้มาจากคอลัมน์อื่นเสมอ

ข้อมูลสามารถลดลงได้ด้วยวิธีอื่น

  • อธิบายข้อมูลอย่างครบถ้วนด้วยการอธิบายแนวโน้มในรูปแบบที่เรียบง่าย
  • การใช้ดัชนีเพื่อระบุสตริงยาวที่มีความแม่นยำ 100% โดยการกำหนดตัวเลขแต่ละสตริง
  • การอัด
  • มิฉะนั้นลดความซ้ำซ้อนในข้อมูล

RBMs (เครื่องจักร Boltzmann ที่ จำกัด ) สามารถดึงคุณสมบัติจากข้อมูลและ PCAs สามารถส่องสว่างคอลัมน์เนื้อหาข้อมูลที่ต่ำ แต่ความสำคัญของคอลัมน์ในแง่ของความสัมพันธ์กับรายได้จะไม่ถูกระบุโดยใช้อุปกรณ์เหล่านี้ในรูปแบบพื้นฐาน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.