การเลือกคุณสมบัติเทียบกับการแยกคุณสมบัติ จะใช้เมื่อใด

16

การแยกคุณลักษณะและการเลือกคุณสมบัติเป็นหลักช่วยลดมิติข้อมูล แต่การดึงคุณสมบัติยังทำให้ข้อมูลแยกกันได้มากขึ้นถ้าฉันพูดถูก

เทคนิคใดจะเป็นที่ต้องการมากกว่าอีกอันและเมื่อใด

ฉันคิดว่าเนื่องจากการเลือกคุณสมบัติไม่ได้แก้ไขข้อมูลต้นฉบับและคุณสมบัติของมันฉันคิดว่าคุณจะใช้การเลือกคุณสมบัติเมื่อสิ่งสำคัญคือคุณสมบัติที่คุณกำลังฝึกอบรมไม่เปลี่ยนแปลง แต่ฉันไม่สามารถจินตนาการได้ว่าทำไมคุณต้องการบางสิ่งเช่นนี้ ..

feature-selection feature-extraction dimensionality-reduction

— ซิด
แหล่งที่มา

18

การเพิ่มคำตอบที่ได้รับจาก Toros

สามเหล่านี้ (ดูด้านล่างสัญลักษณ์แสดงหัวข้อย่อย) สามค่อนข้างคล้ายกัน แต่มีความแตกต่างที่ลึกซึ้ง - :( รัดกุมและง่ายต่อการจดจำ)

การแยกคุณสมบัติและวิศวกรรมคุณสมบัติ : การแปลงข้อมูลดิบเป็นคุณสมบัติที่เหมาะสมสำหรับการสร้างแบบจำลอง
การเปลี่ยนแปลงคุณสมบัติ : การแปลงข้อมูลเพื่อปรับปรุงความแม่นยำของอัลกอริทึม;
การเลือกคุณสมบัติ : การลบคุณสมบัติที่ไม่จำเป็น

เพียงแค่เพิ่มตัวอย่างเดียวกัน

การสกัดคุณลักษณะและวิศวกรรม (เราสามารถแยกบางอย่างออกจากพวกเขา)

ข้อความ (จำนวนเต็ม, word2vec, tf-idf และอื่น ๆ )
รูปภาพ (CNN'S, ตำรา, ถาม & ตอบ)
ข้อมูลภูมิสารสนเทศ (lat, long และอื่น ๆ )
วันที่และเวลา (วัน, เดือน, สัปดาห์, ปี, การหมุน)
อนุกรมเวลาเว็บ ฯลฯ
เทคนิคการลดมิติ (PCA, SVD, Eigen-Faces และอื่น ๆ )
บางทีเราสามารถใช้ Clustering ได้เช่นกัน (DBSCAN เป็นต้น)
.....(และอื่น ๆ อีกมากมาย)

การแปลงคุณสมบัติ (เปลี่ยนให้เหมาะสม)

การทำให้เป็นมาตรฐานและการเปลี่ยนการกระจาย (การขยาย)
การติดต่อ
การเติมค่าที่หายไป (ค่ามัธยฐานการเติม ฯลฯ )
.....(และอื่น ๆ อีกมากมาย)

การเลือกคุณสมบัติ (การสร้างแบบจำลองของคุณบนคุณสมบัติที่เลือกเหล่านี้)

วิธีการทางสถิติ
การคัดเลือกโดยการสร้างแบบจำลอง
ค้นหากริด
การตรวจสอบข้าม
.....(และอื่น ๆ อีกมากมาย)

หวังว่านี่จะช่วย ...

ดูลิงก์ที่แบ่งปันโดยคนอื่น พวกเขาค่อนข้างดี ...

— Aditya
แหล่งที่มา

เป็นวิธีที่ดีในการตอบ +1 สำหรับสิ่งนั้น

— Toros91

ขอชื่นชมชุมชนนี้ .. เรียนรู้มากมายจากมัน ..

— Aditya

1

จริงคนนั้นฉันเป็นสมาชิกตั้งแต่เดือนตุลาคม 2017 ฉันเรียนรู้หลายสิ่งหลายอย่าง หวังว่ามันจะเหมือนกันสำหรับคุณเช่นกัน ฉันได้อ่านคำตอบของคุณแล้วพวกเขาเป็นคนดี BTW ขอโทษด้วยสำหรับสิ่งที่คุณได้ทำใน SO ฉันไม่สามารถมองเห็นสิ่งทั้งหมดได้ แต่อย่างที่นีลสเลเตอร์กล่าวว่าดีที่คุณเก็บความเย็นเอาไว้จนถึงที่สุด ตามทัน! เรายังคงมีทางยาวไป :)

— Toros91

สิ่งที่ควรดำเนินการตามลำดับคืออะไร นอกจากนี้การทำความสะอาดข้อมูลและการแยกข้อมูล อันไหนใน 5 ของขั้นตอนแรก?

— technazi

การแยกข้อมูลเสร็จสิ้นเมื่อคุณแน่ใจว่าข้อมูลพร้อมที่จะส่งสำหรับการสร้างแบบจำลอง ... และ imho ไม่มีคำสั่งดังกล่าวสำหรับสิ่งที่กล่าวถึงข้างต้นเพราะพวกเขาซ้อนทับกันสองสามครั้ง (การแยกคุณลักษณะวิศวกรรมคุณสมบัติ การแปลงคุณสมบัติ) แต่การเลือกคุณสมบัติจะทำแน่นอนหลังจากแยกข้อมูลเข้าสู่รถไฟเป็นการตรวจสอบโดยที่คุณกำลังใช้แบบจำลองเมตริกของคุณหรือสิ่งที่เทียบเท่ากับชุดข้อมูลการตรวจสอบความถูกต้อง (เพื่อวัดประสิทธิภาพ) สำหรับ Cross Validation ดร็อปคอลัมน์และดูคอลเลกชัน imp

— Aditya

5

ดังที่ Aditya กล่าวว่ามี 3 คำที่เกี่ยวข้องกับคุณสมบัติซึ่งบางครั้งอาจสับสนซึ่งกันและกัน ฉันจะลองและให้คำอธิบายสรุปกับแต่ละคน:

การแยกคุณลักษณะ: การสร้างคุณสมบัติจากข้อมูลที่อยู่ในรูปแบบที่ยากต่อการวิเคราะห์โดยตรง / ไม่สามารถเปรียบเทียบได้โดยตรง (เช่นรูปภาพ, อนุกรมเวลา ฯลฯ ) ในตัวอย่างของอนุกรมเวลาคุณสมบัติที่เรียบง่ายบางอย่างอาจใช้สำหรับ ตัวอย่าง: ความยาวของอนุกรมเวลา, ระยะเวลา, ค่าเฉลี่ย, std เป็นต้น
การเปลี่ยนแปลงคุณสมบัติ:การเปลี่ยนแปลงของคุณสมบัติที่มีอยู่เพื่อสร้างใหม่ตามเดิม เทคนิคที่นิยมใช้กันมากสำหรับการลดมิติข้อมูลคือการวิเคราะห์องค์ประกอบหลัก (pca) ที่ใช้การเปลี่ยนมุมฉากบางอย่างเพื่อสร้างชุดของตัวแปรที่ไม่สัมพันธ์กันเชิงเส้นตรงตามชุดตัวแปรเริ่มต้น
การเลือกคุณสมบัติ:การเลือกคุณสมบัติที่มี "ความสำคัญ" สูงสุด / มีอิทธิพลต่อตัวแปรเป้าหมายจากชุดของคุณลักษณะที่มีอยู่ สามารถทำได้ด้วยเทคนิคต่าง ๆ : เช่นการถดถอยเชิงเส้นต้นไม้การตัดสินใจการคำนวณน้ำหนัก "สำคัญ" (เช่นคะแนนชาวประมง ReliefF)

หากสิ่งเดียวที่คุณต้องการบรรลุคือการลดขนาดข้อมูลในชุดข้อมูลที่มีอยู่คุณสามารถใช้การแปลงคุณสมบัติหรือวิธีการเลือกคุณสมบัติ แต่ถ้าคุณจำเป็นต้องรู้การตีความทางกายภาพของคุณสมบัติที่คุณระบุว่า "สำคัญ" หรือคุณกำลังพยายาม จำกัด จำนวนข้อมูลที่ต้องรวบรวมสำหรับการวิเคราะห์ของคุณ (คุณต้องการชุดฟีเจอร์เริ่มต้นทั้งหมดสำหรับการแปลงคุณสมบัติ) การเลือกคุณสมบัติเท่านั้นจึงจะใช้ได้

คุณสามารถค้นหารายละเอียดเพิ่มเติมเกี่ยวกับการเลือกคุณสมบัติและการลดขนาดได้ในลิงค์ต่อไปนี้:

— missrg
แหล่งที่มา

4

ฉันคิดว่าพวกเขาเป็น 2 สิ่งที่แตกต่างกัน

เริ่มต้นด้วยการเลือกคุณสมบัติ :

เทคนิคนี้ใช้สำหรับการเลือกคุณสมบัติที่อธิบายตัวแปรเป้าหมายส่วนใหญ่ (มีความสัมพันธ์กับตัวแปรเป้าหมาย) การทดสอบนี้จะดำเนินการก่อนที่โมเดลจะถูกนำไปใช้กับข้อมูล

เพื่ออธิบายให้ดีขึ้นให้เราไปตามตัวอย่าง: มี 10 คุณสมบัติและตัวแปรเป้าหมาย 1 ตัวคุณสมบัติ 9 ตัวอธิบาย 90% ของตัวแปรเป้าหมายและ 10 คุณสมบัติรวมกันอธิบาย 91% ของตัวแปรเป้าหมาย ดังนั้นตัวแปร 1 นั้นไม่ได้สร้างความแตกต่างมากนักดังนั้นคุณมักจะลบมันก่อนการสร้างแบบจำลอง (มันเป็นเรื่องของธุรกิจเช่นกัน) ฉันสามารถเรียกได้ว่าเป็น Predictor สำคัญ

ตอนนี้ให้พูดคุยเกี่ยวกับคุณสมบัติของการสกัด ,

ซึ่งใช้ในการเรียนรู้ Unsupervised, การสกัดของรูปทรงในภาพ, การสกัด Bi-grams จากข้อความ, การแยกหน่วยเสียงจากการบันทึกข้อความพูด เมื่อคุณไม่รู้อะไรเกี่ยวกับข้อมูลเช่นไม่มีพจนานุกรมข้อมูลคุณลักษณะที่มากเกินไปซึ่งหมายความว่าข้อมูลนั้นไม่อยู่ในรูปแบบที่เข้าใจได้ จากนั้นคุณลองใช้เทคนิคนี้เพื่อรับคุณสมบัติบางอย่างซึ่งอธิบายถึงข้อมูลส่วนใหญ่ การแยกคุณลักษณะเกี่ยวข้องกับการเปลี่ยนแปลงคุณสมบัติซึ่งมักไม่สามารถย้อนกลับได้เนื่องจากข้อมูลบางอย่างสูญหายไปในกระบวนการลดมิติข้อมูล

คุณสามารถใช้การสกัดคุณลักษณะบนข้อมูลที่กำหนดเพื่อแยกฟีเจอร์จากนั้นใช้การเลือกคุณสมบัติที่เกี่ยวข้องกับ Target Variable เพื่อเลือกเซ็ตย่อยซึ่งสามารถช่วยในการสร้างแบบจำลองที่ดีพร้อมผลลัพธ์ที่ดี

คุณสามารถผ่านLink-1 , Link-2เหล่านี้เพื่อความเข้าใจที่ดีขึ้น

เราสามารถนำไปใช้ใน R, Python, SPSS

แจ้งให้เราทราบหากต้องการคำชี้แจงเพิ่มเติม

— Toros91
แหล่งที่มา

3

ทั้งสองแตกต่างกันมาก: การเลือกคุณสมบัติลดขนาดได้อย่างแน่นอน แต่การดึงคุณสมบัติเพิ่มมิติที่คำนวณจากคุณสมบัติอื่น ๆ

สำหรับพาเนลหรือข้อมูลอนุกรมเวลามักจะมีตัวแปร datetime และหนึ่งไม่ต้องการฝึกอบรมตัวแปรตามในวันที่ตัวเองเป็นพวกที่ไม่เกิดขึ้นในอนาคต ดังนั้นคุณควรกำจัดวันที่และเวลา: การกำจัดคุณสมบัติ

ในทางกลับกันวันทำงาน / วันหยุดสุดสัปดาห์อาจมีความเกี่ยวข้องมากดังนั้นเราจำเป็นต้องคำนวณสถานะของวันทำงานจากวันที่และเวลา: การแยกคุณสมบัติ

— vinnief
แหล่งที่มา

0

ส่วนสำคัญของความสำเร็จของโครงการการเรียนรู้ของเครื่องกำลังมาพร้อมกับคุณสมบัติที่ดีในการฝึกอบรม กระบวนการนี้เรียกว่าคุณสมบัติวิศวกรรมเกี่ยวข้องกับ:

•การเลือกคุณสมบัติ: การเลือกคุณสมบัติที่มีประโยชน์ที่สุดในการฝึกอบรมระหว่างคุณสมบัติที่มีอยู่
•การแยกคุณลักษณะ: การรวมคุณสมบัติที่มีอยู่เพื่อสร้างสิ่งที่มีประโยชน์มากขึ้น (อย่างที่เราเห็นก่อนหน้านี้อัลกอริทึมการลดขนาดสามารถช่วยได้)
•การสร้างคุณสมบัติใหม่โดยรวบรวมข้อมูลใหม่

การอ้างอิง: "การเรียนรู้ของเครื่องด้วย SciKit-Learn, Keras & Tensorflow - Aurelien Geron"

— Aditya
แหล่งที่มา