ขั้นตอนวิธีใดที่ต้องใช้การเข้ารหัสแบบร้อนแรง


12

ฉันไม่เคยแน่ใจว่าจะใช้การเข้ารหัสแบบร้อนแรงหนึ่งครั้งสำหรับตัวแปรเด็ดขาดที่ไม่มีการเรียงลำดับและเมื่อใด ฉันใช้ทุกครั้งที่อัลกอริทึมใช้การวัดระยะทางเพื่อคำนวณความคล้ายคลึงกัน ทุกคนสามารถให้กฎทั่วไปเกี่ยวกับประเภทของอัลกอริทึมที่ต้องใช้คุณลักษณะที่ไม่มีการจัดประเภทเพื่อเข้ารหัสแบบร้อนแรงและแบบใดที่จะไม่


2
คุณกำลังถามเกี่ยวกับความต้องการในการรหัสข้อมูลที่เป็นหมวดหมู่เป็น "ตัวแปรความคมชัด" บางประเภทหรือโดยเฉพาะอย่างยิ่งในประเภทจำลอง (หนึ่งร้อน)?
ttnphns

1
คำถามนี้ค่อนข้างกว้าง แต่คำตอบง่ายๆที่กล่าวถึงธรรมชาติของ OHE สามารถแก้ไขความสับสนของ OP ได้ การมีอยู่ของคำตอบดังกล่าวหมายถึงคำถามนี้ตอบได้ ฉันลงคะแนนให้เปิดทิ้งไว้
gung - Reinstate Monica

@ttnphns โดยสุจริตฉันไม่ทราบว่าคุณหมายถึงอะไรโดยตัวแปรตรงกันข้าม ฉันคุ้นเคยกับหุ่นจำลองเท่านั้น
cosmosa

Cosmos, dummy (= ตัวบ่งชี้ = หนึ่งร้อน) เป็นเพียงหนึ่งในวิธีการเข้ารหัส cariables เด็ดขาดในการวิเคราะห์ วิธีเหล่านี้ถูกเรียกว่า "ตัวแปรความคมชัด" อย่างละเอียด ดูstats.meta.stackexchange.com/q/4669/3277และstats.stackexchange.com/a/221868/3277
ttnphns

1
ฉันคิดว่ารายการทั้งหมดที่คุณขอนั้นยากที่จะผลิต
mdewey

คำตอบ:


6

อัลกอริธึมส่วนใหญ่ (การถดถอยเชิงเส้น, การถดถอยโลจิสติก, เครือข่ายประสาทเทียม, การสนับสนุนเวกเตอร์แมชชีน ฯลฯ ) จำเป็นต้องมีการเข้ารหัสในตัวแปรเด็ดขาด นี่เป็นเพราะอัลกอริทึมส่วนใหญ่ใช้ค่าตัวเลขเป็นอินพุตเท่านั้น

อัลกอริทึมที่ไม่ต้องการการเข้ารหัสคืออัลกอริทึมที่สามารถจัดการโดยตรงกับการแจกแจงแบบแยกส่วนเช่น Markov chain / Naive Bayes / เครือข่าย Bayesian, Tree based เป็นต้น

ความคิดเห็นเพิ่มเติม:


ยังคงไม่ชัดเจนหากจำเป็นต้องใช้การเข้ารหัสแบบร้อนสำหรับ MOST ALGORITHMS คุณเพียงแค่บอกว่าจำเป็นต้องมีการเข้ารหัส แต่มันเป็นหนึ่งการเข้ารหัสร้อน
โพร

4

ทุกคนสามารถให้รายการของอัลกอริธึมที่ต้องการคุณลักษณะที่เป็นหมวดหมู่เพื่อการเข้ารหัสแบบร้อนแรงและแบบใดที่จะไม่

AFAIU ก็มีการทำมากขึ้นด้วยโดยเฉพาะอย่างยิ่งข้อมูลน้อยด้วยโดยเฉพาะอย่างยิ่งขั้นตอนวิธีการ โดยเฉพาะมันขึ้นอยู่กับว่ามีบางคำสั่งที่มีความหมายในหมวดหมู่หรือไม่

พิจารณาสองกรณี ในครั้งแรกที่คุณมีประเภทที่ไม่ดี Meh ดีและในครั้งที่สองที่คุณมีแอปเปิ้ล, ส้ม, ลูกแพร์ มีคำสั่งซื้อธรรมชาติในกรณีแรกเป็นเพราะMehอาจจะเป็นในระหว่างที่ไม่ดีและดีอาจจะไม่มีอะไรที่คล้ายกันเกิดขึ้นใน แต่แอปเปิ้ล, ส้ม, ลูกแพร์

หากคุณหลีกเลี่ยงการเข้ารหัสแบบร้อนแรงสำหรับกรณีแรกคุณจะ "สูญเสีย" ข้อมูลเกี่ยวกับคำสั่งซื้อ หากคุณใช้การเข้ารหัสแบบร้อนแรงสำหรับกรณีที่สองคุณกำลังกำหนดคำสั่งให้กับหมวดหมู่ที่ไม่เป็นความจริงตามธรรมชาติ

ฉันทำทุกครั้งที่อัลกอริทึมใช้การวัดระยะทางเพื่อคำนวณความคล้ายคลึงกัน

ทำไม? สมมติว่าหนึ่งในคุณสมบัตินั้นเป็นหมวดหมู่ไม่ดี, meh, ดีและคุณมีสามอินสแตนซ์, 1, 2, และ 3 ซึ่งพวกเขาเหมือนกันยกเว้นว่า 1 ไม่ดี , 2 คือเมห์และ 3 เป็นสิ่งที่ดี คุณอาจต้องการแสดงอัลกอริทึมที่ 1 คล้ายกับ 2 มากกว่า 3


2
นั่นเป็นคำตอบที่ดี ฉันควรชี้แจงคำถามแม้ว่าจะรวมถึงตัวแปรเด็ดขาดไม่เรียงลำดับเช่นกัน ในกรณีนั้นมันควรจะเป็นหนึ่งร้อนที่เข้ารหัส?
cosmosa

@ cosmos1990 IMHO เป็นกฎง่ายๆสำหรับการจัดหมวดหมู่ข้อมูลที่ไม่ได้รับคำสั่งการเข้ารหัสแบบร้อนแรงเป็นวิธีที่จะดำเนินการ (ตรงข้ามกับการกำหนดค่าตัวเลข)
Ami Tavory

2

อัลกอริทึมการเรียนรู้ของเครื่องไม่จำเป็นต้องมีการ เข้ารหัสร้อน มันเป็นวิธีการหนึ่งในการจัดการกับตัวแปรเด็ดขาด ตัวแปรดัมมี่เป็นอีกตัวแปรหนึ่ง ตามเนื้อผ้าตัวแปรหลอกเป็นทางออกที่ต้องการ ตัวอย่างเช่นฟังก์ชัน R lm () สร้างตัวแปรดัมมีให้โดยอัตโนมัติสำหรับข้อมูลหมวดหมู่ หากคุณใช้ python และ scikt-Learn ฉันเชื่อว่า algos หลายตัวต้องใช้การเข้ารหัสตัวแปรเด็ดขาดแบบหนึ่งครั้ง ฉันเชื่อว่าเมตริกซ์กระแสยังต้องใช้การเข้ารหัสร้อนแรง นี่เป็นตัวเลือกว่าตัวแปรนั้นถูกเข้ารหัสอย่างไร ไม่มีเหตุผลที่ไม่สามารถใช้ตัวแปรจำลองในรหัสแทนได้ ทั้งหมดนี้มีการจัดการกับการใช้รหัสจริงของอัลกอริทึม

ในฐานะที่เป็น hxd1011 ชี้ให้เห็นปัญหาของการอธิบาย 'ระยะทาง' ระหว่างตัวแปรเด็ดขาดเป็นปัญหาที่ละเอียดอ่อน นอกจากระยะทางที่กล่าวถึงแล้วยังมีระยะทาง Jaccard วิธีการ ML บางอย่างโดยเฉพาะอย่างยิ่ง SVM นั้นไม่เหมาะสมสำหรับข้อมูลที่เป็นหมวดหมู่และการเพิ่มตัวแปรเด็ดขาดสามารถ / / (คุณตัดสินใจได้ทั้งสองอย่าง) นำไปสู่แบบจำลองที่มีพลังการทำนายต่ำมาก รุ่นชุดส่วนใหญ่จัดการข้อมูลเด็ดขาด 'ตามที่เป็น' และไม่จำเป็นต้องประมวลผลล่วงหน้า

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.