เมื่ออัลกอริธึม ML เช่น Vowpal Wabbit หรือเครื่องแยกตัวประกอบที่ชนะการคลิกผ่านอัตราการแข่งขัน ( Kaggle ) กล่าวถึงคุณลักษณะว่า 'แฮช' แล้วอะไรคือความหมายของแบบจำลองจริง ๆ ให้บอกว่ามีตัวแปรที่แสดง ID ของการเพิ่มอินเทอร์เน็ตซึ่งใช้กับค่าเช่น '236BG231' จากนั้นฉันเข้าใจว่าคุณลักษณะนี้ถูกแฮชเป็นจำนวนเต็มแบบสุ่ม แต่คำถามของฉันคือ:
- เป็นจำนวนเต็มตอนนี้ใช้ในรูปแบบเป็นจำนวนเต็ม (ตัวเลข) หรือ
- ค่าแฮชจริงยังคงปฏิบัติเหมือนตัวแปรเด็ดขาดและการเข้ารหัสแบบร้อนแรงหรือไม่ ดังนั้นเคล็ดลับการแปลงแป้นพิมพ์เป็นเพียงการประหยัดพื้นที่อย่างใดกับข้อมูลขนาดใหญ่?