ฉันกำลังคิดเกี่ยวกับปัญหาที่จะทำนายการใช้จ่ายของลูกค้าโดยใช้การถดถอยเชิงเส้น
ฉันกำลังพิจารณาว่าฟีเจอร์ใดที่จะใช้เป็นอินพุตและสงสัยว่ามันจะโอเคที่จะใช้เปอร์เซ็นไทล์ของตัวแปรเป็นอินพุต
ตัวอย่างเช่นฉันสามารถใช้รายได้ของ บริษัท เป็นอินพุท สิ่งที่ฉันสงสัยคือฉันสามารถใช้เปอร์เซ็นต์รายได้ของ บริษัท แทนได้หรือไม่
อีกตัวอย่างหนึ่งจะเป็นลักษณนามอุตสาหกรรมเด็ดขาด (NAICS) - ถ้าฉันดูค่าใช้จ่ายเฉลี่ยต่อรหัส NAICS แล้วกำหนดรหัส NAICS ให้กับ 'NAICS Percentile' ซึ่งเป็นตัวแปรอธิบายที่ถูกต้องที่ฉันสามารถใช้ได้หรือไม่
เพียงแค่สงสัยว่ามีปัญหาใด ๆ ที่ควรระวังเมื่อใช้เปอร์เซ็นไทล์หรือไม่ ในบางวิธีเทียบเท่ากับการปรับขนาดประเภทหรือไม่