คำถามติดแท็ก feature-scaling

3
การแปลงคุณสมบัติของข้อมูลอินพุต
ฉันอ่านเกี่ยวกับวิธีแก้ปัญหาตัวต่อOTTO Kaggleนี้และวิธีแก้ปัญหาอันดับแรกดูเหมือนว่าจะใช้การแปลงหลายอย่างสำหรับข้อมูลอินพุต X เช่น Log (X + 1), sqrt (X + 3/8) เป็นต้นมี คำแนะนำทั่วไปเกี่ยวกับเวลาที่จะใช้การแปลงชนิดกับตัวแยกประเภทต่างๆ? ฉันเข้าใจแนวคิดเกี่ยวกับการทำให้ค่าเฉลี่ยและ var-normal-normalization อย่างไรก็ตามสำหรับการแปลงข้างต้นฉันเดาว่า Log และ Sqrt จะใช้ในการบีบอัดช่วงไดนามิกของข้อมูล และการเลื่อนแกน x เป็นเพียงการป้อนข้อมูลอีกครั้ง อย่างไรก็ตามผู้เขียนเลือกที่จะใช้วิธีการต่าง ๆ ของการทำให้เป็นมาตรฐานสำหรับอินพุต X เดียวกันเมื่อป้อนเข้าสู่ตัวแยกประเภทที่แตกต่างกัน ความคิดใด ๆ

3
เป็นวิธีที่ดีในการแปลงแอตทริบิวต์ลำดับรอบเป็นอย่างไร
ฉันมีฟิลด์ 'ชั่วโมง' เป็นคุณลักษณะของฉัน แต่มันต้องใช้ค่าวงจร ฉันจะแปลงคุณสมบัติเพื่อรักษาข้อมูลเช่น '23' และ '0' ชั่วโมงได้อย่างไร วิธีหนึ่งที่ฉันสามารถคิดได้คือทำการเปลี่ยนแปลง: min(h, 23-h) Input: [0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23] Output: [0 1 2 3 4 5 6 7 8 9 10 11 …

1
ควรให้เวกเตอร์ร้อนหนึ่งรายการถูกปรับอัตราส่วนด้วยคุณลักษณะตัวเลข
ในกรณีที่มีการรวมกันของคุณสมบัติการจัดหมวดหมู่และตัวเลขฉันมักจะแปลงแอตทริบิวต์การจัดหมวดหมู่เป็นเวกเตอร์ร้อนหนึ่งรายการ คำถามของฉันคือฉันจะปล่อยเวกเตอร์เหล่านั้นตามที่เป็นอยู่และปรับขนาดตัวเลขด้วยการกำหนดมาตรฐาน / การทำให้เป็นมาตรฐานหรือฉันควรจะปรับเวกเตอร์ร้อนหนึ่งอันพร้อมกับคุณลักษณะตัวเลขหรือไม่

1
วิธีจัดการกับคุณลักษณะลองจิจูด / ละติจูด [ปิด]
ปิด คำถามนี้ต้องการรายละเอียดหรือความคมชัด ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ เพิ่มรายละเอียดและชี้แจงปัญหาโดยแก้ไขโพสต์นี้ ปิดให้บริการใน3 ปีที่ผ่านมา ฉันกำลังทำงานกับชุดข้อมูลที่มีตัวละคร 25 ตัว คุณลักษณะสองอย่างคือละติจูดและลองจิจูดของสถานที่และอื่น ๆ คือค่า pH, ระดับความสูง, windSpeed ​​และอื่น ๆ ที่มีช่วงที่แตกต่างกัน ฉันสามารถทำการปรับสภาพให้เป็นมาตรฐานสำหรับคุณสมบัติอื่น ๆ ได้ แต่ฉันจะเข้าสู่คุณสมบัติละติจูด / ลองจิจูดได้อย่างไร แก้ไข: นี่เป็นปัญหาในการทำนายผลผลิตทางการเกษตร ฉันคิดว่า lat / long นั้นมีความสำคัญมากเนื่องจากตำแหน่งสามารถมีความสำคัญในการทำนายและด้วยเหตุนี้ภาวะที่กลืนไม่เข้าคายไม่ออก

3
เหตุใดเราจึงแปลงข้อมูลที่เบ้เป็นการแจกแจงแบบปกติ
ฉันกำลังแก้ไขปัญหาการแข่งขันด้านราคาที่อยู่อาศัยใน Kaggle ( เคอร์เนลของ Human Analog ในราคาบ้าน: เทคนิคการถดถอยขั้นสูง ) และได้ข้ามส่วนนี้: # Transform the skewed numeric features by taking log(feature + 1). # This will make the features more normal. from scipy.stats import skew skewed = train_df_munged[numeric_features].apply(lambda x: skew(x.dropna().astype(float))) skewed = skewed[skewed > 0.75] skewed = skewed.index train_df_munged[skewed] = np.log1p(train_df_munged[skewed]) test_df_munged[skewed] …

4
วิธีการปรับขนาดอาร์เรย์ของจำนวนเต็มที่ลงนามให้อยู่ในช่วงตั้งแต่ 0 ถึง 1
ฉันกำลังใช้Brainในการฝึกอบรมโครงข่ายประสาทเทียมในชุดคุณลักษณะที่มีทั้งค่าบวกและค่าลบ แต่สมองต้องการค่าอินพุตระหว่าง 0 ถึง 1 วิธีที่ดีที่สุดในการทำให้ข้อมูลของฉันเป็นปกติคืออะไร

2
ผลที่ตามมาของการปรับขนาดคุณสมบัติ
ขณะนี้ฉันใช้ SVM และปรับขนาดคุณสมบัติการฝึกอบรมของฉันให้อยู่ในช่วง [0,1] ฉันพอดีแรก / เปลี่ยนชุดฝึกอบรมของฉันและจากนั้นให้ใช้เดียวกันการเปลี่ยนแปลงการตั้งค่าการทดสอบของฉัน ตัวอย่างเช่น: ### Configure transformation and apply to training set min_max_scaler = MinMaxScaler(feature_range=(0, 1)) X_train = min_max_scaler.fit_transform(X_train) ### Perform transformation on testing set X_test = min_max_scaler.transform(X_test) สมมติว่าคุณลักษณะที่กำหนดในชุดการฝึกอบรมมีช่วง [0,100] และคุณลักษณะเดียวกันในชุดการทดสอบมีช่วง [-10,120] ในชุดการฝึกอบรมนั้นจะมีการปรับขนาดให้เหมาะสมกับ [0,1] ในขณะที่ชุดการทดสอบนั้นจะถูกปรับขนาดให้อยู่ในช่วงนอกช่วงที่ระบุไว้ครั้งแรกเช่น [-0.1,1.2] ฉันสงสัยว่าผลลัพธ์ของคุณลักษณะชุดการทดสอบนั้นอยู่นอกขอบเขตของสิ่งที่ใช้ในการฝึกอบรมโมเดลนั้นอย่างไร นี่เป็นปัญหาหรือไม่?

2
การถดถอยเชิงเส้นและการปรับขนาดของข้อมูล
พล็อตต่อไปนี้แสดงค่าสัมประสิทธิ์ที่ได้จากการถดถอยเชิงเส้น (พร้อมกับmpgตัวแปรเป้าหมายและอื่น ๆ ทั้งหมดเป็นตัวทำนาย) สำหรับชุดข้อมูล mtcars ( ที่นี่และที่นี่ ) ทั้งที่มีและไม่มีการปรับขนาดข้อมูล: ฉันจะตีความผลลัพธ์เหล่านี้ได้อย่างไร ตัวแปรhpและdispมีความสำคัญก็ต่อเมื่อมีการปรับสัดส่วนข้อมูล มีamและqsecความสำคัญเท่าเทียมกันหรือเป็นamสิ่งที่สำคัญกว่าqsec? ซึ่งตัวแปรหนึ่งควรจะพูดว่าเป็นปัจจัยสำคัญของการmpg? ขอบคุณสำหรับความเข้าใจของคุณ

3
ค่าเฉลี่ยศูนย์และความแปรปรวนของหน่วย
ฉันกำลังศึกษาการปรับขนาดข้อมูลและโดยเฉพาะอย่างยิ่งวิธีการมาตรฐาน ฉันเข้าใจคณิตศาสตร์ด้านหลังแล้ว แต่มันไม่ชัดเจนสำหรับฉันว่าทำไมจึงสำคัญที่จะต้องให้คุณสมบัติเป็นศูนย์ค่าเฉลี่ยและความแปรปรวนของหน่วย คุณอธิบายฉันได้ไหม
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.