คำถามติดแท็ก scikit-learn

scikit-learn เป็นไลบรารีการเรียนรู้ของเครื่องสำหรับ Python ที่มีเครื่องมือที่เรียบง่ายและมีประสิทธิภาพสำหรับการวิเคราะห์ข้อมูลและการขุดข้อมูลโดยเน้นที่การเรียนรู้ของเครื่อง ทุกคนสามารถเข้าถึงได้และนำกลับมาใช้ใหม่ได้ในบริบทต่างๆ สร้างขึ้นจาก NumPy และ SciPy โครงการนี้เป็นโอเพ่นซอร์สและใช้งานได้ในเชิงพาณิชย์ (ใบอนุญาต BSD)

3
แปลงคอลัมน์เด็ดขาดหลายรายการ
ในชุดข้อมูลของฉันฉันมีสองคอลัมน์เด็ดขาดซึ่งฉันต้องการที่จะนับ ทั้งสองคอลัมน์มีทั้งประเทศซ้อนทับกันบางส่วน (ปรากฏในทั้งสองคอลัมน์) ฉันต้องการให้หมายเลขเดียวกันในคอลัมน์ 1 และคอลัมน์ 2 สำหรับประเทศเดียวกัน ข้อมูลของฉันดูเหมือนว่า: import pandas as pd d = {'col1': ['NL', 'BE', 'FR', 'BE'], 'col2': ['BE', 'NL', 'ES', 'ES']} df = pd.DataFrame(data=d) df ฉันกำลังแปลงข้อมูลเช่น: from sklearn.preprocessing import LabelEncoder df.apply(LabelEncoder().fit_transform) อย่างไรก็ตามสิ่งนี้ทำให้ไม่มีความแตกต่างระหว่าง FR และ ES มีวิธีง่ายๆอีกวิธีในการแสดงผลลัพธ์ต่อไปนี้? o = {'col1': [2,0,1,0], 'col2': [0,2,4,4]} output = pd.DataFrame(data=o) output

2
ใช้ GridSearchCV กับ IsolationForest เพื่อค้นหาค่าผิดปกติ
ฉันต้องการใช้IsolationForestสำหรับการค้นหาค่าผิดปกติ GridSearchCVฉันต้องการที่จะหาพารามิเตอร์ที่ดีที่สุดสำหรับรูปแบบด้วย ปัญหาคือฉันมักจะได้รับข้อผิดพลาดเดียวกัน: TypeError: If no scoring is specified, the estimator passed should have a 'score' method. The estimator IsolationForest(behaviour='old', bootstrap=False, contamination='legacy', max_features=1.0, max_samples='auto', n_estimators=100, n_jobs=None, random_state=None, verbose=0, warm_start=False) does not. ดูเหมือนว่าปัญหาเพราะIsolationForestไม่มีscoreวิธี มีวิธีแก้ไขปัญหานี้หรือไม่? นอกจากนี้ยังมีวิธีการหาคะแนนสำหรับป่าแยกหรือไม่ นี่คือรหัสของฉัน: import pandas as pd from sklearn.ensemble import IsolationForest from sklearn.model_selection import GridSearchCV df = pd.DataFrame({'first': …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.