วิทยาศาสตร์ข้อมูล predictive-modeling

1

การวิเคราะห์บันทึกเซิร์ฟเวอร์โดยใช้การเรียนรู้ของเครื่อง

ฉันได้รับมอบหมายงานนี้เพื่อวิเคราะห์บันทึกเซิร์ฟเวอร์ของแอปพลิเคชันของเราซึ่งมีบันทึกข้อยกเว้นบันทึกบันทึกเหตุการณ์ฐานข้อมูล ฯลฯ ฉันยังใหม่กับการเรียนรู้ของเครื่องเราใช้ Spark พร้อมการค้นหาแบบยืดหยุ่นและ Sparks MLlib (หรือ PredictionIO) ตัวอย่างที่ต้องการ ผลลัพธ์จะสามารถทำนายตามบันทึกข้อยกเว้นที่รวบรวมเพื่อให้สามารถคาดการณ์ได้ว่าผู้ใช้คนใดมีแนวโน้มที่จะทำให้เกิดข้อยกเว้นต่อไปและคุณลักษณะใด (และสิ่งอื่น ๆ เพื่อติดตามและปรับปรุงการเพิ่มประสิทธิภาพของแอปพลิเคชัน) ฉันสามารถนำเข้าข้อมูลจาก ElasticSearch มาเป็นประกายและสร้าง DataFrames และแมปข้อมูลที่ต้องการได้สำเร็จ สิ่งที่ฉันอยากรู้คือฉันจะเข้าหาด้านการเรียนรู้ของการใช้งานเครื่องได้อย่างไร ฉันเคยผ่านบทความและเอกสารที่พูดคุยเกี่ยวกับการเตรียมข้อมูลล่วงหน้าฝึกอบรมตัวแบบข้อมูลและสร้างป้ายกำกับ คำถามที่ฉันมี ฉันจะเข้าใกล้การแปลงข้อมูลบันทึกการออกเป็นเวกเตอร์ตัวเลขซึ่งสามารถใช้กับชุดข้อมูลที่จะฝึกอบรมได้อย่างไร ฉันใช้อัลกอริทึมในการฝึกอบรมชุดข้อมูลของฉัน (ด้วยความรู้ที่ จำกัด ฉันได้รวบรวมสองสามวันที่ผ่านมาฉันกำลังคิดเกี่ยวกับการแข่งขันการถดถอยเชิงเส้นโปรดแนะนำการใช้งานที่จะดีที่สุด) เพียงมองหาข้อเสนอแนะเกี่ยวกับวิธีแก้ไขปัญหานี้ ขอบคุณ.

10 machine-learning predictive-modeling apache-spark

2

จะทำการ Logistic Regression ด้วยคุณสมบัติจำนวนมากได้อย่างไร?

ฉันมีชุดข้อมูลที่มี 330 ตัวอย่างและ 27 คุณสมบัติสำหรับแต่ละกลุ่มตัวอย่างที่มีปัญหาระดับไบนารีสำหรับการถดถอยโลจิสติก ตามกฎ "ถ้าสิบ" ฉันต้องการอย่างน้อย 10 เหตุการณ์เพื่อให้รวมคุณลักษณะแต่ละรายการ แม้ว่าฉันมีชุดข้อมูลที่ไม่สมดุลโดยมีคลาสบวก 20% และคลาสลบ 80% นั่นทำให้ฉันมีเพียง 70 เหตุการณ์อนุญาตให้รวมฟีเจอร์ประมาณ 7/8 เท่านั้นในโมเดลโลจิสติก ฉันต้องการประเมินคุณสมบัติทั้งหมดเป็นตัวทำนายฉันไม่ต้องการเลือกคุณสมบัติใด ๆ ดังนั้นคุณจะแนะนำอะไร ฉันควรจะรวมคุณสมบัติทั้งหมด 7 อย่างที่เป็นไปได้หรือไม่ ฉันควรประเมินแต่ละคุณลักษณะโดยลำพังด้วยรูปแบบการเชื่อมโยงแล้วเลือกเฉพาะคุณลักษณะที่ดีที่สุดสำหรับรุ่นสุดท้าย ฉันยังสงสัยเกี่ยวกับการจัดการคุณสมบัติที่เป็นหมวดหมู่และต่อเนื่องฉันจะผสมมันได้หรือไม่ หากฉันมีหมวดหมู่ [0-1] และต่อเนื่อง [0-100] ฉันควรทำให้เป็นมาตรฐานหรือไม่ ฉันกำลังทำงานกับ Python ขอบคุณมาก ๆ สำหรับความช่วยเหลือของคุณ!

10 machine-learning python predictive-modeling logistic-regression data

3

อัลกอริทึมการเรียนรู้ของเครื่องใดที่ได้รับการยอมรับว่าเป็นการแลกเปลี่ยนที่ดีระหว่างการอธิบายและการทำนาย?

ข้อความการเรียนรู้ของเครื่องที่อธิบายอัลกอริธึมเช่นเครื่องเร่งการไล่ระดับสีหรือเครือข่ายประสาทเทียมมักจะแสดงความคิดเห็นว่าแบบจำลองเหล่านี้ดีต่อการทำนาย แต่สิ่งนี้มาจากการสูญเสียความสามารถในการอธิบายหรือตีความ ในทางกลับกันต้นไม้การตัดสินใจเดี่ยวและแบบจำลองการถดถอยแบบคลาสสิกนั้นมีคำอธิบายที่ดี แต่ให้ความแม่นยำในการทำนายที่ค่อนข้างต่ำเมื่อเทียบกับแบบจำลองที่มีความซับซ้อนเช่นป่าที่สุ่มหรือ SVM มีรูปแบบการเรียนรู้ด้วยเครื่องที่ยอมรับกันโดยทั่วไปว่าเป็นรูปแบบการแลกเปลี่ยนที่ดีระหว่างทั้งสอง มีวรรณกรรมใดที่แจกแจงลักษณะของอัลกอริทึมที่อนุญาตให้อธิบายได้หรือไม่? (คำถามนี้ถูกถามก่อนหน้านี้เกี่ยวกับการตรวจสอบข้าม)

9 machine-learning predictive-modeling

3

ส่งออกน้ำหนัก (สูตร) จาก Random Forest Regressor ใน Scikit-Learn

ฉันได้ฝึกฝนแบบจำลองการทำนายด้วย Scikit Learn ใน Python (Random Forest Regressor) และฉันต้องการแยกน้ำหนักของคุณลักษณะแต่ละอย่างเพื่อสร้างเครื่องมือ excel สำหรับการคาดการณ์ด้วยตนเอง สิ่งเดียวที่ฉันพบคือmodel.feature_importances_แต่มันไม่ได้ช่วย มีวิธีการที่จะบรรลุหรือไม่ def performRandomForest(X_train, y_train, X_test, y_test): '''Perform Random Forest Regression''' from sklearn.ensemble import RandomForestRegressor model = RandomForestRegressor() model.fit( X_train , y_train ) #make predictions expected = y_test predicted = model.predict( X_test ) #summarize the fit of the model …

9 python predictive-modeling regression random-forest scikit-learn

คำถามติดแท็ก predictive-modeling