การเก็บหนังสือของการทดสอบและผลการทดสอบ


11

ฉันเป็นนักวิจัยและฉันชอบการทดสอบวิธีแก้ปัญหาที่มีศักยภาพดังนั้นฉันมักจะทำการทดลองมากมาย ตัวอย่างเช่นหากฉันกำลังคำนวณคะแนนความคล้ายคลึงกันระหว่างเอกสารฉันอาจต้องการลองใช้มาตรการหลายอย่าง ที่จริงแล้วสำหรับแต่ละการวัดฉันอาจต้องทำการทดสอบหลายครั้งเพื่อทดสอบผลกระทบของพารามิเตอร์บางอย่าง

จนถึงตอนนี้ฉันได้ติดตามอินพุตและผลลัพธ์ของพวกเขาโดยการเขียนผลลัพธ์ลงในไฟล์ที่มีข้อมูลเกี่ยวกับอินพุตมากพอ ปัญหาคือการดึงผลลัพธ์ที่เฉพาะเจาะจงกลายเป็นสิ่งที่ท้าทายในบางครั้งแม้ว่าฉันจะพยายามเพิ่มข้อมูลอินพุตให้กับชื่อไฟล์ ฉันลองใช้สเปรดชีตพร้อมลิงก์ไปยังผลลัพธ์ แต่นี่ก็ไม่ได้สร้างความแตกต่างอย่างมาก

คุณใช้เครื่องมือ / กระบวนการใดในการทำหนังสือของคุณ


1
ฉันต้องการเพิ่มแนวทางปฏิบัติที่ดีที่สุดของแท็ก แต่ไม่สามารถทำได้เนื่องจากฉันไม่มีคะแนนชื่อเสียง 150 คะแนน ตามจริงแล้วฉันไม่เข้าใจว่าผู้มาใหม่สามารถมีส่วนร่วมในเว็บไซต์ได้อย่างมีประสิทธิภาพด้วยกฎดังกล่าวทั้งหมด ฉันเห็นคำถามมากมายที่ฉันรู้คำตอบ แต่ฉันไม่สามารถตอบหรือลงคะแนนได้ถ้ามีอยู่แล้ว
เครื่องจักร-ภูมิปัญญา

ฉันคิดว่านี่เป็นคำถามทั่วไปมากกว่าโปรแกรมดังนั้น StackOverflow อาจดีกว่า คุณสามารถรวมตัวอย่างของสิ่งที่คุณพยายามทำและทำไมมันจึงช้าและขอการเพิ่มประสิทธิภาพที่แนะนำ
Sean Owen

จริงๆแล้วฉันคิดว่าopendata.stackexchange.comน่าจะเหมาะกว่า
เอ็ม

1
เมื่อเร็ว ๆ นี้ฉันได้ดูข้อมูลเกี่ยวกับตลาดที่จะช่วยได้อย่างรวดเร็วและฉันต้องการแบ่งปันสิ่งที่ฉันค้นพบ มีผลิตภัณฑ์ SAAS สองผลิตภัณฑ์ที่สามารถช่วยให้ทีม Data Data ใช้การวิเคราะห์ร่วมกันใน Python และ R พวกเขาทั้งคู่มี IPython notebook เช่น IDE และพวกเขาทั้งสองสร้างคุณลักษณะรอบตัวเพื่อการทำงานและการแบ่งปัน ฉันพบพวกเขาทั้งคู่เกือบจะเหมือนกัน: [Domino Data Lab] [1] และ [Sense.io] [2] [1]: dominodatalab.com [2]: sense.io
machine-

นอกจากนี้ยังมีสภาพแวดล้อมการเรียนรู้ของเครื่องสำหรับ Hadoop ซึ่งคอยติดตามการทำงาน [h2o.ai] [3] มันไม่ได้มีไว้สำหรับเป็นเครื่องมือในการปรับปรุงการทำงานของทีมข้อมูล แต่ด้วยข้อตกลงการตั้งชื่อบางอย่างมันสามารถช่วยได้มาก อันนี้เหมาะที่สุดกับ [3]: h2o.ai
กลไกของภูมิปัญญา

คำตอบ:


5

คุณอาจต้องการดูhttp://deeplearning.net/software/jobman/intro.html

มันถูกออกแบบมาเพื่อการเรียนรู้อย่างลึกซึ้ง (ฉันเดา) แต่มันเป็นโปรแกรมที่ไม่เชื่อเรื่องพระเจ้า มันเป็นแนวทาง API ของ SeanEasters อย่างมีประสิทธิภาพ


5

ฉันเพิ่งพบปัญหาที่คล้ายกัน: วิธีจัดการแยกคุณสมบัติที่หลากหลายจากชุดข้อมูลขนาดใหญ่โดยไม่ทราบล่วงหน้าว่าจะเป็นอย่างไร (แม้การคำนวณค่าเฉลี่ยซ้ำ ๆ จะมีราคาแพงในการคำนวณ) นอกจากนี้ฉันจะจัดการการทำนายตามชุดคุณลักษณะที่แตกต่างกันอย่างไร ถ้าฉันเพิ่มฟีเจอร์ใหม่ฉันจะรู้ได้อย่างไรว่าโมเดลใดจะฝึกใช้ฟีเจอร์ใหม่ มันอาจจะกลายเป็นก้อนหิมะขนาดใหญ่ได้อย่างรวดเร็ว

โซลูชันปัจจุบันของฉันคือการติดตามทั้งหมดในฐานข้อมูล NoSQL ท้องถิ่น (MongoDB) ตัวอย่างเช่นฉันอาจมีการรวบรวมfeaturesแต่ละรายการที่มีชื่อคำอธิบายวิธีการคำนวณคุณสมบัติไฟล์หลามที่รันการแยก ฯลฯ

เช่นเดียวกันคอลเลกชันmodelsรวมถึงนางแบบที่ทำงานกับข้อมูล แต่ละรายการอาจมีชื่อรายชื่อของคุณสมบัติที่ใช้ในการฝึกอบรมรูปแบบพารามิเตอร์ในที่สุดของมันค่าที่คาดการณ์ไว้ในชุดทดสอบที่ถือออก, ตัวชี้วัดสำหรับวิธีการดำเนินการรูปแบบ ฯลฯ

จากจุดได้เปรียบของฉันนี้มีประโยชน์มากมาย:

  • ด้วยการบันทึกการคาดการณ์ฉันสามารถใช้พวกเขาในภายหลังในการทำนายวงดนตรี
  • เนื่องจากฉันติดตามว่าคุณลักษณะใดบ้างที่ใช้ฉันรู้ว่าคุณลักษณะใดที่ต้องมีการฝึกอบรมใหม่เมื่อฉันแยกคุณลักษณะเพิ่มเติม
  • โดยการบันทึกคำอธิบายแบบจำลองฉันมั่นใจได้ว่าฉันรู้อยู่เสมอว่าฉันได้ลองทำอะไรบ้าง ฉันไม่เคยสงสัยเลยว่า "ฉันลอง LASSO ด้วยพารามิเตอร์การทำให้เป็นมาตรฐานที่กำหนดโดย grid-search CV หรือยัง" ฉันสามารถค้นหาได้ตลอดเวลาและดูว่าประสบความสำเร็จได้อย่างไร

จากคำถามของคุณดูเหมือนว่าคุณสามารถปรับวิธีการนี้ให้สอดคล้องกับขั้นตอนการทำงานของปัญหา ติดตั้ง Mongo หรือฐานข้อมูลอื่นที่คุณเลือกจากนั้นบันทึกการทดสอบแต่ละครั้งอินพุตข้อมูลผลลัพธ์และสิ่งอื่น ๆ ที่คุณอาจต้องการติดตามตลอดหลักสูตรของโครงการ สิ่งนี้ควรสืบค้นได้ง่ายกว่าสเปรดชีตอย่างน้อยที่สุด


ฉันต้องการอัปโหลด แต่ฉันไม่ได้รับอนุญาต
เครื่องจักร-ภูมิปัญญา
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.