วิทยาศาสตร์ข้อมูล

ถามตอบสำหรับผู้เชี่ยวชาญด้านข้อมูลวิทยาศาสตร์ผู้เชี่ยวชาญด้านการเรียนรู้ของเครื่องจักรและผู้ที่สนใจเรียนรู้เพิ่มเติมเกี่ยวกับสาขานี้

4
ใช้ TensorFlow กับ Intel GPU
ฉันเป็นมือใหม่ในการเรียนรู้อย่างลึกซึ้ง มีวิธีใดบ้างในการใช้ TensorFlow กับ Intel GPUs? ถ้าใช่โปรดชี้ฉันในทิศทางที่ถูกต้อง หากไม่มีโปรดแจ้งให้เราทราบว่าฉันสามารถใช้เฟรมเวิร์กตัวใด (Keras, Theano ฯลฯ ) สำหรับ Intel Corporation Xeon E3-1200 v3 / 4th Gen Core Processor รวมกราฟิกโปรเซสเซอร์ของฉัน
20 tensorflow  keras  theano  gpu 

3
StandardScaler ก่อนและหลังการแยกข้อมูล
เมื่อฉันกำลังอ่านเกี่ยวกับการใช้StandardScalerคำแนะนำส่วนใหญ่บอกว่าคุณควรใช้StandardScaler ก่อนที่จะแยกข้อมูลออกเป็นรถไฟ / ทดสอบ แต่เมื่อฉันตรวจสอบบางส่วนของรหัสโพสต์ออนไลน์ (โดยใช้ sklearn) มีการใช้หลักสองประการ 1- ใช้StandardScalerกับข้อมูลทั้งหมด เช่น from sklearn.preprocessing import StandardScaler sc = StandardScaler() X_fit = sc.fit(X) X_std = X_fit.transform(X) หรือ from sklearn.preprocessing import StandardScaler sc = StandardScaler() X = sc.fit(X) X = sc.transform(X) หรือเพียงแค่ from sklearn.preprocessing import StandardScaler sc = StandardScaler() X_std = sc.fit_transform(X) 2- …

2
Sparse_categorical_crossentropy vs categorical_crossentropy (keras ความแม่นยำ)
ข้อไหนดีกว่าเพื่อความถูกต้องหรือเหมือนกัน แน่นอนถ้าคุณใช้ categorical_crossentropy คุณใช้การเข้ารหัสแบบร้อนและหากคุณใช้ sparse_categorical_crossentropy คุณจะเข้ารหัสเป็นจำนวนเต็มปกติ นอกจากนี้เมื่อใดจะดีกว่าอีกอัน

1
ควรให้เวกเตอร์ร้อนหนึ่งรายการถูกปรับอัตราส่วนด้วยคุณลักษณะตัวเลข
ในกรณีที่มีการรวมกันของคุณสมบัติการจัดหมวดหมู่และตัวเลขฉันมักจะแปลงแอตทริบิวต์การจัดหมวดหมู่เป็นเวกเตอร์ร้อนหนึ่งรายการ คำถามของฉันคือฉันจะปล่อยเวกเตอร์เหล่านั้นตามที่เป็นอยู่และปรับขนาดตัวเลขด้วยการกำหนดมาตรฐาน / การทำให้เป็นมาตรฐานหรือฉันควรจะปรับเวกเตอร์ร้อนหนึ่งอันพร้อมกับคุณลักษณะตัวเลขหรือไม่

4
ข้อมูลมัลติคลาสที่ไม่สมดุลกับ XGBoost
ฉันมี 3 คลาสพร้อมการกระจายนี้: Class 0: 0.1169 Class 1: 0.7668 Class 2: 0.1163 และฉันใช้xgboostสำหรับการจำแนกประเภท scale_pos_weightฉันรู้ว่ามีพารามิเตอร์ที่เรียกว่า แต่จะจัดการกับกรณี 'มัลติคลาส' ได้อย่างไรและฉันจะตั้งค่าได้อย่างไร

1
วิธีการตัดสินใจสถาปัตยกรรมเครือข่ายประสาทเทียม
ฉันสงสัยว่าเราต้องตัดสินใจได้อย่างไรว่ามีโหนดจำนวนเท่าใดในเลเยอร์ที่ซ่อนอยู่และจำนวนเลเยอร์ที่ซ่อนอยู่ที่จะใส่เมื่อเราสร้างสถาปัตยกรรมเครือข่ายประสาท ฉันเข้าใจว่าชั้นอินพุทและเอาท์พุทขึ้นอยู่กับชุดการฝึกอบรมที่เรามี แต่เราจะตัดสินใจเลเยอร์ที่ซ่อนอยู่และสถาปัตยกรรมโดยรวมได้อย่างไร?

2
พารามิเตอร์อัลฟาและเบต้ามีส่วนช่วยอะไรในการจัดสรร Latent Dirichlet
LDA มีพารามิเตอร์หลายตัวสองค่าการปรับเปลี่ยนหัวข้อที่ถูกชักจูง พารามิเตอร์อัลฟาและเบต้ามีส่วนร่วมใน LDA อย่างไร หัวข้อเปลี่ยนไปอย่างไรหากพารามิเตอร์อย่างใดอย่างหนึ่งหรือพารามิเตอร์อื่น ๆ เพิ่มขึ้นหรือลดลง? ทำไมถึงเป็น hyperparamters และไม่ใช่แค่พารามิเตอร์?

1
Hellinger Distance คืออะไรและควรใช้เมื่อใด
ฉันสนใจที่จะรู้ว่าสิ่งที่เกิดขึ้นจริงในระยะทาง Hellinger (ในแง่ง่าย) นอกจากนี้ฉันยังสนใจที่จะทราบว่าปัญหาประเภทใดบ้างที่เราสามารถใช้ Hellinger Distance ประโยชน์ของการใช้ Hellinger Distance คืออะไร

3
วิธีการดำเนินการด้านวิศวกรรมคุณสมบัติในคุณสมบัติที่ไม่รู้จัก?
ฉันมีส่วนร่วมในการแข่งขัน kaggle ชุดข้อมูลมีคุณลักษณะประมาณ 100 รายการและไม่เป็นที่รู้จักทั้งหมด โดยทั่วไปพวกเขาเป็นเพียงตัวเลข ผู้คนกำลังดำเนินการด้านวิศวกรรมฟีเจอร์กับฟีเจอร์มากมาย ฉันสงสัยว่าคนหนึ่งสามารถทำงานด้านวิศวกรรมคุณลักษณะบนคุณสมบัติที่ไม่รู้จักได้อย่างไร ใครช่วยกรุณาช่วยฉันเข้าใจเรื่องนี้และเคล็ดลับเกี่ยวกับฉันจะดำเนินการด้านวิศวกรรมคุณลักษณะในคุณสมบัติที่ไม่รู้จักได้อย่างไร

2
จะรับค่า p-value และช่วงความมั่นใจใน LogisticRegression ด้วย sklearn ได้อย่างไร
ฉันกำลังสร้างการถดถอยโลจิสติกพหุนามด้วย sklearn (LogisticRegression) แต่หลังจากเสร็จสิ้นฉันจะได้รับค่า p และช่วงความมั่นใจของแบบจำลองของฉันได้อย่างไร ปรากฏว่า sklearn ให้ค่าสัมประสิทธิ์และดักเท่านั้น ขอบคุณมาก.

2
คุณสามารถอธิบายความแตกต่างระหว่าง SVC และ LinearSVC ใน scikit-Learn ได้หรือไม่?
ฉันเพิ่งเริ่มเรียนรู้ที่จะทำงานกับsklearnและเพิ่งเจอผลลัพธ์ที่แปลกประหลาดนี้ ฉันใช้digitsชุดข้อมูลที่มีอยู่sklearnเพื่อลองแบบจำลองต่างๆและวิธีการประมาณค่า เมื่อฉันทดสอบโมเดลเครื่อง Vector สนับสนุนบนข้อมูลฉันพบว่ามีสองคลาสที่แตกต่างกันsklearnสำหรับการจัดหมวดหมู่ SVM: SVCและLinearSVCที่ซึ่งอดีตใช้วิธีแบบหนึ่งต่อหนึ่งและอีกวิธีหนึ่งใช้กับวิธีส่วนที่เหลือ ฉันไม่รู้ว่าจะมีผลกระทบอะไรกับผลลัพธ์ดังนั้นฉันจึงลองทั้งสองอย่าง ฉันทำการประมาณสไตล์ Monte Carlo ที่ฉันวิ่งทั้งสองรุ่น 500 ครั้งแต่ละครั้งแบ่งตัวอย่างแบบสุ่มเป็นการฝึกอบรม 60% และทดสอบ 40% และคำนวณข้อผิดพลาดของการทำนายในชุดทดสอบ ตัวประมาณ SVC ปกติสร้างฮิสโตแกรมของข้อผิดพลาดต่อไปนี้: ในขณะที่ตัวประมาณ SVC เชิงเส้นสร้างฮิสโตแกรมต่อไปนี้: อะไรที่ทำให้เกิดความแตกต่างอย่างสิ้นเชิง? เหตุใดตัวแบบเชิงเส้นจึงมีความแม่นยำสูงขึ้นเกือบตลอดเวลา และที่เกี่ยวข้องอะไรที่อาจทำให้เกิดโพลาไรเซชันโดยสิ้นเชิงในผลลัพธ์ ทั้งความแม่นยำใกล้กับ 1 หรือความแม่นยำใกล้กับ 0 ไม่มีอะไรในระหว่าง สำหรับการเปรียบเทียบการจำแนกแผนภูมิการตัดสินใจทำให้เกิดอัตราการผิดพลาดแบบกระจายที่มากกว่าปกติด้วยความแม่นยำประมาณ 0.85
19 svm  scikit-learn 

3
วิธีสร้างชุดข้อมูลสังเคราะห์โดยใช้โมเดลการเรียนรู้ของเครื่องเรียนรู้ด้วยชุดข้อมูลดั้งเดิมได้อย่างไร
โดยทั่วไปโมเดลการเรียนรู้ของเครื่องจะถูกสร้างขึ้นบนชุดข้อมูล ฉันต้องการที่จะทราบว่ามีวิธีการสร้างชุดข้อมูลสังเคราะห์โดยใช้รูปแบบการเรียนรู้ของเครื่องฝึกอบรมที่รักษาลักษณะชุดข้อมูลดั้งเดิมหรือไม่? [ข้อมูลดั้งเดิม -> สร้างโมเดลการเรียนรู้ของเครื่อง -> ใช้โมเดล ML เพื่อสร้างข้อมูลสังเคราะห์ .... !!!] เป็นไปได้ไหม ? กรุณาชี้ให้ฉันไปที่แหล่งข้อมูลที่เกี่ยวข้องถ้าเป็นไปได้

3
จะเพิ่มรายการคำที่เกี่ยวข้องตามคำหลักเริ่มต้นได้อย่างไร
ฉันเพิ่งเห็นคุณลักษณะเจ๋งที่ครั้งหนึ่งเคยมีอยู่ใน Google ชีต: คุณเริ่มต้นด้วยการเขียนคำหลักที่เกี่ยวข้องในเซลล์ต่อเนื่องกันพูดว่า: "สีฟ้า", "สีเขียว", "สีเหลือง" และจะสร้างคำหลักที่คล้ายกันโดยอัตโนมัติ สีอื่น ๆ ) ดูตัวอย่างเพิ่มเติมในวิดีโอ YouTubeนี้ ฉันต้องการทำซ้ำในโปรแกรมของฉันเอง ฉันกำลังคิดที่จะใช้ Freebase และมันจะใช้งานได้เช่นนี้อย่างสังหรณ์ใจ: ดึงรายการคำที่กำหนดใน Freebase; ค้นหา "ตัวหารร่วม" และสร้างตัวชี้วัดระยะทางตามสิ่งนี้ จัดลำดับแนวคิดอื่นตาม "ระยะทาง" ของคำหลักเดิม แสดงแนวคิดที่ใกล้เคียงที่สุดต่อไป เนื่องจากฉันไม่คุ้นเคยกับเรื่องนี้คำถามของฉันคือ: มีวิธีที่ดีกว่าในการทำเช่นนี้? มีเครื่องมืออะไรบ้างในแต่ละขั้นตอน?

2
การจัดหมวดหมู่ข้อความ: รวมคุณสมบัติที่แตกต่าง
ปัญหาที่ฉันแก้ปัญหาคือการจัดหมวดหมู่ข้อความสั้น ๆ เป็นหลายคลาส วิธีการปัจจุบันของฉันคือการใช้ความถี่เทอม tf-idf และเรียนรู้ลักษณนามเชิงเส้นอย่างง่าย (การถดถอยโลจิสติก) วิธีนี้ใช้ได้ดีพอสมควร (มาโคร 90% F-1 ในชุดทดสอบเกือบ 100% สำหรับชุดฝึกอบรม) ปัญหาใหญ่คือสิ่งที่มองไม่เห็นคำ / n-g ฉันพยายามปรับปรุงตัวจําแนกโดยการเพิ่มคุณสมบัติอื่น ๆ เช่นเวกเตอร์ขนาดคงที่ที่คำนวณโดยใช้ความคล้ายคลึงกันแบบกระจาย (ตามที่คำนวณโดย word2vec) หรือคุณสมบัติหมวดหมู่อื่น ๆ ของตัวอย่าง ความคิดของฉันคือการเพิ่มคุณสมบัติให้กับคุณสมบัติการป้อนข้อมูลแบบเบาบางจากถุงคำ อย่างไรก็ตามผลลัพธ์นี้มีประสิทธิภาพที่แย่ลงในชุดการทดสอบและการฝึกอบรม คุณสมบัติเพิ่มเติมด้วยตัวเองให้ประมาณ 80% F-1 ในชุดทดสอบดังนั้นพวกเขาจึงไม่ขยะ การขยายคุณสมบัติไม่ได้ช่วยเช่นกัน ความคิดปัจจุบันของฉันคือคุณสมบัติเหล่านี้ไม่เข้ากันได้ดีกับคุณลักษณะถุงคำ (เบาบาง) ดังนั้นคำถามคือสมมติว่าคุณสมบัติเพิ่มเติมให้ข้อมูลเพิ่มเติมวิธีที่ดีที่สุดที่จะรวมพวกเขาคืออะไร? สามารถแยกตัวแยกประเภทและรวมพวกมันในงานวงดนตรีบางประเภทได้หรือไม่ (นี่อาจเป็นข้อเสียเปรียบที่จะไม่มีการโต้ตอบระหว่างคุณลักษณะของตัวแยกประเภทที่แตกต่างกัน) มีรุ่นอื่นที่ซับซ้อนกว่านี้ที่ฉันควรพิจารณาอีกหรือไม่

3
ฉันจะสร้างแผนภูมิเรดาร์ที่ซับซ้อนได้อย่างไร
ดังนั้นฉันต้องการสร้างแผนภูมิเรดาร์โปรไฟล์ผู้เล่นดังนี้: ไม่เพียง แต่สเกลของแต่ละตัวแปรที่แตกต่างกัน แต่ฉันต้องการสเกลที่กลับด้านสำหรับสถิติบางอย่างเช่นสถิติ 'ยึดทรัพย์' ซึ่งจริงๆแล้วหมายถึงน้อย ทางออกหนึ่งสำหรับสเกลตัวแปรสำหรับแต่ละสถิติอาจเป็นการกำหนดเกณฑ์มาตรฐานแล้วคำนวณคะแนนในระดับ 100 หรือไม่ แต่ฉันจะแสดงตัวเลขจริงบนแผนภูมิได้อย่างไร นอกจากนี้ฉันจะได้รับมาตราส่วนกลับด้านสำหรับสถิติบางส่วนได้อย่างไร กำลังทำงานใน Excel เครื่องมือที่ทรงพลังที่สุดในการสร้างแผนภูมิที่ซับซ้อนเช่นนี้คืออะไร?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.