วิทยาศาสตร์ข้อมูล preprocessing

2

วิธีการเตรียม / ขยายภาพสำหรับโครงข่ายประสาทเทียม

ฉันต้องการใช้เครือข่ายประสาทเทียมสำหรับการจัดประเภทรูปภาพ ฉันจะเริ่มต้นด้วย CaffeNet ที่ได้รับการฝึกฝนมาล่วงหน้าและฝึกอบรมเพื่อการสมัครของฉัน ฉันควรเตรียมภาพอินพุตอย่างไร ในกรณีนี้ภาพทั้งหมดเป็นวัตถุเดียวกัน แต่มีการเปลี่ยนแปลง (คิดว่า: การควบคุมคุณภาพ) พวกเขาอยู่ในระดับที่แตกต่างกันค่อนข้าง / ความละเอียด / ระยะทาง / สภาพแสง (และในหลายกรณีฉันไม่ทราบขนาด) นอกจากนี้ในแต่ละภาพยังมีพื้นที่ (รู้จัก) รอบวัตถุที่น่าสนใจซึ่งเครือข่ายควรละเว้น ฉันสามารถครอบตัดจุดศูนย์กลางของภาพแต่ละภาพซึ่งรับประกันว่าจะมีส่วนของวัตถุที่น่าสนใจและไม่มีพื้นที่ที่ถูกละเว้น แต่ดูเหมือนว่ามันจะส่งข้อมูลออกไปและผลลัพธ์ก็ไม่ได้มีขนาดเท่ากันจริง ๆ (อาจมีการเปลี่ยนแปลง 1.5 เท่า) การเสริมชุดข้อมูล ฉันเคยได้ยินการสร้างข้อมูลการฝึกอบรมเพิ่มเติมโดยการครอบตัดแบบสุ่ม / มิเรอร์ / ฯลฯ มีวิธีการมาตรฐานสำหรับสิ่งนี้หรือไม่ ผลลัพธ์ใด ๆ เกี่ยวกับการปรับปรุงที่เกิดขึ้นกับความแม่นยำของลักษณนาม

41 neural-network image-classification preprocessing convnet

3

StandardScaler ก่อนและหลังการแยกข้อมูล

เมื่อฉันกำลังอ่านเกี่ยวกับการใช้StandardScalerคำแนะนำส่วนใหญ่บอกว่าคุณควรใช้StandardScaler ก่อนที่จะแยกข้อมูลออกเป็นรถไฟ / ทดสอบ แต่เมื่อฉันตรวจสอบบางส่วนของรหัสโพสต์ออนไลน์ (โดยใช้ sklearn) มีการใช้หลักสองประการ 1- ใช้StandardScalerกับข้อมูลทั้งหมด เช่น from sklearn.preprocessing import StandardScaler sc = StandardScaler() X_fit = sc.fit(X) X_std = X_fit.transform(X) หรือ from sklearn.preprocessing import StandardScaler sc = StandardScaler() X = sc.fit(X) X = sc.transform(X) หรือเพียงแค่ from sklearn.preprocessing import StandardScaler sc = StandardScaler() X_std = sc.fit_transform(X) 2- …

20 machine-learning scikit-learn preprocessing

4

ชุดทดสอบและการกระจายชุดฝึกอบรมที่แตกต่างกัน

ฉันทำงานเกี่ยวกับการแข่งขันวิทยาศาสตร์ข้อมูลที่การกระจายชุดทดสอบของฉันแตกต่างจากชุดฝึกอบรม ฉันต้องการยกตัวอย่างการสังเกตจากชุดการฝึกอบรมซึ่งคล้ายกับชุดทดสอบอย่างใกล้ชิด ฉันจะทำสิ่งนี้ได้อย่างไร

15 preprocessing

3

ปรับขนาดรูปภาพและขยายสำหรับ CNN

ฉันต้องการฝึกการรับรู้ภาพของ CNN รูปภาพสำหรับการฝึกอบรมมีขนาดไม่คงที่ ฉันต้องการให้ขนาดอินพุตสำหรับ CNN เท่ากับ 50x100 (สูง x กว้าง) ตัวอย่างเช่น เมื่อฉันปรับขนาดภาพขนาดเล็กบางอย่าง (เช่น 32x32) เป็นขนาดอินพุตเนื้อหาของภาพจะถูกยืดออกในแนวนอนมากเกินไป แต่สำหรับภาพขนาดกลางบางภาพมันก็โอเค วิธีการที่เหมาะสมสำหรับการปรับขนาดภาพในขณะที่หลีกเลี่ยงเนื้อหาที่ถูกทำลายคืออะไร? (ฉันกำลังคิดเกี่ยวกับการขยายภาพด้วยขนาด 0s เพื่อให้ได้ขนาดที่สมบูรณ์หลังจากปรับขนาดเป็นอัตราส่วนการรักษาความกว้างและความสูงในระดับหนึ่งมันจะโอเคกับวิธีนี้ไหม)

14 machine-learning image-classification preprocessing image-recognition

3

มีรูปแบบภาษาที่ดีนอกกรอบสำหรับงูใหญ่หรือไม่?

ฉันกำลังสร้างต้นแบบแอปพลิเคชันและฉันต้องการโมเดลภาษาเพื่อคำนวณความงุนงงในประโยคที่สร้างขึ้น มีรูปแบบภาษาที่ผ่านการฝึกอบรมในภาษาไพ ธ อนที่ฉันสามารถใช้ได้หรือไม่? บางสิ่งที่เรียบง่ายเช่น model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 ฉันดูบางกรอบ แต่ไม่สามารถค้นหาสิ่งที่ฉันต้องการ ฉันรู้ว่าฉันสามารถใช้สิ่งที่ชอบ: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) สิ่งนี้ใช้การแจกแจงความน่าจะเป็นที่ดีใน Brown Corpus แต่ฉันกำลังมองหาโมเดลที่สร้างขึ้นอย่างดีในชุดข้อมูลขนาดใหญ่เช่นชุดข้อมูลคำ 1b สิ่งที่ฉันสามารถเชื่อถือได้จริง ๆ ผลลัพธ์สำหรับโดเมนทั่วไป (ไม่เพียงข่าว)

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

1

จะเข้าใกล้การแข่งขัน numer.ai ด้วยวิธีทำนายตัวเลขแบบไม่ระบุชื่อได้อย่างไร

Numer.aiอยู่มาระยะหนึ่งแล้วและดูเหมือนจะมีเพียงไม่กี่โพสต์หรือการสนทนาอื่น ๆ เกี่ยวกับมันบนเว็บ ระบบมีการเปลี่ยนแปลงเป็นครั้งคราวและการตั้งค่าวันนี้มีดังต่อไปนี้: ฝึกอบรม (N = 96K) และทดสอบข้อมูล (N = 33K) พร้อมคุณสมบัติ 21 อย่างที่มีค่าต่อเนื่องใน [0,1] และเป้าหมายไบนารี ข้อมูลสะอาด (ไม่มีค่าขาดหาย) และอัปเดตทุก 2 สัปดาห์ คุณสามารถอัปโหลดการทำนายของคุณ (ในชุดทดสอบ) และดูการสูญเสียบันทึก ส่วนหนึ่งของข้อมูลการทดสอบคือข้อมูลสดและคุณจะได้รับเงินสำหรับการคาดการณ์ที่ดี สิ่งที่ฉันต้องการจะพูดคุย: เนื่องจากคุณสมบัติไม่ระบุชื่อโดยสิ้นเชิงฉันคิดว่ามีวิศวกรรมคุณสมบัติไม่มากที่เราสามารถทำได้ ดังนั้นวิธีการของฉันมีกลไกมาก: แรงบันดาลใจจากนี้ฉันจะใช้ขั้นตอนวิธีการจัดหมวดหมู่ในการกรองข้อมูลการฝึกอบรมผู้ที่พอดีกับการทดสอบข้อมูลที่ดีที่สุดของฉัน คิดออกก่อนการประมวลผลที่ดี ฝึกอัลกอริทึมการจำแนกที่ดี สร้างตระการตาของพวกเขา (ซ้อน, .. ) คำถามที่เป็นรูปธรรม: เกี่ยวกับขั้นตอนที่ 1: คุณมีประสบการณ์เกี่ยวกับวิธีการดังกล่าวหรือไม่? สมมติว่าฉันสั่งความน่าจะเป็นของตัวอย่างรถไฟให้เป็นของการทดสอบ (ปกติต่ำกว่า 0.5) จากนั้นฉันหาค่าความน่าจะเป็น K ที่ใหญ่ที่สุด คุณจะเลือก K อย่างไร ฉันพยายามกับ …

9 machine-learning deep-learning cross-validation preprocessing competitions

คำถามติดแท็ก preprocessing