คำถามติดแท็ก machine-learning

วิธีการและหลักการในการสร้าง "ระบบคอมพิวเตอร์ที่ปรับปรุงโดยอัตโนมัติด้วยประสบการณ์"

3
ค่าเฉลี่ยศูนย์และความแปรปรวนของหน่วย
ฉันกำลังศึกษาการปรับขนาดข้อมูลและโดยเฉพาะอย่างยิ่งวิธีการมาตรฐาน ฉันเข้าใจคณิตศาสตร์ด้านหลังแล้ว แต่มันไม่ชัดเจนสำหรับฉันว่าทำไมจึงสำคัญที่จะต้องให้คุณสมบัติเป็นศูนย์ค่าเฉลี่ยและความแปรปรวนของหน่วย คุณอธิบายฉันได้ไหม

4
PCA ถือว่าเป็นขั้นตอนวิธีการเรียนรู้ของเครื่องหรือไม่
ฉันเข้าใจว่าการวิเคราะห์องค์ประกอบหลักคือเทคนิคการลดขนาดเช่นได้รับคุณสมบัติการป้อนข้อมูล 10 ประการมันจะสร้างฟีเจอร์อิสระจำนวนน้อยซึ่งเป็นการเปลี่ยนมุมฉากและเชิงเส้นของคุณสมบัติดั้งเดิม คือPCAด้วยตัวเองถือเป็นขั้นตอนวิธีการเรียนรู้หรือมันเป็นขั้นตอนข้อมูลก่อนการประมวลผล

3
พิกัด GPS (ละติจูดและลองจิจูด) สามารถใช้เป็นคุณสมบัติในตัวแบบเชิงเส้นได้หรือไม่?
ฉันมีชุดข้อมูลที่บรรจุพิกัด GPS (ละติจูดและลองจิจูด) ในบรรดาคุณสมบัติหลายประการ ฉันต้องการใช้ชุดข้อมูลเหล่านี้เพื่อสำรวจปัญหาเช่น: (1) การคำนวณ ETA เพื่อขับเคลื่อนระหว่างจุดเริ่มต้นและจุดสิ้นสุด; และ (2) การประเมินจำนวนอาชญากรรมสำหรับจุดเฉพาะ ฉันต้องการใช้แบบจำลองการถดถอยเชิงเส้น อย่างไรก็ตามฉันสามารถใช้พิกัด GPS เหล่านี้โดยตรงในโมเดลเชิงเส้นได้หรือไม่ ละติจูดและลองจิจูดไม่ได้มีคุณสมบัติลำดับเช่นกับอายุของบุคคล ตัวอย่างเช่นสองจุด (40.805996, -96.681473) และ (41.226682, -95.986587) ดูเหมือนจะไม่มีคำสั่งที่มีความหมายใด ๆ พวกเขาเป็นเพียงจุดในอวกาศ ฉันคิดของการแทนที่พวกเขาด้วยเด็ดขาดรหัสไปรษณีย์ของสหรัฐอเมริกาแล้วทำเข้ารหัสร้อนแต่ที่จะส่งผลให้จำนวนมากของตัวแปร

2
Keras หลาย“Softmax” ในชั้นสุดท้ายไปได้หรือไม่
เป็นไปได้หรือไม่ที่จะใช้ softmaxes mutiple ในเลเยอร์สุดท้ายใน Keras ดังนั้นผลรวมของโหนด 1-4 = 1; 5-8 = 1; เป็นต้น ฉันควรจะไปออกแบบเครือข่ายอื่นหรือไม่?

2
จะทำการ Logistic Regression ด้วยคุณสมบัติจำนวนมากได้อย่างไร?
ฉันมีชุดข้อมูลที่มี 330 ตัวอย่างและ 27 คุณสมบัติสำหรับแต่ละกลุ่มตัวอย่างที่มีปัญหาระดับไบนารีสำหรับการถดถอยโลจิสติก ตามกฎ "ถ้าสิบ" ฉันต้องการอย่างน้อย 10 เหตุการณ์เพื่อให้รวมคุณลักษณะแต่ละรายการ แม้ว่าฉันมีชุดข้อมูลที่ไม่สมดุลโดยมีคลาสบวก 20% และคลาสลบ 80% นั่นทำให้ฉันมีเพียง 70 เหตุการณ์อนุญาตให้รวมฟีเจอร์ประมาณ 7/8 เท่านั้นในโมเดลโลจิสติก ฉันต้องการประเมินคุณสมบัติทั้งหมดเป็นตัวทำนายฉันไม่ต้องการเลือกคุณสมบัติใด ๆ ดังนั้นคุณจะแนะนำอะไร ฉันควรจะรวมคุณสมบัติทั้งหมด 7 อย่างที่เป็นไปได้หรือไม่ ฉันควรประเมินแต่ละคุณลักษณะโดยลำพังด้วยรูปแบบการเชื่อมโยงแล้วเลือกเฉพาะคุณลักษณะที่ดีที่สุดสำหรับรุ่นสุดท้าย ฉันยังสงสัยเกี่ยวกับการจัดการคุณสมบัติที่เป็นหมวดหมู่และต่อเนื่องฉันจะผสมมันได้หรือไม่ หากฉันมีหมวดหมู่ [0-1] และต่อเนื่อง [0-100] ฉันควรทำให้เป็นมาตรฐานหรือไม่ ฉันกำลังทำงานกับ Python ขอบคุณมาก ๆ สำหรับความช่วยเหลือของคุณ!

2
ฟีเจอร์เมทริกซ์ใน word2vec คืออะไร?
ฉันเป็นผู้เริ่มต้นในเครือข่ายประสาทและตอนนี้ฉันกำลังสำรวจรุ่น word2vec อย่างไรก็ตามฉันมีช่วงเวลาที่ยากลำบากในการทำความเข้าใจว่าคุณลักษณะของเมทริกคืออะไร ฉันเข้าใจได้ว่าเมทริกซ์แรกนั้นเป็นเวกเตอร์ที่เข้ารหัสร้อนแรงสำหรับคำที่กำหนด แต่เมทริกซ์ที่สองมีความหมายอย่างไร โดยเฉพาะอย่างยิ่งแต่ละค่าเหล่านั้น (เช่น 17, 24, 1 ฯลฯ ) หมายถึงอะไร

1
จะกำหนดความซับซ้อนของประโยคภาษาอังกฤษได้อย่างไร?
ฉันทำงานใน app เพื่อช่วยให้คนเรียนรู้ภาษาอังกฤษเป็นภาษาที่สอง ฉันตรวจสอบแล้วว่าประโยคช่วยในการเรียนรู้ภาษาโดยให้บริบทเพิ่มเติม ฉันทำอย่างนั้นโดยการทำวิจัยเล็ก ๆ ในห้องเรียน 60 คน ฉันขุดกว่าแสนประโยคจากวิกิพีเดียสำหรับคำภาษาอังกฤษที่หลากหลาย (รวมถึง Barrons'800 คำและ 1,000 คำที่พบบ่อยที่สุดในอังกฤษ) ข้อมูลทั้งหมดสามารถดูได้ที่https://buildmyvocab.in เพื่อรักษาคุณภาพของเนื้อหาฉันได้กรองประโยคที่มีความยาวเกิน 160 ตัวอักษรเนื่องจากอาจเข้าใจยาก ในขั้นตอนต่อไปฉันต้องการให้กระบวนการเรียงลำดับเนื้อหานี้เป็นไปโดยอัตโนมัติเพื่อให้ง่ายต่อการเข้าใจ ฉันเป็นคนพูดภาษาอังกฤษที่ไม่ใช่เจ้าของภาษา ฉันต้องการทราบว่าคุณลักษณะใดที่ฉันสามารถใช้เพื่อแยกประโยคง่าย ๆ ออกจากประโยคที่ยาก คุณคิดว่ามันเป็นไปได้ไหม

3
ทำนายเวลาที่ดีที่สุดในการโทร
ฉันมีชุดข้อมูลรวมถึงชุดลูกค้าในเมืองต่าง ๆ ของรัฐแคลิฟอร์เนียเวลาที่โทรหาลูกค้าแต่ละรายและสถานะการโทร (จริงถ้าลูกค้ารับสายและเท็จถ้าลูกค้าไม่รับสาย) ฉันต้องหาเวลาที่เหมาะสมในการโทรหาลูกค้าในอนาคตเพื่อให้โอกาสในการตอบรับสูง ดังนั้นกลยุทธ์ที่ดีที่สุดสำหรับปัญหานี้คืออะไร ฉันควรพิจารณาว่าเป็นปัญหาการจำแนกซึ่งชั่วโมง (0,1,2, ... 23) เป็นชั้นเรียนหรือไม่ หรือฉันควรพิจารณาว่าเป็นงานการถดถอยซึ่งเวลาเป็นตัวแปรต่อเนื่องหรือไม่ ฉันจะแน่ใจได้อย่างไรว่าความน่าจะเป็นที่จะรับสายจะสูง ความช่วยเหลือใด ๆ ที่จะได้รับการชื่นชม มันจะดีมากถ้าคุณอ้างอิงถึงปัญหาที่คล้ายกัน ด้านล่างนี้เป็นภาพรวมของข้อมูล

1
HOW TO: การกำหนดน้ำหนักเริ่มต้นของ Deep Neural Network
ได้รับเรื่องยากในการเรียนรู้งาน (เช่นมิติสูงซับซ้อนข้อมูลโดยธรรมชาติ) ลึกโครงข่ายประสาทกลายเป็นเรื่องยากที่จะรถไฟ เพื่อบรรเทาปัญหาที่อาจเกิดขึ้น: ทำข้อมูลคุณภาพ & ให้เป็นแบบดั้งเดิม เลือกอัลกอริทึมการฝึกอบรมที่แตกต่างกัน(เช่น RMSprop แทน Gradient Descent) เลือกฟังก์ชันการไล่ระดับสีชัน(เช่น Cross Entropy แทน MSE) ใช้โครงสร้างเครือข่ายอื่น (เช่น Convolution เลเยอร์แทน Feedforward) ฉันเคยได้ยินว่ามีวิธีที่ชาญฉลาดในการเริ่มต้นน้ำหนักที่ดีขึ้น ตัวอย่างเช่นคุณสามารถเลือกขนาดได้ดีกว่า: Glorot และ Bengio (2010) สำหรับหน่วย sigmoid: ตัวอย่างUniform (-r, r)ด้วยr =6ยังไม่มีข้อความฉันn+ยังไม่มีข้อความo ยูที------√r=6Nin+Noutr = \sqrt{\frac{6}{N_{in} + N_{out}}} หรือไฮเพอร์โบลิกแทนเจนต์: ตัวอย่างชุด (-r, r)ด้วยr = 46ยังไม่มีข้อความฉันn+ยังไม่มีข้อความo ยูที------√r=46Nin+Noutr =4 \sqrt{\frac{6}{N_{in} + N_{out}}} …

2
จะทำอย่างไรเมื่อการทดสอบข้อมูลมีคุณสมบัติน้อยกว่าข้อมูลการฝึกอบรม?
สมมติว่าเราคาดการณ์ยอดขายของร้านค้าและข้อมูลการฝึกอบรมของฉันมีคุณสมบัติสองชุด: หนึ่งเกี่ยวกับยอดขายของร้านค้าที่มีวันที่ (ฟิลด์ "Store" ไม่ซ้ำกัน) ประเภทหนึ่งเกี่ยวกับร้านค้า (ฟิลด์ "Store" ไม่ซ้ำกันที่นี่) เมทริกซ์จะออกมาเป็นแบบนี้: +-------+-----------+------------+---------+-----------+------+-------+--------------+ | Store | DayOfWeek | Date | Sales | Customers | Open | Promo | StateHoliday | +-------+-----------+------------+---------+-----------+------+-------+--------------+ | 1 | 5 | 2015-07-31 | 5263.0 | 555.0 | 1 | 1 | 0 | | 2 | 5 …

1
ผู้ใช้ผลิตภัณฑ์บวก (คลิกข้อมูล) ที่มีอยู่ วิธีสร้างข้อมูลเชิงลบ (ไม่มีข้อมูลคลิก)
เป็นเรื่องธรรมดามากในผู้แนะนำที่เรามีข้อมูลผลิตภัณฑ์ของผู้ใช้ที่มีป้ายกำกับเช่น "คลิก" เพื่อเรียนรู้รูปแบบฉันต้องคลิกและไม่คลิกข้อมูล วิธีที่ง่ายที่สุดในการสร้างคือการจับคู่ผลิตภัณฑ์ผู้ใช้ซึ่งไม่พบในข้อมูลการคลิก อย่างไรก็ตามนั่นอาจทำให้เข้าใจผิด ตัวอย่าง: user1, product1 (click) user2, product2 (click) user2, product3 (click) user3, product2 (click) ฉันสามารถใช้ user1 กับผลิตภัณฑ์ทั้งหมดยกเว้น product1 และติดป้ายกำกับเป็น "no_click" และอื่น ๆ แต่นี่อาจไม่เป็นความจริง บางทีผู้ใช้ 1 อาจคลิก product2 ถ้าเขาแสดงผลิตภัณฑ์ 2 แต่เพียงเพราะเขาแสดงชุดผลิตภัณฑ์อื่น ๆ - เขาไม่มีโอกาสตัดสินใจที่จะคลิก / ไม่คลิกผลิตภัณฑ์ 2 ดังนั้นวิธีการแก้ไขปัญหาข้อมูล unary?

2
นักวิทยาศาสตร์คิดค่าพารามิเตอร์ Hidden Markov Model และทอพอโลยีที่ถูกต้องเพื่อใช้อย่างไร
ฉันเข้าใจว่า Hidden Markov Model ใช้ในลำดับจีโนมเช่นการค้นหายีนอย่างไร แต่ฉันไม่เข้าใจว่าจะเกิดอะไรขึ้นกับโมเดลของมาร์คอฟโดยเฉพาะ ฉันหมายความว่าควรมีโมเดลกี่รัฐ มีการเปลี่ยนที่เป็นไปได้กี่ครั้ง โมเดลควรมีการวนซ้ำหรือไม่? พวกเขาจะรู้ได้อย่างไรว่าแบบจำลองของพวกเขาดีที่สุด? พวกเขาลองจินตนาการว่าจะพูดถึง 10 แบบที่แตกต่างกันหรือไม่และเปรียบเทียบกับโมเดล 10 แบบนั้น

4
หนังสือเกี่ยวกับการเสริมแรงการเรียนรู้
ฉันพยายามทำความเข้าใจการเรียนรู้การเสริมแรงมานานแล้ว แต่อย่างใดฉันไม่สามารถจินตนาการวิธีการเขียนโปรแกรมสำหรับการเรียนรู้การเสริมแรงเพื่อแก้ปัญหาโลกกริด คุณช่วยแนะนำหนังสือเรียนซึ่งจะช่วยสร้างแนวความคิดที่ชัดเจนของการเรียนรู้เสริมแรงได้ไหม?

1
ฉันจะคำนวณคำศัพท์เดลต้าของเลเยอร์ Convolutional ได้อย่างไรเนื่องจากคำเดลต้าและน้ำหนักของเลเยอร์ Convolutional ก่อนหน้า
ฉันกำลังพยายามฝึกโครงข่ายใยประสาทเทียมด้วยชั้นสอง convolutional (c1, c2) และสองชั้นที่ซ่อนอยู่ (c1, c2) ฉันใช้วิธีการ backpropagation มาตรฐาน ใน backward pass ฉันคำนวณระยะเวลาข้อผิดพลาดของเลเยอร์ (เดลต้า) ตามข้อผิดพลาดของเลเยอร์ก่อนหน้านี้น้ำหนักของเลเยอร์ก่อนหน้าและการไล่ระดับสีของการเปิดใช้งานตามฟังก์ชั่นการเปิดใช้งานของเลเยอร์ปัจจุบัน โดยเฉพาะอย่างยิ่งเดลต้าของเลเยอร์ l มีลักษณะดังนี้: delta(l) = (w(l+1)' * delta(l+1)) * grad_f_a(l) ฉันสามารถคำนวณการไล่ระดับสีของ c2 ซึ่งเชื่อมต่อกับเลเยอร์ปกติ ฉันแค่คูณน้ำหนักของ h1 กับเดลต้าของมัน จากนั้นฉันก็เปลี่ยนรูปร่างเมทริกซ์นั้นให้อยู่ในรูปของเอาต์พุตของ c2 แล้วคูณมันด้วยการไล่ระดับสีของฟังก์ชั่นการกระตุ้นและเสร็จ ตอนนี้ฉันมีคำเดลต้าของ c2 - ซึ่งเป็นเมทริกซ์ขนาด 4 มิติ (featureMapSize, featureMapSize, filterNum, patternNum) นอกจากนี้ฉันมีน้ำหนัก c2 ซึ่งเป็นเมทริกซ์ 3 มิติของขนาด …

2
การขยายแฮชแบบละเอียดอ่อนในพื้นที่
ฉันกำลังพยายามสร้างแฮชที่ละเอียดอ่อนในพื้นที่เพื่อให้ฉันสามารถหาคู่ของผู้สมัครที่คล้ายกันได้โดยไม่ต้องเปรียบเทียบทุกคู่ที่เป็นไปได้ ฉันใช้มันทำงานได้ แต่คู่ของข้อมูลของฉันดูเหมือนจะมีความเหมือนโคไซน์ในช่วง -0.2 ถึง +0.2 ดังนั้นฉันจึงพยายามที่จะทำให้มันค่อนข้างละเอียดและเลือกสิ่งที่มีความคล้ายคลึงโคไซน์ 0.1 ขึ้นไป ฉันได้อ่าน Mining ชุดข้อมูลขนาดใหญ่แล้วบทที่ 3 นี้พูดถึงการเพิ่มความแม่นยำของการเลือกคู่ผู้สมัครโดยขยายครอบครัวที่มีความสำคัญต่อท้องถิ่น ฉันคิดว่าฉันเพิ่งจะเข้าใจคำอธิบายทางคณิตศาสตร์ แต่ฉันพยายามดิ้นรนเพื่อดูว่าฉันใช้งานจริงได้อย่างไร สิ่งที่ฉันมีอยู่มีดังต่อไปนี้ ฉันบอกว่าภาพยนตร์ 1,000 เรื่องแต่ละเรื่องมีเรตติ้งจากผู้ใช้บางคนที่เลือก 1M ภาพยนตร์แต่ละเรื่องจะแสดงด้วยเวกเตอร์กระจัดกระจายของคะแนนผู้ใช้ (หมายเลขแถว = ID ผู้ใช้ค่า = คะแนนของผู้ใช้) ฉันสร้างเวกเตอร์สุ่ม N ความยาวของเวกเตอร์ตรงกับความยาวของเวกเตอร์ภาพยนตร์ (เช่นจำนวนผู้ใช้) ค่าเวกเตอร์คือ +1 หรือ -1 ฉันเข้ารหัสเวกเตอร์เหล่านี้เป็นเลขฐานสองเพื่อประหยัดพื้นที่โดยมี +1 แมปกับ 1 และ -1 แมปกับ 0 ฉันสร้างเวกเตอร์แบบร่างสำหรับภาพยนตร์แต่ละเรื่องโดยการหาจุดผลิตภัณฑ์ของภาพยนตร์และเวกเตอร์แบบสุ่ม N แต่ละตัว (หรือถ้าฉันสร้างเมทริกซ์ R โดยการวางเวกเตอร์แบบสุ่ม …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.