คำถามติดแท็ก machine-learning

วิธีการและหลักการในการสร้าง "ระบบคอมพิวเตอร์ที่ปรับปรุงโดยอัตโนมัติด้วยประสบการณ์"

2
ปัญหาการเรียนรู้แบบใดที่เหมาะกับ Support Vector Machines
จุดเด่นหรือคุณสมบัติที่ระบุว่าปัญหาการเรียนรู้บางอย่างสามารถแก้ไขได้โดยใช้เครื่องเวกเตอร์สนับสนุนคืออะไร เมื่อคุณเห็นปัญหาการเรียนรู้ทำให้คุณไป "โอ้ฉันควรใช้ SVM สำหรับสิ่งนี้แทนการใช้โครงข่ายประสาทเทียมหรือต้นไม้ตัดสินใจหรือสิ่งอื่นใด

2
วิธีการเลือกคุณสมบัติสำหรับเครือข่ายประสาทเทียม?
ฉันรู้ว่าไม่มีคำตอบที่ชัดเจนสำหรับคำถามนี้ แต่สมมติว่าฉันมีเครือข่ายประสาทขนาดใหญ่ที่มีข้อมูลจำนวนมากและฉันต้องการเพิ่มคุณสมบัติใหม่ในอินพุต วิธีที่ "ดีที่สุด" คือการทดสอบเครือข่ายด้วยคุณสมบัติใหม่และดูผลลัพธ์ แต่มีวิธีทดสอบว่าคุณลักษณะดังกล่าวไม่เป็นประโยชน์หรือไม่? เช่นเดียวกับมาตรการความสัมพันธ์ ( http://www3.nd.edu/~mclark19/learn/CorrelationComparison.pdf ) เป็นต้น?

3
การจำแนกประเภทจำแนกชั้นหนึ่งที่มีภูมิหลังติดลบแบบไม่สมดุล
ฉันกำลังพัฒนาตัวแยกประเภทที่มีการกำกับดูแลที่มีอยู่สำหรับการจัดลำดับ {โปรตีน} ว่าเป็นของคลาสเฉพาะ (สารตั้งต้นของฮอร์โมน Neuropeptide) หรือไม่ มี "ผลบวก" ที่รู้จักกันประมาณ 1,150 ตัวโดยมีพื้นหลังของลำดับโปรตีนประมาณ 13 ล้านลำดับ ("พื้นหลังที่ไม่รู้จัก / มีคำอธิบายประกอบไม่ดี") หรือมีการตรวจสอบประมาณ 100,000 รายการที่เกี่ยวข้องกับโปรตีน วิธี "ลบ") การนำไปใช้ก่อนหน้าของฉันดูที่นี่เป็นปัญหาการจำแนกเลขฐานสอง: Positive set = โปรตีนที่ทำเครื่องหมายเป็น Neuropeptides ชุดเชิงลบ: การสุ่มตัวอย่างตัวอย่าง 1,300 ตัวอย่าง (ทั้งหมด) จากบรรดาโปรตีนที่เหลืออยู่ซึ่งมีการกระจายความยาวที่คล้ายกัน ใช้งานได้ แต่ฉันต้องการปรับปรุงความสามารถในการแยกแยะอย่างมากของเครื่องจักร (ปัจจุบันมีความแม่นยำ 83-86% ในแง่ของความถูกต้อง AUC, F1 ซึ่งวัดโดย CV บนชุดลบสุ่มตัวอย่างหลายชุด) ความคิดของฉันคือ: 1) ทำให้นี่เป็นปัญหาแบบหลายคลาสโดยเลือกโปรตีน 2-3 คลาสที่จะเป็นเนกาทีฟโดยคุณสมบัติ / ชั้นเรียนการทำงานของพวกเขาพร้อมด้วย …

6
อะไรคือเหตุผลที่ทำให้การเปลี่ยนแปลงบันทึกของตัวแปรต่อเนื่องน้อย
ฉันได้รับปัญหาการจัดหมวดหมู่และฉันได้อ่านรหัสและแบบฝึกหัดของคนจำนวนมาก สิ่งหนึ่งที่ผมสังเกตเห็นก็คือว่าหลายคนใช้np.logหรือlogของตัวแปรอย่างต่อเนื่องเหมือนloan_amountหรือapplicant_incomeฯลฯ ฉันแค่ต้องการเข้าใจเหตุผลที่อยู่เบื้องหลัง มันช่วยปรับปรุงความแม่นยำในการทำนายแบบจำลองของเราหรือไม่ จำเป็นหรือไม่ หรือมีเหตุผลใด ๆ ที่อยู่เบื้องหลังมัน? โปรดระบุคำอธิบายหากเป็นไปได้ ขอขอบคุณ.

3
วิธีรับการทำนายด้วย predict_generator จากข้อมูลการทดสอบการสตรีมใน Keras
ในบล็อก Keras เกี่ยวกับการฝึกอบรมทำให้มั่นใจตั้งแต่เริ่มต้นรหัสจะแสดงเฉพาะเครือข่ายที่ทำงานกับข้อมูลการฝึกอบรมและการตรวจสอบความถูกต้อง แล้วข้อมูลทดสอบล่ะ ข้อมูลการตรวจสอบเป็นเช่นเดียวกับข้อมูลทดสอบ (ฉันคิดว่าไม่) หากมีโฟลเดอร์ทดสอบแยกต่างหากในบรรทัดที่คล้ายกันเป็นโฟลเดอร์รถไฟและการตรวจสอบความถูกต้องเราจะได้รับเมทริกซ์ความสับสนสำหรับข้อมูลการทดสอบอย่างไร ฉันรู้ว่าเราต้องใช้ scikit learn หรือชุดอื่น ๆ เพื่อทำสิ่งนี้ แต่ฉันจะทำบางสิ่งให้สอดคล้องกับความน่าจะเป็นที่ชาญฉลาดของชั้นเรียนสำหรับข้อมูลการทดสอบ ฉันหวังว่าจะใช้สิ่งนี้กับเมทริกซ์ความสับสน

3
วิธีการทำนายความน่าจะเป็นใน xgboost?
ฟังก์ชันการทำนายด้านล่างให้ค่า -ve เช่นกันดังนั้นจึงไม่น่าจะเป็น param <- list(max.depth = 5, eta = 0.01, objective="binary:logistic",subsample=0.9) bst <- xgboost(param, data = x_mat, label = y_mat,nround = 3000) pred_s <- predict(bst, x_mat_s2) ฉันลองใช้ Google แล้วpred_s <- predict(bst, x_mat_s2,type="response") แต่มันไม่ทำงาน คำถาม จะทำนายความน่าจะเป็นแทนได้อย่างไร?


1
การขยายพันธุ์กลับในซีเอ็นเอ็น
ฉันมีซีเอ็นเอ็นต่อไปนี้: ฉันเริ่มต้นด้วยภาพอินพุตขนาด 5x5 จากนั้นฉันใช้การแปลงโดยใช้เคอร์เนล 2x2 และ stride = 1 ซึ่งสร้างแผนที่คุณลักษณะขนาด 4x4 จากนั้นฉันใช้ 2x2 max-pooling ร่วมกับ stride = 2 ซึ่งจะลดขนาดของแผนที่ขนาด 2x2 จากนั้นฉันก็ใช้ sigmoid โลจิสติก จากนั้นหนึ่งเลเยอร์ที่เชื่อมต่ออย่างเต็มที่กับ 2 เซลล์ประสาท และชั้นเอาท์พุท เพื่อความเรียบง่ายสมมติว่าฉันได้ทำพาสพาสไปแล้วและคำนวณδH1 = 0.25และ δH2 = -0.15 ดังนั้นหลังจากผ่านไปข้างหน้าอย่างสมบูรณ์และทำย้อนหลังผ่านบางส่วนเครือข่ายของฉันมีลักษณะเช่นนี้: จากนั้นฉันคำนวณ delta สำหรับเลเยอร์ที่ไม่ใช่เชิงเส้น (sigmoid โลจิสติก): δ11=(0.25∗0.61+−0.15∗0.02)∗0.58∗(1−0.58)=0.0364182δ12=(0.25∗0.82+−0.15∗−0.50)∗0.57∗(1−0.57)=0.068628δ21=(0.25∗0.96+−0.15∗0.23)∗0.65∗(1−0.65)=0.04675125δ22=(0.25∗−1.00+−0.15∗0.17)∗0.55∗(1−0.55)=−0.06818625δ11=(0.25∗0.61+−0.15∗0.02)∗0.58∗(1−0.58)=0.0364182δ12=(0.25∗0.82+−0.15∗−0.50)∗0.57∗(1−0.57)=0.068628δ21=(0.25∗0.96+−0.15∗0.23)∗0.65∗(1−0.65)=0.04675125δ22=(0.25∗−1.00+−0.15∗0.17)∗0.55∗(1−0.55)=−0.06818625 \begin{align} &\delta_{11}=(0.25 * 0.61 + -0.15 * 0.02) * 0.58 …

2
ทำไมเราต้องละทิ้งตัวแปรจำลองหนึ่งตัว
ฉันได้เรียนรู้ว่าสำหรับการสร้างแบบจำลองการถดถอยเราต้องดูแลตัวแปรเด็ดขาดโดยการแปลงให้เป็นตัวแปรจำลอง ตัวอย่างเช่นถ้าในชุดข้อมูลของเรามีตัวแปรเช่นตำแหน่ง: Location ---------- Californian NY Florida เราต้องแปลงพวกเขาเช่น: 1 0 0 0 1 0 0 0 1 อย่างไรก็ตามขอแนะนำให้เราทิ้งตัวแปรดัมมี่หนึ่งตัวไม่ว่าจะมีตัวแปรจำลองกี่ตัว ทำไมเราต้องละทิ้งตัวแปรจำลองหนึ่งตัว

8
ฉันจะเรียนรู้เครือข่ายประสาทได้อย่างไร
ฉันเป็นนักศึกษาระดับปริญญาตรีครั้งแรก (พูดถึงเรื่องนี้ดังนั้นคุณอาจให้อภัยความไม่คุ้นเคยของฉัน) ที่กำลังทำวิจัยโดยใช้เครือข่ายประสาท ฉันเขียนรหัสเครือข่ายประสาทสามโหนด (ใช้งานได้) ตามคำแนะนำของอาจารย์ อย่างไรก็ตามฉันต้องการทำงานใน AI และ Data Science และฉันต้องการสอนตัวเองเกี่ยวกับสิ่งเหล่านี้อย่างละเอียด มีหนังสือหรือแหล่งข้อมูลใดบ้างที่จะสอนเพิ่มเติมเกี่ยวกับโครงสร้างเครือข่ายประสาทการเรียนรู้อย่างลึกล้ำและอื่น ๆ มีคำแนะนำหรือไม่? หมายเหตุ: ฉันมีความเชี่ยวชาญใน Java, Python, Bash, JavaScript, Matlab และรู้ C ++ เล็กน้อย

3
ความแตกต่างระหว่าง RNNs การสร้างข้อความที่อิงกับคำและการเขียนคืออะไร?
ในขณะที่อ่านเกี่ยวกับการสร้างข้อความด้วยเครือข่ายประสาทที่เกิดขึ้นอีกฉันสังเกตเห็นว่ามีตัวอย่างบางส่วนที่ถูกนำไปใช้เพื่อสร้างคำแบบข้อความต่อคำและตัวละครอื่น ๆ เป็นตัวละครโดยไม่ได้ระบุว่าทำไม ดังนั้นสิ่งที่เป็นความแตกต่างระหว่างรุ่น RNN ที่คาดการณ์ข้อความต่อคำพื้นฐานและคนที่คาดการณ์ข้อความต่อถ่านพื้นฐาน? การใช้ RNN แบบคำต้องใช้ขนาดคลังใหญ่กว่าหรือไม่? RNN ที่ใช้ถ่านเป็นแบบอย่างที่ดีกว่าหรือไม่? บางทีความแตกต่างเพียงอย่างเดียวคือการป้อนข้อมูล (การเข้ารหัสแบบร้อนแรงหรือการใส่คำศัพท์) รายการใดที่จะเลือกสำหรับการสร้างข้อความ

4
R: การเรียนรู้ของเครื่องบน GPU
มีชุดการเรียนรู้ของเครื่องสำหรับ R ที่สามารถใช้ GPU เพื่อปรับปรุงความเร็วการฝึกอบรม (เช่น theano จากโลกหลาม) หรือไม่? ฉันเห็นว่ามีแพ็กเกจที่เรียกว่า gputools ซึ่งอนุญาตให้เรียกใช้โค้ดบน gpu แต่ฉันกำลังมองหาไลบรารี่ที่สมบูรณ์สำหรับการเรียนรู้ของเครื่อง

4
จะระบุคุณลักษณะที่สำคัญได้อย่างไร
สมมติว่าชุดของข้อมูลที่มีโครงสร้างแบบหลวม ๆ (เช่นตารางเว็บ / เปิดข้อมูลที่เชื่อมโยง) ซึ่งประกอบด้วยแหล่งข้อมูลจำนวนมาก ไม่มี schema ทั่วไปตามด้วยข้อมูลและแต่ละแหล่งสามารถใช้แอตทริบิวต์คำพ้องความหมายเพื่ออธิบายค่า (เช่น "สัญชาติ" กับ "bornIn") เป้าหมายของฉันคือการค้นหาคุณลักษณะ "สำคัญ" ที่ "กำหนด" เอนทิตีที่พวกเขาอธิบาย ดังนั้นเมื่อฉันพบค่าเดียวกันสำหรับแอตทริบิวต์ดังกล่าวฉันจะรู้ว่าคำอธิบายทั้งสองมีแนวโน้มมากที่สุดเกี่ยวกับเอนทิตีเดียวกัน (เช่นบุคคลเดียวกัน) ตัวอย่างเช่นแอตทริบิวต์ "lastName" นั้นเลือกปฏิบัติมากกว่าแอตทริบิวต์ "สัญชาติ" ฉันจะค้นหาคุณลักษณะที่สำคัญกว่าตัวอื่นได้อย่างไร (ทางสถิติ) วิธีแก้ปัญหาแบบไร้เดียงสาคือการใช้ IDF เฉลี่ยของค่าของแต่ละคุณลักษณะและทำให้สิ่งนี้เป็นปัจจัย "สำคัญ" ของแอตทริบิวต์ วิธีที่คล้ายกันคือการนับจำนวนค่าที่แตกต่างกันปรากฏสำหรับแต่ละแอตทริบิวต์ ฉันได้เห็นคุณลักษณะคำศัพท์หรือการเลือกคุณลักษณะในการเรียนรู้ของเครื่อง แต่ฉันไม่ต้องการทิ้งคุณลักษณะที่เหลืออยู่ฉันแค่ต้องการให้น้ำหนักที่สูงขึ้นแก่สิ่งที่สำคัญที่สุด

2
ทำไมฟังก์ชั่นการเปิดใช้งานจึงต้องเป็นแบบโมโนโทนิก?
ฉันกำลังเตรียมสอบเครือข่ายประสาท ในหลายโปรโตคอลจากการสอบเดิมฉันได้อ่านว่าฟังก์ชั่นการเปิดใช้งานของเซลล์ประสาท ฉันเข้าใจว่าฟังก์ชั่นการเปิดใช้งานควรมีความแตกต่างได้มีอนุพันธ์ซึ่งไม่ได้เป็น 0 ในจุดส่วนใหญ่และไม่ใช่เชิงเส้น ฉันไม่เข้าใจว่าทำไมการเป็นโมโนโทนิกจึงมีความสำคัญ / เป็นประโยชน์ ฉันรู้ว่าฟังก์ชั่นการเปิดใช้งานต่อไปนี้และพวกเขาเป็นแบบโมโนโทนิค: Relu sigmoid Tanh Softmax: ฉันไม่แน่ใจว่านิยาม monotonicity สามารถใช้ได้กับฟังก์ชั่นด้วยฉ: Rn→ Rม.ฉ:Rn→Rม.f: \mathbb{R}^n \rightarrow \mathbb{R}^mn , m > 1n,ม.>1n, m > 1 Softplus (ประจำตัว) แต่ผมยังไม่เห็นเหตุผลว่าทำไมเช่น 2φ ( x ) = x2φ(x)=x2\varphi(x) = x^2 ทำไมฟังก์ชั่นการเปิดใช้งานจึงต้องเป็นแบบโมโนโทนิก? (คำถามด้านที่เกี่ยวข้อง: มีเหตุผลใดที่ฟังก์ชันลอการิทึม / เลขชี้กำลังไม่ได้ใช้เป็นฟังก์ชันเปิดใช้งานหรือไม่)

2
ข้อแตกต่างของการแนะนำตามรายการและผู้ใช้ใน Mahout
ฉันอยากจะรู้ว่าผู้ใช้ควานช้างตามและคำแนะนำตามรายการแตกต่างกันอย่างไร มันกำหนดว่า ตามผู้ใช้ : แนะนำรายการโดยการค้นหาผู้ใช้ที่คล้ายกัน สิ่งนี้มักจะยากต่อการปรับขนาดเนื่องจากลักษณะของผู้ใช้แบบไดนามิก รายการตาม : คำนวณความคล้ายคลึงกันระหว่างรายการและให้คำแนะนำ รายการมักจะไม่เปลี่ยนแปลงมากนักดังนั้นสิ่งนี้จึงสามารถคำนวณได้จากบรรทัด แต่ถึงแม้ว่าจะมีข้อเสนอแนะสองแบบให้เลือก แต่สิ่งที่ฉันเข้าใจคือทั้งสองอย่างนี้จะใช้ตัวแบบข้อมูลบางตัว (เช่น 1,2 หรือ 1,2, .5 เป็น item1, item2, value หรือ user1, user2, value โดยที่ value ไม่ได้ บังคับ) และจะทำการคำนวณทั้งหมดตามการวัดความคล้ายคลึงกันและฟังก์ชั่น build-in ของผู้แนะนำที่เราเลือกและเราสามารถเรียกใช้คำแนะนำจากผู้ใช้ / รายการตามข้อมูลเดียวกัน (นี่คือสมมติฐานที่ถูกต้องหรือไม่?) ดังนั้นฉันอยากรู้ว่าอัลกอริทึมทั้งสองแบบนี้แตกต่างกันอย่างไร

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.