คำถามติดแท็ก machine-learning

อัลกอริทึมการเรียนรู้ของเครื่องสร้างโมเดลของข้อมูลการฝึกอบรม คำว่า "การเรียนรู้ของเครื่อง" มีการกำหนดอย่างคลุมเครือ มันรวมถึงสิ่งที่เรียกว่าการเรียนรู้ทางสถิติการเรียนรู้เสริมการเรียนรู้แบบไม่สำรอง ฯลฯ มักเพิ่มแท็กเฉพาะเพิ่มเติม

4
ความหมายของคุณสมบัติแฝง?
ฉันกำลังพยายามที่จะเข้าใจรูปแบบเมทริกซ์การแยกตัวประกอบสำหรับระบบผู้แนะนำและฉันมักจะอ่าน 'คุณสมบัติที่แฝงอยู่' แต่นั่นหมายความว่าอย่างไร ฉันรู้ว่าคุณลักษณะใดมีความหมายต่อชุดข้อมูลการฝึกอบรม แต่ฉันไม่สามารถเข้าใจแนวคิดเกี่ยวกับคุณลักษณะแฝง บทความในหัวข้อที่ฉันพบทุกฉบับนั้นตื้นเกินไป แก้ไข: ถ้าอย่างน้อยคุณก็สามารถชี้ให้ฉันดูเอกสารที่อธิบายความคิดนั้นได้

3
การทำให้เป็นมาตรฐานและการปรับขนาดในการเรียนรู้ออนไลน์?
สมมติว่าฉันมีลักษณนามการถดถอยโลจิสติก ในการเรียนรู้แบบกลุ่มตามปกติฉันมีคำศัพท์ปกติเพื่อป้องกันไม่ให้เกิดการ overfitting และทำให้น้ำหนักของฉันเล็ก ฉันจะทำให้ปกติและปรับขนาดคุณสมบัติของฉัน ในการเรียนรู้ออนไลน์ฉันได้รับกระแสข้อมูลอย่างต่อเนื่อง ฉันทำการอัพเดทโคตรลาดตามแต่ละตัวอย่างแล้วละทิ้งมัน ฉันควรจะใช้การปรับขนาดและคำศัพท์ในการเรียนรู้ออนไลน์หรือไม่ ถ้าใช่ฉันจะทำอย่างไร ตัวอย่างเช่นฉันไม่มีชุดข้อมูลการฝึกอบรมที่จะเทียบเคียง ฉันยังไม่มีชุดการตรวจสอบเพื่อปรับพารามิเตอร์การทำให้เป็นมาตรฐานของฉัน ถ้าไม่ทำไมล่ะ ในการเรียนรู้ออนไลน์ของฉันฉันได้รับตัวอย่างมากมายอย่างต่อเนื่อง สำหรับตัวอย่างใหม่แต่ละครั้งฉันทำนายผล จากนั้นในขั้นตอนต่อไปฉันจะได้รับเป้าหมายที่แท้จริงและทำการอัพเดทลาดลง

3
วิธีการเลือกเมตริกข้อผิดพลาดเมื่อประเมินลักษณนาม
ฉันเคยเห็นมาตรวัดข้อผิดพลาดที่แตกต่างกันที่ใช้ในการแข่งขัน Kaggle: RMS, Mean-square, AUC และอื่น ๆ กฎทั่วไปเกี่ยวกับการเลือกข้อผิดพลาดทั่วไปคืออะไรคุณจะทราบได้อย่างไรว่าการวัดข้อผิดพลาดแบบใดที่จะใช้สำหรับปัญหาที่ระบุ มีแนวทางใดบ้าง

4
ข้อดีของ ROC curves
ข้อดีของ ROC curves คืออะไร? ตัวอย่างเช่นฉันจำแนกภาพบางส่วนซึ่งเป็นปัญหาการจำแนกเลขฐานสอง ฉันแยกคุณสมบัติประมาณ 500 รายการและใช้อัลกอริทึมการเลือกคุณลักษณะเพื่อเลือกชุดคุณลักษณะแล้วฉันใช้ SVM สำหรับการจัดหมวดหมู่ ในกรณีนี้ฉันจะขอ ROC โค้งได้อย่างไร? ฉันควรเปลี่ยนค่าขีด จำกัด ของอัลกอริทึมการเลือกคุณลักษณะของฉันและรับความไวและความจำเพาะของเอาต์พุตเพื่อวาดเส้นโค้ง ROC หรือไม่ ในกรณีของฉันวัตถุประสงค์ของการสร้างเส้นโค้ง ROC คืออะไร

7
อัลกอริทึมการเรียนรู้ของเครื่องใดที่สามารถใช้เพื่อทำนายตลาดหุ้น?
อีกวิธีหนึ่งคือการทำนายตลาดแลกเปลี่ยนเงินตราต่างประเทศ ฉันรู้ว่าสิ่งนี้อาจซับซ้อนมากดังนั้นในการแนะนำตัวฉันกำลังมองหาอัลกอริธึมการทำนายอย่างง่ายที่มีความแม่นยำ (สำหรับโครงการวิทยาศาสตรมหาบัณฑิตที่ใช้เวลาสี่เดือน) ฉันได้อ่านแล้วว่าเครือข่ายประสาทหลายชั้นอาจมีประโยชน์ ความคิดใด ๆ นอกจากนี้การวิเคราะห์เชิงความหมายของโซเชียลมีเดียอาจให้ข้อมูลเชิงลึกเกี่ยวกับพฤติกรรมของตลาดซึ่งมีอิทธิพลต่อตลาดหุ้น อย่างไรก็ตามการวิเคราะห์เชิงความหมายอยู่นอกขอบเขตของโครงการในขณะนี้

5
อัลกอริทึมการจำแนกทางสถิติใดที่สามารถทำนายความจริง / เท็จสำหรับลำดับของอินพุตได้
กำหนดลำดับของอินพุตฉันต้องพิจารณาว่าลำดับนี้มีคุณสมบัติที่ต้องการหรือไม่ คุณสมบัติสามารถเป็นจริงหรือเท็จนั่นคือมีเพียงสองคลาสที่เป็นไปได้ที่ลำดับสามารถเป็นของ ความสัมพันธ์ที่แน่นอนระหว่างลำดับและคุณสมบัตินั้นไม่ชัดเจน แต่ฉันเชื่อว่ามันสอดคล้องกันมากและควรให้ยืมเพื่อการจำแนกทางสถิติ ฉันมีหลายกรณีที่ต้องฝึกลักษณนามถึงแม้ว่ามันอาจจะมีเสียงดังเล็กน้อยในแง่ที่ว่ามีความเป็นไปได้ที่จะมีการมอบหมายลำดับคลาสที่ไม่ถูกต้องในชุดฝึกอบรมนี้ ตัวอย่างข้อมูลการฝึกอบรม: Sequence 1: (7 5 21 3 3) -> true Sequence 2: (21 7 5 1) -> true Sequence 3: (12 21 7 5 11 1) -> false Sequence 4: (21 5 7 1) -> false ... ในแง่หยาบทรัพย์สินจะถูกกำหนดโดยชุดของค่าในลำดับ (เช่นการปรากฏตัวของ "11" หมายความว่าทรัพย์สินเกือบจะเป็นเท็จ) เช่นเดียวกับคำสั่งของค่า (เช่น "21 7 …

1
เหตุใด ReLU เดียวจึงไม่สามารถเรียนรู้ ReLU ได้
จากการติดตามเครือข่ายประสาทของฉันไม่สามารถเรียนรู้ระยะทางแบบยุคลิดฉันได้ง่ายขึ้นและพยายามฝึกฝน ReLU เดี่ยว (ด้วยน้ำหนักสุ่ม) ไปยัง ReLU เดียว นี่คือเครือข่ายที่ง่ายที่สุดที่มีอยู่และยังครึ่งหนึ่งของเวลาที่มันไม่มาบรรจบกัน หากการเดาเริ่มต้นอยู่ในทิศทางเดียวกับเป้าหมายมันจะเรียนรู้ได้อย่างรวดเร็วและแปลงเป็นน้ำหนักที่ถูกต้อง 1: หากการเดาเริ่มต้นคือ "ถอยหลัง" มันจะติดอยู่ที่น้ำหนักเป็นศูนย์และไม่ผ่านไปยังพื้นที่ที่มีการสูญเสียต่ำกว่า: ฉันไม่เข้าใจว่าทำไม โคตรลาดชันไม่ควรทำตามโค้งการสูญเสียไปสู่มินิมาระดับโลกอย่างง่ายดายหรือไม่? รหัสตัวอย่าง: from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Dense, ReLU from tensorflow import keras import numpy as np import matplotlib.pyplot as plt batch = 1000 def tests(): while True: test = np.random.randn(batch) # Generate ReLU …

3
มูลค่าสูงสุดของการผันแปร Kullback-Leibler (KL) คืออะไร
ฉันจะใช้ KL divergence ในรหัสหลามของฉันและฉันได้รับการสอนนี้ ในบทช่วยสอนนั้นการใช้ KL divergence นั้นค่อนข้างง่าย kl = (model * np.log(model/actual)).sum() ดังที่ฉันเข้าใจการกระจายความน่าจะเป็นของmodelและactualควรเป็น <= 1 คำถามของฉันคืออะไรค่าสูงสุดที่เป็นไปได้ / ค่าสูงสุดที่เป็นไปได้คือ k ฉันจำเป็นต้องรู้ค่าสูงสุดที่เป็นไปได้ของระยะทาง kl สำหรับขอบเขตสูงสุดในรหัสของฉัน

3
วิธีการแก้ไขปัญหาข้อมูลขาดหายไปในการเรียนรู้ของเครื่อง
ฐานข้อมูลใด ๆ ที่เราต้องการทำนายโดยใช้อัลกอริทึมการเรียนรู้ของเครื่องจะค้นหาค่าที่ขาดหายไปสำหรับคุณลักษณะบางอย่าง มีหลายวิธีในการแก้ไขปัญหานี้เพื่อแยกบรรทัดที่มีค่าหายไปจนกว่าพวกเขาจะเติมค่าเฉลี่ยของลักษณะ ฉันต้องการใช้สำหรับวิธีที่ค่อนข้างแข็งแกร่งซึ่งโดยทั่วไปจะเรียกใช้การถดถอย (หรือวิธีอื่น) ซึ่งตัวแปรตาม (Y) จะเป็นคอลัมน์แต่ละคอลัมน์ที่มีค่าที่หายไป แต่มีเฉพาะแถวของตาราง ที่มีข้อมูลทั้งหมดและทำนายค่าที่ขาดหายไปด้วยวิธีนี้ให้ทำตารางตามตารางและย้ายไปยัง 'คอลัมน์' ถัดไปด้วยค่าที่หายไปและทำซ้ำวิธีจนกว่าทุกอย่างจะเต็ม แต่นั่นทำให้ฉันสงสัย ทำไมคอลัมน์เริ่มต้น ฉันเชื่อว่าคนที่มีค่าที่น้อยที่สุดจะหายไปจนกว่าคนที่มีค่ามากที่สุด มีเกณฑ์ของค่าที่หายไปที่ไม่คุ้มค่าหรือไม่ที่จะพยายามทำให้เสร็จ (ตัวอย่างเช่นหากคุณลักษณะนี้มีเพียง 10% ของค่าที่เติมจะไม่น่าสนใจที่จะยกเว้น) มีการนำไปใช้ในแพคเกจแบบดั้งเดิมหรือวิธีการอื่นที่ทนทานต่อการขาดหรือไม่

2
ข้อผิดพลาด Bayes คืออะไรในการเรียนรู้ของเครื่อง?
http://www.deeplearningbook.org/contents/ml.htmlหน้า 116 อธิบายข้อผิดพลาดของ Bayes ดังต่อไปนี้ โมเดลอุดมคติคือ oracle ที่รู้การกระจายความน่าจะเป็นจริงที่สร้างข้อมูล แม้รูปแบบดังกล่าวจะยังคงเกิดข้อผิดพลาดในปัญหามากมายเนื่องจากอาจมีสัญญาณรบกวนในการกระจาย ในกรณีของการเรียนรู้ภายใต้การดูแลการทำแผนที่จาก x ถึง y อาจจะสุ่มโดยเนื้อแท้หรือ y อาจเป็นฟังก์ชันที่กำหนดขึ้นซึ่งเกี่ยวข้องกับตัวแปรอื่นนอกเหนือจากที่รวมอยู่ใน x ข้อผิดพลาดที่เกิดขึ้นจากการพยากรณ์ทำนายจากการแจกแจงจริง p (x, y) เรียกว่าข้อผิดพลาด Bayes คำถาม โปรดอธิบายข้อผิดพลาด Bayes อย่างสังหรณ์ใจ? แตกต่างจากข้อผิดพลาดลดลงไม่ได้อย่างไร ฉันจะพูดว่า error error = Bias + Variance + Bayes ได้ไหม? ความหมายของ "y อาจเป็นแบบสุ่มโดยเนื้อแท้" คืออะไร?

2
อะไรคือ“ พื้นฐาน” ในกราฟการเรียกคืนที่แม่นยำ
ฉันพยายามเข้าใจเส้นโค้งการเรียกคืนที่แม่นยำฉันเข้าใจว่าความแม่นยำและการเรียกคืนคืออะไร แต่สิ่งที่ฉันไม่เข้าใจคือค่า "พื้นฐาน" ฉันอ่านลิงค์นี้ https://classeval.wordpress.com/introduction/introduction-to-the-precision-recall-plot/ และฉันไม่เข้าใจส่วนพื้นฐานดังที่แสดงใน "เส้นโค้งความแม่นยำ - การเรียกคืนของตัวจําแนกที่สมบูรณ์แบบ" มันทําอะไรได้บ้าง และเราจะคำนวณได้อย่างไร มันเป็นเพียงพื้นฐานแบบสุ่มที่เราเลือก? ตัวอย่างเช่นฉันมีข้อมูลตัวสั่นด้วยความตื่นเต้นเช่นคุณลักษณะretweet,status_countและอื่น ๆ และป้ายกำกับคลาสของฉันคือFavorited1 หากรายการโปรดและ 0 หากไม่ได้รับความโปรดปรานและฉันใช้ช่องทางที่ไร้เดียงสาและตอนนี้ฉันต้องการวาดเส้นโค้งการจำคืนความแม่นยำ ?

2
น้ำหนักได้รับการปรับปรุงในวิธีการเรียนรู้แบบแบตช์ในเครือข่ายประสาทเทียมอย่างไร
ใครช่วยบอกฉันทีว่าฉันควรจะสร้างเครือข่ายประสาทโดยใช้วิธีการแบทช์ได้ไหม ฉันได้อ่านแล้วว่าในโหมดแบทช์สำหรับตัวอย่างทั้งหมดในชุดการฝึกอบรมเราคำนวณข้อผิดพลาดเดลต้าและทำให้น้ำหนักเดลต้าสำหรับเซลล์ประสาทแต่ละตัวในเครือข่ายและจากนั้นแทนที่จะอัปเดตน้ำหนักทันทีเราสะสมพวกเขาและจากนั้นก่อนเริ่ม ยุคต่อไปเราจะปรับปรุงน้ำหนัก ฉันยังอ่านบางที่ว่าวิธีการแบทช์เป็นเหมือนวิธีการออนไลน์ แต่ด้วยความแตกต่างที่เราต้องการเพียงข้อสรุปข้อผิดพลาดสำหรับตัวอย่างทั้งหมดในชุดการฝึกอบรมแล้วใช้ค่าเฉลี่ยของมันแล้วใช้ค่าเฉลี่ยของมัน วิธีการหนึ่งในวิธีออนไลน์ (ความแตกต่างเป็นเพียงค่าเฉลี่ย) เช่นนี้: for epoch=1 to numberOfEpochs for all i samples in training set calculate the errors in output layer SumOfErrors += (d[i] - y[i]) end errorAvg = SumOfErrors / number of Samples in training set now update the output layer with this error update …

1
รวมถึงเงื่อนไขการโต้ตอบในป่าสุ่ม
สมมติว่าเรามีคำตอบ Y และตัวทำนาย X1, .... , Xn ถ้าเราพยายามทำให้พอดีกับ Y ผ่านโมเดลเชิงเส้นของ X1, .... , Xn และมันก็เกิดขึ้นที่ความสัมพันธ์ที่แท้จริงระหว่าง Y และ X1, ... , Xn ไม่เชิงเส้นเราอาจจะสามารถ เพื่อแก้ไขตัวแบบโดยการแปลง X ของมันให้เข้ากับโมเดล ยิ่งกว่านั้นถ้ามันเกิดขึ้นเมื่อ X1, ... , XN ไม่ได้ส่งผลกระทบต่อคุณสมบัติที่เป็นอิสระของ y อื่น ๆ เราก็อาจจะสามารถปรับปรุงรูปแบบโดยรวมถึงเงื่อนไขการโต้ตอบ x1 * x3 หรือ x1 * x4 * x7 หรืออะไรทำนองนั้น ดังนั้นในกรณีเชิงเส้นเงื่อนไขการโต้ตอบอาจนำมาซึ่งมูลค่าโดยการแก้ไขการไม่เป็นเชิงเส้นหรือการละเมิดความเป็นอิสระระหว่างการตอบสนองและคุณลักษณะ อย่างไรก็ตามป่าสุ่มไม่ได้ตั้งสมมติฐานเหล่านี้ การรวมคำศัพท์ในการโต้ตอบมีความสำคัญหรือไม่เมื่อปรับป่าที่เหมาะสม หรือจะรวมถึงข้อกำหนดของแต่ละบุคคลและการเลือกพารามิเตอร์ที่เหมาะสมจะช่วยให้ป่าสุ่มจับความสัมพันธ์เหล่านี้?

2
คำจำกัดความของความแม่นยำสูงสุดคืออะไร
ฉันกำลังอ่านกระดาษวิทยาศาสตร์เกี่ยวกับการจำแนกภาพ ในผลการทดลองพวกเขาพูดถึงความแม่นยำระดับท็อป 1 และ 5 อันดับแรก แต่ฉันไม่เคยได้ยินคำนี้มาก่อนและไม่สามารถค้นหาได้โดยใช้ google ใครสามารถให้คำจำกัดความหรือชี้แนะฉันได้? :)

2
ทำไมการปรับขนาดจึงมีความสำคัญสำหรับการจัดประเภท SVM เชิงเส้น
เมื่อทำการจัดหมวดหมู่ SVM แบบเส้นตรงมักจะเป็นประโยชน์ในการทำให้ข้อมูลการฝึกอบรมเป็นปกติเช่นการลบค่าเฉลี่ยและหารด้วยค่าเบี่ยงเบนมาตรฐาน ทำไมกระบวนการนี้จึงเปลี่ยนประสิทธิภาพการจำแนกอย่างรวดเร็ว?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.