คำถามติดแท็ก machine-learning

อัลกอริทึมการเรียนรู้ของเครื่องสร้างโมเดลของข้อมูลการฝึกอบรม คำว่า "การเรียนรู้ของเครื่อง" มีการกำหนดอย่างคลุมเครือ มันรวมถึงสิ่งที่เรียกว่าการเรียนรู้ทางสถิติการเรียนรู้เสริมการเรียนรู้แบบไม่สำรอง ฯลฯ มักเพิ่มแท็กเฉพาะเพิ่มเติม

1
ฝึกอบรมโครงข่ายประสาทเทียม
ฉันกำลังทำงานกับซอฟต์แวร์จดจำใบหน้าที่ใช้เครือข่ายประสาทเทียมเพื่อจดจำใบหน้า จากการอ่านของฉันฉันได้รวบรวมว่าเครือข่ายประสาทเทียมได้แบ่งปันน้ำหนักเพื่อประหยัดเวลาในการฝึก แต่วิธีหนึ่งจะปรับการกระจายกลับเพื่อให้สามารถใช้ในโครงข่ายประสาทเทียม ในการแพร่กระจายย้อนกลับหนึ่งใช้สูตรที่คล้ายกับสิ่งนี้ในการฝึกอบรมน้ำหนัก New Weight = Old Weight + LEARNING_RATE * 1 * Output Of InputNeuron * Delta อย่างไรก็ตามเนื่องจากในเครือข่ายประสาทเทียมน้ำหนักที่ใช้ร่วมกันจึงมีการใช้น้ำหนักแต่ละเซลล์ร่วมกับเซลล์ประสาทหลายตัวดังนั้นฉันจะตัดสินใจได้อย่างไรว่าOutput of InputNeuronจะใช้อุปกรณ์ใด กล่าวอีกนัยหนึ่งเนื่องจากน้ำหนักถูกแชร์ฉันจะตัดสินใจได้อย่างไรว่าต้องเปลี่ยนน้ำหนักด้วย

2
พล็อตขอบเขตการตัดสินใจสำหรับ perceptron
ฉันพยายามพล็อตขอบเขตการตัดสินใจของอัลกอริทึม Perceptron และฉันสับสนมากเกี่ยวกับบางสิ่ง อินสแตนซ์อินพุตของฉันอยู่ในรูปแบบโดยทั่วไปอินสแตนซ์อินพุต 2D ( x 1และx 2 ) และค่าเป้าหมายคลาสไบนารี ( y ) [1 หรือ 0][ ( x1, x2) ,y][(x1,x2),Y][(x_{1},x_{2}), y]x1x1x_{1}x2x2x_{2}YYy เวกเตอร์น้ำหนักของฉันจึงอยู่ในรูปแบบ: ][ w1, w2][W1,W2][w_{1}, w_{2}] ตอนนี้ฉันต้องรวมพารามิเตอร์ bias เพิ่มเติมและด้วยเหตุนี้เวกเตอร์น้ำหนักของฉันกลายเป็นเวกเตอร์3 × 1หรือไม่ มันคือ1 × 3เวกเตอร์ ฉันคิดว่าควรเป็น1 × 3เนื่องจากเวกเตอร์มีเพียง 1 แถวและคอลัมน์ nW0W0w_{0}3 × 13×13 \times 11 ×31×31 \times 31 × 31×31 …

1
แรงจูงใจเบื้องหลังขั้นตอนวิธีฟอเรสต์แบบสุ่ม
วิธีการที่ฉันคุ้นเคยกับการสร้างฟอเรสต์แบบสุ่มมีดังนี้: (จากhttp://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm ) เพื่อสร้างต้นไม้ในป่าเรา: บูตตัวอย่างขนาด N ที่ N คือขนาดของชุดการฝึกอบรมของเรา ใช้ตัวอย่าง bootstrapped นี้เป็นชุดการฝึกอบรมสำหรับต้นไม้นี้ ที่แต่ละโหนดของต้นไม้สุ่มเลือก m ของคุณสมบัติ M ของเรา เลือกคุณสมบัติที่ดีที่สุดของ m เหล่านี้เพื่อแยก (โดยที่ m เป็นพารามิเตอร์ของป่าสุ่มของเรา) ปลูกต้นไม้แต่ละต้นให้มากที่สุดเท่าที่จะทำได้เช่นไม่มีการตัดแต่งกิ่ง ในขณะที่อัลกอริทึมนี้สมเหตุสมผลในระดับขั้นตอนและให้ผลลัพธ์ที่ดีแน่นอนฉันไม่ชัดเจนว่าแรงจูงใจทางทฤษฎีอยู่เบื้องหลังขั้นตอนที่ 1, 2 และ 3 ใครสามารถอธิบายสิ่งที่กระตุ้นให้คนที่มากับขั้นตอนนี้และทำไมมัน ทำงานได้ดีเหรอ ตัวอย่างเช่น: ทำไมเราต้องดำเนินการขั้นตอนที่ 1 ดูเหมือนว่าเรากำลังทำ bootstrapping เพื่อจุดประสงค์ในการลดความแปรปรวนตามปกติ

1
วิธีการทำนายข้อมูลใหม่ด้วยการถดถอยอิสระ
ใครสามารถช่วยอธิบายแนวคิดเกี่ยวกับวิธีการคาดการณ์สำหรับข้อมูลใหม่เมื่อใช้แบบเรียบ / เส้นโค้งสำหรับแบบจำลองการทำนายได้หรือไม่ ตัวอย่างเช่นเมื่อสร้างแบบจำลองที่ใช้gamboostในmboostแพ็คเกจใน R ด้วย p-splines การคาดการณ์สำหรับข้อมูลใหม่ทำอย่างไร ข้อมูลอะไรที่ใช้ในการฝึกอบรม? สมมติว่ามีค่าใหม่ของตัวแปรอิสระ x และเราต้องการทำนาย y สูตรสำหรับการสร้างอิสระถูกนำไปใช้กับค่าข้อมูลใหม่นี้โดยใช้ knots หรือ df ที่ใช้เมื่อทำการฝึกอบรมรูปแบบแล้วค่าสัมประสิทธิ์จากแบบจำลองที่ผ่านการฝึกอบรมจะถูกนำไปใช้ในการทำนายผลลัพธ์หรือไม่? นี่คือตัวอย่างของ R สิ่งที่คาดการณ์ว่าจะทำให้เกิดแนวคิดในการแสดงผล 899.4139 สำหรับข้อมูลใหม่ mean_radius = 15.99 #take the data wpbc as example library(mboost) data(wpbc) modNew<-gamboost(mean_area~mean_radius, data = wpbc, baselearner = "bbs", dfbase = 4, family=Gaussian(),control = boost_control(mstop = 5)) test<-data.frame(mean_radius=15.99) …

1
การประเมินตัวแยกประเภท: เส้นโค้งการเรียนรู้กับเส้นโค้ง ROC
ฉันต้องการเปรียบเทียบตัวแยกประเภทที่แตกต่างกัน 2 ตัวสำหรับปัญหาการจำแนกข้อความแบบหลายคลาสที่ใช้ชุดข้อมูลการฝึกอบรมขนาดใหญ่ ฉันสงสัยว่าฉันควรใช้ ROC curves หรือ learning curves เพื่อเปรียบเทียบ 2 ตัวแยกประเภท ในอีกด้านหนึ่งเส้นโค้งการเรียนรู้มีประโยชน์สำหรับการตัดสินใจขนาดของชุดข้อมูลการฝึกอบรมเนื่องจากคุณสามารถหาขนาดของชุดข้อมูลที่ตัวแยกประเภทหยุดการเรียนรู้ (และอาจลดระดับ) ดังนั้นตัวจําแนกที่ดีที่สุดในกรณีนี้อาจเป็นตัวจําแนกที่มีความแม่นยำสูงสุดด้วยขนาดชุดข้อมูลที่เล็กที่สุด ในทางกลับกัน ROC curves ช่วยให้คุณค้นหาจุดที่มีการแลกเปลี่ยนที่เหมาะสมระหว่างความไว / ความจำเพาะ ลักษณนามที่ดีที่สุดในกรณีนี้คือตัวที่ใกล้กับส่วนบนซ้ายมากที่สุดโดยมี TPR สูงสุดสำหรับ FPR ใด ๆ ฉันควรใช้วิธีการประเมินทั้งสองหรือไม่ เป็นไปได้หรือไม่ที่วิธีที่มีช่วงการเรียนรู้ที่ดีกว่ามีเส้นโค้ง ROC ที่แย่ลงและในทางกลับกัน

2
การคำนวณมิติ VC ของเครือข่ายประสาทเทียม
ถ้าฉันมีโทโพโลยีที่ไม่เกิดขึ้นอีกคงที่ (DAG) (ชุดคงที่ของโหนดและขอบ แต่อัลกอริทึมการเรียนรู้สามารถเปลี่ยนแปลงน้ำหนักบนขอบ) ของ sigmoid neurons กับเซลล์ประสาทซึ่งสามารถใช้สตริงใน{ - 1 , 1 } nเป็นอินพุตและนำไปสู่หนึ่งเอาต์พุต (ซึ่งส่งออกมูลค่าจริงที่เราปัดขึ้นเป็น 1 หรือลงไปที่ -1 หากเป็นค่าคงที่ที่กำหนดไว้แน่นอนจาก 0) มีวิธีใดในการคำนวณ (หรือโดยประมาณ) VC-dimension ของเครือข่ายนี้หรือไม่?nnn{ - 1 , 1 }n{−1,1}n\{-1,1\}^n หมายเหตุ ฉันถามการปรับปรุงอัลกอริทึมที่แม่นยำยิ่งขึ้นเล็กน้อยใน CS.SE: การคำนวณอย่างมีประสิทธิภาพหรือประมาณมิติ VC ของเครือข่ายประสาทเทียม

2
ฉันจะปรับปรุงเสถียรภาพเครือข่ายประสาทของฉันได้อย่างไร
ฉันใช้ neuralnet ใน R เพื่อสร้าง NN พร้อมอินพุต 14 ช่องและเอาต์พุตเดียว ฉันสร้าง / ฝึกอบรมเครือข่ายหลายครั้งโดยใช้ข้อมูลการฝึกอบรมอินพุตเดียวกันและสถาปัตยกรรมเครือข่าย / การตั้งค่าเดียวกัน หลังจากสร้างเครือข่ายแล้วฉันจะใช้กับชุดข้อมูลทดสอบแบบสแตนด์อโลนเพื่อคำนวณค่าที่คาดการณ์ไว้ ฉันพบว่ามีความแปรปรวนจำนวนมากในแต่ละรอบซ้ำของข้อมูลที่คาดการณ์ถึงแม้ว่าอินพุตทั้งหมด (ทั้งข้อมูลการฝึกอบรมและข้อมูลการทดสอบ) จะยังคงเหมือนเดิมทุกครั้งที่ฉันสร้างเครือข่าย ฉันเข้าใจว่าจะมีความแตกต่างของน้ำหนักที่ผลิตภายใน NN ในแต่ละครั้งและจะไม่มีเครือข่ายประสาทเทียมสองเครือข่ายเหมือนกัน แต่ฉันจะพยายามสร้างเครือข่ายที่สอดคล้องกันมากขึ้นในแต่ละขบวนรถไฟได้อย่างไรจากข้อมูลที่เหมือนกัน

4
ทำไมเราไม่เรียนรู้พารามิเตอร์ไฮเปอร์?
ฉันใช้กระดาษที่ได้รับความนิยมอย่างมากเรื่อง "การอธิบายและการฝ่าฝืนตัวอย่างที่เป็นที่นิยม " และในกระดาษมันฝึกฟังก์ชั่นวัตถุประสงค์เชิงรุก J '' (θ) = αJ (θ) + (1 - α) J '(θ) มันถือว่าαเป็นพารามิเตอร์ αสามารถ 0.1, 0.2, 0.3 และอื่น ๆ โดยไม่คำนึงถึงเอกสารเฉพาะนี้ฉันสงสัยว่าทำไมเราไม่รวมαไว้ในพารามิเตอร์ของเราและเรียนรู้αที่ดีที่สุด ข้อเสียที่จะทำคืออะไร? มันเป็นเพราะการใส่มากเกินไป? ถ้าเป็นเช่นนั้นเพราะเหตุใดการเรียนรู้พารามิเตอร์อีก 1 รายการจึงทำให้มีจำนวนข้อมูลมากเกินไป?


1
คำถามเกี่ยวกับการลบค่าเฉลี่ยในชุดรถไฟ / ถูกต้อง / ทดสอบ
ฉันกำลังประมวลผลข้อมูลล่วงหน้าและจะสร้าง Convonets กับข้อมูลของฉันหลังจากนั้น คำถามของฉันคือ: สมมติว่าฉันมีชุดข้อมูลทั้งหมด 100 ภาพฉันคำนวณค่าเฉลี่ยสำหรับแต่ละภาพ 100 ภาพแล้วลบมันออกจากแต่ละภาพจากนั้นแยกชุดนี้เป็นชุดรถไฟและชุดตรวจสอบและฉันก็ทำเช่นเดียวกัน ขั้นตอนในการประมวลผลในชุดทดสอบที่กำหนด แต่ดูเหมือนว่านี่ไม่ใช่วิธีที่ถูกต้องในการทำตามลิงค์นี้: http://cs231n.github.io/neural-networks-2/#datapre จุดผิดพลาดทั่วไปจุดสำคัญที่จะทำให้การประมวลผลล่วงหน้าคือสถิติการประมวลผลล่วงหน้า (เช่นค่าเฉลี่ยของข้อมูล) จะต้องคำนวณจากข้อมูลการฝึกอบรมเท่านั้นจากนั้นนำไปใช้กับข้อมูลการตรวจสอบ / ทดสอบเช่นคำนวณค่าเฉลี่ยและลบออกจาก ทุกภาพในชุดข้อมูลทั้งหมดจากนั้นแยกข้อมูลออกเป็นส่วนแยก train / val / test จะเป็นความผิดพลาดแทนค่าเฉลี่ยจะต้องคำนวณเฉพาะข้อมูลการฝึกอบรมและจากนั้นแยกเท่า ๆ กันจากการแยกทั้งหมด (train / val / test) " ฉันคาดเดาสิ่งที่ผู้เขียนพูดคืออย่าคำนวณค่าเฉลี่ยและลบมันภายในแต่ละภาพ แต่คำนวณค่าเฉลี่ยของชุดภาพทั้งหมด (เช่น (image1 + ... + image100) / 100) และลบค่าเฉลี่ยของ แต่ละภาพ ฉันไม่เข้าใจทุกคนสามารถอธิบายได้? และอาจอธิบายได้ว่าทำไมสิ่งที่ฉันทำผิด (ถ้าผิด)

2
เหตุใด PCA จึงเพิ่มความแปรปรวนโดยรวมของการฉายภาพให้สูงสุด
Christopher Bishop เขียนในการจดจำรูปแบบในหนังสือของเขาและการเรียนรู้ของเครื่องเพื่อพิสูจน์ว่าแต่ละองค์ประกอบหลักติดต่อกันช่วยเพิ่มความแปรปรวนของการฉายภาพให้เป็นมิติหนึ่งหลังจากข้อมูลถูกฉายไปยังพื้นที่มุมฉากกับองค์ประกอบที่เลือกไว้ก่อนหน้านี้ คนอื่น ๆ แสดงหลักฐานที่คล้ายกัน อย่างไรก็ตามสิ่งนี้พิสูจน์ให้เห็นว่าแต่ละองค์ประกอบที่ต่อเนื่องกันเป็นโครงที่ดีที่สุดสำหรับหนึ่งมิติในแง่ของการเพิ่มความแปรปรวนให้สูงสุด เหตุใดสิ่งนี้จึงบอกเป็นนัยถึงความแปรปรวนของการฉายภาพที่จะบอกว่า 5 มิตินั้นถูกเลือกให้มากที่สุดสำหรับส่วนประกอบแรก

2
f- วัดความหมายเหมือนกันกับความถูกต้อง?
ฉันเข้าใจว่า f- การวัด (ตามความแม่นยำและการเรียกคืน) เป็นค่าประมาณความแม่นยำของตัวจําแนก นอกจากนี้f-measure ยังได้รับความนิยมมากกว่าความถูกต้องเมื่อเรามีชุดข้อมูลที่ไม่สมดุล ฉันมีคำถามง่าย ๆ (ซึ่งเกี่ยวกับการใช้คำศัพท์ที่ถูกต้องมากกว่าเกี่ยวกับเทคโนโลยี) ฉันมีชุดข้อมูลที่ไม่สมดุลและฉันใช้การวัดแบบ f ในการทดลองของฉัน ฉันกำลังจะเขียนกระดาษซึ่งไม่ใช่สำหรับการเรียนรู้ด้วยเครื่องจักร / การประชุมการทำเหมืองข้อมูล ดังนั้นฉันสามารถอ้างถึงการวัดค่า f เหมือนกันกับความถูกต้องในบริบทนี้ ยกตัวอย่างเช่นฉันมี f- วัด 0.82 แล้วฉันจะบอกได้ว่าลักษณนามของฉันบรรลุการทำนายที่แม่นยำ 82%

1
เมื่อใดที่จะไม่ใช้การตรวจสอบข้าม
เมื่อฉันอ่านในเว็บไซต์คำตอบส่วนใหญ่แนะนำว่าควรทำการตรวจสอบไขว้ในอัลกอริทึมการเรียนรู้ของเครื่อง อย่างไรก็ตามขณะที่ฉันอ่านหนังสือ "การเรียนรู้ของเครื่องเข้าใจ" ฉันเห็นว่ามีแบบฝึกหัดที่บางครั้งมันก็ดีกว่าที่จะไม่ใช้การตรวจสอบไขว้ ฉันสับสนจริงๆ เมื่อขั้นตอนวิธีการฝึกอบรมกับข้อมูลทั้งหมดดีกว่าการตรวจสอบข้าม มันเกิดขึ้นในชุดข้อมูลจริงหรือไม่? ให้เป็นคลาสสมมติฐาน สมมติว่าคุณจะได้รับ IID ฝึกอบรมตัวอย่างและคุณต้องการที่จะเรียนรู้ในชั้นเรียนHพิจารณาสองแนวทางทางเลือก: m H = ∪ k i = 1 H iH1, . . . , ชkH1,...,HkH_1,...,H_kม.mmH= ∪ki = 1HผมH=∪i=1kHiH=\cup^k_{i=1}H_i เรียนรู้เกี่ยวกับตัวอย่างโดยใช้กฎ ERMเมตรHHHม.mm แบ่งตัวอย่างเมตรเป็นชุดการฝึกอบรมที่มีขนาดและชุดตรวจสอบขนาดสำหรับบาง(0,1) จากนั้นใช้วิธีการเลือกแบบจำลองโดยใช้การตรวจสอบความถูกต้อง นั่นคือ fi rst ฝึกฝนแต่ละคลาสในตัวอย่างการฝึกอบรมโดยใช้กฎ ERM สำหรับและให้เป็นสมมติฐานที่เกิดขึ้น . ประการที่สองใช้กฎ ERM เกี่ยวกับคลาส class nite { } ในตัวอย่างการตรวจสอบความถูกต้องα เมตรα ∈ …

1
ทฤษฎีบทความเปรียบต่างสัมพัทธ์จาก Beyer และคณะ paper:“ พฤติกรรมที่น่าแปลกใจของมาตรวัดระยะทางในพื้นที่มิติสูง” ทำให้เข้าใจผิด?
สิ่งนี้ถูกอ้างถึงบ่อยมากเมื่อพูดถึงคำสาปของมิติและไป (สูตรทางขวามือเรียกว่าความเปรียบต่างสัมพัทธ์) limd→∞var(||Xd||kE[||Xd||k])=0,then:Dmaxkd−DminkdDminkd→0limd→∞var(||Xd||kE[||Xd||k])=0,then:Dmaxdk−DmindkDmindk→0 \lim_{d\rightarrow \infty} \text{var} \left(\frac{||X_d||_k}{E[||X_d||_k]} \right) = 0, \text{then}: \frac{D_{\max^{k}_{d}} - D_{\min^{k}_{d}}}{D_{\min^{k}_{d}}} \rightarrow 0 ผลของทฤษฎีบทแสดงให้เห็นว่าความแตกต่างระหว่างระยะทางสูงสุดและต่ำสุดไปยังจุดสอบถามที่กำหนดไม่ได้เพิ่มขึ้นเร็วเท่ากับระยะทางที่ใกล้ที่สุดไปยังจุดใด ๆ ในพื้นที่มิติสูง สิ่งนี้ทำให้เคียวรีความใกล้เคียงไม่มีความหมายและไม่เสถียรเนื่องจากมีการเลือกปฏิบัติที่ไม่ดีระหว่างเพื่อนบ้านที่อยู่ใกล้ที่สุดและไกลที่สุด ลิงค์ แต่ถ้ามีใครลองคำนวณความแตกต่างสัมพัทธ์สำหรับค่าตัวอย่างความหมายจะใช้เวกเตอร์ที่มีค่าน้อยมากและคำนวณระยะห่างจากศูนย์เวกเตอร์และทำเช่นเดียวกันสำหรับเวกเตอร์ที่มีค่าที่มีขนาดใหญ่กว่ามาก มิติที่ 3 และมิติที่ใหญ่กว่า10910910^9เท่าจะเห็นว่าในขณะที่อัตราส่วนลดลงการเปลี่ยนแปลงนั้นเล็กมากจนไม่เกี่ยวข้องกับจำนวนมิติที่ใช้จริงในทางปฏิบัติ ด้วยข้อมูลที่มีขนาดขนาดของหมายเลขเกรแฮม - ซึ่งฉันคิดว่าเป็นขนาดที่จำเป็นสำหรับเอฟเฟกต์ที่อธิบายว่ากระดาษมีความเกี่ยวข้องจริง ๆ - ฉันคิดว่าไม่) ดังที่ได้กล่าวไปแล้วทฤษฎีบทนี้มักถูกอ้างถึงมากเพื่อสนับสนุนคำแถลงว่าการวัดความใกล้เคียงตามปริภูมิแบบยุคลิดเป็นกลยุทธ์ที่ไม่ดีในพื้นที่มิติสูงผู้เขียนพูดอย่างนั้นเองแต่ทว่าพฤติกรรมที่เสนอไม่ได้เกิดขึ้นจริง คิดว่าทฤษฎีบทนี้ถูกนำมาใช้ในแบบที่ทำให้เข้าใจผิด ตัวอย่าง: ด้วยdมิติ a=np.ones((d,)) / 1e5 b=np.ones((d,)) * 1e5 dmin,dmax=norm(a), norm(b) (dmax-dmin)/dmin สำหรับ d = 3 9999999999.0 สำหรับ …

1
ทำไมผลลัพธ์ฟอเรสต์แบบสุ่มของฉันจึงแปรผัน
ฉันพยายามทดสอบความสามารถของฟอเรสต์แบบสุ่มเพื่อจำแนกตัวอย่างระหว่าง 2 กลุ่ม; มีตัวอย่าง 54 ตัวและตัวแปรต่าง ๆ ที่ใช้สำหรับการจำแนกประเภท ฉันสงสัยว่าทำไมประมาณการนอกถุง (OOB) สามารถเปลี่ยนแปลงได้มากถึง 5% จากกันแม้ว่าฉันจะใช้ต้น 50k? นี่เป็นสิ่งที่ bootstrapping สามารถช่วยได้หรือไม่?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.