คำถามติดแท็ก machine-learning

อัลกอริทึมการเรียนรู้ของเครื่องสร้างโมเดลของข้อมูลการฝึกอบรม คำว่า "การเรียนรู้ของเครื่อง" มีการกำหนดอย่างคลุมเครือ มันรวมถึงสิ่งที่เรียกว่าการเรียนรู้ทางสถิติการเรียนรู้เสริมการเรียนรู้แบบไม่สำรอง ฯลฯ มักเพิ่มแท็กเฉพาะเพิ่มเติม

1
ทำไมคนไม่ใช้ RBF หรือ RBF ที่ลึกกว่าร่วมกับ MLP
ดังนั้นเมื่อดู Radial Basis Function Neural Networks ฉันสังเกตว่าผู้คนเคยแนะนำให้ใช้เลเยอร์ที่ซ่อนอยู่เพียง 1 เลเยอร์เท่านั้นในขณะที่เครือข่ายนิวรัลเพอร์เซปตรอนแบบหลายชั้นจะถือว่าดีกว่า ระบุว่าเครือข่าย RBF สามารถฝึกอบรมกับรุ่นของการเผยแพร่กลับมีเหตุผลใดที่เครือข่าย RBF ที่ลึกกว่าจะไม่ทำงานหรือว่าเลเยอร์ RBF ไม่สามารถใช้เป็นเลเยอร์สุดท้ายหรือเลเยอร์สุดท้ายในเครือข่าย MLP ลึก (ฉันคิดว่าเลเยอร์สุดท้ายเพื่อให้สามารถฝึกอบรมคุณลักษณะที่เรียนโดยเลเยอร์ MLP ก่อนหน้านี้)

2
เหตุใดจึงใช้ n-gram ในการระบุภาษาข้อความแทนที่จะเป็นคำ?
ในไลบรารีการระบุภาษาที่ได้รับความนิยมสองเครื่อง Compact Language Detector 2 สำหรับ C ++ และเครื่องตรวจจับภาษาสำหรับ Java ทั้งคู่ใช้ (ตามอักขระ) n-grams เพื่อแยกคุณลักษณะข้อความ ทำไมไม่ใช้ถุงแบบคำ (คำเดียว / พจนานุกรม) และข้อดีและข้อเสียของถุงแบบคำและ n-g คืออะไร นอกจากนี้การใช้แบบจำลอง n-grams อื่น ๆ ในการจำแนกข้อความมีประโยชน์อะไรบ้าง? โอ้โห ดูเหมือนว่ามีคำถามที่คล้ายกันที่นี่: เกี่ยวกับการใช้แบบจำลอง Bigram (N-Gram) เพื่อสร้างเวกเตอร์คุณลักษณะสำหรับเอกสารข้อความ แต่ใครบางคนสามารถให้คำตอบที่ครอบคลุมมากขึ้น? ในกรณีที่มีการระบุภาษาดีกว่า (หวังว่าฉันจะได้ความหมายของ n-gg และถุงของคำถูกต้องฮ่าฮ่าถ้าไม่ได้โปรดช่วยฉันด้วย)

2
วิธีการคำนวณน้ำหนักเกณฑ์ฟิชเชอร์
ฉันกำลังศึกษาการจดจำรูปแบบและการเรียนรู้ของเครื่องและฉันพบคำถามต่อไปนี้ พิจารณาปัญหาการจำแนกประเภทสองระดับที่มีความน่าจะเป็นคลาสก่อนหน้าเท่ากับP(D1)=P(D2)=12P(D1)=P(D2)=12P(D_1)=P(D_2)= \frac{1}{2} และการแจกแจงอินสแตนซ์ในแต่ละคลาสที่กำหนดโดย p(x|D1)=N([00],[2001]),p(x|D1)=N([00],[2001]), p(x|D_1)= {\cal N} \left( \begin{bmatrix} 0 \\0 \end{bmatrix}, \begin{bmatrix} 2 & 0 \\ 0 & 1 \end{bmatrix} \right), p(x|D2)=N([44],[1001]).p(x|D2)=N([44],[1001]). p(x|D_2)= {\cal N} \left( \begin{bmatrix} 4 \\ 4 \end{bmatrix}, \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix} \right). วิธีการคำนวณน้ำหนักเกณฑ์ฟิชเชอร์ อัปเดต 2:น้ำหนักที่คำนวณได้จากหนังสือของฉันคือ: W=[−43−29]W=[−43−29]W=\begin{bmatrix} \frac{-4}{3} \\ \frac{-2}{9} …

3
เหตุใดการเพิ่มประสิทธิภาพจึงมีความอ่อนไหวต่อค่าผิดปกติ
ฉันพบบทความจำนวนมากที่ระบุว่าวิธีการส่งเสริมมีความอ่อนไหวต่อค่าผิดปกติ แต่ไม่มีบทความอธิบายว่าเพราะเหตุใด ในค่าประสบการณ์ของฉันไม่ดีสำหรับอัลกอริทึมการเรียนรู้ของเครื่อง แต่ทำไมวิธีการเพิ่มประสิทธิภาพจึงมีความอ่อนไหวเป็นพิเศษ อัลกอริธึมต่อไปนี้จะจัดอันดับในแง่ของความไวต่อค่าผิดปกติ: boost-tree, ป่าสุ่ม, เครือข่ายประสาท, SVM และวิธีการถดถอยแบบง่ายเช่นการถดถอยแบบโลจิสติกอย่างไร


1
มีการใช้ jackknifing ร่วมสมัยหรือไม่?
คำถาม: การ บูตสแตรปจะดีกว่าการใช้แม่แรง อย่างไรก็ตามฉันสงสัยว่ามีบางกรณีที่ jackknifing เป็นตัวเลือกเดียวหรืออย่างน้อยที่เป็นไปได้สำหรับการจำแนกลักษณะความไม่แน่นอนจากการประมาณค่าพารามิเตอร์ นอกจากนี้ในสถานการณ์จริงที่ว่าวิธีการลำเอียง / คลาดเคลื่อนนั้นมีความสัมพันธ์กับการบีบรัดและความสามารถในการให้ความรู้เบื้องต้นก่อนการพัฒนา bootstrap ที่ซับซ้อนมากขึ้น? บริบทบางอย่าง: เพื่อนกำลังใช้อัลกอริทึมการเรียนรู้เครื่องดำ ( MaxEnt ) เพื่อจำแนกข้อมูลทางภูมิศาสตร์ที่เป็น "การแสดงตนเท่านั้น" หรือ "การบวกเท่านั้น" การประเมินรูปแบบทั่วไปโดยทั่วไปจะใช้ cross-validation และ ROC curves อย่างไรก็ตามเธอใช้เอาต์พุตของโมเดลเพื่อรับรายละเอียดตัวเลขเดียวของเอาต์พุตโมเดลและต้องการช่วงความมั่นใจรอบหมายเลขนั้น Jackknifing ดูเหมือนจะเป็นวิธีที่เหมาะสมในการอธิบายลักษณะของความไม่แน่นอนเกี่ยวกับค่านี้ การเริ่มการบูตไม่เกี่ยวข้องเนื่องจากจุดข้อมูลแต่ละจุดเป็นตำแหน่งที่ไม่ซ้ำกันบนแผนที่ที่ไม่สามารถสุ่มตัวอย่างได้ด้วยการแทนที่ โปรแกรมการสร้างแบบจำลองของตัวเองอาจจะสามารถให้สิ่งที่เธอต้องการในที่สุด; อย่างไรก็ตามฉันสนใจโดยทั่วไปหาก / เมื่อ jackknifing มีประโยชน์

1
ความแตกต่างระหว่างการถดถอยโลจิสติกแบบสุ่มและการถดถอยโลจิสติกธรรมดาวานิลลา
ฉันต้องการทราบความแตกต่างระหว่างRandomized Logistic Regression (RLR) และPlain Logistic Regression (LR) ดังนั้นฉันกำลังอ่านบทความ"Stability Selection"โดยMeinshausen, et al ; อย่างไรก็ตามฉันไม่เข้าใจว่า RLR คืออะไรและความแตกต่างระหว่าง RLR และ LR คืออะไร ใครช่วยชี้ให้เห็นสิ่งที่ฉันควรอ่านเพื่อทำความเข้าใจ RLR? หรือมีตัวอย่างง่ายๆในการเริ่มต้นด้วย?

1
มีความแตกต่างระหว่างการนิเทศแบบไกลการฝึกฝนด้วยตนเองการเรียนรู้แบบกำกับตนเองและการนิเทศแบบอ่อนหรือไม่?
จากสิ่งที่ฉันได้อ่าน: การดูแลที่ห่างไกล : A Distant supervision algorithm usually has the following steps: 1] It may have some labeled training data 2] It "has" access to a pool of unlabeled data 3] It has an operator that allows it to sample from this unlabeled data and label them and this operator …

3
การทำความเข้าใจกับพารามิเตอร์ฟังก์ชันของ Gaussian Basis ที่จะใช้ในการถดถอยเชิงเส้น
ฉันต้องการใช้ฟังก์ชันพื้นฐานแบบเกาส์เซียนในการนำการถดถอยเชิงเส้นมาใช้ น่าเสียดายที่ฉันมีปัญหาในการทำความเข้าใจกับพารามิเตอร์สองตัวในฟังก์ชันพื้นฐาน โดยเฉพาะμμ\muและσσσ\sigma ชุดข้อมูลของฉันคือ 10,000 x 31 เมทริกซ์ 10,000 ตัวอย่างและ 31 คุณสมบัติ ฉันได้อ่านแล้วว่า "ฟังก์ชันพื้นฐานแต่ละตัวแปลงเวกเตอร์อินพุต x เป็นค่าสเกลาร์" ดังนั้นฉันถือว่า x เป็น 1 ตัวอย่างดังนั้นเวกเตอร์ 1 x 31 จากที่นี่ฉันสับสน สิ่งที่แน่นอนคือμjμj\mu_jพารามิเตอร์? ฉันได้อ่านแล้วว่าสิ่งนี้ควบคุมตำแหน่งของฟังก์ชันพื้นฐาน ดังนั้นนี่ไม่ใช่ความหมายของบางสิ่ง? ฉันถูกโยนโดยตัวห้อย j ( μμ\muและϕϕ\phi ) นี่ทำให้ฉันคิดว่าแถวที่ j แต่ดูเหมือนจะไม่สมเหตุสมผล เป็นμjμj\mu_jเวกเตอร์? ตอนนี้สำหรับσσ\sigmaว่า "ควบคุมระดับเชิงพื้นที่" มันคืออะไรกันแน่? ฉันเห็นการใช้งานบางอย่างที่ลองใช้ค่าเช่น. 1, .5, 2.5 สำหรับพารามิเตอร์นี้ ค่าเหล่านี้คำนวณอย่างไร ฉันค้นคว้าและมองหาตัวอย่างเพื่อการเรียนรู้ แต่ ณ ตอนนี้ฉันยังไม่พบอะไรเลย …

4
คุณสามารถเปรียบเทียบวิธีการจัดกลุ่มที่แตกต่างกันบนชุดข้อมูลที่ไม่มีความจริงพื้นฐานโดยการตรวจสอบข้ามได้หรือไม่?
ขณะนี้ฉันกำลังพยายามวิเคราะห์ชุดข้อความเอกสารที่ไม่มีความจริง มีคนบอกฉันว่าคุณสามารถใช้การตรวจสอบความถูกต้องข้ามของ k-fold เพื่อเปรียบเทียบวิธีการจัดกลุ่มที่แตกต่างกัน อย่างไรก็ตามตัวอย่างที่ฉันเห็นในอดีตใช้ความจริงพื้นฐาน มีวิธีใช้ k-fold ในชุดข้อมูลนี้เพื่อตรวจสอบผลลัพธ์ของฉันหรือไม่?

5
Recursive (ออนไลน์) อัลกอริธึมกำลังสองน้อยที่สุดที่ทำให้เป็นมาตรฐาน
ทุกคนสามารถชี้นำฉันไปในทิศทางของอัลกอริทึมแบบออนไลน์ (แบบเรียกซ้ำ) สำหรับการทำให้เป็นมาตรฐาน Tikhonov (กำลังสองน้อยที่สุดเป็นมาตรฐาน) ได้หรือไม่? ในการตั้งค่าออฟไลน์ฉันจะคำนวณβ^=(XTX+λI)−1XTYβ^=(XTX+λI)−1XTY\hat\beta=(X^TX+λI)^{−1}X^TYโดยใช้ชุดข้อมูลดั้งเดิมของฉันซึ่งพบλλλโดยใช้การตรวจสอบความถูกต้องแบบครอส n-fold ใหม่yyyค่าสามารถคาดการณ์ไว้สำหรับให้xxxใช้การ yy=xTβ^y=xTβ^y=x^T\hat\beta ในการตั้งค่าออนไลน์ฉันจะวาดจุดข้อมูลใหม่อย่างต่อเนื่อง ฉันจะอัปเดตβ^β^\hat\betaเมื่อฉันดึงตัวอย่างข้อมูลเพิ่มเติมใหม่โดยไม่ทำการคำนวณใหม่ทั้งหมดในชุดข้อมูลทั้งหมด (ต้นฉบับ + ใหม่)

2
วิธีการใช้เครือข่ายประสาทเทียมกับปัญหาการจำแนกประเภทฉลากหลายป้าย?
รายละเอียด: ให้โดเมนปัญหาเป็นการจัดหมวดหมู่เอกสารที่มีชุดของเวกเตอร์คุณลักษณะแต่ละอันอยู่ใน 1 คลาสขึ้นไป ตัวอย่างเช่นเอกสารdoc_1อาจเป็นของSportsและEnglishหมวดหมู่ คำถาม: การใช้เครือข่ายประสาทเทียมสำหรับการจำแนกประเภทฉลากจะเป็นอย่างไรสำหรับเวกเตอร์คุณลักษณะ มันจะเป็นเวกเตอร์ที่ประกอบขึ้นเป็นคลาสทั้งหมดหรือไม่ซึ่งค่า 0 นั้นมอบให้กับคลาสที่ไม่เกี่ยวข้องและ 1 สำหรับคลาสที่เกี่ยวข้อง? ดังนั้นหากรายการป้ายกำกับของชั้นเรียนอยู่[Sports, News, Action, English, Japanese]สำหรับเอกสารdoc_1ป้ายกำกับจะเป็น[1, 0, 0, 1, 0]อย่างไร

1
ขั้นตอนแรกเรียนรู้การทำนายไทม์ทางการเงินโดยใช้การเรียนรู้ของเครื่อง
ฉันพยายามเข้าใจวิธีใช้การเรียนรู้ของเครื่องเพื่อทำนายไทม์ทางการเงิน 1 ขั้นตอนหรือมากกว่าในอนาคต ฉันมีช่วงเวลาทางการเงินพร้อมข้อมูลเชิงพรรณนาและฉันต้องการจัดทำแบบจำลองจากนั้นใช้แบบจำลองเพื่อทำนายขั้นตอนล่วงหน้า สิ่งที่ฉันได้ทำไปคือ: getSymbols("GOOG") GOOG$sma <- SMA(Cl(GOOG)) GOOG$range <- GOOG$GOOG.High-GOOG$GOOG.Low tail(GOOG) GOOG.Open GOOG.High GOOG.Low GOOG.Close GOOG.Volume GOOG.Adjusted sma range 2013-05-07 863.01 863.87 850.67 857.23 1959000 857.23 828.214 13.20 2013-05-08 857.00 873.88 852.91 873.63 2468300 873.63 834.232 20.97 2013-05-09 870.84 879.66 868.23 871.48 2200600 871.48 840.470 11.43 2013-05-10 875.31 …

6
อัลกอริธึมการเรียนรู้ของเครื่องใดดีสำหรับการประเมินว่าคุณลักษณะใดมีความสำคัญมากกว่า
ฉันมีข้อมูลที่มีคุณสมบัติขั้นต่ำที่ไม่เปลี่ยนแปลงและมีคุณสมบัติเพิ่มเติมบางอย่างที่สามารถเปลี่ยนแปลงได้และมีผลกระทบอย่างมากต่อผลลัพธ์ ชุดข้อมูลของฉันมีลักษณะดังนี้: คุณสมบัติคือ A, B, C (แสดงเสมอ) และ D, E, F, G, H (บางครั้งก็ปรากฏ) A = 10, B = 10, C = 10 outcome = 10 A = 8, B = 7, C = 8 outcome = 8.5 A = 10, B = 5, C = 11, D = 15 …

1
ความสัมพันธ์ระหว่างจำนวนเวกเตอร์สนับสนุนและจำนวนของคุณสมบัติ
ฉันใช้ SVM กับชุดข้อมูลที่กำหนดและทำการสังเกตต่อไปนี้: ถ้าฉันเปลี่ยนจำนวนของคุณสมบัติสำหรับการสร้างตัวจําแนก ฉันต้องการทราบวิธีอธิบายสถานการณ์ประเภทนี้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.