คำถามติดแท็ก algorithms

อัลกอริทึมคือชุดของการคำนวณอย่างน้อยหนึ่งรายการที่จะให้ผลลัพธ์ที่คำนวณได้ วิธีการทางสถิติทั้งหมดเป็นอัลกอริทึม อัลกอริทึมสามารถทำได้ง่ายเช่นการคำนวณเปอร์เซ็นต์หรืออาจซับซ้อนมากและต้องใช้คอมพิวเตอร์เพื่อให้ได้ผลลัพธ์ที่รวดเร็วและแม่นยำ

5
เมื่อเป็นรุ่น Underfitted?
ลอจิกมักจะระบุว่าโดยการสร้างโมเดลความสามารถในการสรุปทั่วไปนั้นเพิ่มขึ้น ที่กล่าวว่าอย่างชัดเจนในบางจุดที่อยู่ภายใต้แบบจำลองทำให้แบบจำลองแย่ลงโดยไม่คำนึงถึงความซับซ้อนของข้อมูล คุณจะรู้ได้อย่างไรว่าแบบจำลองของคุณมีสมดุลที่ถูกต้องและไม่รองรับข้อมูลที่โมเดลต้องการ? หมายเหตุ:นี่คือการติดตามคำถามของฉัน " ทำไม Overfitting Bad "

3
เมื่อใดจะใช้อะไร - การเรียนรู้ของเครื่อง [ปิด]
เมื่อเร็ว ๆ นี้ในคลาสการเรียนรู้ของเครื่องจากศาสตราจารย์ Oriol Pujol ที่ UPC / Barcelona เขาได้อธิบายถึงอัลกอริทึมหลักการและแนวคิดที่ใช้กันทั่วไปสำหรับงานที่เกี่ยวข้องกับการเรียนรู้ของเครื่องจักร ที่นี่ฉันแบ่งปันให้กับคุณและถามคุณ: มีกรอบงานที่ครอบคลุมที่จับคู่กับแนวทางหรือวิธีการที่เกี่ยวข้องกับปัญหาการเรียนรู้ของเครื่องที่แตกต่างกันหรือไม่? ฉันจะเรียนรู้แบบเกาส์ง่ายๆได้อย่างไร ความน่าจะเป็นตัวแปรสุ่มการแจกแจง การประมาณค่าการลู่เข้าหาและเส้นกำกับช่วงเวลาความมั่นใจ ฉันจะเรียนรู้ส่วนผสมของ Gaussians (MoG) ได้อย่างไร โอกาสความคาดหวัง - สูงสุด (EM); การวางนัยทั่วไปการเลือกแบบจำลองการตรวจสอบข้าม k-หมายถึงรุ่นมาร์คอฟที่ซ่อนอยู่ (HMM) ฉันจะเรียนรู้ความหนาแน่นได้อย่างไร การประมาณค่าพารามิเตอร์เทียบกับที่ไม่ใช่พารามิเตอร์ Sobolev และพื้นที่การทำงานอื่น ๆ l ́ 2 ข้อผิดพลาด; การประมาณความหนาแน่นของเคอร์เนล (KDE), เคอร์เนลที่ดีที่สุด, ทฤษฎีของ KDE ฉันจะทำนายตัวแปรต่อเนื่อง (การถดถอย) ได้อย่างไร การถดถอยเชิงเส้น, การทำให้เป็นมาตรฐาน, การถดถอยแบบสันและ LASSO; การถดถอยเชิงเส้นท้องถิ่น การประมาณความหนาแน่นตามเงื่อนไข ฉันจะทำนายตัวแปรแยก …

5
GBM กับ XGBOOST ความแตกต่างที่สำคัญ?
ฉันพยายามเข้าใจถึงความแตกต่างที่สำคัญระหว่าง GBM และ XGBOOST ฉันพยายาม google แต่ไม่พบคำตอบที่ดีใด ๆ ที่อธิบายความแตกต่างระหว่างอัลกอริธึมทั้งสองและทำไม xgboost ทำงานได้ดีกว่า GBM เกือบทุกครั้ง อะไรทำให้ XGBOOST เร็วขึ้น?

5
อัลกอริทึมต้นไม้ตัดสินใจเป็นแบบเชิงเส้นหรือไม่เชิงเส้น
เมื่อเร็ว ๆ นี้เพื่อนของฉันถูกถามว่าอัลกอริทึมการตัดสินใจต้นไม้เป็นขั้นตอนวิธีเชิงเส้นหรือไม่เชิงเส้นในการสัมภาษณ์ ฉันพยายามค้นหาคำตอบสำหรับคำถามนี้ แต่ไม่พบคำอธิบายที่น่าพอใจ ทุกคนสามารถตอบและอธิบายวิธีแก้ปัญหาสำหรับคำถามนี้ได้หรือไม่? นอกจากนี้ยังมีตัวอย่างอื่น ๆ ของอัลกอริทึมการเรียนรู้ด้วยเครื่องไม่เชิงเส้นคืออะไร?

3
จะขยายการพัฒนาอัลกอริทึมได้อย่างไร
ในการทำงานเกี่ยวกับการวิเคราะห์ข้อมูลเชิงสำรวจและการพัฒนาอัลกอริธึมฉันพบว่าเวลาส่วนใหญ่ของฉันใช้เวลาในวงจรของการมองเห็นเขียนรหัสบางชุดบนชุดข้อมูลขนาดเล็กทำซ้ำ ข้อมูลที่ฉันมีแนวโน้มที่จะเป็นคอมพิวเตอร์ประเภทฟิวชั่นวิชันซิสเต็ม / เซ็นเซอร์และอัลกอริทึมนั้นหนักมาก (ตัวอย่างเช่นการตรวจจับวัตถุและการติดตาม ฯลฯ ) และอัลกอริธึมชั้นวางไม่ทำงานในบริบทนี้ ฉันพบว่าต้องใช้การวนซ้ำหลายครั้ง (ตัวอย่างเช่นการหมุนในชนิดของอัลกอริทึมหรือปรับพารามิเตอร์ในอัลกอริทึมหรือเพื่อให้ได้ภาพที่ถูกต้อง) และเวลาที่ใช้แม้ในชุดข้อมูลขนาดเล็กนั้นค่อนข้างยาว ทั้งหมดเข้าด้วยกันจะใช้เวลาสักครู่ การพัฒนาอัลกอริธึมจะเร่งและปรับขนาดได้อย่างไร ความท้าทายเฉพาะบางประการ: จำนวนการวนซ้ำจะลดลงได้อย่างไร? (โดยเฉพาะอย่างยิ่งเมื่ออัลกอริธึมประเภทใดที่เฉพาะเจาะจงของมันดูเหมือนจะไม่สามารถมองเห็นได้ง่ายโดยไม่ต้องลองรุ่นอื่นและตรวจสอบพฤติกรรมของพวกเขา) วิธีการเรียกใช้บนชุดข้อมูลขนาดใหญ่ในระหว่างการพัฒนา? (มักเกิดจากชุดข้อมูลขนาดเล็กถึงใหญ่คือเมื่อมีพฤติกรรมใหม่ ๆ และมีปัญหาใหม่ ๆ เกิดขึ้น) พารามิเตอร์ของอัลกอริทึมสามารถปรับได้เร็วขึ้นอย่างไร วิธีการใช้เครื่องมือประเภทการเรียนรู้ของเครื่องกับการพัฒนาอัลกอริทึมเอง? (ตัวอย่างเช่นแทนที่จะเขียนอัลกอริธึมด้วยมือเขียนแบบเอกสารสำเร็จรูปง่ายๆและรวมสิ่งเหล่านั้นเข้าด้วยกันในแบบที่เรียนรู้จากปัญหา ฯลฯ )
18 algorithms 

1
อัลกอริทึมสำหรับการจัดกลุ่มข้อความ
ฉันมีปัญหาในการจัดกลุ่มประโยคจำนวนมากเป็นความหมายของกลุ่ม สิ่งนี้คล้ายกับปัญหาเมื่อคุณมีประโยคจำนวนมากและต้องการจัดกลุ่มตามความหมาย ขั้นตอนวิธีใดที่แนะนำให้ทำเช่นนี้? ฉันไม่ทราบจำนวนกลุ่มล่วงหน้า (และเมื่อข้อมูลเพิ่มเติมมาถึงกลุ่มสามารถเปลี่ยนแปลงได้เช่นกัน) โดยปกติคุณสมบัติใดที่ใช้เพื่อแสดงถึงแต่ละประโยค ตอนนี้ฉันกำลังลองใช้ฟีเจอร์ที่ง่ายที่สุดเพียงแค่ใส่คำและระยะห่างระหว่างประโยคที่กำหนดเป็น: (A และ B เป็นชุดคำที่สอดคล้องกันในประโยค A และ B) มันสมเหตุสมผลหรือไม่ ฉันกำลังพยายามใช้อัลกอริทึมMean-Shiftจาก scikit ไลบรารี่กับระยะทางนี้เนื่องจากไม่จำเป็นต้องใช้จำนวนคลัสเตอร์ล่วงหน้า หากใครจะแนะนำวิธีการ / แนวทางที่ดีกว่าสำหรับปัญหา - มันจะได้รับการชื่นชมอย่างมากเพราะฉันยังใหม่กับหัวข้อ

4
การจัดกลุ่มตามคะแนนความคล้ายคลึงกัน
สมมติว่าเรามีชุดขององค์ประกอบEและความคล้ายคลึงกัน ( ไม่ใช่ระยะทาง ) ฟังก์ชั่นซิม (EI, EJ)ระหว่างสององค์ประกอบEI, EJ ∈ E เราจะจัดองค์ประกอบของEโดยใช้ซิมได้อย่างไร(อย่างมีประสิทธิภาพ) ตัวอย่างเช่นk -means ต้องการk ที่ให้มา, Canopy Clustering ต้องการค่าสองค่า ถ้าเราไม่ต้องการพารามิเตอร์ที่กำหนดไว้ล่วงหน้า โปรดทราบว่าซิมนั้นไม่จำเป็นต้องมีการวัด (เช่นความไม่เท่าเทียมกันของสามเหลี่ยมอาจหรืออาจไม่ถือ) ยิ่งกว่านั้นมันไม่สำคัญว่ากลุ่มจะแยกจากกัน (พาร์ติชันของE )

2
ข้อแตกต่างของการแนะนำตามรายการและผู้ใช้ใน Mahout
ฉันอยากจะรู้ว่าผู้ใช้ควานช้างตามและคำแนะนำตามรายการแตกต่างกันอย่างไร มันกำหนดว่า ตามผู้ใช้ : แนะนำรายการโดยการค้นหาผู้ใช้ที่คล้ายกัน สิ่งนี้มักจะยากต่อการปรับขนาดเนื่องจากลักษณะของผู้ใช้แบบไดนามิก รายการตาม : คำนวณความคล้ายคลึงกันระหว่างรายการและให้คำแนะนำ รายการมักจะไม่เปลี่ยนแปลงมากนักดังนั้นสิ่งนี้จึงสามารถคำนวณได้จากบรรทัด แต่ถึงแม้ว่าจะมีข้อเสนอแนะสองแบบให้เลือก แต่สิ่งที่ฉันเข้าใจคือทั้งสองอย่างนี้จะใช้ตัวแบบข้อมูลบางตัว (เช่น 1,2 หรือ 1,2, .5 เป็น item1, item2, value หรือ user1, user2, value โดยที่ value ไม่ได้ บังคับ) และจะทำการคำนวณทั้งหมดตามการวัดความคล้ายคลึงกันและฟังก์ชั่น build-in ของผู้แนะนำที่เราเลือกและเราสามารถเรียกใช้คำแนะนำจากผู้ใช้ / รายการตามข้อมูลเดียวกัน (นี่คือสมมติฐานที่ถูกต้องหรือไม่?) ดังนั้นฉันอยากรู้ว่าอัลกอริทึมทั้งสองแบบนี้แตกต่างกันอย่างไร

2
K-หมายถึง vs. K-หมายถึงออนไลน์
K-หมายความว่าเป็นอัลกอริทึมที่รู้จักกันดีสำหรับการจัดกลุ่ม แต่ยังมีการเปลี่ยนแปลงออนไลน์ของอัลกอริทึมดังกล่าว (ออนไลน์ K- หมายถึง) อะไรคือข้อดีข้อเสียของวิธีการเหล่านี้และแต่ละคนควรได้รับความนิยมเมื่อใด?

2
อัลกอริทึมที่มีประสิทธิภาพในการคำนวณเส้นโค้ง ROC สำหรับลักษณนามที่ประกอบด้วยชุดของตัวแยกประเภทที่แยกจากกัน
สมมติว่าฉันมีตัวจําแนก C_1 ... C_n ที่แยกจากกันในแง่ที่ว่าไม่มีสองคนใดที่จะคืนค่าจริงในอินพุตเดียวกัน (เช่นโหนดในแผนผังการตัดสินใจ) ฉันต้องการสร้างตัวจําแนกใหม่ที่เป็นสหภาพของชุดย่อยบางส่วนของสิ่งเหล่านี้ (เช่นฉันต้องการที่จะตัดสินใจว่าใบของต้นไม้การตัดสินใจที่จะให้การจัดหมวดหมู่ในเชิงบวก) แน่นอนในการทำเช่นนั้นจะมีการแลกเปลี่ยนระหว่างความไวและค่าการทำนายเชิงบวก ดังนั้นฉันต้องการเห็นเส้นโค้ง ROC ในหลักการฉันสามารถทำได้โดยการระบุเซตย่อยทั้งหมดของตัวแยกประเภทและคำนวณความไวที่เกิดขึ้นและ PPV อย่างไรก็ตามสิ่งนี้มีราคาแพงหาก n มากกว่า 30 หรือมากกว่านั้น ในทางกลับกันมีชุดค่าผสมบางตัวที่ไม่เหมาะกับพาเรโตดังนั้นอาจมีบางสาขาและกลยุทธ์ที่ผูกมัดหรือบางอย่าง ฉันต้องการคำแนะนำเกี่ยวกับวิธีการนี้ว่ามีแนวโน้มที่จะประสบความสำเร็จหรือไม่และมีงานใด ๆ หรือหากคุณมีแนวคิดใด ๆ เกี่ยวกับการคำนวณเส้นโค้ง ROC อย่างมีประสิทธิภาพในสถานการณ์ข้างต้น
13 algorithms 

1
ความแตกต่างระหว่างวิธีการบีบอัดข้อมูลทั่วโลกและสากลคืออะไร?
ฉันเข้าใจว่าวิธีการบีบอัดอาจแบ่งออกเป็นสองชุดหลัก: ทั่วโลก ในประเทศ ชุดแรกทำงานโดยไม่คำนึงถึงข้อมูลที่กำลังประมวลผลกล่าวคือพวกมันไม่ได้อาศัยคุณสมบัติใด ๆ ของข้อมูลจึงไม่จำเป็นต้องทำการประมวลผลล่วงหน้าในส่วนใด ๆ ของชุดข้อมูล (ก่อนการบีบอัดเอง) ในขณะที่วิธีการในท้องถิ่นวิเคราะห์ข้อมูลการแยกข้อมูลที่มักจะปรับปรุงอัตราการบีบอัด ในขณะที่อ่านเกี่ยวกับวิธีการเหล่านี้บางอย่างฉันสังเกตเห็นว่าวิธีการที่ไม่เป็นเอกเทศนั้นไม่เป็นสากลซึ่งทำให้ฉันประหลาดใจเนื่องจากฉันคิดว่า วิธีเอกภาพไม่ได้ขึ้นอยู่กับลักษณะของข้อมูลเพื่อให้เกิดการเข้ารหัส (เช่นเป็นวิธีสากล) และดังนั้นจึงควรเป็นสากล / สากลใช่ไหม? คำถามหลักของฉัน: ความแตกต่างระหว่างวิธีสากลและสากลคืออะไร? คำพ้องความหมายของการจำแนกประเภทเหล่านี้ไม่ใช่

1
วิธีการตรวจสอบว่าลำดับตัวละครเป็นคำภาษาอังกฤษหรือเสียงรบกวน
ฟีเจอร์ประเภทใดที่คุณจะพยายามแยกออกจากรายการคำศัพท์สำหรับการทำนายอนาคตมันเป็นคำที่มีอยู่หรือเป็นแค่ตัวละคร? มีรายละเอียดของงานที่ผมพบคือมี คุณต้องเขียนโปรแกรมที่สามารถตอบได้ว่าคำที่กำหนดเป็นภาษาอังกฤษหรือไม่ นี่จะเป็นเรื่องง่าย - คุณเพียงแค่ต้องค้นหาคำในพจนานุกรม - แต่มีข้อ จำกัด ที่สำคัญ: โปรแกรมของคุณต้องมีขนาดไม่เกิน 64 KiB ดังนั้นฉันคิดว่ามันจะเป็นไปได้ที่จะใช้การถดถอยโลจิสติกในการแก้ปัญหา ฉันไม่มีประสบการณ์ในการขุดข้อมูลมากนัก แต่งานนั้นน่าสนใจสำหรับฉัน ขอบคุณ

2
การแก้ระบบสมการด้วยข้อมูลที่กระจัดกระจาย
ฉันพยายามที่จะแก้ชุดสมการซึ่งมีตัวแปรอิสระ 40 ตัว (x1, ... , x40) และตัวแปรตาม (y) หนึ่งตัว จำนวนสมการทั้งหมด (จำนวนแถว) คือ ~ 300 และฉันต้องการแก้สำหรับชุดของ 40 สัมประสิทธิ์ที่ช่วยลดข้อผิดพลาดรวมของสี่เหลี่ยมจัตุรัสระหว่าง y และค่าที่คาดการณ์ไว้ ปัญหาของฉันคือเมทริกซ์เบาบางมากและฉันไม่รู้วิธีที่ดีที่สุดในการแก้ระบบสมการด้วยข้อมูลเบาบาง ตัวอย่างของชุดข้อมูลที่แสดงด้านล่าง: y x1 x2 x3 x4 x5 x6 ... x40 87169 14 0 1 0 0 2 ... 0 46449 0 0 4 0 1 4 ... 12 846449 …

1
Fisher Scoring v / s พิกัดโคตรสำหรับ MLE ใน R
ฟังก์ชันฐาน R glm()ใช้การให้คะแนน Fishers สำหรับ MLE ในขณะที่วิธีการglmnetดูเหมือนจะใช้พิกัดโคตรเพื่อแก้สมการเดียวกัน โคตรประสานงานนั้นใช้เวลาได้อย่างมีประสิทธิภาพมากกว่า Fisher Scoring เนื่องจาก Fisher Scoring คำนวณเมทริกซ์อนุพันธ์ลำดับที่สองนอกเหนือจากการดำเนินการเมทริกซ์อื่น ๆ ซึ่งทำให้มีราคาแพงในการปฏิบัติในขณะที่โคตรประสานงานสามารถทำงานเดียวกันในเวลา O (np) ทำไมฟังก์ชั่นพื้นฐานของ R จึงใช้ Fisher Scoring? วิธีนี้มีความได้เปรียบเหนือวิธีการเพิ่มประสิทธิภาพอื่น ๆ หรือไม่? การประสานงานทางสายเลือดและการให้คะแนนของชาวประมงเปรียบเทียบกันอย่างไร ฉันค่อนข้างใหม่ในการทำฟิลด์นี้ดังนั้นความช่วยเหลือหรือทรัพยากรใด ๆ จะเป็นประโยชน์

4
การถดถอยโลจิสติกส์เป็นอัลกอริทึมการถดถอยจริงหรือไม่
ความหมายปกติของการถดถอย (เท่าที่ผมทราบ) จะทำนายตัวแปรที่ส่งออกต่อเนื่องมาจากชุดที่กำหนดของตัวแปร การถดถอยโลจิสติกเป็นอัลกอริทึมการจำแนกแบบไบนารีดังนั้นจึงสร้างเอาต์พุตหมวดหมู่ มันเป็นขั้นตอนวิธีการถดถอยจริงหรือ ถ้าเป็นเช่นนั้นทำไม

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.