คำถามติดแท็ก data-mining

การขุดข้อมูลใช้วิธีการจากปัญญาประดิษฐ์ในบริบทฐานข้อมูลเพื่อค้นหารูปแบบที่ไม่รู้จักก่อนหน้านี้ ดังนั้นวิธีการดังกล่าวมักจะไม่ได้รับการดูแล มันเกี่ยวข้องอย่างใกล้ชิด แต่ไม่เหมือนกับการเรียนรู้ของเครื่อง งานที่สำคัญของการขุดข้อมูลคือการวิเคราะห์กลุ่มการตรวจหานอกและกฎการเชื่อมโยง

3
การแจกแจงทวินามลบกับการแจกแจงทวินาม
อะไรคือความแตกต่างระหว่างการแจกแจงทวินามลบและการแจกแจงทวินาม ฉันลองอ่านออนไลน์และฉันพบว่าการแจกแจงทวินามลบเมื่อจุดข้อมูลไม่ต่อเนื่อง แต่ฉันคิดว่าแม้กระทั่งการแจกแจงทวินามก็สามารถใช้สำหรับจุดข้อมูลแบบแยก

8
ดำเนินการจัดกลุ่ม K-Mean (หรือญาติสนิท) ด้วยเมทริกซ์ระยะทางไม่ใช่ข้อมูลแบบจุดต่อจุด
ฉันต้องการทำการจัดกลุ่ม K- หมายถึงการจัดกลุ่มบนวัตถุที่ฉันมี แต่วัตถุไม่ได้อธิบายว่าเป็นจุดในอวกาศเช่นobjects x featuresชุดข้อมูล อย่างไรก็ตามฉันสามารถคำนวณระยะห่างระหว่างวัตถุสองชนิดใดก็ได้ (มันขึ้นอยู่กับฟังก์ชันความคล้ายคลึงกัน) objects x objectsดังนั้นฉันจึงทิ้งของเมทริกซ์ระยะทาง ฉันเคยใช้ K-mean มาก่อน แต่นั่นก็มีจุดเข้าชุดข้อมูล; และด้วยการป้อนเมทริกซ์ระยะทางมันไม่ชัดเจนสำหรับฉันที่จะอัปเดตกลุ่มให้เป็น "ศูนย์" ของคลัสเตอร์โดยไม่ต้องใช้การแทนจุด ปกติจะทำเช่นนี้ได้อย่างไร? มีเวอร์ชั่นของ K-Mean หรือเมธอดอยู่ใกล้ไหม

5
วิธีการปฏิวัติใหม่ของการขุดข้อมูล?
ข้อความที่ตัดตอนมาต่อไปนี้มาจากHedge Fund Market Wizzards ของ Schwager (พฤษภาคม 2012) สัมภาษณ์กับผู้จัดการกองทุน Hedge ที่ประสบความสำเร็จอย่างต่อเนื่อง Jaffray Woodriff: สำหรับคำถาม: "อะไรคือข้อผิดพลาดที่เลวร้ายที่สุดที่ผู้คนทำในการขุดข้อมูล?": ผู้คนจำนวนมากคิดว่าพวกเขาโอเคเพราะพวกเขาใช้ข้อมูลในตัวอย่างสำหรับการฝึกอบรมและข้อมูลนอกตัวอย่างสำหรับการทดสอบ จากนั้นพวกเขาเรียงลำดับโมเดลตามวิธีที่พวกเขาดำเนินการกับข้อมูลในตัวอย่างและเลือกคนที่ดีที่สุดในการทดสอบข้อมูลที่ไม่อยู่ในกลุ่มตัวอย่าง แนวโน้มของมนุษย์คือการใช้แบบจำลองที่ยังคงทำได้ดีในข้อมูลที่ไม่อยู่ในกลุ่มตัวอย่างและเลือกแบบจำลองเหล่านั้นเพื่อการซื้อขาย กระบวนการประเภทนั้นเปลี่ยนข้อมูลที่ไม่อยู่ในกลุ่มตัวอย่างให้เป็นส่วนหนึ่งของข้อมูลการฝึกอบรมเพราะมันเลือกรูปแบบที่ทำได้ดีที่สุดในช่วงเวลาตัวอย่าง เป็นหนึ่งในข้อผิดพลาดที่พบบ่อยที่สุดที่ผู้คนทำและหนึ่งในสาเหตุที่การทำ data data เพราะโดยทั่วไปแล้วจะทำให้ได้ผลลัพธ์ที่แย่มาก ผู้สัมภาษณ์ถามมากกว่า: "คุณควรทำอะไรแทน" คุณสามารถมองหารูปแบบที่โมเดลโดยเฉลี่ยแล้วตัวอย่างทั้งหมดยังคงทำได้ดี คุณรู้ว่าคุณทำได้ดีถ้าค่าเฉลี่ยสำหรับโมเดลที่ไม่อยู่ในกลุ่มตัวอย่างนั้นเป็นเปอร์เซ็นต์ที่สำคัญของคะแนนในตัวอย่าง โดยทั่วไปแล้วคุณจะได้อยู่ที่ไหนสักแห่งจริง ๆ ถ้าผลลัพธ์นอกกลุ่มตัวอย่างมากกว่า 50 เปอร์เซ็นต์ของตัวอย่าง รูปแบบธุรกิจของ QIM จะไม่ทำงานถ้า SAS และ IBM กำลังสร้างซอฟต์แวร์การสร้างแบบจำลองการทำนายที่ยอดเยี่ยม คำถามของฉัน มันสมเหตุสมผลหรือไม่? เขาหมายถึงอะไร คุณมีเงื่อนงำหรือบางทีอาจเป็นชื่อของวิธีการที่เสนอและการอ้างอิงบางส่วน? หรือผู้ชายคนนี้พบจอกศักดิ์สิทธิ์ที่ไม่มีใครเข้าใจหรือไม่? เขายังกล่าวในการสัมภาษณ์ครั้งนี้ว่าวิธีการของเขาอาจปฏิวัติวิทยาศาสตร์ ...

3
ขั้นตอนแรกสำหรับข้อมูลขนาดใหญ่ ( , )
สมมติว่าคุณกำลังวิเคราะห์ชุดข้อมูลขนาดใหญ่ที่มีการสังเกตการณ์นับพันล้านครั้งต่อวันซึ่งการสังเกตแต่ละครั้งมีตัวแปรเบาบางและตัวแปรเชิงซ้อนและตัวเลขซ้ำซ้อนสองพันรายการ สมมติว่ามีปัญหาการถดถอยหนึ่งปัญหาการจำแนกเลขฐานสองที่ไม่สมดุลและอีกหนึ่งภารกิจของ "ค้นหาว่าตัวทำนายใดที่สำคัญที่สุด" ความคิดของฉันสำหรับวิธีการแก้ไขปัญหาคือ: ติดตั้งโมเดลการทำนายบางอย่างกับกลุ่มตัวอย่างย่อยที่มีขนาดใหญ่ขึ้นและใหญ่ขึ้น (สุ่ม) จนกระทั่ง: การติดตั้งและตรวจสอบความถูกต้องของโมเดลกลายเป็นเรื่องยากในการคำนวณ (เช่นการใช้แล็ปท็อปของฉันช้าไม่มีเหตุผล R ไม่มีหน่วยความจำเหลือ ฯลฯ ) หรือ การฝึกอบรมและทดสอบ RMSE หรือค่าความแม่นยำ / การเรียกคืนมีความเสถียร หากข้อผิดพลาดในการฝึกอบรมและการทดสอบไม่คงที่ (1. ) ให้ใช้โมเดลที่ง่ายกว่าและ / หรือใช้โมเดลรุ่นมัลติคอร์หรือมัลติโหนดและรีสตาร์ทตั้งแต่ต้น หากการฝึกอบรมและการทดสอบข้อผิดพลาดเสถียร (2. ): หาก (เช่นฉันยังคงสามารถเรียกใช้อัลกอริทึมบนเนื่องจากยังไม่ใหญ่เกินไป) พยายามปรับปรุงประสิทธิภาพโดยการขยายพื้นที่ของฟีเจอร์หรือใช้โมเดลที่ซับซ้อนมากขึ้นและรีสตาร์ทตั้งแต่ต้นยังไม่มีข้อความs u b s e t≪ Nยังไม่มีข้อความsยูขsอีเสื้อ«ยังไม่มีข้อความN_{subset} \ll NXs u b s e tXsยูขsอีเสื้อX_{subset} หากเป็น 'ใหญ่' และการดำเนินการวิเคราะห์เพิ่มเติมนั้นมีค่าใช้จ่ายสูงให้วิเคราะห์ความสำคัญและสิ้นสุดของตัวแปรยังไม่มีข้อความs u b s …

4
ต้นไม้การตัดสินใจเป็นต้นไม้ไบนารีหรือไม่?
เกือบทุกตัวอย่างการตัดสินใจที่ฉันเจอเจอจะเป็นต้นไม้คู่ เป็นสากลที่สวยมากใช่ไหม อัลกอริธึมมาตรฐานส่วนใหญ่ (C4.5, CART และอื่น ๆ ) สนับสนุนเฉพาะต้นไม้ไบนารีหรือไม่ จากสิ่งที่ฉันรวบรวมCHAIDไม่ได้ จำกัด อยู่ที่ต้นไม้ไบนารี แต่ดูเหมือนว่าจะเป็นข้อยกเว้น การแยกแบบสองทางแล้วตามด้วยการแยกแบบสองทางอีกทางหนึ่งของเด็ก ๆ นั้นไม่เหมือนกับการแยกแบบสามทางเดียว นี่อาจเป็นประเด็นทางวิชาการ แต่ฉันพยายามทำให้แน่ใจว่าฉันเข้าใจกรณีที่ใช้บ่อยที่สุด

2
การตรวจสอบความถูกต้องไขว้ (ข้อผิดพลาดทั่วไป) หลังจากการเลือกรูปแบบ
หมายเหตุ: เคสคือ n >> p ฉันกำลังอ่านองค์ประกอบของการเรียนรู้ทางสถิติและมีหลายสิ่งที่กล่าวถึงวิธี "ถูกต้อง" ในการตรวจสอบข้าม (เช่นหน้า 60, หน้า 245) โดยเฉพาะคำถามของฉันคือวิธีการประเมินรุ่นสุดท้าย (ไม่มีชุดทดสอบแยก) โดยใช้ k-fold CV หรือ bootstrapping เมื่อมีการค้นหารูปแบบ? ดูเหมือนว่าในกรณีส่วนใหญ่ (อัลกอริทึม ML ที่ไม่มีการเลือกคุณสมบัติแบบฝัง) จะมี ขั้นตอนการเลือกคุณสมบัติ ขั้นตอนการเลือกพารามิเตอร์ meta (เช่นพารามิเตอร์ต้นทุนใน SVM) คำถามของฉัน: ฉันได้เห็นแล้วว่าขั้นตอนการเลือกคุณสมบัติสามารถทำได้เมื่อการเลือกคุณสมบัติเสร็จสิ้นในชุดฝึกอบรมทั้งหมด จากนั้นใช้ k-fold CV อัลกอริทึมการเลือกคุณลักษณะจะใช้ในแต่ละเท่า (รับคุณลักษณะที่แตกต่างกันซึ่งอาจเลือกได้ในแต่ละครั้ง) และข้อผิดพลาดเฉลี่ย จากนั้นคุณจะใช้คุณสมบัติที่เลือกโดยใช้ข้อมูลทั้งหมด (ที่ถูกตั้งค่าไว้) เพื่อฝึกโหมดสุดท้าย แต่ใช้ข้อผิดพลาดจากการตรวจสอบความถูกต้องของข้อมูลเพื่อประเมินประสิทธิภาพในอนาคตของโมเดล ถูกต้องหรือไม่ เมื่อคุณใช้การตรวจสอบความถูกต้องไขว้กันเพื่อเลือกพารามิเตอร์โมเดลแล้วจะประเมินประสิทธิภาพของโมเดลได้อย่างไร? มันเป็นกระบวนการที่เหมือนกันกับ # 1 ข้างต้นหรือคุณควรใช้ CV CV …

2
ถ้าการจัดกลุ่ม k หมายถึงเป็นรูปแบบของการสร้างแบบจำลองแบบผสมผสานของเกาส์เซียนนั้นสามารถใช้เมื่อข้อมูลไม่ปกติหรือไม่?
ฉันกำลังอ่าน Bishop เกี่ยวกับอัลกอริทึม EM สำหรับ GMM และความสัมพันธ์ระหว่าง GMM และ k-mean ในหนังสือเล่มนี้มันบอกว่า k-mean เป็นรุ่นที่กำหนดยากของ GMM ฉันสงสัยว่านั่นหมายความว่าถ้าข้อมูลที่ฉันพยายามจัดกลุ่มไม่ใช่ Gaussian ฉันไม่สามารถใช้วิธี k (หรืออย่างน้อยก็ไม่เหมาะที่จะใช้)? ตัวอย่างเช่นถ้าข้อมูลเป็นภาพของตัวเลขที่เขียนด้วยลายมือซึ่งประกอบด้วย 8 * 8 พิกเซลแต่ละรายการมีค่า 0 หรือ 1 (และถือว่าเป็นข้อมูลที่เป็นอิสระดังนั้นจึงควรเป็นส่วนผสมของเบอร์นูลี) ฉันสับสนเล็กน้อยในเรื่องนี้และจะขอบคุณความคิดใด ๆ

4
จะทราบได้อย่างไรว่าข้อมูลแยกกันเป็นเส้นตรง?
ข้อมูลมีคุณสมบัติมากมาย (เช่น 100) และจำนวนอินสแตนซ์เท่ากับ 100,000 ข้อมูลกระจัดกระจาย ฉันต้องการให้พอดีกับข้อมูลโดยใช้การถดถอยโลจิสติกหรือ svm ฉันจะรู้ได้อย่างไรว่าคุณลักษณะเป็นแบบเชิงเส้นหรือไม่เชิงเส้นเพื่อให้ฉันสามารถใช้เคล็ดลับเคอร์เนลได้หากไม่ใช่แบบเชิงเส้น

2
การเรียนรู้อย่างล้ำลึกอยู่ที่ไหนและเพราะเหตุใด
ด้วยการที่สื่อพูดคุยและโฆษณาเกี่ยวกับการเรียนรู้อย่างลึกซึ้งในทุกวันนี้ฉันได้อ่านสิ่งเบื้องต้นเกี่ยวกับมัน ฉันเพิ่งพบว่ามันเป็นเพียงวิธีการเรียนรู้ของเครื่องอีกวิธีหนึ่งในการเรียนรู้รูปแบบจากข้อมูล แต่คำถามของฉันคือ: ที่ไหนและทำไมวิธีการนี้ส่องแสง? ทำไมทุกคนพูดถึงมันตอนนี้? คือเอะอะทั้งหมดเกี่ยวกับอะไร?

2
ฟังก์ชัน“ น่าสนใจ” สำหรับคำถาม StackExchange
คำถามนี้ถูกย้ายจาก Mathematics Stack Exchange เพราะสามารถตอบได้ในการตรวจสอบข้าม อพยพ 8 ปีที่ผ่านมา ฉันกำลังพยายามรวบรวมแพ็คเกจการขุดข้อมูลสำหรับเว็บไซต์ StackExchange และโดยเฉพาะฉันติดอยู่ในการพยายามที่จะกำหนดคำถาม "น่าสนใจที่สุด" ฉันต้องการใช้คะแนนคำถาม แต่ลบอคติเนื่องจากจำนวนการดู แต่ฉันไม่ทราบวิธีเข้าหานี้อย่างจริงจัง ในโลกอุดมคติฉันสามารถเรียงลำดับคำถามด้วยการคำนวณโดยที่คือจำนวนโหวตทั้งหมดและคือจำนวนการดู หลังจากนั้นมันจะวัดเปอร์เซ็นต์ของผู้ที่ upvote คำถามลบด้วยเปอร์เซ็นต์ของคนที่ downvote คำถามโวลต์nโวลต์n\frac{v}{n}โวลต์โวลต์vnnn น่าเสียดายที่รูปแบบการลงคะแนนมีความซับซ้อนมากขึ้น การลงคะแนนมีแนวโน้มที่จะ "ที่ราบสูง" ในระดับหนึ่งและสิ่งนี้มีผลกระทบจากการประเมินคำถามยอดนิยมอย่างรุนแรง ในทางปฏิบัติคำถามที่มี 1 มุมมองและ 1 upvote จะให้คะแนนและเรียงลำดับสูงกว่าคำถามอื่น ๆ ที่มี 10,000 ครั้ง แต่น้อยกว่า 10,000 คะแนน ขณะนี้ฉันใช้เป็นสูตรเชิงประจักษ์ แต่ฉันต้องการความแม่นยำ ฉันจะแก้ไขปัญหานี้ด้วยความเข้มงวดทางคณิตศาสตร์ได้อย่างไรโวลต์เข้าสู่ระบบn +1โวลต์เข้าสู่ระบบ⁡n+1\frac{v}{\log{n}+1} เพื่อที่จะแสดงความคิดเห็นบางส่วนฉันจะพยายามแก้ไขปัญหาด้วยวิธีที่ดีกว่า: สมมติว่าผมมีคำถามกับคะแนนโหวตทั้งหมดและมุมมอง ฉันต้องการที่จะสามารถที่จะประเมินสิ่งที่คะแนนโหวตทั้งหมดมีแนวโน้มมากที่สุดเมื่อมุมมองถึงn_1โวลต์0โวลต์0v_0n0n0n_0โวลต์1โวลต์1v_1n1n1n_1 ด้วยวิธีนี้ฉันสามารถเลือกค่าเล็กน้อยสำหรับและสั่งซื้อคำถามทั้งหมดตามผลรวมคาดไว้n1n1n_1โวลต์1โวลต์1v_1 ฉันสร้างแบบสอบถามสองรายการบน SO datadump เพื่อให้แสดงผลที่ฉันพูดถึงได้ดีขึ้น: …

1
การควบคุมระยะไกล: การดูแลแบบกึ่งควบคุมหรือทั้งสองอย่าง?
"การดูแลระยะไกล" เป็นรูปแบบการเรียนรู้ที่ตัวจำแนกลักษณนามได้รับชุดฝึกอบรมที่มีป้ายกำกับอ่อนแอ (ข้อมูลการฝึกอบรมจะมีป้ายกำกับโดยอัตโนมัติตามการวิเคราะห์พฤติกรรม / กฎ) ฉันคิดว่าทั้งการเรียนรู้ภายใต้การดูแลและการเรียนรู้แบบกึ่งมีส่วนร่วมอาจรวมถึง "การกำกับดูแลที่ห่างไกล" หากข้อมูลที่ติดฉลากของพวกเขานั้นมีการแก้ปัญหาด้วยวิธีฮิวริสติก / อัตโนมัติ อย่างไรก็ตามในหน้านี้ "การกำกับดูแลที่ห่างไกล" หมายถึง "การเรียนรู้แบบกึ่งภายใต้การดูแล" (เช่น จำกัด เฉพาะ "การควบคุมกึ่ง") ดังนั้นคำถามของฉันคือ"การควบคุมดูแลที่ห่างไกล" อ้างถึงการควบคุมกึ่งหรือไม่? ในความคิดของฉันมันสามารถนำไปใช้กับการเรียนรู้ทั้งแบบมีผู้สอนและแบบกึ่งมีผู้สอน โปรดระบุข้อมูลอ้างอิงที่เชื่อถือได้หากมี

2
การส่งเสริม: เหตุใดอัตราการเรียนรู้จึงเรียกว่าพารามิเตอร์การทำให้เป็นมาตรฐาน
อัตราการเรียนรู้พารามิเตอร์ ( ) ในการไล่โทนสีการส่งเสริมการมีส่วนร่วมของ shrinks รุ่นแต่ละฐานใหม่ -typically tree- ตื้นที่จะถูกเพิ่มในซีรีส์ มันแสดงให้เห็นถึงการเพิ่มความแม่นยำของชุดการทดสอบอย่างมากซึ่งเป็นที่เข้าใจได้เช่นเดียวกับขั้นตอนที่เล็กกว่าขั้นต่ำของฟังก์ชั่นการสูญเสียสามารถบรรลุได้อย่างแม่นยำมากขึ้น ν∈[0,1]ν∈[0,1]\nu \in [0,1] ฉันไม่เข้าใจว่าทำไมอัตราการเรียนรู้จึงถือเป็นพารามิเตอร์ในการทำให้เป็นมาตรฐาน? อ้างถึงองค์ประกอบของการเรียนรู้สถิติส่วนที่ 10.12.1, p.364: การควบคุมจำนวนต้นไม้ไม่ได้เป็นเพียงกลยุทธ์การทำให้เป็นมาตรฐานเท่านั้น เช่นเดียวกับการถดถอยของสันเขาและโครงข่ายประสาทเทียมสามารถใช้เทคนิคการหดตัวได้เช่นกัน ค่าที่น้อยกว่าของ (หดตัวมากกว่า) ผลความเสี่ยงในการฝึกอบรมที่มีขนาดใหญ่สำหรับหมายเลขเดียวกันซ้ำM ดังนั้นทั้งνและM จึงควบคุมความเสี่ยงในการทำนายข้อมูลการฝึกอบรมνν\nuMMMνν\nuMMM การทำให้เป็นมาตรฐานหมายถึง "วิธีหลีกเลี่ยงการทำให้อ้วนมากเกินไป" ดังนั้นจึงเป็นที่ชัดเจนว่าจำนวนการวนซ้ำเป็นสิ่งสำคัญในการเคารพนั้น ( Mที่สูงเกินไปที่จะนำไปสู่การล้น) แต่:MMMMMM ค่าที่น้อยกว่าของ (หดตัวมากกว่า) ผลความเสี่ยงในการฝึกอบรมที่มีขนาดใหญ่สำหรับหมายเลขเดียวกันซ้ำMνν\nuMMM เพียงหมายความว่าด้วยอัตราการเรียนรู้ต่ำจำเป็นต้องมีการทำซ้ำมากขึ้นเพื่อให้ได้ความถูกต้องเหมือนกันในชุดฝึกอบรม แล้วมันเกี่ยวข้องอย่างไรกับการบรรจุมากเกินไป?

3
อะไรคือความแตกต่างระหว่างกฎการเชื่อมโยงและโครงสร้างการตัดสินใจในการขุดข้อมูล
มีคำอธิบายที่ง่ายมากเกี่ยวกับความแตกต่างระหว่างสองเทคนิคนี้หรือไม่? ดูเหมือนว่าทั้งสองจะใช้สำหรับการเรียนรู้แบบมีผู้สอน (แม้ว่ากฎการเชื่อมโยงสามารถจัดการได้โดยไม่ได้รับอนุญาต) ทั้งสองสามารถใช้สำหรับการทำนาย ที่ใกล้เคียงที่สุดที่ผมเคยพบว่าคำอธิบาย 'ดี' อยู่ห่างจากStatsoft ตำรา พวกเขากล่าวว่ากฎของสมาคมถูกใช้เพื่อ: ... ตรวจสอบความสัมพันธ์หรือการเชื่อมโยงระหว่างค่าเฉพาะของตัวแปรเด็ดขาดในชุดข้อมูลขนาดใหญ่ ขณะที่ตัวแยกประเภทของ Decision Treeนั้นถูกอธิบายว่าใช้เพื่อ: ... ทำนายการเป็นสมาชิกของเคสหรือวัตถุในคลาสของตัวแปรตามหมวดหมู่จากการวัดในตัวแปรตัวทำนายหนึ่งตัวหรือมากกว่า อย่างไรก็ตามในช่วงที่ R Data Mining พวกเขาให้ตัวอย่างของกฎของสมาคมถูกนำมาใช้กับข้อมูลเป้าหมาย ดังนั้นทั้งสองสามารถใช้เพื่อทำนายการเป็นสมาชิกกลุ่มความแตกต่างที่สำคัญคือต้นไม้ตัดสินใจสามารถจัดการกับข้อมูลที่ไม่จัดหมวดหมู่ในขณะที่กฎการเชื่อมโยงไม่สามารถทำได้หรือไม่? หรือมีบางสิ่งพื้นฐานมากขึ้น? หนึ่งเว็บไซต์ ( sqlserverdatamining.com ) กล่าวว่าความแตกต่างที่สำคัญคือ: กฎการตัดสินใจบนพื้นฐานของข้อมูลที่ได้รับในขณะที่กฎของสมาคมขึ้นอยู่กับความนิยมและ / หรือความเชื่อมั่น ดังนั้น (อาจตอบคำถามของฉันเอง) นั่นหมายความว่ากฎการเชื่อมโยงได้รับการประเมินอย่างละเอียดถี่ถ้วนเกี่ยวกับความถี่ที่ปรากฏในชุดข้อมูล (และความถี่ที่พวกเขาเป็น 'จริง') ในขณะที่ต้นไม้การตัดสินใจพยายามลดความแปรปรวน หากใครรู้คำอธิบายที่ดีพวกเขายินดีที่จะชี้ให้ฉันไปแล้วนั่นจะดี

6
โปรแกรมเมอร์กำลังมองหาที่จะบุกเข้าไปในสนามการเรียนรู้ของเครื่อง
ฉันเป็นนักพัฒนาซอฟต์แวร์ (ส่วนใหญ่เป็น. NET และ Python ประมาณ 5 ปี) ฉันจะทำอะไรได้บ้างเพื่อช่วยให้ฉันได้งานในสาขาการเรียนรู้ของเครื่องหรืออะไรก็ตามที่จะทำให้ฉันเริ่มต้นในสาขานั้น? การเรียนระดับปริญญาโทถือเป็นเรื่องยากหรือไม่?

6
การทำ data data กับการวิเคราะห์ทางสถิติต่างกันอย่างไร?
การทำ data data กับการวิเคราะห์ทางสถิติต่างกันอย่างไร? สำหรับภูมิหลังบางอย่างการศึกษาทางสถิติของฉันนั้นฉันคิดว่าเป็นแบบดั้งเดิม คำถามที่เจาะจงจะถูกวางไว้การวิจัยได้รับการออกแบบและมีการรวบรวมและวิเคราะห์ข้อมูลเพื่อนำเสนอข้อมูลเชิงลึกเกี่ยวกับคำถามนั้น ด้วยเหตุนี้ฉันจึงสงสัยในสิ่งที่ฉันคิดว่า "data dredging" อยู่เสมอนั่นคือมองหารูปแบบในชุดข้อมูลขนาดใหญ่และใช้รูปแบบเหล่านี้เพื่อสรุปผล ฉันมักจะเชื่อมโยงอย่างหลังกับ data-mining และมักจะถือว่าสิ่งนี้ค่อนข้างไร้หลักการ (พร้อมกับสิ่งต่าง ๆ เช่นรูทีนการเลือกตัวแปรอัลกอริทึม) อย่างไรก็ตามมีงานเขียนขนาดใหญ่และกำลังเติบโตเกี่ยวกับการขุดข้อมูล บ่อยครั้งที่ฉันเห็นฉลากนี้อ้างถึงเทคนิคเฉพาะเช่นการจัดกลุ่มการจำแนกตามต้นไม้เป็นต้น แต่อย่างน้อยจากมุมมองของฉันเทคนิคเหล่านี้สามารถ "ตั้งค่าหลวม ๆ " ในชุดข้อมูลหรือใช้ในรูปแบบที่มีโครงสร้างเพื่อจัดการกับ คำถาม. ฉันจะเรียกการทำเหมืองข้อมูลในอดีตและการวิเคราะห์ทางสถิติหลัง ฉันทำงานด้านการบริหารงานวิชาการและถูกขอให้ทำ "data mining" เพื่อระบุปัญหาและโอกาส สอดคล้องกับภูมิหลังของฉันคำถามแรกของฉันคือ: คุณต้องการเรียนรู้อะไรและอะไรคือสิ่งที่คุณคิดว่ามีส่วนร่วมในการแก้ไขปัญหา? จากการตอบกลับของพวกเขามันชัดเจนว่าฉันและคนที่ถามคำถามนั้นมีแนวคิดที่แตกต่างกันเกี่ยวกับลักษณะและคุณค่าของการทำเหมืองข้อมูล

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.