วิทยาศาสตร์ข้อมูล

ถามตอบสำหรับผู้เชี่ยวชาญด้านข้อมูลวิทยาศาสตร์ผู้เชี่ยวชาญด้านการเรียนรู้ของเครื่องจักรและผู้ที่สนใจเรียนรู้เพิ่มเติมเกี่ยวกับสาขานี้

7
ห้องสมุดไพ ธ อนที่สามารถคำนวณเมทริกซ์ความสับสนสำหรับการจำแนกประเภทหลายฉลาก
ฉันกำลังมองหาห้องสมุดหลามที่สามารถคำนวณเมทริกซ์สำหรับการจำแนกประเภทความสับสนหลายป้าย FYI: scikit-Learn ไม่รองรับ multi-label สำหรับ matrix ที่สับสน) อะไรคือความแตกต่างระหว่าง Multiclass และ Multilabel Problem

2
วิธีจำลองพฤติกรรมการซื้อของผู้ใช้ใน Amazon
สำหรับโครงการหลักสูตรสุดท้ายของเราในวิทยาศาสตร์ข้อมูลเราเสนอดังต่อไปนี้ - ให้ชุดข้อมูลบทวิจารณ์ของ Amazonเราวางแผนที่จะคิดอัลกอริทึม (นั่นคือคร่าวๆตาม Personalized PageRank) ที่กำหนดตำแหน่งเชิงกลยุทธ์สำหรับการวางโฆษณาใน Amazon ตัวอย่างเช่นมีผลิตภัณฑ์นับล้านรายการใน Amazon และชุดข้อมูลจะให้ข้อมูลเกี่ยวกับผลิตภัณฑ์ที่เกี่ยวข้องผลิตภัณฑ์ที่นำมารวมกันดูด้วยกันเป็นต้น (เราสามารถสร้างกราฟพร้อมข้อมูลที่ดูได้และซื้อด้วย) นอกจากนี้ยังให้บทวิจารณ์ที่เกี่ยวข้องกับผลิตภัณฑ์แต่ละชิ้นผ่าน 14 ปี ใช้ข้อมูลเหล่านี้ทั้งหมดเราจะให้คะแนน / จัดอันดับผลิตภัณฑ์ใน Amazon ตอนนี้คุณเป็นผู้ขายใน Amazon ที่ต้องการปรับปรุงปริมาณการใช้งานไปยังหน้าผลิตภัณฑ์ของพวกเขา อัลกอริทึมของเราช่วยให้คุณระบุตำแหน่งเชิงกลยุทธ์ในกราฟที่คุณสามารถวางโฆษณาของคุณเพื่อให้คุณได้รับอัตราการเข้าชมสูงสุด ตอนนี้คำถามของศาสตราจารย์คือคุณจะตรวจสอบอัลกอริทึมของคุณโดยไม่มีผู้ใช้จริงได้อย่างไร พวกเราพูด- เราสามารถสร้างแบบจำลองชุดผู้ใช้ที่แน่นอน ผู้ใช้บางคนติดตามalso_boughtและalso_viewedเชื่อมโยงไปยังการกระโดดครั้งที่สามบ่อยกว่าการกระโดดครั้งแรกหรือครั้งที่ห้า มีการกระจายพฤติกรรมของผู้ใช้ตามปกติ ผู้ใช้บางคนแทบไม่มีการนำทางใด ๆ เลยหลังจากกระโดดครั้งแรก พฤติกรรมของผู้ใช้ชุดนี้มีการกระจายชี้แจง ศาสตราจารย์ของเรากล่าวว่า - ไม่ว่าผู้ใช้จะปฏิบัติตามสิ่งใดก็ตามผู้ใช้นำทางโดยใช้ลิงก์สำหรับผลิตภัณฑ์ที่คล้ายกัน อัลกอริทึมการจัดอันดับของคุณพิจารณาผลิตภัณฑ์ b / w 2 ที่คล้ายคลึงกันเพื่อจัดอันดับผลิตภัณฑ์ ดังนั้นการใช้อัลกอริทึมการตรวจสอบนี้จึงเป็นเรื่องcheatingจริง มาพร้อมกับพฤติกรรมของผู้ใช้อื่น ๆ ซึ่งมีความสมจริงและตั้งฉากกับอัลกอริทึมมากขึ้น มีความคิดเห็นเกี่ยวกับวิธีจำลองพฤติกรรมของผู้ใช้อย่างไร ฉันยินดีที่จะให้รายละเอียดเพิ่มเติมเกี่ยวกับอัลโก

3
กวดวิชาวิเคราะห์ความเชื่อมั่น
ฉันพยายามทำความเข้าใจการวิเคราะห์ความรู้สึกและวิธีใช้โดยใช้ภาษาใด ๆ (R, Python และอื่น ๆ ) ฉันอยากจะรู้ว่ามีสถานที่ที่ดีบนอินเทอร์เน็ตสำหรับการกวดวิชาที่ฉันสามารถทำตาม ฉัน googled แต่ฉันไม่พอใจอย่างมากเพราะพวกเขาไม่ใช่แบบฝึกหัด แต่มีทฤษฎีมากกว่านี้ ฉันต้องการตัวอย่างเชิงทฤษฎีและภาคปฏิบัติ

2
การจำแนกลำดับเวกเตอร์
ชุดข้อมูลของฉันประกอบด้วยลำดับเวกเตอร์ แต่ละเวกเตอร์มี 50 มิติของมูลค่าที่แท้จริง จำนวนเวกเตอร์ในลำดับอยู่ระหว่าง 3-5 ถึง 10-15 กล่าวอีกนัยหนึ่งความยาวของลำดับไม่คงที่ จำนวนเงินที่เหมาะสมของลำดับ (ไม่ใช่เวกเตอร์!) จะมีคำอธิบายประกอบพร้อมกับฉลากระดับ งานของฉันคือการเรียนรู้ลักษณนามที่กำหนดลำดับเวกเตอร์ฉลากคลาสสำหรับลำดับทั้งหมดถูกคำนวณ ฉันไม่สามารถบอกลักษณะที่แน่นอนของข้อมูลได้ แต่ลักษณะของลำดับไม่ได้เป็นการชั่วคราว อย่างไรก็ตามเวกเตอร์xผมxix_i ไม่สามารถสลับกับเวกเตอร์ได้ xJxjx_j โดยไม่ต้องเปลี่ยนฉลาก (ฉัน≠ ji≠ji \neq j) กล่าวอีกนัยหนึ่งลำดับของเวกเตอร์นั้นสำคัญ ตัวเวกเตอร์นั้นเปรียบได้ตัวอย่างเช่นมันสมเหตุสมผลที่จะคำนวณผลิตภัณฑ์ดอทและใช้ค่าความคล้ายคลึงกันนี้ คำถามของฉันคืออะไรเครื่องมือ / อัลกอริทึมที่สามารถช่วยจำแนกข้อมูลดังกล่าวคืออะไร? UPDATE: ข้อมูลมีคุณสมบัติเช่นนั้นเวกเตอร์หนึ่งหรือสองสามตัวมีอิทธิพลอย่างมากต่อเลเบลของคลาส วิธีแก้ปัญหาที่เป็นไปได้: หลังจากการวิจัยบางอย่างดูเหมือนว่า Recurrent Neural Networks (RNN) จะพอดีกับใบเรียกเก็บเงินตามธรรมชาติ แนวคิดที่ครอบคลุมคือการเลือกขนาดบริบทkkk, เชื่อมเวกเตอร์คำต่อกัน, ทำ maxing ร่วมกันและให้อาหารผ่าน NN คลาสสิก ที่ตำแหน่งหน้าต่างบริบทที่เป็นไปได้แต่ละประโยคในประโยคหนึ่งเวกเตอร์คุณลักษณะจะถูกสร้างขึ้น คุณลักษณะเวกเตอร์ขั้นสุดท้ายถูกสร้างขึ้นโดยใช้การรวมกำไรสูงสุดตัวอย่างเช่น backpropagation ทำเพื่อปรับพารามิเตอร์ของเครือข่าย ฉันได้รับผลลัพธ์ที่เป็นบวกแล้ว (ต้องมี …

1
วิธีการเข้ารหัสไบนามิคตัวแปรที่มีค่าหลายค่าจาก Pandas dataframe
สมมติว่าเรามีชื่อไฟล์ต่อไปนี้ที่มีหลายค่าสำหรับคอลัมน์ที่แน่นอน: categories 0 - ["A", "B"] 1 - ["B", "C", "D"] 2 - ["B", "D"] เราจะได้โต๊ะแบบนี้ได้อย่างไร "A" "B" "C" "D" 0 - 1 1 0 0 1 - 0 1 1 1 2 - 0 1 0 1 หมายเหตุ: ฉันไม่จำเป็นต้องใช้ดาต้าเฟรมใหม่ฉันสงสัยว่าจะแปลงดาต้าเฟรมดังกล่าวเป็นรูปแบบใดที่เหมาะสมสำหรับการเรียนรู้ของเครื่อง
9 python  pandas 

1
การเลือกคุณสมบัติสำหรับ Support Vector Machines
คำถามของฉันคือสามเท่า ในบริบทของ "Kernelized" รองรับเครื่องเวกเตอร์ การเลือกตัวแปร / คุณสมบัติเป็นสิ่งที่ต้องการ - โดยเฉพาะอย่างยิ่งเมื่อเราทำการปรับพารามิเตอร์ C เพื่อป้องกันการ overfitting และแรงจูงใจหลักที่อยู่เบื้องหลังการนำเมล็ดไปยัง SVM คือการเพิ่มมิติของปัญหาในกรณีเช่นนี้การลดขนาดโดยการลดพารามิเตอร์ หากคำตอบของคำถามที่ 1 คือ "ไม่" ดังนั้นคำตอบของคำถามที่ควรคำนึงถึงคืออะไร? มีวิธีการที่ดีที่พยายามลดคุณสมบัติสำหรับ SVM ในห้องสมุด scikit-Learn ของ python หรือไม่ฉันได้ลองใช้วิธี SelectFpr แล้วและกำลังมองหาคนที่มีประสบการณ์ด้วยวิธีการที่แตกต่างกัน

5
มีความคิดเกี่ยวกับการประยุกต์ใช้ความฝันลึก ๆ ?
เมื่อเร็ว ๆ นี้ Google ประกาศฝันลึกที่น่าสนใจ นอกจากการสร้างงานศิลปะเช่นhttp://deepdreamgenerator.com/คุณเห็นแอปพลิเคชั่นที่มีศักยภาพของความฝันลึก ๆ ในการมองเห็นคอมพิวเตอร์หรือการเรียนรู้ของเครื่องหรือไม่?

2
ความสัมพันธ์ระหว่างมิติ VC และองศาอิสระ
ฉันกำลังเรียนรู้การเรียนรู้ของเครื่องจักรและฉันรู้สึกว่ามีความสัมพันธ์ที่แน่นแฟ้นระหว่างแนวคิดของมิติ VC และแนวคิดคลาสสิค (สถิติ) ขององศาอิสระ ทุกคนสามารถอธิบายการเชื่อมต่อดังกล่าวได้หรือไม่

2
การใช้งาน Naive Bayes แบบเสริมในหลาม
ปัญหา ฉันได้ลองใช้ Naive Bayes กับชุดข้อมูลอาชญากรรมที่มีข้อความ แต่ได้ผลลัพธ์ที่แย่มาก (ความแม่นยำ 7%) Naive Bayes ทำงานเร็วกว่า alogorithms อื่น ๆ ที่ฉันใช้ดังนั้นฉันจึงอยากลองค้นหาสาเหตุที่คะแนนต่ำ วิจัย หลังจากอ่านฉันพบว่าควรใช้เบย์ Naive กับชุดข้อมูลที่สมดุลเพราะมันมีอคติสำหรับคลาสที่มีความถี่สูงกว่า เนื่องจากข้อมูลของฉันไม่สมดุลฉันจึงอยากลองใช้ Naive Bayes เพิ่มเติมเพราะทำขึ้นเป็นพิเศษสำหรับจัดการกับข้อมูลที่ลื่นไหล ในบทความที่อธิบายถึงกระบวนการแอปพลิเคชันสำหรับการจำแนกข้อความ แต่ฉันไม่เห็นว่าทำไมเทคนิคไม่ทำงานในสถานการณ์อื่น ๆ คุณสามารถค้นหากระดาษที่ผมหมายถึงที่นี่ ในระยะสั้นความคิดคือการใช้น้ำหนักตามเหตุการณ์ที่เกิดขึ้นที่ชั้นไม่ปรากฏขึ้น หลังจากทำการวิจัยบางอย่างฉันสามารถค้นหาการนำไปใช้ใน Java แต่โชคไม่ดีที่ฉันไม่ทราบว่า Java และฉันไม่เข้าใจอัลกอริทึมที่ดีพอที่จะใช้ตัวเอง คำถาม ฉันสามารถหาการใช้งานในหลามได้ที่ไหน หากไม่มีอยู่ฉันควรดำเนินการด้วยตนเองอย่างไร

2
มีวิธีที่ตรงข้ามกับการลดขนาดหรือไม่?
ฉันยังใหม่กับการเรียนรู้ของเครื่องจักร แต่ได้ทำการแบ่งสัญญาณการประมวลผลแล้ว โปรดแจ้งให้เราทราบหากคำถามนี้ติดป้ายกำกับไม่ถูกต้อง ฉันมีข้อมูลสองมิติซึ่งกำหนดโดยตัวแปรอย่างน้อยสามตัวด้วยวิธีการจำลองที่ไม่เป็นเชิงเส้นสูงเกินไปที่ซับซ้อนในการจำลอง ฉันมีระดับความสำเร็จที่แตกต่างกันในการแยกสององค์ประกอบหลักจากข้อมูลโดยใช้วิธีการเช่น PCA และ ICA (จากห้องสมุดหลาม Scikit-Learn) แต่ดูเหมือนว่าวิธีการเหล่านี้ (หรืออย่างน้อยที่สุดการใช้งานวิธีการเหล่านี้) มี จำกัด เพื่อแยกส่วนประกอบได้มากเท่าที่มีมิติในข้อมูลตัวอย่างเช่น 2 ส่วนประกอบจากคลาวด์จุด 2D เมื่อพล็อตข้อมูลเป็นที่ชัดเจนต่อสายตาที่ผ่านการฝึกอบรมว่ามีแนวโน้มเชิงเส้นที่แตกต่างกันสามเส้นเส้นสีสามเส้นแสดงทิศทาง เมื่อใช้ PCA ส่วนประกอบหลักจะถูกจัดตำแหน่งให้เป็นหนึ่งในเส้นสีและส่วนอื่น ๆ จะอยู่ที่ 90 °ตามที่คาดไว้ เมื่อใช้ ICA ส่วนประกอบแรกจะถูกจัดแนวกับเส้นสีน้ำเงินและองค์ประกอบที่สองอยู่ระหว่างสีแดงกับสีเขียว ฉันกำลังมองหาเครื่องมือที่สามารถสร้างส่วนประกอบทั้งสามในสัญญาณของฉัน แก้ไขข้อมูลเพิ่มเติม:ฉันอยู่ที่นี่ทำงานในเซตย่อยขนาดเล็กของระนาบเฟสที่ใหญ่กว่า ในชุดย่อยขนาดเล็กนี้ตัวแปรอินพุตแต่ละตัวสร้างการเปลี่ยนแปลงเชิงเส้นบนระนาบ แต่ทิศทางและความกว้างของการเปลี่ยนแปลงนี้ไม่ใช่แบบเส้นตรงและขึ้นอยู่กับตำแหน่งบนระนาบที่ใหญ่กว่าที่ฉันกำลังทำงานอยู่ ในบางสถานที่ตัวแปรสองตัวสามารถเสื่อมถอยลงได้พวกมันสร้างการเปลี่ยนแปลงในทิศทางเดียวกัน ตัวอย่างเช่นสมมติว่าโมเดลขึ้นกับ X, Y และ Z การเปลี่ยนแปลงในตัวแปร X จะทำให้เกิดการเปลี่ยนแปลงตามแนวเส้นสีฟ้า Y ทำให้เกิดการเปลี่ยนแปลงตามเส้นสีเขียว Z ตามแนวสีแดง

1
ใช้ Vowpal Wabbit สำหรับ NER
Vowpal Wabbit (VW) เห็นได้ชัดว่าสนับสนุนการทำงานลำดับการติดแท็กผ่านSEARN ปัญหาคือฉันไม่สามารถหารายการพารามิเตอร์แบบละเอียดที่ใดก็ได้พร้อมคำอธิบายและตัวอย่างบางส่วน สิ่งที่ดีที่สุดที่ฉันสามารถหาได้คือบล็อกของ Zinkovพร้อมตัวอย่างสั้น ๆ หน้าวิกิพีเดียหลักแทบจะไม่กล่าวถึง SEARN ในซอร์สโค้ดที่ตรวจสอบแล้วฉันพบโฟลเดอร์สาธิตพร้อมข้อมูลตัวอย่าง NER บางส่วน น่าเสียดายที่สคริปต์ที่รันการทดสอบทั้งหมดไม่แสดงวิธีการทำงานกับข้อมูลนี้ อย่างน้อยมันก็มีข้อมูลเพียงพอที่จะเห็นรูปแบบที่คาดไว้: เกือบจะเหมือนกับรูปแบบข้อมูล VW มาตรฐานยกเว้นว่ารายการนั้นคั่นด้วยบรรทัดว่าง (นี่เป็นสิ่งสำคัญ) ความเข้าใจปัจจุบันของฉันคือการเรียกใช้คำสั่งต่อไปนี้: cat train.txt | vw -c --passes 10 --searn 25 --searn_task sequence \ --searn_passes_per_policy 2 -b 30 -f twpos.vw ที่ไหน --searn 25 - จำนวนป้ายกำกับ NER ทั้งหมด (?) --searn_task sequence - งานติดแท็กตามลำดับ …

1
มีอัลกอริทึมการเรียนรู้ที่ไม่มีผู้ดูแลสำหรับข้อมูลที่มีการเรียงลำดับเวลาหรือไม่?
การสังเกตในข้อมูลของฉันแต่ละครั้งถูกรวบรวมด้วยความแตกต่าง 0.1 วินาที ฉันไม่ได้เรียกมันว่าอนุกรมเวลาเพราะมันไม่มีวันที่และเวลา ในตัวอย่างของอัลกอริทึมการจัดกลุ่ม (ฉันพบออนไลน์) และ PCA ข้อมูลตัวอย่างมีการสังเกต 1 ครั้งต่อเคสและไม่ได้กำหนดเวลา แต่ข้อมูลของฉันมีการสำรวจนับร้อยที่รวบรวมทุก ๆ 0.1 วินาทีต่อคันและมียานพาหนะมากมาย หมายเหตุ: ฉันได้ถามคำถามนี้กับโควต้าด้วยเช่นกัน

3
ฟอเรสต์แบบสุ่มในข้อผิดพลาด Amazon ec2: ไม่สามารถจัดสรรเวกเตอร์ที่มีขนาด 5.4 Gb
ฉันกำลังฝึกอบรมโมเดลฟอเรสต์แบบสุ่มใน R โดยใช้randomForest()ต้นไม้ 1,000 ต้นและเฟรมข้อมูลพร้อมตัวทำนาย 20 ตัวและแถว 600K ทุกอย่างในแล็ปท็อปของฉันใช้งานได้ดี แต่เมื่อฉันย้ายไปที่ amazon ec2 เพื่อทำงานแบบเดียวกันฉันได้รับข้อผิดพลาด: Error: cannot allocate vector of size 5.4 Gb Execution halted ฉันใช้c3.4xlargeประเภทอินสแตนซ์ดังนั้นมันจึงค่อนข้างอ้วน ไม่มีใครรู้วิธีแก้ปัญหานี้เพื่อให้มันทำงานบนอินสแตนซ์นี้หรือไม่? ฉันชอบที่จะทราบถึงความแตกต่างของหน่วยความจำที่ทำให้เกิดปัญหานี้เฉพาะในอินสแตนซ์ ec2 เท่านั้นและไม่ได้อยู่ในแล็ปท็อปของฉัน (โปรเซสเซอร์ X OS 10.9.5 2.7 GHz Intel Core i7; หน่วยความจำ 16 GB 1600 MHz DDR3) ขอบคุณ

2
การจัดกลุ่มเอกสารโดยใช้หัวข้อที่ได้มาจากการจัดสรร Dirichlet แฝง
ฉันต้องการใช้ Latent Dirichlet Allocation สำหรับโครงการและฉันใช้ Python กับไลบรารี gensim หลังจากค้นหาหัวข้อที่ฉันต้องการจัดกลุ่มเอกสารโดยใช้อัลกอริทึมเช่น k-mean (โดยหลักแล้วฉันต้องการใช้ดีสำหรับการซ้อนกลุ่มเพื่อให้คำแนะนำยินดีต้อนรับ) ฉันจัดการเพื่อให้ได้หัวข้อ แต่อยู่ในรูปแบบของ: 0.041 * รัฐมนตรี + 0.041 * สำคัญ + 0.041 * ช่วงเวลา + 0.041 * แย้ง + 0.041 * นายกรัฐมนตรี เพื่อที่จะใช้อัลกอริทึมการจัดกลุ่มและแก้ไขให้ฉันถ้าฉันผิดฉันเชื่อว่าฉันควรหาวิธีที่จะเป็นตัวแทนของแต่ละคำเป็นตัวเลขโดยใช้ tfidf หรือ word2vec คุณมีความคิดว่าฉันจะ "ตัด" ข้อมูลที่เป็นข้อความจากเช่นรายการเพื่อทำเช่นนั้นแล้วนำมันกลับมาอีกครั้งเพื่อทำการคูณที่เหมาะสมหรือไม่ เช่นวิธีที่ฉันเห็นถ้าคำว่ารัฐมนตรีมีน้ำหนัก tfidf 0.042 และอื่น ๆ สำหรับคำอื่น ๆ ในหัวข้อเดียวกันฉันควรจะคำนวณสิ่งที่ชอบ: 0.041 * 0.42 …

7
อาชีพเปลี่ยนเป็น Big Data Analytics
ฉันเป็นผู้เชี่ยวชาญด้านไอทีอายุ 35 ปีซึ่งเป็นผู้เชี่ยวชาญด้านเทคนิคอย่างแท้จริง ฉันเก่งด้านการเขียนโปรแกรมเรียนรู้เทคโนโลยีใหม่ ๆ ทำความเข้าใจและนำไปปฏิบัติ ฉันไม่ชอบคณิตศาสตร์ที่โรงเรียนดังนั้นฉันจึงทำคะแนนได้ไม่ดีในวิชาคณิตศาสตร์ ฉันสนใจเป็นอย่างมากในการใฝ่หาอาชีพในการวิเคราะห์ข้อมูลขนาดใหญ่ ฉันสนใจ Analytics มากกว่าเทคโนโลยี Big Data (Hadoop ฯลฯ ) แม้ว่าฉันจะไม่ชอบก็ตาม อย่างไรก็ตามเมื่อฉันมองไปรอบ ๆ อินเทอร์เน็ตฉันเห็นว่าคนที่เก่งในการวิเคราะห์ (นักวิทยาศาสตร์ด้านข้อมูล) ส่วนใหญ่เป็นผู้สำเร็จการศึกษาด้านคณิตศาสตร์ที่ได้ทำปริญญาเอกและเสียงของพวกเขาเช่นสัตว์ฉลาดที่อยู่ไกลจากฉัน บางครั้งฉันก็กลัวที่จะคิดว่าการตัดสินใจของฉันถูกต้องหรือไม่เพราะการเรียนรู้สถิติล่วงหน้าด้วยตัวคุณเองนั้นยากมากและต้องใช้เวลาและการลงทุนอย่างหนัก ฉันต้องการทราบว่าการตัดสินใจของฉันถูกต้องหรือไม่หรือฉันควรปล่อยงานชิ้นนี้ให้กับผู้มีปัญญาเท่านั้นที่ใช้ชีวิตในการศึกษาในวิทยาลัยที่มีชื่อเสียงและได้รับปริญญาและปริญญาเอก
9 career 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.