วิทยาศาสตร์ข้อมูล

ถามตอบสำหรับผู้เชี่ยวชาญด้านข้อมูลวิทยาศาสตร์ผู้เชี่ยวชาญด้านการเรียนรู้ของเครื่องจักรและผู้ที่สนใจเรียนรู้เพิ่มเติมเกี่ยวกับสาขานี้

3
คลาสที่ไม่สมดุล - วิธีการลดเชิงลบที่ผิดพลาดให้น้อยที่สุดได้อย่างไร
ฉันมีชุดข้อมูลที่มีคุณลักษณะคลาสไบนารี มีอินสแตนซ์ 623 คลาส +1 (บวกมะเร็ง) และ 101,671 อินสแตนซ์กับคลาส -1 (ลบมะเร็ง) ฉันได้ลองอัลกอริธึมที่หลากหลาย (Naive Bayes, Random Forest, AODE, C4.5) และทั้งหมดนั้นมีอัตราส่วนลบติดลบที่ยอมรับไม่ได้ ป่าสุ่มมีความแม่นยำในการทำนายโดยรวมสูงสุด (99.5%) และอัตราส่วนลบติดลบต่ำสุด แต่ก็ยังพลาด 79% ของคลาสบวก (เช่นไม่สามารถตรวจจับ 79% ของเนื้องอกมะเร็ง) ความคิดใดที่ฉันสามารถปรับปรุงสถานการณ์นี้ได้? ขอบคุณ!

4
วิธีที่ word2vec สามารถใช้เพื่อระบุคำที่มองไม่เห็นและเกี่ยวข้องกับข้อมูลที่ผ่านการฝึกอบรมแล้ว
ฉันทำงานกับ word2vec gensim model และพบว่ามันน่าสนใจจริงๆ ฉันกำลังขัดจังหวะในการค้นหาคำที่ไม่รู้จัก / ไม่ปรากฏเมื่อตรวจสอบกับแบบจำลองจะสามารถรับคำที่คล้ายกันจากแบบจำลองที่ผ่านการฝึกอบรม เป็นไปได้ไหม word2vec สามารถปรับเปลี่ยนได้หรือไม่? หรือคลังข้อมูลการฝึกอบรมต้องมีคำทั้งหมดที่ฉันต้องการค้นหาความคล้ายคลึงกัน

7
การขูดเว็บ LinkedIn
ฉันเพิ่งค้นพบแพ็คเกจ R ใหม่สำหรับเชื่อมต่อกับ LinkedIn API น่าเสียดายที่ LinkedIn API นั้นค่อนข้าง จำกัด ในการเริ่มต้น ตัวอย่างเช่นคุณสามารถรับข้อมูลพื้นฐานเกี่ยวกับ บริษัท เท่านั้นและข้อมูลนี้แยกออกจากข้อมูลของแต่ละบุคคล ฉันต้องการรับข้อมูลเกี่ยวกับพนักงานทุกคนของ บริษัท ที่กำหนดซึ่งคุณสามารถทำได้ด้วยตนเองบนเว็บไซต์แต่ไม่สามารถทำได้ผ่าน API import.ioจะสมบูรณ์แบบหากรู้จักการแบ่งหน้า LinkedIn (ดูที่ส่วนท้ายของหน้า) ไม่มีใครรู้ว่าเครื่องมือขูดเว็บหรือเทคนิคใด ๆ ที่ใช้กับรูปแบบปัจจุบันของเว็บไซต์ LinkedIn หรือวิธีการดัด API เพื่อทำการวิเคราะห์ที่ยืดหยุ่นมากขึ้น? โดยเฉพาะอย่างยิ่งใน R หรือบนเว็บ แต่แน่นอนเปิดให้แนวทางอื่น ๆ

4
จะหลีกเลี่ยงการ overfitting ในป่าสุ่มได้อย่างไร
ฉันต้องการหลีกเลี่ยง overfitting ในป่าสุ่ม ในเรื่องนี้ฉันตั้งใจจะใช้ mtry, nodesize และ maxnodes เป็นต้นคุณช่วยฉันเลือกค่าสำหรับพารามิเตอร์เหล่านี้ได้ไหม? ฉันกำลังใช้อาร์ นอกจากนี้ถ้าเป็นไปได้โปรดบอกฉันว่าฉันสามารถใช้การตรวจสอบความถูกต้องข้ามของ k-fold สำหรับฟอเรสต์แบบสุ่ม (ใน R) ได้อย่างไร

3
ปัญหากับ IPython / Jupyter บน Spark (นามแฝงที่ไม่รู้จัก)
ฉันกำลังทำงานเกี่ยวกับการตั้งค่าชุดของ VM เพื่อทดลองใช้กับ Spark ก่อนที่ฉันจะออกไปข้างนอกและใช้เงินในการสร้างคลัสเตอร์ด้วยฮาร์ดแวร์บางตัว บันทึกย่อ: ฉันเป็นนักวิชาการที่มีพื้นฐานในการเรียนรู้ของเครื่องที่ใช้และการทำงานออกจากบิตของวิทยาศาสตร์ข้อมูล ฉันใช้เครื่องมือสำหรับการคำนวณฉันแทบจะไม่ต้องตั้งค่าเลย ฉันได้สร้าง 3 VMs (1 master, 2 slaves) และติดตั้ง Spark เรียบร้อยแล้ว ทุกอย่างดูเหมือนจะทำงานได้ตามที่ควร ปัญหาของฉันอยู่ที่การสร้างเซิร์ฟเวอร์ Jupyter ที่สามารถเชื่อมต่อกับเบราว์เซอร์ที่ไม่ได้ทำงานบนเครื่องในคลัสเตอร์ ฉันติดตั้งโน้ตบุ๊ก Jupyterเรียบร้อยแล้ว ... และมันก็ทำงานได้ ฉันได้เพิ่มโปรไฟล์ IPython ใหม่ที่เชื่อมต่อกับเซิร์ฟเวอร์ระยะไกลด้วย Spark ตอนนี้ปัญหา คำสั่ง $ ipython --profile=pyspark ทำงานได้ดีและเชื่อมต่อกับคลัสเตอร์ประกาย อย่างไรก็ตาม $ ipython notebook --profile=pyspark [<stuff is here>] Unrecognized alias: "profile=pyspark", it will probably …

3
เครื่องแยกตัวประกอบเขตข้อมูล
ทุกคนสามารถอธิบายได้ว่าเครื่องแยกตัวประกอบแบบตระหนักถึงสนาม (FFM) เปรียบเทียบกับเครื่องแยกตัวประกอบมาตรฐาน (FM) ได้อย่างไร มาตรฐาน: http://www.ismll.uni-hildesheim.de/pub/pdfs/Rendle2010FM.pdf "Field Aware": http://www.csie.ntu.edu.tw/~r01922136/kaggle-2014-criteo.pdf

2
Neural net สำหรับการตรวจสอบเซิร์ฟเวอร์
ฉันกำลังดู pybrain สำหรับการตรวจสอบการเตือนเซิร์ฟเวอร์และหาสาเหตุที่แท้จริงของปัญหา ฉันมีความสุขกับการฝึกอบรมโดยใช้การเรียนรู้แบบมีผู้สอนและดูแลชุดข้อมูลการฝึกอบรม ข้อมูลมีโครงสร้างดังนี้: เซิร์ฟเวอร์ประเภทA # 1 นาฬิกาปลุกประเภท 1 Alarm type 2 เซิร์ฟเวอร์ประเภทA # 2 นาฬิกาปลุกประเภท 1 Alarm type 2 เซิร์ฟเวอร์ประเภทB # 1 Alarm type 99 Alarm type 2 ดังนั้นจึงมีnเซิร์ฟเวอร์กับxสัญญาณเตือนที่สามารถหรือUP DOWNทั้งสองnและxเป็นตัวแปร หากเซิร์ฟเวอร์ A1 มีสัญญาณเตือน 1 & 2เหมือนDOWNกันเราสามารถพูดได้ว่าบริการ aหยุดทำงานบนเซิร์ฟเวอร์นั้นและเป็นสาเหตุของปัญหา หากการเตือน 1หยุดทำงานบนเซิร์ฟเวอร์ทั้งหมดเราสามารถพูดได้ว่าบริการ aเป็นสาเหตุ อาจมีหลายตัวเลือกสำหรับสาเหตุดังนั้นการจำแนกแบบตรงจึงไม่เหมาะสม ฉันต้องการผูกแหล่งข้อมูลในภายหลังกับเน็ต เช่นสคริปต์ที่ ping บริการภายนอกบางอย่าง การเตือนภัยที่เหมาะสมทั้งหมดอาจไม่ถูกเรียกใช้ในคราวเดียวเนื่องจากการตรวจสอบบริการแบบอนุกรมดังนั้นจึงสามารถเริ่มต้นด้วยเซิร์ฟเวอร์หนึ่งลงจากนั้นเซิร์ฟเวอร์อื่นลงอีก 5 นาทีในภายหลัง …

5
จะรวมข้อมูลรายเดือนรายวันและรายสัปดาห์ได้อย่างไร
Google Trends ส่งคืนข้อมูลรายสัปดาห์ดังนั้นฉันต้องหาวิธีที่จะรวมเข้ากับข้อมูลรายวัน / รายเดือนของฉัน สิ่งที่ฉันทำไปแล้วคือการแบ่งเซเรียแต่ละเป็นข้อมูลรายวันสำหรับตัวอย่าง: จาก: 2013-03-03 - 2013-03-09 37 ถึง: 2013-03-03 37 2013-03-04 37 2013-03-05 37 2013-03-06 37 2013-03-07 37 2013-03-08 37 2013-03-09 37 แต่นี่เป็นการเพิ่มความซับซ้อนให้กับปัญหาของฉัน ฉันพยายามคาดคะเนการค้นหา google จากค่า 6 เดือนล่าสุดหรือ 6 ค่าในข้อมูลรายเดือน ข้อมูลรายวันจะบ่งบอกถึงการทำงานใน 180 ค่าที่ผ่านมา (ฉันมีข้อมูล 10 ปีดังนั้น 120 คะแนนในข้อมูลรายเดือน / 500+ ในข้อมูลรายสัปดาห์ / 3,500+ ในข้อมูลรายวัน) อีกวิธีหนึ่งก็คือ "ผสาน" …

2
การแก้ระบบสมการด้วยข้อมูลที่กระจัดกระจาย
ฉันพยายามที่จะแก้ชุดสมการซึ่งมีตัวแปรอิสระ 40 ตัว (x1, ... , x40) และตัวแปรตาม (y) หนึ่งตัว จำนวนสมการทั้งหมด (จำนวนแถว) คือ ~ 300 และฉันต้องการแก้สำหรับชุดของ 40 สัมประสิทธิ์ที่ช่วยลดข้อผิดพลาดรวมของสี่เหลี่ยมจัตุรัสระหว่าง y และค่าที่คาดการณ์ไว้ ปัญหาของฉันคือเมทริกซ์เบาบางมากและฉันไม่รู้วิธีที่ดีที่สุดในการแก้ระบบสมการด้วยข้อมูลเบาบาง ตัวอย่างของชุดข้อมูลที่แสดงด้านล่าง: y x1 x2 x3 x4 x5 x6 ... x40 87169 14 0 1 0 0 2 ... 0 46449 0 0 4 0 1 4 ... 12 846449 …

1
โซลูชั่นสำหรับการจำแนกคลัสเตอร์ออนไลน์อย่างต่อเนื่อง?
ให้ฉันแสดงตัวอย่างของแอปพลิเคชันการจัดกลุ่มออนไลน์สมมุติ: ณ เวลาที่มีการจัดสรร n คะแนน 1,2,3,4 ให้กับคลัสเตอร์สีน้ำเงิน A และคะแนน b จะมีการจัดสรร 5,6,7 ไปยังคลัสเตอร์ B สีแดง ในเวลา n + 1 จุดใหม่ a ถูกแนะนำซึ่งถูกกำหนดให้กับคลัสเตอร์สีน้ำเงิน A แต่ยังทำให้จุด b ถูกกำหนดให้กับคลัสเตอร์สีน้ำเงิน A เช่นกัน ในท้ายที่สุดคะแนน 1,2,3,4, a, b เป็นของ A และคะแนน 5,6,7 ถึง B สำหรับฉันนี่ดูเหมือนจะสมเหตุสมผล สิ่งที่ดูเหมือนง่ายๆในตอนแรกนั้นเป็นเรื่องยากเล็กน้อย - เพื่อรักษาตัวระบุข้ามขั้นตอนเวลา ให้ฉันพยายามทำให้จุดนี้ชัดเจนขึ้นด้วยตัวอย่างของเส้นขอบที่มากขึ้น: จุดสีเขียวจะทำให้จุดสีฟ้าสองและจุดสีแดงสองจุดถูกรวมเข้าด้วยกันเป็นหนึ่งกลุ่มซึ่งฉันตัดสินใจโดยไม่ตั้งใจว่าจะใช้สีฟ้า - ใจนี่เป็นความคิดแบบมนุษย์ของฉันที่ทำงานอยู่แล้ว! คอมพิวเตอร์ในการตัดสินใจนี้จะต้องใช้กฎ ตัวอย่างเช่นเมื่อมีการรวมคะแนนเข้าในคลัสเตอร์ดังนั้นเอกลักษณ์ของคลัสเตอร์จะถูกกำหนดโดยเสียงส่วนใหญ่ ในกรณีนี้เราจะพบกับการดึง - …

1
Fisher Scoring v / s พิกัดโคตรสำหรับ MLE ใน R
ฟังก์ชันฐาน R glm()ใช้การให้คะแนน Fishers สำหรับ MLE ในขณะที่วิธีการglmnetดูเหมือนจะใช้พิกัดโคตรเพื่อแก้สมการเดียวกัน โคตรประสานงานนั้นใช้เวลาได้อย่างมีประสิทธิภาพมากกว่า Fisher Scoring เนื่องจาก Fisher Scoring คำนวณเมทริกซ์อนุพันธ์ลำดับที่สองนอกเหนือจากการดำเนินการเมทริกซ์อื่น ๆ ซึ่งทำให้มีราคาแพงในการปฏิบัติในขณะที่โคตรประสานงานสามารถทำงานเดียวกันในเวลา O (np) ทำไมฟังก์ชั่นพื้นฐานของ R จึงใช้ Fisher Scoring? วิธีนี้มีความได้เปรียบเหนือวิธีการเพิ่มประสิทธิภาพอื่น ๆ หรือไม่? การประสานงานทางสายเลือดและการให้คะแนนของชาวประมงเปรียบเทียบกันอย่างไร ฉันค่อนข้างใหม่ในการทำฟิลด์นี้ดังนั้นความช่วยเหลือหรือทรัพยากรใด ๆ จะเป็นประโยชน์

3
สร้างตัวจําแนกไบนารีด้วยข้อมูลเชิงบวกและไม่มีป้ายกำกับเท่านั้น
ฉันมี 2 ชุดข้อมูลหนึ่งชุดมีอินสแตนซ์ที่เป็นบวกของสิ่งที่ฉันต้องการตรวจจับและอีกชุดมีอินสแตนซ์ที่ไม่มีชื่อ ฉันสามารถใช้วิธีการใดได้บ้าง? ตัวอย่างเช่นสมมติว่าเราต้องการทำความเข้าใจการตรวจจับอีเมลขยะโดยดูจากลักษณะโครงสร้างอีเมลบางส่วน เรามีหนึ่งชุดของอีเมลสแปม 10,000 ชุดและหนึ่งชุดของอีเมล 100,000 ชุดที่เราไม่ทราบว่าเป็นสแปมหรือไม่ เราจะแก้ไขปัญหานี้ได้อย่างไร (โดยไม่ต้องติดป้ายกำกับใด ๆ ของข้อมูลที่ไม่มีชื่อ) เราจะทำอย่างไรถ้าเรามีข้อมูลเพิ่มเติมเกี่ยวกับสัดส่วนของสแปมในข้อมูลที่ไม่มีป้ายกำกับ (เช่นถ้าเราประเมินว่าระหว่าง 20-40% ของอีเมลที่ไม่มีป้ายกำกับ 100000 รายการเป็นจดหมายขยะ)

4
GLM เป็นรูปแบบการเรียนรู้ทางสถิติหรือเครื่องหรือไม่
ฉันคิดว่าแบบจำลองเชิงเส้นทั่วไป (GLM) จะถือเป็นแบบจำลองทางสถิติ แต่เพื่อนคนหนึ่งบอกฉันว่าเอกสารบางประเภทจัดเป็นเทคนิคการเรียนรู้ของเครื่อง สิ่งใดเป็นจริง (หรือแม่นยำยิ่งขึ้น) คำอธิบายใด ๆ ที่จะได้รับการชื่นชม

4
เทคนิคการแยกคุณสมบัติ - สรุปลำดับของข้อมูล
ฉันมักจะสร้างแบบจำลอง (การจำแนกประเภทหรือการถดถอย) ที่ฉันมีตัวแปรตัวทำนายบางอย่างที่เป็นลำดับและฉันพยายามค้นหาคำแนะนำทางเทคนิคสำหรับการสรุปพวกเขาด้วยวิธีที่ดีที่สุดเท่าที่จะทำได้เพื่อรวมไว้เป็นตัวทำนายในแบบจำลอง ตัวอย่างที่เป็นรูปธรรมสมมติว่ามีการสร้างแบบจำลองเพื่อคาดการณ์ว่าลูกค้าจะออกจาก บริษัท ในอีก 90 วันข้างหน้า (ทุกเวลาระหว่าง t ถึง t + 90 ซึ่งเป็นผลลัพธ์ไบนารี) หนึ่งในตัวทำนายที่มีคือระดับของยอดคงเหลือทางการเงินของลูกค้าสำหรับช่วงเวลา t_0 ถึง t-1 บางทีนี่อาจหมายถึงการสังเกตรายเดือนสำหรับ 12 เดือนก่อนหน้า (เช่น 12 การวัด) ฉันกำลังมองหาวิธีสร้างคุณสมบัติจากซีรี่ส์นี้ ฉันใช้คำอธิบายของชุดลูกค้าแต่ละชุดเช่นค่าเฉลี่ยสูงต่ำ std dev. พอดีกับการถดถอย OLS เพื่อรับแนวโน้ม มีวิธีอื่นในการคำนวณคุณสมบัติหรือไม่ มาตรการอื่น ๆ ของการเปลี่ยนแปลงหรือความผันผวน? เพิ่ม: ดังที่ได้กล่าวไว้ในการตอบกลับด้านล่างฉันยังพิจารณา (แต่ลืมที่จะเพิ่มที่นี่) โดยใช้ Dynamic Time Warping (DTW) และการจัดกลุ่มตามลำดับชั้นบนเมทริกซ์ระยะทางที่ได้ - สร้างกลุ่มจำนวนหนึ่งแล้วใช้กลุ่มสมาชิกเป็นคุณลักษณะ การให้คะแนนข้อมูลการทดสอบน่าจะเป็นไปตามกระบวนการที่ทำ DTW ในกรณีใหม่และกลุ่ม …

3
อัลกอริทึมลดแผนที่เขียนสำหรับ MongoDB สามารถพอร์ตไปยัง Hadoop ในภายหลังได้หรือไม่?
ใน บริษัท ของเราเรามีฐานข้อมูล MongoDB ที่มีข้อมูลที่ไม่มีโครงสร้างจำนวนมากซึ่งเราจำเป็นต้องใช้อัลกอริทึมลดแผนที่เพื่อสร้างรายงานและการวิเคราะห์อื่น ๆ เรามีสองวิธีในการเลือกจากการนำการวิเคราะห์ที่ต้องการไปใช้: วิธีหนึ่งคือการดึงข้อมูลจาก MongoDB ไปยังคลัสเตอร์ Hadoop และทำการวิเคราะห์อย่างสมบูรณ์ในแพลตฟอร์ม Hadoop อย่างไรก็ตามสิ่งนี้ต้องการการลงทุนอย่างมากในการเตรียมแพลตฟอร์ม (ซอฟต์แวร์และฮาร์ดแวร์) และให้ความรู้แก่ทีมเพื่อทำงานกับ Hadoop และเขียนงานลดแผนที่ อีกวิธีหนึ่งคือการใช้ความพยายามของเราในการออกแบบอัลกอริธึมลดแผนที่และเรียกใช้อัลกอริธึมบนฟังก์ชันลดแผนที่ MongoDB ด้วยวิธีนี้เราสามารถสร้างต้นแบบเริ่มต้นของระบบสุดท้ายที่สามารถสร้างรายงาน ฉันรู้ว่าฟังก์ชั่นลดแผนที่ของ MongoDB นั้นช้ากว่ามากเมื่อเทียบกับ Hadoop แต่ปัจจุบันข้อมูลไม่ได้ใหญ่ขนาดนั้นที่ทำให้เกิดปัญหาคอขวดนี้ คำถามคือการใช้วิธีที่สองและเขียนอัลกอริธึมสำหรับ MongoDB พวกเขาสามารถย้ายไปที่ Hadoop ได้ในภายหลังด้วยการปรับเปลี่ยนที่จำเป็นเล็กน้อยและการออกแบบอัลกอริทึมใหม่หรือไม่? MongoDB รองรับ JavaScript แต่ความแตกต่างของภาษาการเขียนโปรแกรมนั้นง่ายต่อการจัดการ อย่างไรก็ตามมีความแตกต่างพื้นฐานในรูปแบบการลดแผนที่ของ MongoDB และ Hadoop ที่อาจบังคับให้เราออกแบบอัลกอริทึมใหม่อย่างมีนัยสำคัญสำหรับการย้ายไปยัง Hadoop หรือไม่?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.