วิทยาศาสตร์ข้อมูล

ถามตอบสำหรับผู้เชี่ยวชาญด้านข้อมูลวิทยาศาสตร์ผู้เชี่ยวชาญด้านการเรียนรู้ของเครื่องจักรและผู้ที่สนใจเรียนรู้เพิ่มเติมเกี่ยวกับสาขานี้

1
ความแตกต่างของฟังก์ชั่นการเปิดใช้งานในเครือข่ายประสาทโดยทั่วไป
ฉันได้ศึกษาประเภทฟังก์ชั่นการเปิดใช้งานสำหรับเครือข่ายประสาท ฟังก์ชั่นนั้นค่อนข้างตรงไปตรงมา แต่ความแตกต่างของแอพพลิเคชั่นนั้นไม่ชัดเจน มันสมเหตุสมผลที่หนึ่งแตกต่างระหว่างฟังก์ชั่นประเภทตรรกะและเชิงเส้นขึ้นอยู่กับเอาต์พุตไบนารี / ต่อเนื่องที่ต้องการ แต่สิ่งที่เป็นข้อได้เปรียบของฟังก์ชั่น sigmoid มากกว่าเชิงเส้นง่าย ๆ ? ReLU นั้นเข้าใจยากเป็นพิเศษสำหรับฉันเช่น: อะไรคือจุดที่ใช้ฟังก์ชั่นที่มีลักษณะเป็นเส้นตรงในกรณีที่มีอินพุตเป็นบวก แต่ "แบน" ในกรณีที่เป็นฟิล์มเนกาทีฟ? สัญชาตญาณที่อยู่เบื้องหลังสิ่งนี้คืออะไร? หรือเป็นเพียงแค่ข้อผิดพลาดในการทดลองง่ายๆไม่มีอะไรเพิ่มเติม

3
สัญชาตญาณเบื้องหลัง Boltzmann เครื่อง จำกัด (RBM)
ฉันผ่านหลักสูตร Neural Networks ของ Geoff Hinton ใน Coursera และผ่านการแนะนำเครื่องจักร boltzmann ที่ จำกัดแต่ฉันก็ยังไม่เข้าใจสัญชาตญาณของ RBMs ทำไมเราต้องคำนวณพลังงานในเครื่องนี้ และความน่าจะเป็นที่ใช้ในเครื่องนี้คืออะไร? ฉันยังเห็นวิดีโอนี้ ในวิดีโอเขาเพิ่งเขียนความน่าจะเป็นและสมการพลังงานก่อนขั้นตอนการคำนวณและดูเหมือนจะไม่ใช้ที่ใดก็ได้ เมื่อเพิ่มด้านบนฉันไม่แน่ใจว่าฟังก์ชันความน่าจะเป็นมีไว้เพื่ออะไร?

5
ไลบรารี Python เพื่อใช้โมเดล Markov ที่ซ่อนอยู่
ห้องสมุดไพ ธ อนที่มีเสถียรภาพอะไรบ้างที่ฉันสามารถใช้เพื่อสร้างโมเดลมาร์คอฟที่ซ่อนอยู่ได้ ฉันต้องการเอกสารที่ดีพอสมควรเพราะฉันไม่เคยใช้รุ่นนี้มาก่อน อีกวิธีหนึ่งมีวิธีที่ตรงกว่าในการทำการวิเคราะห์อนุกรมเวลาบนชุดข้อมูลโดยใช้ HMM หรือไม่

4
R: การเรียนรู้ของเครื่องบน GPU
มีชุดการเรียนรู้ของเครื่องสำหรับ R ที่สามารถใช้ GPU เพื่อปรับปรุงความเร็วการฝึกอบรม (เช่น theano จากโลกหลาม) หรือไม่? ฉันเห็นว่ามีแพ็กเกจที่เรียกว่า gputools ซึ่งอนุญาตให้เรียกใช้โค้ดบน gpu แต่ฉันกำลังมองหาไลบรารี่ที่สมบูรณ์สำหรับการเรียนรู้ของเครื่อง

4
จะระบุคุณลักษณะที่สำคัญได้อย่างไร
สมมติว่าชุดของข้อมูลที่มีโครงสร้างแบบหลวม ๆ (เช่นตารางเว็บ / เปิดข้อมูลที่เชื่อมโยง) ซึ่งประกอบด้วยแหล่งข้อมูลจำนวนมาก ไม่มี schema ทั่วไปตามด้วยข้อมูลและแต่ละแหล่งสามารถใช้แอตทริบิวต์คำพ้องความหมายเพื่ออธิบายค่า (เช่น "สัญชาติ" กับ "bornIn") เป้าหมายของฉันคือการค้นหาคุณลักษณะ "สำคัญ" ที่ "กำหนด" เอนทิตีที่พวกเขาอธิบาย ดังนั้นเมื่อฉันพบค่าเดียวกันสำหรับแอตทริบิวต์ดังกล่าวฉันจะรู้ว่าคำอธิบายทั้งสองมีแนวโน้มมากที่สุดเกี่ยวกับเอนทิตีเดียวกัน (เช่นบุคคลเดียวกัน) ตัวอย่างเช่นแอตทริบิวต์ "lastName" นั้นเลือกปฏิบัติมากกว่าแอตทริบิวต์ "สัญชาติ" ฉันจะค้นหาคุณลักษณะที่สำคัญกว่าตัวอื่นได้อย่างไร (ทางสถิติ) วิธีแก้ปัญหาแบบไร้เดียงสาคือการใช้ IDF เฉลี่ยของค่าของแต่ละคุณลักษณะและทำให้สิ่งนี้เป็นปัจจัย "สำคัญ" ของแอตทริบิวต์ วิธีที่คล้ายกันคือการนับจำนวนค่าที่แตกต่างกันปรากฏสำหรับแต่ละแอตทริบิวต์ ฉันได้เห็นคุณลักษณะคำศัพท์หรือการเลือกคุณลักษณะในการเรียนรู้ของเครื่อง แต่ฉันไม่ต้องการทิ้งคุณลักษณะที่เหลืออยู่ฉันแค่ต้องการให้น้ำหนักที่สูงขึ้นแก่สิ่งที่สำคัญที่สุด

4
เครื่องมือวิทยาศาสตร์ข้อมูลโดยใช้ Scala
ฉันรู้ว่า Spark ได้รวมเข้ากับ Scala อย่างสมบูรณ์ มันใช้กรณีเป็นเฉพาะสำหรับชุดข้อมูลขนาดใหญ่ เครื่องมืออื่นใดที่รองรับสกาลาได้ดี Scala เหมาะสมที่สุดสำหรับชุดข้อมูลขนาดใหญ่กว่านี้หรือไม่? หรือมันยังเหมาะกับชุดข้อมูลที่มีขนาดเล็กลงหรือไม่?

2
ความแตกต่างระหว่าง Hadoop และ noSQL คืออะไร
ฉันได้ยินเกี่ยวกับเครื่องมือ / กรอบการทำงานมากมายสำหรับช่วยเหลือผู้คนในการประมวลผลข้อมูล (สภาพแวดล้อมของข้อมูลขนาดใหญ่) หนึ่งเรียกว่า Hadoop และอื่น ๆ เป็นแนวคิด noSQL ความแตกต่างของการประมวลผลคืออะไร? พวกเขาเสริมหรือไม่

3
เหตุใดเราจึงแปลงข้อมูลที่เบ้เป็นการแจกแจงแบบปกติ
ฉันกำลังแก้ไขปัญหาการแข่งขันด้านราคาที่อยู่อาศัยใน Kaggle ( เคอร์เนลของ Human Analog ในราคาบ้าน: เทคนิคการถดถอยขั้นสูง ) และได้ข้ามส่วนนี้: # Transform the skewed numeric features by taking log(feature + 1). # This will make the features more normal. from scipy.stats import skew skewed = train_df_munged[numeric_features].apply(lambda x: skew(x.dropna().astype(float))) skewed = skewed[skewed > 0.75] skewed = skewed.index train_df_munged[skewed] = np.log1p(train_df_munged[skewed]) test_df_munged[skewed] …

2
หน้าต่างบานเลื่อนนำไปสู่การ overfitting ใน LSTM?
ฉันจะใช้ LSTM ของฉันให้มากเกินไปได้หรือไม่ถ้าฉันฝึกฝนผ่านทางหน้าต่างบานเลื่อน? เหตุใดผู้คนจึงไม่ใช้ LSTM สำหรับตัวอย่างที่ง่ายสมมติว่าเราต้องทำนายลำดับของอักขระ: A B C D E F G H I J K L M N O P Q R S T U V W X Y Z มันไม่ดี (หรือดีกว่า) ถ้าฉันฝึก LSTM ด้วยมินิบัสต่อไปนี้: A B C D E F G H I J K L M …

4
ความคล้ายคลึงกันระหว่างสองคำ
ฉันกำลังมองหาห้องสมุด Python ที่ช่วยฉันระบุความเหมือนกันระหว่างสองคำหรือประโยค ฉันจะทำการแปลงไฟล์เสียงเป็นข้อความซึ่งจะส่งผลให้เกิดพจนานุกรมภาษาอังกฤษหรือคำศัพท์ที่ไม่ใช่พจนานุกรม (ซึ่งอาจเป็นชื่อบุคคลหรือชื่อ บริษัท ) หลังจากนั้นฉันต้องเปรียบเทียบกับคำหรือคำที่รู้จัก ตัวอย่าง: 1) ข้อความที่จะส่งผลเสียง: ขอขอบคุณสำหรับการโทรขยายอเมริกา จะได้รับเมื่อเทียบกับอเมริกันเอ็กซ์เพรส ทั้งสองประโยคมีความคล้ายคลึงกัน แต่ไม่เหมือนกัน ดูเหมือนว่าฉันอาจต้องดูจำนวนตัวอักษรที่พวกเขาแบ่งปัน ความคิดใด ๆ ที่จะดี ดูเหมือนว่าฟังก์ชั่นเช่นการค้นหาของ Google "คุณหมายถึง" คุณสมบัติ
15 nlp  nltk 

1
การเอาสตริงออกหลังจากอักขระบางตัวในข้อความที่กำหนด
ฉันมีชุดข้อมูลเหมือนหนึ่งชุดด้านล่าง ฉันต้องการลบตัวละครทั้งหมดหลังจากตัวละคร© ฉันจะทำสิ่งนั้นใน R ได้อย่างไร data_clean_phrase <- c("Copyright © The Society of Geomagnetism and Earth", "© 2013 Chinese National Committee ") data_clean_df <- as.data.frame(data_clean_phrase)
15 r  data-cleaning 

2
ทำไมฟังก์ชั่นการเปิดใช้งานจึงต้องเป็นแบบโมโนโทนิก?
ฉันกำลังเตรียมสอบเครือข่ายประสาท ในหลายโปรโตคอลจากการสอบเดิมฉันได้อ่านว่าฟังก์ชั่นการเปิดใช้งานของเซลล์ประสาท ฉันเข้าใจว่าฟังก์ชั่นการเปิดใช้งานควรมีความแตกต่างได้มีอนุพันธ์ซึ่งไม่ได้เป็น 0 ในจุดส่วนใหญ่และไม่ใช่เชิงเส้น ฉันไม่เข้าใจว่าทำไมการเป็นโมโนโทนิกจึงมีความสำคัญ / เป็นประโยชน์ ฉันรู้ว่าฟังก์ชั่นการเปิดใช้งานต่อไปนี้และพวกเขาเป็นแบบโมโนโทนิค: Relu sigmoid Tanh Softmax: ฉันไม่แน่ใจว่านิยาม monotonicity สามารถใช้ได้กับฟังก์ชั่นด้วยฉ: Rn→ Rม.ฉ:Rn→Rม.f: \mathbb{R}^n \rightarrow \mathbb{R}^mn , m > 1n,ม.>1n, m > 1 Softplus (ประจำตัว) แต่ผมยังไม่เห็นเหตุผลว่าทำไมเช่น 2φ ( x ) = x2φ(x)=x2\varphi(x) = x^2 ทำไมฟังก์ชั่นการเปิดใช้งานจึงต้องเป็นแบบโมโนโทนิก? (คำถามด้านที่เกี่ยวข้อง: มีเหตุผลใดที่ฟังก์ชันลอการิทึม / เลขชี้กำลังไม่ได้ใช้เป็นฟังก์ชันเปิดใช้งานหรือไม่)

5
โครงการวิทยาศาสตร์ข้อมูลโอเพ่นซอร์สที่จะสนับสนุน
การมีส่วนร่วมในโครงการโอเพ่นซอร์สนั้นเป็นวิธีที่ดีในการฝึกหัดสำหรับมือใหม่และลองใช้พื้นที่ใหม่สำหรับนักวิทยาศาสตร์และนักวิเคราะห์ข้อมูลที่มีประสบการณ์ คุณมีส่วนร่วมในโครงการใด โปรดระบุลิงก์แนะนำ + บางส่วนใน Github

2
ข้อแตกต่างของการแนะนำตามรายการและผู้ใช้ใน Mahout
ฉันอยากจะรู้ว่าผู้ใช้ควานช้างตามและคำแนะนำตามรายการแตกต่างกันอย่างไร มันกำหนดว่า ตามผู้ใช้ : แนะนำรายการโดยการค้นหาผู้ใช้ที่คล้ายกัน สิ่งนี้มักจะยากต่อการปรับขนาดเนื่องจากลักษณะของผู้ใช้แบบไดนามิก รายการตาม : คำนวณความคล้ายคลึงกันระหว่างรายการและให้คำแนะนำ รายการมักจะไม่เปลี่ยนแปลงมากนักดังนั้นสิ่งนี้จึงสามารถคำนวณได้จากบรรทัด แต่ถึงแม้ว่าจะมีข้อเสนอแนะสองแบบให้เลือก แต่สิ่งที่ฉันเข้าใจคือทั้งสองอย่างนี้จะใช้ตัวแบบข้อมูลบางตัว (เช่น 1,2 หรือ 1,2, .5 เป็น item1, item2, value หรือ user1, user2, value โดยที่ value ไม่ได้ บังคับ) และจะทำการคำนวณทั้งหมดตามการวัดความคล้ายคลึงกันและฟังก์ชั่น build-in ของผู้แนะนำที่เราเลือกและเราสามารถเรียกใช้คำแนะนำจากผู้ใช้ / รายการตามข้อมูลเดียวกัน (นี่คือสมมติฐานที่ถูกต้องหรือไม่?) ดังนั้นฉันอยากรู้ว่าอัลกอริทึมทั้งสองแบบนี้แตกต่างกันอย่างไร

2
K-หมายถึง vs. K-หมายถึงออนไลน์
K-หมายความว่าเป็นอัลกอริทึมที่รู้จักกันดีสำหรับการจัดกลุ่ม แต่ยังมีการเปลี่ยนแปลงออนไลน์ของอัลกอริทึมดังกล่าว (ออนไลน์ K- หมายถึง) อะไรคือข้อดีข้อเสียของวิธีการเหล่านี้และแต่ละคนควรได้รับความนิยมเมื่อใด?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.