วิทยาศาสตร์ข้อมูล

ถามตอบสำหรับผู้เชี่ยวชาญด้านข้อมูลวิทยาศาสตร์ผู้เชี่ยวชาญด้านการเรียนรู้ของเครื่องจักรและผู้ที่สนใจเรียนรู้เพิ่มเติมเกี่ยวกับสาขานี้

2
มี API ใดบ้างสำหรับการรวบรวมข้อมูลบทคัดย่อของกระดาษ?
หากฉันมีรายชื่อกระดาษที่ยาวมากฉันจะได้นามธรรมของเอกสารเหล่านี้จากอินเทอร์เน็ตหรือฐานข้อมูลใด ๆ ชื่อกระดาษมีลักษณะเหมือน "การประเมินยูทิลิตี้ในการขุดบนเว็บสำหรับโดเมนด้านสาธารณสุข" มีใครรู้ API ใดบ้างที่สามารถให้ทางออกแก่ฉันได้? ฉันพยายามรวบรวมข้อมูล google scholar อย่างไรก็ตาม google บล็อกโปรแกรมรวบรวมข้อมูลของฉัน

2
วิธีการใช้การทำนายลำดับแบบ "หนึ่งต่อหลายคน" และ "หลายต่อหลายคน" ใน Keras อย่างไร
ฉันพยายามตีความความแตกต่างของการเข้ารหัสของ Keras สำหรับการเรียงลำดับแบบหนึ่งต่อหลายคน (เช่นการจัดประเภทของภาพเดี่ยว) และการติดฉลากแบบลำดับต่อเนื่อง (เช่นการจำแนกประเภทของลำดับภาพ) ฉันเห็นรหัสที่แตกต่างกันสองประเภท: ประเภท 1 คือที่ที่ไม่มีการเผยแพร่ TimeDistributed ดังนี้ model=Sequential() model.add(Convolution2D(nb_filters, kernel_size[0], kernel_size[1], border_mode="valid", input_shape=[1, 56,14])) model.add(Activation("relu")) model.add(Convolution2D(nb_filters, kernel_size[0], kernel_size[1])) model.add(Activation("relu")) model.add(MaxPooling2D(pool_size=pool_size)) model.add(Reshape((56*14,))) model.add(Dropout(0.25)) model.add(LSTM(5)) model.add(Dense(50)) model.add(Dense(nb_classes)) model.add(Activation("softmax")) ประเภทที่ 2 คือที่ TimeDistributed ถูกนำไปใช้เช่นนี้ model = Sequential() model.add(InputLayer(input_shape=(5, 224, 224, 3))) model.add(TimeDistributed(Convolution2D(64, (3, 3)))) model.add(TimeDistributed(MaxPooling2D((2,2), strides=(2,2)))) model.add(LSTM(10)) model.add(Dense(3)) …
13 keras  rnn  lstm  sequence 

3
ฉันควรใช้ GPU หรือ CPU ในการอนุมาน
ฉันใช้เครือข่ายประสาทการเรียนรู้อย่างลึกซึ้งที่ได้รับการฝึกฝนโดย GPU ตอนนี้ฉันต้องการปรับใช้กับโฮสต์หลายแห่งเพื่ออนุมาน คำถามคือเงื่อนไขในการตัดสินใจว่าฉันควรใช้ GPU หรือซีพียูในการอนุมานคืออะไร? การเพิ่มรายละเอียดเพิ่มเติมจากความคิดเห็นด้านล่าง ฉันยังใหม่กับสิ่งนี้ดังนั้นคำแนะนำจะได้รับการชื่นชม หน่วยความจำ : GPU คือ K80 Framework : Cuda และ cuDNN ขนาดข้อมูลต่อเวิร์กโหลด : 20G การคำนวณโหนดเพื่อใช้งาน : หนึ่งรายการต่องานแม้ว่าจะต้องการพิจารณาตัวเลือกเครื่องชั่ง ราคา : ฉันสามารถจ่ายค่าตัวเลือก GPU ได้หากเหตุผลนั้นสมเหตุสมผล การปรับใช้ : การทำงานบนเซิร์ฟเวอร์โลหะเปลือยที่โฮสต์อยู่ไม่ใช่ในคลาวด์ ตอนนี้ฉันทำงานบน CPU เพียงเพราะแอปพลิเคชันทำงานได้ดี แต่ด้วยเหตุผลดังกล่าวฉันไม่แน่ใจว่าทำไมถึงมีคนพิจารณา GPU ด้วยซ้ำ

3
NNs ที่เรียนรู้อย่างลึกซึ้งแตกต่างจากตอนที่ฉันเรียนเพียง 4 ปีที่แล้ว (2012) อย่างไร
มีการกล่าวในWikipediaและdeeplearning4jว่าการเรียนรู้ระดับลึก NN (DLNN) เป็น NN ที่มีเลเยอร์ที่ซ่อนอยู่> 1 NN ประเภทนี้เป็นมาตรฐานที่มหาวิทยาลัยสำหรับฉันในขณะที่ DLNN นั้นถูก hyped มากในตอนนี้ เคยไปทำแล้ว - เรื่องใหญ่อะไร ฉันได้ยินมาด้วยว่า NN ที่ซ้อนกันนั้นถือว่าเป็นการเรียนรู้อย่างลึกซึ้ง การเรียนรู้อย่างลึกซึ้งเป็นอย่างไร ภูมิหลังของฉันใน NN ส่วนใหญ่มาจากมหาวิทยาลัยไม่ใช่จากงาน: การศึกษาการใช้งานของ NN ในอุตสาหกรรม มีประมาณ 5 หลักสูตรเกี่ยวกับ artif Intel & จักร เรียน - แม้ว่าอาจจะมี 2 คนใน NN ใช้ NN สำหรับโครงการขนาดเล็กและเรียบง่ายเกี่ยวกับการจดจำภาพ - ใช้ NN-Feed Feed-Forward 3 ชั้น ไม่ได้ทำการวิจัยจริง (เหมือนในวิทยานิพนธ์ของแพทย์) …

2
มีการเปลี่ยนแปลงตัวชี้วัดที่ใช้โดยการโทรกลับก่อนหยุดใน Keras หรือไม่
เมื่อใช้การเรียกกลับก่อนหยุดในการฝึกซ้อมของ Keras จะหยุดเมื่อตัวชี้วัดบางตัว (โดยปกติสูญเสียการตรวจสอบ) ไม่เพิ่มขึ้น มีวิธีใช้ตัวชี้วัดอื่น (เช่นความแม่นยำการเรียกคืนการวัด f) แทนการสูญเสียการตรวจสอบหรือไม่ ตัวอย่างทั้งหมดที่ฉันเคยเห็นมีความคล้ายคลึงกับนี้: callbacks.EarlyStopping (monitor = 'val_loss', อดทน = 5, verbose = 0, mode = 'auto')

3
หมายความว่าอย่างไรเมื่อเราพูดว่าจุดส่วนใหญ่ใน hypercube นั้นอยู่ที่ขอบเขต
ถ้าฉันมี hypercube 50 มิติ และผมนิยามว่ามันเป็นขอบเขตด้วยหรือโดยที่เป็นมิติของไฮคิวบ์ จากนั้นการคำนวณสัดส่วนของคะแนนในเขตแดนของ hypercube ที่จะเป็น0.995มันหมายความว่าอะไร? หมายความว่าส่วนที่เหลือของพื้นที่ว่างเปล่าหรือไม่ ถ้า99 \%ของคะแนนอยู่ที่ขอบเขตแล้วคะแนนภายในลูกบาศก์จะต้องไม่กระจายอย่างสม่ำเสมอ?0.95 &lt; x j &lt; 1 x j 0.995 99 %0&lt;xj&lt;0.050&lt;xj&lt;0.050<x_j<0.050.95&lt;xj&lt;10.95&lt;xj&lt;10.95<x_j<1xjxjx_j0.9950.9950.99599%99%99\%

4
อิมพอร์ตเนื้อหาไฟล์ csv ไปยัง pyspark dataframes
ฉันจะนำเข้าไฟล์. csv ไปยัง pyspark dataframes ได้อย่างไร ฉันพยายามอ่านไฟล์ csv ใน Pandas แล้วแปลงเป็น spark dataframe โดยใช้ createDataFrame แต่ก็ยังแสดงข้อผิดพลาดอยู่ ใครสามารถแนะนำฉันผ่านสิ่งนี้? นอกจากนี้โปรดบอกฉันว่าฉันจะนำเข้าไฟล์ xlsx ได้อย่างไร ฉันกำลังพยายามที่จะนำเข้าเนื้อหา csv ลงในดาต้าดาต้าของ pandas จากนั้นแปลงเป็นเฟรมข้อมูลประกายไฟ แต่มันแสดงข้อผิดพลาด: "Py4JJavaError" An error occurred while calling o28.applySchemaToPythonRDD. : java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient รหัสของฉันคือ: from pyspark import SparkContext from pyspark.sql import SQLContext import …
13 pyspark 


4
ในอัลกอริธึม SVM ทำไมเวกเตอร์ w ตั้งฉากกับการแยกไฮเปอร์เพลน?
ฉันเป็นผู้เริ่มต้นในการเรียนรู้ของเครื่อง ใน SVM ที่ไฮเปอร์เพลแยกถูกกำหนดให้เป็นB ทำไมเราพูดเวกเตอร์มุมฉากกับไฮเปอร์เพลแยก?y=wTx+bY=WTx+ขy = w^T x + bwWw

3
ภาษาธรรมชาติในการสืบค้น SQL
ฉันทำงานพัฒนาระบบ "การแปลงภาษาธรรมชาติเป็น SQL Query" ฉันได้อ่านคำตอบจากคำถามที่คล้ายกัน แต่ไม่สามารถรับข้อมูลที่ฉันต้องการได้ ด้านล่างคือแผนผังลำดับงานสำหรับระบบดังกล่าวซึ่งฉันได้รับจากAlgorithm เพื่อแปลงภาษาธรรมชาติให้เป็นแบบสอบถาม SQL สำหรับฐานข้อมูลเชิงสัมพันธ์โดย Garima Singh, Arun Solanki ฉันเข้าใจจนเป็นส่วนหนึ่งของขั้นตอนการติดแท็กคำพูด แต่ฉันจะเข้าใกล้ขั้นตอนที่เหลือได้อย่างไร ฉันจำเป็นต้องฝึกเคียวรี SQL ที่เป็นไปได้ทั้งหมดหรือไม่? หรือเมื่อส่วนหนึ่งของการติดแท็กคำพูดเสร็จสิ้นฉันต้องเล่นกับคำและสร้างแบบสอบถาม SQL? แก้ไข: ฉันได้ติดตั้งจาก "ขั้นตอน" ผู้ใช้แบบสอบถาม "ถึง" ส่วนหนึ่งของการติดแท็กคำพูด "สำเร็จแล้ว ขอบคุณ.

4
ทางเลือกการเข้ารหัสแบบร้อนสำหรับค่าหมวดใหญ่?
สวัสดีมี dataframe ที่มีค่าหมวดใหญ่มากกว่า 1600 หมวดมีวิธีใดที่ฉันสามารถหาทางเลือกเพื่อที่ฉันจะได้ไม่เกิน 1600 คอลัมน์ ฉันพบลิงค์ด้านล่างที่น่าสนใจhttp://amunategui.github.io/feature-hashing/#sourcecode แต่พวกเขากำลังแปลงเป็นคลาส / วัตถุที่ฉันไม่ต้องการ ฉันต้องการผลลัพธ์สุดท้ายของฉันเป็น dataframe เพื่อให้ฉันสามารถทดสอบกับโมเดลการเรียนรู้ของเครื่องอื่นได้หรือไม่ หรือมีวิธีใดที่ฉันสามารถใช้เมทริกซ์ genetrated ในการฝึกอบรมโมเดลการเรียนรู้ของเครื่องอื่นนอกเหนือจาก Logistic ถดถอยหรือ XGBoost จะมีต่อไปฉันจะใช้?

5
ข้อดีของ pandas dataframe ไปยังฐานข้อมูลเชิงสัมพันธ์ปกติ
ใน Data Science ดูเหมือนว่าหลายคนจะใช้ดาต้าดาต้าเป็นแพนด้าดาต้า อะไรคือคุณสมบัติของหมีแพนด้าที่ทำให้เป็นดาต้าสโตร์ที่เหนือกว่าเมื่อเปรียบเทียบกับฐานข้อมูลเชิงสัมพันธ์แบบปกติเช่นMySQLซึ่งใช้ในการเก็บข้อมูลในด้านอื่น ๆ ของการเขียนโปรแกรม แม้ว่าแพนด้าจะมีฟังก์ชั่นที่มีประโยชน์สำหรับการสำรวจข้อมูล แต่คุณไม่สามารถใช้ SQL และคุณจะสูญเสียคุณสมบัติเช่นการปรับให้เหมาะสมของแบบสอบถามหรือการ จำกัด การเข้าถึง
13 pandas  databases 

1
การคาดการณ์ชุดเวลาหลายมิติและหลายตัวแปร (RNN / LSTM) Keras
ฉันได้รับการพยายามที่จะเข้าใจวิธีการที่จะเป็นตัวแทนของข้อมูลและรูปร่างที่จะทำให้Multidimentionalและหลายตัวแปรเวลาคาดการณ์โดยใช้ Keras (หรือ TensorFlow) ชุด แต่ผมยังไม่ชัดเจนมากหลังจากอ่านบล็อกโพสต์หลาย tutorials / / เอกสารเกี่ยวกับวิธีการที่จะนำเสนอข้อมูลใน รูปร่างที่ถูกต้อง (ตัวอย่างส่วนใหญ่มีค่าน้อยกว่าเล็กน้อย ชุดข้อมูลของฉัน: หลายเมือง ที่ฉันมีข้อมูลเกี่ยวกับพูดอุณหภูมิการจราจรรถยนต์ความชื้น สำหรับพูด 2 ปีที่ผ่านมา (บันทึกหนึ่งรายการในแต่ละวัน) สิ่งที่ฉันต้องการจะทำ: ฉันต้องการที่จะคาดการณ์สำหรับแต่ละเมืองอุณหภูมิที่ฉันคาดหวังสำหรับปีถัดไปโดยใช้รุ่นที่อาจล่าช้า, การจราจรรถยนต์และความชื้น (แน่นอนว่าจะมีคุณสมบัติอื่น ๆ อีกมากมาย แต่นี่เป็นเพียง ตัวอย่างความคิด) สิ่งที่ฉันสับสนเกี่ยวกับ: หากฉันมี 2 เมืองซึ่งฉันบันทึกคุณสมบัติ 3 แห่งไว้สำหรับ 365 วัน ฉันจะกำหนดรูปแบบการป้อนข้อมูลของฉันอย่างไรเพื่อให้แบบจำลองสามารถส่งออกการพยากรณ์เป็นเวลา 365 วันสำหรับเมืองทั้งสองนี้ (เช่นชุดข้อมูลอุณหภูมิ 2 ชุดเป็นเวลา 365 วัน) รูปทรงเทนเซอร์นั้นเป็นไปอย่างง่ายดาย(?, 365, 3)สำหรับ 365 วันและ 3 คุณสมบัติ …
12 python  keras  rnn  lstm 

1
การเรียนรู้หลายงานใน Keras
ฉันกำลังพยายามใช้เลเยอร์ที่แชร์ใน Keras ฉันเห็นว่า Keras มีkeras.layers.concatenateแต่ฉันไม่แน่ใจจากเอกสารเกี่ยวกับการใช้งาน ฉันสามารถใช้มันเพื่อสร้างเลเยอร์ที่ใช้ร่วมกันหลายชั้นได้หรือไม่ อะไรจะเป็นวิธีที่ดีที่สุดในการติดตั้งเครือข่ายประสาทส่วนกลางอย่างง่ายดังที่แสดงด้านล่างโดยใช้ Keras โปรดทราบว่ารูปร่างทั้งหมดของอินพุทเอาท์พุทและเลเยอร์ที่แชร์สำหรับ 3 NN ทั้งหมดนั้นเหมือนกัน มีเลเยอร์ที่แชร์หลายอัน (และเลเยอร์ที่ไม่แชร์) ใน NN สามตัว เลเยอร์สีมีความเป็นเอกลักษณ์ของ NN แต่ละตัวและมีรูปร่างเหมือนกัน โดยทั่วไปรูปภาพแสดงถึง NNs ที่เหมือนกัน 3 รายการพร้อมกับเลเยอร์ที่ซ่อนอยู่หลายชั้นตามด้วยเลเยอร์ที่ซ่อนอยู่ที่ไม่แชร์หลายชั้น ฉันไม่แน่ใจว่าจะแชร์หลายเลเยอร์ได้อย่างไรในตัวอย่าง Twitter มีเลเยอร์ที่แชร์เพียงหนึ่งเลเยอร์ (ตัวอย่างใน API เอกสาร)

1
ดังนั้นสิ่งที่จับกับ LSTM?
ฉันกำลังขยายความรู้ของฉันเกี่ยวกับแพคเกจ Keras และฉันใช้เครื่องมือกับรุ่นที่มีอยู่ ฉันมีปัญหาการจำแนกเลขฐานสองแบบ NLP ที่ฉันพยายามแก้ไขและใช้โมเดลที่แตกต่างกัน หลังจากทำงานกับผลลัพธ์และอ่านเพิ่มเติมเกี่ยวกับ LSTM มากขึ้นดูเหมือนว่าวิธีการนี้ดีกว่าสิ่งอื่น ๆ ที่ฉันได้ลอง (ในชุดข้อมูลหลายชุด) ฉันคิดกับตัวเองอยู่เสมอว่า "ทำไม / เมื่อไหร่คุณจะไม่ใช้ LSTM" การใช้ประตูเพิ่มเติมซึ่งเป็นของ LSTM ทำให้ฉันมีความรู้สึกสมบูรณ์แบบหลังจากมีบางรุ่นที่ต้องทนทุกข์ทรมานจากการไล่ระดับสีที่หายไป ดังนั้นสิ่งที่จับกับ LSTM? พวกเขาไม่ทำดีที่ไหน ฉันรู้ว่าไม่มีสิ่งเช่นอัลกอริทึม "หนึ่งขนาดเหมาะกับทุกคน" ดังนั้นจึงต้องมีข้อเสียของ LSTM

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.