วิทยาศาสตร์ข้อมูล

ถามตอบสำหรับผู้เชี่ยวชาญด้านข้อมูลวิทยาศาสตร์ผู้เชี่ยวชาญด้านการเรียนรู้ของเครื่องจักรและผู้ที่สนใจเรียนรู้เพิ่มเติมเกี่ยวกับสาขานี้

5
อะไรคือวิธีมาตรฐานในการคำนวณระยะห่างระหว่างเอกสาร
เมื่อฉันพูดว่า "เอกสาร" ฉันนึกถึงหน้าเว็บต่างๆเช่นบทความ Wikipedia และเรื่องข่าว ฉันต้องการคำตอบที่ให้ทั้งตัวชี้วัดระยะทางวานิลลาคำศัพท์หรือตัวชี้วัดระยะทางความหมายรัฐของศิลปะที่มีการตั้งค่าที่แข็งแกร่งสำหรับหลัง

7
จัดระเบียบกระบวนการเพื่อล้างข้อมูล
จากการเล่นน้ำกับวิทยาศาสตร์ข้อมูลโดยใช้ R ฉันได้ตระหนักว่าการล้างข้อมูลที่ไม่ดีเป็นส่วนสำคัญในการเตรียมข้อมูลสำหรับการวิเคราะห์ มีวิธีปฏิบัติหรือกระบวนการที่ดีที่สุดในการล้างข้อมูลก่อนประมวลผลหรือไม่? ถ้าเป็นเช่นนั้นมีเครื่องมืออัตโนมัติหรือกึ่งอัตโนมัติที่ใช้แนวทางปฏิบัติที่ดีที่สุดเหล่านี้หรือไม่?
34 r  data-cleaning 

3
Multi GPU เป็น keras
คุณสามารถโปรแกรมในไลบรารี keras (หรือเทนเซอร์โฟลว) เพื่อแบ่งพาร์ติชันการฝึกอบรมใน GPU หลาย ๆ ตัวได้อย่างไร สมมติว่าคุณอยู่ในอินสแตนซ์ Amazon ec2 ที่มี 8 GPU และคุณต้องการที่จะใช้ทั้งหมดในการฝึกอบรมได้เร็วขึ้น แต่รหัสของคุณเป็นเพียงสำหรับ CPU หรือ GPU เดียว

5
การเปิดไฟล์ 20GB สำหรับการวิเคราะห์ด้วยแพนด้า
ฉันกำลังพยายามเปิดไฟล์ที่มี pandas และ python เพื่อการเรียนรู้ของเครื่องมันจะเหมาะสำหรับฉันที่จะมีพวกเขาทั้งหมดใน DataFrame ตอนนี้ไฟล์มีขนาดใหญ่ 18GB และ RAM ของฉันคือ 32 GB แต่ฉันยังคงได้รับข้อผิดพลาดของหน่วยความจำ จากประสบการณ์ของคุณเป็นไปได้ไหม ถ้าคุณไม่ทราบวิธีที่ดีกว่าที่จะไปรอบ ๆ นี้? (ตารางรังผึ้งเพิ่มขนาด RAM ของฉันเป็น 64 สร้างฐานข้อมูลและเข้าถึงจากงูหลาม)

4
คำอธิบายที่ใช้งานง่ายของการสูญเสียการประมาณค่าเสียงรบกวน (NCE)?
ฉันอ่านเกี่ยวกับ NCE (รูปแบบของการสุ่มตัวอย่างผู้สมัคร) จากทั้งสองแหล่ง: การเขียน Tensorflow กระดาษต้นฉบับ ใครสามารถช่วยฉันด้วยสิ่งต่อไปนี้: คำอธิบายง่ายๆเกี่ยวกับวิธีการทำงานของ NCE (ฉันพบว่าข้างต้นยากที่จะแยกวิเคราะห์และทำความเข้าใจเกี่ยวกับดังนั้นสิ่งที่ใช้งานง่ายที่นำไปสู่คณิตศาสตร์ที่นำเสนอจะมีมาก) หลังจากจุดที่ 1 ด้านบนคำอธิบายที่ใช้งานง่ายตามธรรมชาติของสิ่งนี้แตกต่างจากการสุ่มตัวอย่างเชิงลบ ฉันเห็นว่ามีการเปลี่ยนแปลงเล็กน้อยในสูตร แต่ไม่สามารถเข้าใจคณิตศาสตร์ได้ ฉันมีความเข้าใจที่เข้าใจง่ายเกี่ยวกับการสุ่มตัวอย่างเชิงลบในบริบทของword2vec- เราสุ่มเลือกตัวอย่างจากคำศัพท์Vและอัปเดตเฉพาะสิ่งเหล่านั้นเนื่องจาก|V|มีขนาดใหญ่และนี่เป็นการเพิ่มความเร็ว โปรดแก้ไขหากผิด เมื่อใดควรใช้สิ่งใดและจะตัดสินใจอย่างไร มันจะดีถ้าคุณมีตัวอย่าง (อาจเข้าใจได้ง่ายเกี่ยวกับแอปพลิเคชัน) NCE ดีกว่าการสุ่มตัวอย่างเชิงลบหรือไม่ ดีกว่าในลักษณะใด ขอขอบคุณ.

5
กรณีการใช้งาน Apache Spark vs Hadoop มีอะไรบ้าง
ด้วย Hadoop 2.0 และ YARN Hadoop ไม่ได้ผูกติดกับโซลูชันลดแผนที่เท่านั้นอีกต่อไป ด้วยความก้าวหน้าดังกล่าวกรณีการใช้งานของ Apache Spark vs Hadoop คืออะไรเมื่อพิจารณาทั้งสองอย่างบน HDFS ฉันอ่านเอกสารแนะนำสำหรับ Spark แล้ว แต่ฉันอยากรู้ว่าใครเคยเจอปัญหาที่มีประสิทธิภาพและแก้ปัญหาได้ง่ายกว่า Spark เมื่อเทียบกับ Hadoop

1
Keras รุ่นที่ดีที่สุดสำหรับการจำแนกประเภทหลายประเภทคืออะไร?
ฉันกำลังทำงานวิจัยที่จำเป็นที่จะต้องเป็นหนึ่งในประเภทของผู้ชนะสามเหตุการณ์ = ( win, draw, lose) WINNER LEAGUE HOME AWAY MATCH_HOME MATCH_DRAW MATCH_AWAY MATCH_U2_50 MATCH_O2_50 3 13 550 571 1.86 3.34 4.23 1.66 2.11 3 7 322 334 7.55 4.1 1.4 2.17 1.61 รุ่นปัจจุบันของฉันคือ: def build_model(input_dim, output_classes): model = Sequential() model.add(Dense(input_dim=input_dim, output_dim=12, activation=relu)) model.add(Dropout(0.5)) model.add(Dense(output_dim=output_classes, activation='softmax')) model.compile(loss='categorical_crossentropy', optimizer='adadelta') return model …

1
Paper: อะไรคือความแตกต่างระหว่างการปรับสภาพเลเยอร์, ​​การทำซ้ำเป็นชุดงานประจำ (2016), และการวางเป็นบรรทัดฐานปกติ RNN (2015)?
ดังนั้นเมื่อเร็ว ๆ นี้มีกระดาษมาตรฐานการทำให้เป็นปกติ นอกจากนี้ยังมีการนำไปใช้กับ Keras แต่ฉันจำได้ว่ามีเอกสารชื่อRecurrent Batch Normalization (Cooijmans, 2016) และBatch Normalized Recurrent Neural Networks (Laurent, 2015) ความแตกต่างระหว่างสามสิ่งนี้คืออะไร? มีส่วนงานที่เกี่ยวข้องนี้ฉันไม่เข้าใจ: การทำให้เป็นมาตรฐานของกลุ่มได้ถูกขยายไปยังเครือข่ายประสาทที่เกิดขึ้นอีกครั้ง [Laurent et al., 2015, Amodei et al., 2015, Cooijmans et al., 2016] งานก่อนหน้านี้ [Cooijmans et al., 2016] แสดงให้เห็นถึงประสิทธิภาพที่ดีที่สุดของการทำให้เป็นมาตรฐานการเกิดซ้ำที่เกิดขึ้นจากการรักษาสถิติการทำให้ปกติเป็นอิสระสำหรับแต่ละขั้นตอน ผู้เขียนแสดงให้เห็นว่าการกำหนดค่าเริ่มต้นของพารามิเตอร์ gain ในเลเยอร์การทำให้เป็นปกติของแบตช์กลับเป็น 0.1 ทำให้เกิดความแตกต่างอย่างมีนัยสำคัญในประสิทธิภาพสุดท้ายของตัวแบบ งานของเรายังเกี่ยวข้องกับการทำให้น้ำหนักปกติ [Salimans and Kingma, 2016] ในการทำให้น้ำหนักเป็นมาตรฐานแทนที่จะเป็นความแปรปรวนค่า L2 …

5
Deep Learning vs gradient boosting: เมื่อไรที่จะใช้อะไร
ฉันมีปัญหาข้อมูลขนาดใหญ่กับชุดข้อมูลขนาดใหญ่ (ใช้เวลา 50 ล้านแถวและ 200 คอลัมน์) ชุดข้อมูลประกอบด้วยคอลัมน์ตัวเลขประมาณ 100 คอลัมน์และคอลัมน์หมวด 100 คอลัมน์และคอลัมน์ตอบกลับที่แสดงถึงปัญหาระดับไบนารี ความสำคัญของแต่ละคอลัมน์ที่มีค่าน้อยกว่า 50 ฉันต้องการรู้เบื้องต้นว่าฉันควรจะไปเรียนรู้วิธีการเรียนรู้แบบลึกหรือวิธีการเรียนรู้ด้วยต้นไม้ทั้งมวล (เช่นการไล่ระดับสีไล่ระดับ, adaboost หรือป่าสุ่ม) มีการวิเคราะห์ข้อมูลเชิงสำรวจหรือเทคนิคอื่น ๆ ที่สามารถช่วยฉันตัดสินใจเลือกวิธีหนึ่งมากกว่าวิธีอื่นได้หรือไม่?

5
ฟังก์ชั่นถามคืออะไรและฟังก์ชั่น V ในการเรียนรู้การเสริมแรงคืออะไร?
สำหรับฉันแล้วดูเหมือนว่าฟังก์ชั่นสามารถแสดงออกได้อย่างง่ายดายด้วยฟังก์ชั่นและทำให้ฟังก์ชั่นดูเหมือนจะไม่จำเป็นสำหรับฉัน อย่างไรก็ตามฉันใหม่เพื่อเสริมการเรียนรู้ดังนั้นฉันคิดว่าฉันมีบางอย่างผิดปกติVVVQQQVVV คำนิยาม Q- และ V-การเรียนรู้อยู่ในบริบทของมาร์คอฟกระบวนการตัดสินใจ MDPเป็น 5 tupleด้วย(S,A,P,R,γ)(S,A,P,R,γ)(S, A, P, R, \gamma) SSSคือชุดของสถานะ (โดยทั่วไปจะ จำกัด ) AAAคือชุดของการกระทำ (โดยทั่วไป จำกัด ) s s ′ aP(s,s′,a)=P(st+1=s′|st=s,at=a)P(s,s′,a)=P(st+1=s′|st=s,at=a)P(s, s', a) = P(s_{t+1} = s' | s_t = s, a_t = a)ความน่าจะเป็นที่จะได้รับจากรัฐไปยังรัฐด้วยการกระทำssss′s′s'aaa s s ′ a s ′R(s,s′,a)∈RR(s,s′,a)∈RR(s, s', a) \in \mathbb{R}เป็นรางวัลที่ได้ทันทีหลังจากที่ไปจากรัฐไปยังรัฐด้วยการกระทำ (สำหรับฉันดูเหมือนว่าโดยทั่วไปมักเรื่องของ)ssss′s′s'aaas′s′s' γ …

3
ในตัวแยกประเภท softmax ทำไมต้องใช้ฟังก์ชั่น exp เพื่อทำให้เป็นมาตรฐาน?
เหตุใดจึงต้องใช้ softmax เมื่อเทียบกับการปรับมาตรฐาน ในพื้นที่แสดงความคิดเห็นของคำตอบยอดนิยมของคำถามนี้ @Kilian Batzner ยกคำถาม 2 ข้อซึ่งทำให้ฉันสับสนมาก ดูเหมือนว่าไม่มีใครให้คำอธิบายยกเว้นผลประโยชน์เชิงตัวเลข ฉันได้รับเหตุผลในการใช้ Cross-Entropy Loss แต่นั่นเกี่ยวข้องกับ softmax อย่างไร คุณกล่าวว่า "ฟังก์ชั่น softmax สามารถมองเห็นได้ว่าพยายามลดการข้ามเอนโทรปีระหว่างการทำนายและความจริง" สมมติว่าฉันจะใช้การทำให้เป็นมาตรฐาน / เชิงเส้น แต่ยังคงใช้การสูญเสียข้าม จากนั้นฉันก็จะพยายามลด Cross-Entropy ดังนั้น softmax จะเชื่อมโยงกับ Cross-Entropy อย่างไรเพื่อประโยชน์ด้านตัวเลข? สำหรับมุมมองความน่าจะเป็น: อะไรคือแรงจูงใจในการดูความน่าจะเป็นของบันทึก เหตุผลดูเหมือนจะเป็นแบบ "เราใช้ e ^ x ใน softmax เพราะเราตีความว่า x เป็นความน่าจะเป็นบันทึก" ด้วยเหตุผลเดียวกับที่เราสามารถพูดได้เราใช้ e ^ e ^ e ^ …

7
ทำไมข้อมูลควรถูกสับสำหรับการเรียนรู้ของเครื่อง
ในงานการเรียนรู้ของเครื่องเป็นเรื่องปกติที่จะสับเปลี่ยนข้อมูลและทำให้เป็นมาตรฐาน วัตถุประสงค์ของการทำให้เป็นมาตรฐานมีความชัดเจน (สำหรับการมีช่วงของค่าคุณลักษณะเดียวกัน) แต่หลังจากที่ต้องดิ้นรนมากฉันไม่พบเหตุผลที่มีค่าสำหรับการสับข้อมูล ฉันได้อ่านบทความนี้ที่นี่พูดคุยเมื่อเราต้องการสับเปลี่ยนข้อมูล แต่ไม่ชัดเจนว่าทำไมเราควรสลับข้อมูล นอกจากนี้ฉันเห็นบ่อยในอัลกอริธึมเช่น Adam หรือ SGD ที่เราต้องการการไล่ระดับแบทช์ (ควรแยกข้อมูลออกเป็นชุดย่อยและต้องระบุขนาดแบทช์) มันมีความสำคัญตามโพสต์นี้เพื่อสลับข้อมูลสำหรับแต่ละยุคเพื่อให้มีข้อมูลที่แตกต่างกันสำหรับแต่ละชุด ดังนั้นข้อมูลอาจถูกสับเปลี่ยนและมีการเปลี่ยนแปลงที่สำคัญกว่า ทำไมเราทำเช่นนี้?

5
แปลงรายการของรายการเป็น Pandas Dataframe
ฉันพยายามที่จะแปลงรายการของรายการที่มีลักษณะดังนี้เป็น Pandas Dataframe [['New York Yankees ', '"Acevedo Juan" ', 900000, ' Pitcher\n'], ['New York Yankees ', '"Anderson Jason"', 300000, ' Pitcher\n'], ['New York Yankees ', '"Clemens Roger" ', 10100000, ' Pitcher\n'], ['New York Yankees ', '"Contreras Jose"', 5500000, ' Pitcher\n']] ฉันพยายามแปลงแต่ละรายการในอาเรย์เป็นกรอบข้อมูลแพนด้าซึ่งมีสี่คอลัมน์ อะไรจะเป็นวิธีที่ดีที่สุดในการทำเช่นนี้เนื่องจาก pd.Dataframe ไม่ได้ให้สิ่งที่ฉันกำลังมองหา
30 pandas 

1
ทำไม xgboost จึงเร็วกว่า GradientBoostingClassifier ของ sklearn มาก?
ฉันพยายามที่จะฝึกอบรมการยกระดับความลาดชันของตัวอย่างมากกว่า 50k ด้วยคุณสมบัติตัวเลข 100 ตัว XGBClassifierจัดการ 500 ต้นภายใน 43 วินาทีบนเครื่องของฉันในขณะที่GradientBoostingClassifierจัดการเพียง 10 ต้น (!) ใน 1 นาทีและ 2 วินาที :( ฉันไม่ได้พยายามที่จะเติบโต 500 ต้นเพราะจะใช้เวลาหลายชั่วโมงฉันใช้แบบเดียวกันlearning_rateและmax_depthการตั้งค่า ดูด้านล่าง อะไรทำให้ XGBoost เร็วขึ้นมาก? มันใช้การปรับแต่งแบบใหม่เพื่อส่งเสริมการไล่ระดับสีที่พวก sklearn ไม่รู้หรือไม่? หรือว่า "ตัดมุม" และปลูกต้นไม้ที่ตื้นขึ้น? ป.ล. ฉันตระหนักถึงการสนทนานี้: https://www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyแต่ไม่สามารถหาคำตอบได้ที่นั่น ... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

4
คู่มือฉบับย่อเกี่ยวกับการฝึกอบรมชุดข้อมูลที่มีความไม่สมดุลสูง
ฉันมีปัญหาการจัดหมวดหมู่โดยมี 1,000 ตัวอย่างบวกและลบ 10,000 ตัวอย่างในชุดการฝึกอบรม ดังนั้นชุดข้อมูลนี้จึงค่อนข้างไม่สมดุล ป่าสุ่มธรรมดา ๆ กำลังพยายามทำเครื่องหมายตัวอย่างการทดสอบทั้งหมดว่าเป็นเสียงส่วนใหญ่ คำตอบที่ดีเกี่ยวกับการสุ่มตัวอย่างย่อยและการสุ่มน้ำหนักป่ามีให้ที่นี่: อะไรคือความหมายของการฝึกอบรมชุดทรีด้วยชุดข้อมูลที่มีอคติสูง? วิธีการจำแนกประเภทใดนอกจาก RF สามารถจัดการปัญหาได้อย่างดีที่สุด?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.