วิทยาศาสตร์ข้อมูล

ถามตอบสำหรับผู้เชี่ยวชาญด้านข้อมูลวิทยาศาสตร์ผู้เชี่ยวชาญด้านการเรียนรู้ของเครื่องจักรและผู้ที่สนใจเรียนรู้เพิ่มเติมเกี่ยวกับสาขานี้

3
การคำนวณแบบขนานและแบบกระจาย
ความแตกต่างระหว่างการคำนวณแบบขนานและแบบกระจายคืออะไร เมื่อพูดถึงความสามารถในการปรับขนาดและประสิทธิภาพมันเป็นเรื่องธรรมดามากที่จะเห็นโซลูชันที่เกี่ยวข้องกับการคำนวณในกลุ่มของเครื่องจักรและบางครั้งมันถูกเรียกว่าการประมวลผลแบบขนานหรือการประมวลผลแบบกระจาย ในบางวิธีการคำนวณดูเหมือนจะขนานกันเสมอเนื่องจากมีสิ่งต่าง ๆ ที่ทำงานพร้อมกัน แต่การคำนวณแบบกระจายนั้นเกี่ยวข้องกับการใช้มากกว่าหนึ่งเครื่องหรือมีความเฉพาะเจาะจงเพิ่มเติมใด ๆ ที่ทำให้การประมวลผลทั้งสองประเภทนี้แตกต่างกันหรือไม่? มันจะไม่ซ้ำซ้อนที่จะพูดเช่นการคำนวณที่ขนานและกระจาย ?

1
จุดแยกถูกเลือกสำหรับตัวแปรต่อเนื่องในต้นไม้การตัดสินใจอย่างไร
ฉันมีคำถามสองข้อที่เกี่ยวข้องกับต้นไม้ตัดสินใจ: หากเรามีคุณลักษณะแบบต่อเนื่องเราจะเลือกค่าการแยกได้อย่างไร ตัวอย่าง: อายุ = (20,29,50,40 .... ) ลองนึกภาพว่าเรามีคุณลักษณะอย่างต่อเนื่องที่มีค่าในR ฉันสามารถเขียนขั้นตอนวิธีการที่พบแยกจุดโวลต์เพื่อที่ว่าเมื่อเราแยกฉโดยโวลต์เรามีกำไรขั้นต่ำสำหรับฉ> วี ?fffRRRvvvfffvvvf>vf>vf>v

5
การทำนายความคล้ายคลึงกันของประโยค
ฉันกำลังมองหาที่จะแก้ปัญหาต่อไปนี้: ฉันมีชุดประโยคเป็นชุดข้อมูลของฉันและฉันต้องการที่จะสามารถพิมพ์ประโยคใหม่และค้นหาประโยคที่ประโยคใหม่คล้ายกับในชุดข้อมูล ตัวอย่างจะมีลักษณะดังนี้: ประโยคใหม่: " I opened a new mailbox" การทำนายขึ้นอยู่กับชุดข้อมูล: Sentence | Similarity A dog ate poop 0% A mailbox is good 50% A mailbox was opened by me 80% ฉันได้อ่านว่าโคไซน์ที่คล้ายคลึงกันสามารถใช้ในการแก้ปัญหาประเภทนี้ที่จับคู่กับ tf-idf (และ RNN ไม่ควรนำการปรับปรุงที่สำคัญไปใช้กับวิธีการพื้นฐาน) หรือword2vecใช้สำหรับปัญหาที่คล้ายกัน สิ่งเหล่านี้มีประโยชน์สำหรับการใช้งานในกรณีนี้หรือไม่ มีเทคนิค / อัลกอริธึมอื่น ๆ ที่จะแก้ปัญหานี้ (โดยเฉพาะกับ Python และ SKLearn แต่ฉันเปิดกว้างเพื่อเรียนรู้เกี่ยวกับ TensorFlow ด้วย)

2
การจัดกลุ่มผู้เยี่ยมชมที่ไม่ซ้ำกันตาม useragent, ip, session_id
ข้อมูลการเข้าถึงเว็บไซต์ที่ระบุในแบบฟอร์มsession_id, ip, user_agentและเวลาเลือกปฏิบัติตามเงื่อนไขด้านล่างคุณจะจัดกลุ่มเซสชันเป็นผู้เยี่ยมชมที่ไม่ซ้ำได้อย่างไร session_id: เป็นรหัสที่มอบให้แก่ผู้เข้าชมใหม่ทุกคน มันไม่หมดอายุอย่างไรก็ตามหากผู้ใช้ไม่ยอมรับคุกกี้ / ล้างคุกกี้ / เปลี่ยนเบราว์เซอร์ / เปลี่ยนอุปกรณ์เขาจะไม่ถูกจดจำอีกต่อไป IP สามารถใช้ร่วมกันระหว่างผู้ใช้ที่แตกต่างกัน (ลองจินตนาการถึงร้านกาแฟ Wi-Fi ฟรีหรือ ISP ของคุณกำหนด IP) และพวกเขามักจะมีอย่างน้อย 2 บ้านและที่ทำงาน User_agentเป็นเวอร์ชันของเบราว์เซอร์ + OS ที่อนุญาตให้แยกความแตกต่างระหว่างอุปกรณ์ ตัวอย่างเช่นผู้ใช้มีแนวโน้มที่จะใช้ทั้งโทรศัพท์และแล็ปท็อป แต่ไม่น่าจะใช้ windows + apple laptop ไม่น่าเป็นไปได้ที่รหัสเซสชันเดียวกันจะมีผู้ใช้หลายคน ข้อมูลอาจดูเป็นซอที่นี่: http://sqlfiddle.com/#!2/c4de40/1 แน่นอนว่าเรากำลังพูดถึงสมมติฐาน แต่มันเกี่ยวกับการเข้าใกล้ความเป็นจริงให้มากที่สุด ตัวอย่างเช่นหากเราพบ ip และ useragent เดียวกันในกรอบเวลาที่ จำกัด ด้วย session_id ที่แตกต่างกันมันจะเป็นข้อสันนิษฐานที่ยุติธรรมว่าเป็นผู้ใช้เดียวกันโดยมีข้อยกเว้นกรณีขอบบางอย่าง แก้ไข: ภาษาที่แก้ไขปัญหานั้นไม่เกี่ยวข้องกับภาษาส่วนใหญ่เกี่ยวกับตรรกะและไม่ใช้งาน Pseudocode …
15 clustering 

6
Keras - การเรียนรู้การถ่ายโอน - การเปลี่ยนรูปร่างเทนเซอร์
โพสต์นี้ดูเหมือนจะบ่งบอกว่าสิ่งที่ฉันต้องการทำสำเร็จนั้นเป็นไปไม่ได้ อย่างไรก็ตามฉันไม่มั่นใจในสิ่งนี้ - เนื่องจากสิ่งที่ฉันทำไปแล้วฉันไม่เห็นว่าทำไมสิ่งที่ฉันต้องการทำไม่สามารถทำได้ ... ฉันมีชุดข้อมูลภาพสองชุดโดยที่หนึ่งมีรูปภาพของรูปร่าง (480, 720, 3) ในขณะที่อีกชุดมีรูปภาพของรูปร่าง (540, 960, 3) ฉันเริ่มต้นโมเดลโดยใช้รหัสต่อไปนี้: input = Input(shape=(480, 720, 3), name='image_input') initial_model = VGG16(weights='imagenet', include_top=False) for layer in initial_model.layers: layer.trainable = False x = Flatten()(initial_model(input)) x = Dense(1000, activation='relu')(x) x = BatchNormalization()(x) x = Dropout(0.5)(x) x = Dense(1000, activation='relu')(x) x = …
15 keras 

4
ต้นไม้การตัดสินใจกับ KNN
ในกรณีใดดีกว่าที่จะใช้แผนผังการตัดสินใจและกรณีอื่นเป็น KNN เหตุใดจึงต้องใช้หนึ่งในนั้นในบางกรณี และอื่น ๆ ในกรณีที่แตกต่างกันอย่างไร (โดยดูที่ฟังก์ชันการทำงานไม่ใช่ที่อัลกอริทึม) ใครมีคำอธิบายหรือการอ้างอิงเกี่ยวกับเรื่องนี้บ้าง?

2
วิทยาศาสตร์ข้อมูลที่ไม่มีความรู้ในหัวข้อที่เฉพาะเจาะจงมันคุ้มค่าที่จะใฝ่หาอาชีพหรือไม่? [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัพเดตคำถามเพื่อให้เป็นหัวข้อสำหรับ Data Science Stack Exchange ปิดให้บริการใน5 ปีที่ผ่านมา ฉันได้สนทนากับบางคนเมื่อเร็ว ๆ นี้และพูดถึงความสนใจในการวิเคราะห์ข้อมูลและฉันตั้งใจจะเรียนรู้ทักษะและเครื่องมือที่จำเป็น พวกเขาแนะนำให้ฉันรู้ว่าในขณะที่มันยอดเยี่ยมในการเรียนรู้เครื่องมือและสร้างทักษะมีจุดเล็ก ๆ น้อย ๆ ในการทำเช่นนั้นเว้นแต่ว่าฉันมีความรู้เฉพาะด้านในสาขาเฉพาะ โดยพื้นฐานแล้วพวกเขาสรุปว่าฉันเป็นเหมือนช่างก่อสร้างที่มีเครื่องมือมากมายที่สามารถสร้างกล่องไม้สองสามกล่องและอาจสร้างสิ่งที่ดีกว่า (ห้องโดยสารตู้เก็บของ ฯลฯ ) แต่ไม่มีความรู้ในสาขาเฉพาะที่ฉันไม่เคยทำ เป็นคนสร้างจะมาสำหรับผลิตภัณฑ์เฉพาะ มีใครพบสิ่งนี้หรือมีข้อมูลใด ๆ เกี่ยวกับสิ่งนี้ มันจะดูเหมือนว่ามันเป็นเรื่องจริงที่จะต้องเรียนรู้ด้านวิทยาศาสตร์ข้อมูลของสิ่งต่าง ๆ แล้วเรียนรู้สาขาใหม่เพียงเพื่อจะกลายเป็นผู้เชี่ยวชาญ

2
ทำไมตัวแปรของข้อมูลรถไฟและการทดสอบถูกกำหนดโดยใช้อักษรตัวใหญ่ (เป็น Python)
ฉันหวังว่าคำถามนี้เหมาะสมที่สุดในเว็บไซต์นี้ ... ใน Python โดยปกติชื่อคลาสจะถูกกำหนดโดยใช้อักษรตัวใหญ่เป็นอักขระตัวแรก class Vehicle: ... อย่างไรก็ตามในด้านการเรียนรู้เครื่องบ่อยครั้งการฝึกอบรมและการทดสอบข้อมูลที่จะถูกกำหนดเป็นXและY- ไม่ได้และx yตัวอย่างเช่นตอนนี้ฉันกำลังอ่านบทช่วยสอนนี้บน Kerasแต่มันใช้XและYเป็นตัวแปร: from sklearn import datasets mnist = datasets.load_digits() X = mnist.data Y = mnist.target ทำไมสิ่งเหล่านี้ถูกนิยามเป็นตัวพิมพ์ใหญ่? มีการประชุมใด (อย่างน้อยใน Python) ในสาขาการเรียนรู้ของเครื่องว่าควรใช้ตัวพิมพ์ใหญ่เพื่อกำหนดตัวแปรเหล่านี้หรือไม่? หรือบางทีคนก็แยกแยะความแตกต่างระหว่างตัวแปรตัวพิมพ์เล็กและตัวพิมพ์เล็กในการเรียนรู้ของเครื่อง? ในความเป็นจริงการสอนเดียวกันภายหลังแยกตัวแปรเหล่านี้ดังนี้: from sklearn.cross_validation import train_test_split train_X, test_X, train_y, test_y = train_test_split(X, Y, train_size=0.7, random_state=0)
15 python  dataset 

4
ชุดทดสอบและการกระจายชุดฝึกอบรมที่แตกต่างกัน
ฉันทำงานเกี่ยวกับการแข่งขันวิทยาศาสตร์ข้อมูลที่การกระจายชุดทดสอบของฉันแตกต่างจากชุดฝึกอบรม ฉันต้องการยกตัวอย่างการสังเกตจากชุดการฝึกอบรมซึ่งคล้ายกับชุดทดสอบอย่างใกล้ชิด ฉันจะทำสิ่งนี้ได้อย่างไร

2
SelectKBest ทำงานอย่างไร
ฉันกำลังดูบทช่วยสอนนี้: https://www.dataquest.io/mission/75/improving-your-submission ที่ส่วนที่ 8 ค้นหาคุณสมบัติที่ดีที่สุดจะแสดงรหัสต่อไปนี้ import numpy as np from sklearn.feature_selection import SelectKBest, f_classif predictors = ["Pclass", "Sex", "Age", "SibSp", "Parch", "Fare", "Embarked", "FamilySize", "Title", "FamilyId"] # Perform feature selection selector = SelectKBest(f_classif, k=5) selector.fit(titanic[predictors], titanic["Survived"]) # Get the raw p-values for each feature, and transform from p-values into scores …

1
PyTorch vs. Tensorflow กระตือรือร้น
เมื่อเร็ว ๆ นี้ Google รวมอยู่ในการสร้างโหมดEagerซึ่งเป็น API ที่จำเป็นสำหรับการเข้าถึงความสามารถในการคำนวณ tensorflow tensorflow กระตือรือร้นอย่างไรเปรียบเทียบกับ PyTorch บางแง่มุมที่อาจส่งผลต่อการเปรียบเทียบคือ: ข้อดีและข้อเสียของความกระตือรือร้นเนื่องจากกราฟแบบคงที่ (เช่นชื่อในโหนด) ข้อ จำกัด ที่แท้จริงของข้อใดข้อหนึ่งที่ไม่ได้มี พื้นที่ที่หนึ่งในนั้นต้องการการปรับปรุง (เช่นความสมบูรณ์ของคุณสมบัติการเพิ่มประสิทธิภาพการคำนวณ) ความแตกต่างของระบบนิเวศ (เช่นเมตริกซ์หรือไม่) หมายเหตุ 1: ยาโรสลาฟ Bulatov เขียนความคิดเห็นเกี่ยวกับคุณสมบัติที่ดีของความกระตือรือร้น Note2: ในคำถามก่อนหน้านี้ฉันขอเปรียบเทียบระหว่าง PyTorch และ Tensorflow Fold ในเวลานั้นฉันรู้สึกว่าพับอาจเผชิญ PyTorch ขอบคุณ Google สำรอง ฉันผิดอย่างมาก: ในที่สุด Google เองก็ละทิ้งการพับในความโปรดปรานของ Eager ฉันเข้าใจว่าสิ่งนี้เกิดจากข้อ จำกัด ที่แท้จริงใน tensorflow API ปกติที่ทำให้ Fold ไม่เป็นมิตรซึ่ง …

3
GANs (เครือข่ายผู้ให้กำเนิดที่เป็นปฏิปักษ์) เป็นไปได้สำหรับข้อความเช่นกัน?
GANs - เครือข่ายผู้ไม่ประสงค์ดีก่อกำเนิด - เหมาะสำหรับรูปภาพหรือใช้เป็นข้อความได้หรือไม่? เช่นฝึกเครือข่ายเพื่อสร้างข้อความที่มีความหมายจากบทสรุป UPD - คำพูดจากนักประดิษฐ์ GAN Ian Goodfellow GAN ไม่ได้ถูกนำไปใช้กับ NLP เนื่องจากมีการกำหนด GAN สำหรับข้อมูลที่มีค่าจริงเท่านั้น ( 2016 ) แหล่งที่มา มันไม่ได้เป็นความคิดที่มีข้อบกพร่องพื้นฐาน มันควรจะเป็นไปได้ที่จะทำอย่างใดอย่างหนึ่งดังต่อไปนี้ ... (2017) แหล่งที่มา
14 gan 

4
เราสามารถสร้างชุดข้อมูลขนาดใหญ่ได้ด้วย Generative Adversarial Networks
ฉันกำลังเผชิญกับปัญหาที่ฉันไม่สามารถหาชุดข้อมูล (รูปภาพ) เพียงพอที่จะป้อนเข้าสู่เครือข่ายประสาทเทียมลึกของฉันสำหรับการฝึกอบรม ฉันได้รับแรงบันดาลใจอย่างมากจากการสังเคราะห์ข้อความที่เป็นปฏิปักษ์กับการสร้างภาพกระดาษเผยแพร่โดย Scott Reed และคณะ บนเครือข่ายผู้ให้กำเนิดที่ไม่พึงประสงค์ ฉันอยากรู้ว่าฉันสามารถใช้ชุดข้อมูลขนาดเล็กที่มีอยู่เป็นอินพุทของแบบจำลอง GAN และสร้างชุดข้อมูลขนาดใหญ่ขึ้นเพื่อจัดการกับโมเดลเครือข่ายที่ลึกกว่านี้ได้หรือไม่ มันจะดีพอไหม

1
จำเป็นต้องมีการสุ่มตัวอย่างแบบแบ่งชั้น (ฟอเรสต์แบบสุ่ม, Python) หรือไม่
ฉันใช้ Python เพื่อรันโมเดลฟอเรสต์แบบสุ่มบนชุดข้อมูลที่ไม่สมดุลของฉัน (ตัวแปรเป้าหมายคือคลาสไบนารี) เมื่อแยกชุดข้อมูลการฝึกอบรมและการทดสอบฉันพยายามอย่างหนักว่าจะใช้การสุ่มตัวอย่างแบบแบ่งชั้น (เช่นรหัสที่แสดง) หรือไม่ จนถึงตอนนี้ฉันสังเกตเห็นในโครงการของฉันว่าคดีแบ่งชั้นจะนำไปสู่ประสิทธิภาพของโมเดลที่สูงขึ้น แต่ฉันคิดว่าถ้าฉันจะใช้แบบจำลองของฉันเพื่อทำนายกรณีใหม่ซึ่งอาจแตกต่างกันอย่างมากในการกระจายของคลาสเป้าหมายด้วยชุดข้อมูลปัจจุบันของฉัน ดังนั้นฉันจึงอยากคลายข้อ จำกัด นี้และใช้การแบ่งแบบไม่มีการกำหนด ใครสามารถให้คำแนะนำเพื่อชี้แจงประเด็นนี้? train,test=train_test_split(myDataset, test_size=0.25, stratify=y)

3
ทำไมวงดนตรีถึงมีประสิทธิภาพอย่างไร้เหตุผล
ดูเหมือนว่าเป็นจริงซึ่งกลุ่มผู้เรียนนำไปสู่ผลลัพธ์ที่ดีที่สุดเท่าที่จะเป็นไปได้ - และมันกลายเป็นสิ่งที่หายากมากเช่นสำหรับรุ่นเดียวที่ชนะการแข่งขันเช่น Kaggle มีคำอธิบายทางทฤษฎีว่าทำไมชุดตระการตาจึงมีประสิทธิภาพ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.