วิทยาศาสตร์ข้อมูล

ถามตอบสำหรับผู้เชี่ยวชาญด้านข้อมูลวิทยาศาสตร์ผู้เชี่ยวชาญด้านการเรียนรู้ของเครื่องจักรและผู้ที่สนใจเรียนรู้เพิ่มเติมเกี่ยวกับสาขานี้

5
ฉันควรจะไปที่ชุดข้อมูล 'สมดุล' หรือชุดข้อมูล 'ตัวแทน'?
งาน 'การเรียนรู้ของเครื่อง' ของฉันคือการแยกการรับส่งข้อมูลอินเทอร์เน็ตที่ไม่เป็นอันตรายออกจากการรับส่งข้อมูลที่เป็นอันตราย ในสถานการณ์โลกแห่งความเป็นจริงการรับส่งข้อมูลทางอินเทอร์เน็ตส่วนใหญ่ (90% ขึ้นไป) นั้นไม่เป็นอันตราย ดังนั้นฉันรู้สึกว่าฉันควรเลือกการตั้งค่าข้อมูลที่คล้ายกันสำหรับการฝึกอบรมโมเดลของฉันเช่นกัน แต่ฉันเจอบทความวิจัยหนึ่งหรือสองเรื่อง (ในพื้นที่ที่ฉันทำงาน) ซึ่งใช้วิธีการ "จัดสมดุลคลาส" เพื่อฝึกอบรมนางแบบซึ่งหมายถึงจำนวนอินสแตนซ์ของการรับส่งข้อมูลที่ไม่เป็นอันตรายและเป็นอันตราย โดยทั่วไปถ้าฉันสร้างแบบจำลองการเรียนรู้ของเครื่องฉันควรจะไปหาชุดข้อมูลซึ่งเป็นตัวแทนของปัญหาโลกแห่งความจริงหรือเป็นชุดข้อมูลที่มีความสมดุลที่ดีกว่าเหมาะสำหรับการสร้างแบบจำลอง (เนื่องจากตัวแยกประเภทบางตัว เนื่องจากเหตุผลอื่น ๆ ที่ฉันไม่รู้จัก)? คนที่สามารถหลั่งน้ำตาแสงเพิ่มเติมเกี่ยวกับข้อดีและข้อเสียของทั้งสองทางเลือกและวิธีการที่จะตัดสินใจที่หนึ่งที่จะไปเลือก?

9
วิธีจัดการกับการควบคุมเวอร์ชันของข้อมูล (ไบนารี) จำนวนมาก
ฉันเป็นนักศึกษาปริญญาเอกสาขาธรณีฟิสิกส์และทำงานกับข้อมูลภาพจำนวนมาก (หลายร้อย GB, ไฟล์นับหมื่น) ฉันรู้svnและgitค่อนข้างดีและให้คุณค่ากับประวัติโครงการรวมกับความสามารถในการทำงานร่วมกันได้อย่างง่ายดายและมีการป้องกันความเสียหายของดิสก์ ฉันพบว่าgitมีประโยชน์อย่างมากสำหรับการสำรองข้อมูลที่สอดคล้องกัน แต่ฉันรู้ว่า git ไม่สามารถจัดการข้อมูลไบนารีจำนวนมากได้อย่างมีประสิทธิภาพ ในการศึกษาระดับปริญญาโทของฉันฉันทำงานกับชุดข้อมูลที่มีขนาดใกล้เคียงกัน (รวมถึงรูปภาพ) และมีปัญหามากมายในการติดตามเวอร์ชันต่าง ๆ บนเซิร์ฟเวอร์ / อุปกรณ์ที่แตกต่างกัน การกระจาย 100GB ผ่านเครือข่ายไม่สนุกและทำให้ฉันเสียเวลาและความพยายาม ฉันรู้ว่าคนอื่น ๆ ในสาขาวิทยาศาสตร์ดูเหมือนจะมีปัญหาคล้ายกัน แต่ฉันไม่สามารถหาทางออกที่ดีได้ ฉันต้องการใช้สิ่งอำนวยความสะดวกในการจัดเก็บของสถาบันของฉันดังนั้นฉันต้องการสิ่งที่สามารถใช้เซิร์ฟเวอร์ "โง่" ฉันยังต้องการสำรองข้อมูลเพิ่มเติมในฮาร์ดดิสก์แบบพกพาเพราะฉันต้องการหลีกเลี่ยงการถ่ายโอนหลายร้อย GB ผ่านเครือข่ายทุกที่ที่ทำได้ ดังนั้นฉันต้องการเครื่องมือที่สามารถจัดการมากกว่าหนึ่งตำแหน่งระยะไกล สุดท้ายฉันต้องการสิ่งที่นักวิจัยคนอื่นสามารถใช้ได้ดังนั้นมันไม่จำเป็นต้องง่ายสุด ๆ แต่ควรจะเรียนรู้ได้ในเวลาไม่กี่ชั่วโมง ฉันได้ประเมินโซลูชั่นที่แตกต่างกันมากมาย แต่ดูเหมือนว่าไม่มีใครเหมาะสมกับค่าใช้จ่าย: svnค่อนข้างไม่มีประสิทธิภาพและต้องการสมาร์ทเซิร์ฟเวอร์ hg bigfile / largefileสามารถใช้รีโมตเดียวได้ git bigfile / mediaสามารถใช้รีโมตเดียวได้ แต่ก็ไม่ได้มีประสิทธิภาพมากนัก ห้องใต้หลังคาดูเหมือนจะไม่มีบันทึกหรือความสามารถที่แตกต่างกัน bupดูดีมาก แต่ต้องการเซิร์ฟเวอร์ "สมาร์ท" ให้ใช้งานได้ ฉันได้ลองgit-annexแล้วซึ่งทำทุกอย่างที่ฉันต้องการเพื่อทำ …

9
ทางเลือก IDE สำหรับการเขียนโปรแกรม R (RStudio, IntelliJ IDEA, Eclipse, Visual Studio)
ฉันใช้ RStudio สำหรับการเขียนโปรแกรม R ฉันจำเกี่ยวกับ IDE-s ที่มั่นคงจากกองเทคโนโลยีอื่น ๆ เช่น Visual Studio หรือ Eclipse ฉันมีสองคำถาม: มีการใช้ IDE-s อื่นใดนอกเหนือจาก RStudio (โปรดพิจารณาให้คำอธิบายสั้น ๆ กับพวกเขา) มีผู้ใดบ้างที่มีข้อได้เปรียบที่เด่นชัดกว่า RStudio? ฉันส่วนใหญ่หมายถึงคุณสมบัติการดีบัก / สร้าง / ปรับใช้นอกจากการเขียนโปรแกรมเอง (ดังนั้นโปรแกรมแก้ไขข้อความอาจไม่ใช่วิธีแก้ปัญหา)
45 r  tools  rstudio  programming 

10
การเรียนรู้ของเครื่อง - คุณสมบัติด้านวิศวกรรมจากข้อมูลวันที่ / เวลา
แนวทางปฏิบัติทั่วไปที่ดีที่สุดในการจัดการข้อมูลเวลาสำหรับแอปพลิเคชันการเรียนรู้ของเครื่องคืออะไร ตัวอย่างเช่นหากในชุดข้อมูลมีคอลัมน์ที่มีการประทับเวลาของเหตุการณ์เช่น "2014-05-05" คุณจะแยกคุณลักษณะที่มีประโยชน์จากคอลัมน์นี้ได้อย่างไร? ขอบคุณล่วงหน้า!

9
การถกเถียงข้อมูลเป็นงานของนักวิทยาศาสตร์ข้อมูลมากแค่ไหน?
ขณะนี้ฉันทำงานเป็นนักวิทยาศาสตร์ข้อมูลที่ บริษัท ค้าปลีก (งานแรกของฉันในฐานะ DS ดังนั้นคำถามนี้อาจเป็นผลมาจากการขาดประสบการณ์ของฉัน) พวกเขามีงานในมือขนาดใหญ่ของโครงการวิทยาศาสตร์ข้อมูลที่สำคัญมากซึ่งจะมีผลกระทบเชิงบวกอย่างมากหากนำไปใช้ แต่. ท่อข้อมูลไม่มีอยู่ใน บริษัท ขั้นตอนมาตรฐานสำหรับพวกเขาที่จะส่งกิกะไบต์ของไฟล์ TXT ให้ฉันทุกครั้งที่ฉันต้องการข้อมูลบางอย่าง คิดว่าไฟล์เหล่านี้เป็นบันทึกแบบตารางของธุรกรรมที่เก็บไว้ในสัญลักษณ์และโครงสร้างแบบอาร์เคน ไม่มีข้อมูลทั้งหมดอยู่ในแหล่งข้อมูลเดียวและพวกเขาไม่สามารถอนุญาตให้ฉันเข้าถึงฐานข้อมูล ERP ได้ด้วยเหตุผลด้านความปลอดภัย การวิเคราะห์ข้อมูลเบื้องต้นสำหรับโครงการที่ง่ายที่สุดนั้นต้องใช้ข้อมูลที่โหดเหี้ยม มากกว่า 80% ของเวลาที่ใช้ในโครงการคือฉันพยายามแยกไฟล์เหล่านี้และข้ามแหล่งข้อมูลเพื่อสร้างชุดข้อมูลที่ทำงานได้ นี่ไม่ใช่ปัญหาของการจัดการข้อมูลที่หายไปหรือการประมวลผลก่อนมันเป็นงานที่ต้องใช้ในการสร้างข้อมูลที่สามารถจัดการได้ตั้งแต่แรก ( แก้ไขได้ด้วย dba หรือวิศวกรรมข้อมูลไม่ใช่วิทยาศาสตร์ข้อมูล? ) 1) ความรู้สึกว่างานส่วนใหญ่ไม่เกี่ยวข้องกับวิทยาศาสตร์ข้อมูลเลย ถูกต้องหรือไม่ 2) ฉันรู้ว่านี้ไม่ได้เป็น บริษัท ที่ขับเคลื่อนด้วยข้อมูลที่มีระดับสูงภาควิชาวิศวกรรมข้อมูลแต่มันก็เป็นความเห็นของผมว่าเพื่อที่จะสร้างเพื่ออนาคตที่ยั่งยืนของโครงการวิทยาศาสตร์ข้อมูลระดับต่ำสุดของการเข้าถึงข้อมูลที่จำเป็นต้องมี ฉันผิดหรือเปล่า? 3) การตั้งค่าประเภทนี้เป็นเรื่องปกติสำหรับ บริษัท ที่มีความต้องการด้านวิทยาศาสตร์ข้อมูลอย่างจริงจังหรือไม่?

3
จำนวนพารามิเตอร์ในโมเดล LSTM
LSTM แบบซ้อนเดียวมีพารามิเตอร์กี่พารามิเตอร์ จำนวนพารามิเตอร์กำหนดขอบเขตล่างตามจำนวนตัวอย่างการฝึกอบรมที่จำเป็นและยังมีผลต่อเวลาการฝึกอบรม ดังนั้นการทราบจำนวนพารามิเตอร์จึงมีประโยชน์สำหรับรูปแบบการฝึกอบรมที่ใช้ LSTM

6
ฉันจะแปลงชื่อในชุดข้อมูลที่เป็นความลับได้อย่างไรเพื่อให้เป็นแบบไม่ระบุชื่อ แต่ยังคงลักษณะบางอย่างของชื่อไว้
แรงจูงใจ ฉันทำงานกับชุดข้อมูลที่มีข้อมูลส่วนบุคคล (PII) และบางครั้งจำเป็นต้องแบ่งปันส่วนหนึ่งของชุดข้อมูลกับบุคคลที่สามในลักษณะที่ไม่เปิดเผยข้อมูล PII และบังคับให้นายจ้างรับผิดชอบ วิธีการตามปกติของเราที่นี่คือการระงับข้อมูลทั้งหมดหรือในบางกรณีเพื่อลดความละเอียด เช่นการแทนที่ที่อยู่ถนนที่แน่นอนด้วยเคาน์ตีหรือระบบการสำรวจสำมะโนประชากรที่เกี่ยวข้อง ซึ่งหมายความว่าต้องทำการวิเคราะห์และประมวลผลบางประเภทภายใน บริษัท แม้ว่าบุคคลที่สามจะมีทรัพยากรและความเชี่ยวชาญที่เหมาะสมกับงานมากกว่า เนื่องจากไม่มีการเปิดเผยข้อมูลต้นฉบับวิธีที่เราดำเนินการเกี่ยวกับการวิเคราะห์และการประมวลผลนี้จึงไม่มีความโปร่งใส ดังนั้นความสามารถของบุคคลที่สามในการดำเนินการ QA / QC ปรับพารามิเตอร์หรือทำการปรับแต่งอาจมีข้อ จำกัด มาก การเปิดเผยข้อมูลที่เป็นความลับ งานหนึ่งเกี่ยวข้องกับการระบุบุคคลตามชื่อของพวกเขาในข้อมูลที่ผู้ใช้ส่งในขณะที่คำนึงถึงข้อผิดพลาดของบัญชีและความไม่สอดคล้องกัน บุคคลที่เป็นส่วนตัวอาจถูกบันทึกไว้ในที่เดียวว่า "เดฟ" และที่อื่น ๆ ในฐานะ "เดวิด" หน่วยงานการค้าสามารถมีตัวย่อต่าง ๆ ได้มากมาย ฉันได้พัฒนาสคริปต์ตามเกณฑ์จำนวนหนึ่งที่กำหนดว่าเมื่อใดที่ระเบียนสองรายการที่มีชื่อไม่เหมือนกันแสดงถึงบุคคลเดียวกันและกำหนดรหัสทั่วไปให้กับพวกเขา ณ จุดนี้เราสามารถทำให้ชุดข้อมูลไม่ระบุชื่อโดยระงับชื่อและแทนที่ด้วยหมายเลข ID ส่วนบุคคลนี้ แต่นี่หมายความว่าผู้รับแทบจะไม่มีข้อมูลเกี่ยวกับเช่นความแข็งแกร่งของการแข่งขัน เราต้องการที่จะสามารถส่งผ่านข้อมูลให้ได้มากที่สุดโดยไม่เปิดเผยตัวตน อะไรไม่ทำงาน ตัวอย่างเช่นมันจะดีมากที่จะสามารถเข้ารหัสสตริงในขณะที่รักษาระยะแก้ไข ด้วยวิธีนี้บุคคลที่สามสามารถทำ QA / QC ของตนเองหรือเลือกที่จะดำเนินการเพิ่มเติมด้วยตนเองโดยไม่ต้องเข้าถึง (หรือสามารถย้อนกลับวิศวกรที่มีความสามารถ PII) บางทีเราอาจจับคู่สตริงภายในกับระยะการแก้ไข <= 2 และผู้รับต้องการดูความหมายของการทำให้ความอดทนนั้นแน่นขึ้นเพื่อแก้ไขระยะทาง …

1
ความแตกต่างระหว่าง LeakyReLU และ PReLU คืออะไร
ฉันคิดว่าทั้ง PReLU และ LeLe ReLU นั้นคือ f(x)=max(x,αx) with α∈(0,1)f(x)=max(x,αx) with α∈(0,1)f(x) = \max(x, \alpha x) \qquad \text{ with } \alpha \in (0, 1) Keras แต่มีฟังก์ชั่นทั้งในเอกสาร ReLU ที่รั่วไหล แหล่งที่มาของ LeakyReLU : return K.relu(inputs, alpha=self.alpha) ดังนั้น (ดูรหัส relu ) f1(x)=max(0,x)−αmax(0,−x)f1(x)=max(0,x)−αmax(0,−x)f_1(x) = \max(0, x) - \alpha \max(0, -x) PReLU แหล่งที่มาของ PReLU : def …

4
การเพิ่มคุณสมบัติให้กับ Time Series รุ่น LSTM
ได้รับการอ่านขึ้นเล็กน้อยเกี่ยวกับ LSTM และการใช้งานของพวกเขาสำหรับชุดเวลาและมันน่าสนใจ แต่ก็ยากในเวลาเดียวกัน สิ่งหนึ่งที่ฉันมีปัญหาในการทำความเข้าใจคือวิธีการเพิ่มคุณลักษณะเพิ่มเติมลงในรายการคุณลักษณะของอนุกรมเวลาอยู่แล้ว สมมติว่าคุณมีชุดข้อมูลของคุณเช่นนี้: T-3, T-2, T-1, เอาท์พุท ตอนนี้ให้บอกว่าคุณรู้ว่าคุณมีคุณสมบัติที่มีผลต่อการส่งออก แต่ไม่จำเป็นต้องเป็นคุณลักษณะอนุกรมเวลาให้บอกว่าสภาพอากาศภายนอก นี่คือสิ่งที่คุณสามารถเพิ่มได้และ LSTM จะสามารถแยกแยะความแตกต่างของอนุกรมเวลาและอะไรไม่ได้

2
วิธีการเตรียม / ขยายภาพสำหรับโครงข่ายประสาทเทียม
ฉันต้องการใช้เครือข่ายประสาทเทียมสำหรับการจัดประเภทรูปภาพ ฉันจะเริ่มต้นด้วย CaffeNet ที่ได้รับการฝึกฝนมาล่วงหน้าและฝึกอบรมเพื่อการสมัครของฉัน ฉันควรเตรียมภาพอินพุตอย่างไร ในกรณีนี้ภาพทั้งหมดเป็นวัตถุเดียวกัน แต่มีการเปลี่ยนแปลง (คิดว่า: การควบคุมคุณภาพ) พวกเขาอยู่ในระดับที่แตกต่างกันค่อนข้าง / ความละเอียด / ระยะทาง / สภาพแสง (และในหลายกรณีฉันไม่ทราบขนาด) นอกจากนี้ในแต่ละภาพยังมีพื้นที่ (รู้จัก) รอบวัตถุที่น่าสนใจซึ่งเครือข่ายควรละเว้น ฉันสามารถครอบตัดจุดศูนย์กลางของภาพแต่ละภาพซึ่งรับประกันว่าจะมีส่วนของวัตถุที่น่าสนใจและไม่มีพื้นที่ที่ถูกละเว้น แต่ดูเหมือนว่ามันจะส่งข้อมูลออกไปและผลลัพธ์ก็ไม่ได้มีขนาดเท่ากันจริง ๆ (อาจมีการเปลี่ยนแปลง 1.5 เท่า) การเสริมชุดข้อมูล ฉันเคยได้ยินการสร้างข้อมูลการฝึกอบรมเพิ่มเติมโดยการครอบตัดแบบสุ่ม / มิเรอร์ / ฯลฯ มีวิธีการมาตรฐานสำหรับสิ่งนี้หรือไม่ ผลลัพธ์ใด ๆ เกี่ยวกับการปรับปรุงที่เกิดขึ้นกับความแม่นยำของลักษณนาม

6
ความคล้ายคลึงกันของโคไซน์กับจุดผลิตภัณฑ์เป็นตัวชี้วัดระยะทาง
ดูเหมือนความคล้ายคลึงของโคไซน์ของคุณสมบัติสองอย่างนี้เป็นเพียงแค่ผลิตภัณฑ์ดอทของพวกเขาถูกย่อส่วนโดยผลคูณของขนาด โคไซน์ที่คล้ายคลึงกันสร้างระยะทางที่ดีกว่าผลิตภัณฑ์จุดเมื่อใด เช่นเดียวกับ dot product และ cosine คล้ายคลึงกันมีจุดแข็งหรือจุดอ่อนต่างกันในสถานการณ์ที่แตกต่างกันหรือไม่?

7
ValueError: อินพุตมี NaN, อินฟินิตี้หรือค่าใหญ่เกินไปสำหรับ dtype ('float32')
ฉันได้รับ ValueError เมื่อทำนายข้อมูลการทดสอบโดยใช้โมเดล RandomForest รหัสของฉัน: clf = RandomForestClassifier(n_estimators=10, max_depth=6, n_jobs=1, verbose=2) clf.fit(X_fit, y_fit) df_test.fillna(df_test.mean()) X_test = df_test.values y_pred = clf.predict(X_test) ข้อผิดพลาด: ValueError: Input contains NaN, infinity or a value too large for dtype('float32'). ฉันจะค้นหาค่าที่ไม่ดีในชุดข้อมูลการทดสอบได้อย่างไร นอกจากนี้ฉันไม่ต้องการลบบันทึกเหล่านี้ฉันสามารถแทนที่พวกเขาด้วยค่าเฉลี่ยหรือค่ามัธยฐาน? ขอบคุณ

4
เหตุใดขนาดชุดเล็กจึงดีกว่า“ ชุดเดียว” ที่มีข้อมูลการฝึกอบรมทั้งหมด?
ฉันมักจะอ่านว่าในกรณีของการเรียนรู้แบบลึกการฝึกตามปกติคือการใช้ชุดเล็ก ๆ ฉันไม่สามารถเข้าใจเหตุผลที่อยู่เบื้องหลังนี้ได้ เว้นแต่ว่าฉันเข้าใจผิดขนาดแบทช์คือจำนวนอินสแตนซ์การฝึกอบรมที่เห็นโดยโมเดลระหว่างการทำซ้ำการฝึกอบรม และยุคคือการเปิดเต็มเมื่อแต่ละกรณีการฝึกอบรมได้รับการเห็นโดยรูปแบบ ถ้าเป็นเช่นนั้นฉันไม่สามารถเห็นข้อได้เปรียบของการวนซ้ำชุดย่อยที่แทบไม่มีนัยสำคัญของการฝึกอบรมหลายครั้งในทางตรงกันข้ามกับการใช้ "แบทช์สูงสุด" โดยการเปิดเผยอินสแตนซ์การฝึกอบรมที่มีอยู่ทั้งหมดในแต่ละครั้ง ความทรงจำ). ข้อดีของวิธีนี้คืออะไร?

10
ทำไมโมเดลการเรียนรู้ของเครื่องถึงเรียกว่ากล่องดำ
ฉันอ่านโพสต์บล็อกนี้ชื่อ: The Financial World ต้องการเปิดกล่องดำของ AIซึ่งผู้เขียนอ้างถึงนางแบบ ML เป็น "กล่องดำ" ซ้ำ ๆ มีการใช้คำศัพท์ที่คล้ายกันในหลายสถานที่เมื่ออ้างถึง ML model ทำไมถึงเป็นเช่นนั้น? มันไม่เหมือนวิศวกร ML ที่ไม่รู้ว่าเกิดอะไรขึ้นในโครงข่ายประสาท เลเยอร์ทุกอันจะถูกเลือกโดยวิศวกร ML ที่รู้ว่าจะใช้ฟังก์ชั่นการเปิดใช้งานอะไรชนิดของเลเยอร์นั้นจะทำอย่างไรการแพร่กระจายของข้อผิดพลาดกลับเป็นต้น

11
ข้อมูลวิทยาศาสตร์ใน C (หรือ C ++)
ฉันเป็นRโปรแกรมเมอร์ภาษา ฉันยังอยู่ในกลุ่มคนที่ถือว่าเป็นนักวิทยาศาสตร์ด้านข้อมูล แต่มาจากสาขาวิชาการที่ไม่ใช่ CS สิ่งนี้ทำงานได้ดีในบทบาทของฉันในฐานะนักวิทยาศาสตร์ข้อมูล แต่ด้วยการเริ่มต้นอาชีพของฉันRและมีความรู้พื้นฐานเกี่ยวกับภาษาสคริปต์ / เว็บภาษาอื่น ๆ ฉันรู้สึกไม่เพียงพอใน 2 ประเด็นสำคัญ: ขาดความรู้ที่เป็นของแข็งเกี่ยวกับทฤษฎีการเขียนโปรแกรม ขาดระดับการแข่งขันของทักษะในภาษาได้เร็วขึ้นและกว้างขวางมากขึ้นมาใช้เช่นC, C++และJavaซึ่งสามารถนำมาใช้ในการเพิ่มความเร็วของท่อและข้อมูลขนาดใหญ่การคำนวณเช่นเดียวกับการสร้าง DS / ผลิตภัณฑ์ข้อมูลซึ่งสามารถได้รับการพัฒนามากขึ้นอย่างรวดเร็วเข้าไปอย่างรวดเร็ว สคริปต์แบ็คเอนด์หรือแอพพลิเคชันแบบสแตนด์อโลน วิธีแก้ปัญหานั้นง่ายมาก - ไปเรียนรู้เกี่ยวกับการเขียนโปรแกรมซึ่งเป็นสิ่งที่ฉันทำโดยลงทะเบียนในบางคลาส (ปัจจุบันคือการเขียนโปรแกรม C) อย่างไรก็ตามตอนนี้ฉันเริ่มที่จะแก้ไขปัญหาที่ # 1 และ # 2 ข้างต้นแล้วฉันก็ถามตัวเองว่า " ภาษาเป็นอย่างไรCและC++วิทยาศาสตร์ข้อมูลเป็นอย่างไร? " ตัวอย่างเช่นฉันสามารถย้ายข้อมูลไปมาอย่างรวดเร็วและโต้ตอบกับผู้ใช้ได้ดี แต่สิ่งที่เกี่ยวกับการถดถอยขั้นสูงการเรียนรู้ของเครื่องการทำเหมืองข้อความและการดำเนินการทางสถิติขั้นสูงอื่น ๆ ดังนั้น. สามารถCทำงานได้ - มีเครื่องมืออะไรบ้างสำหรับสถิติขั้นสูง ML, AI และสาขาอื่น ๆ ของ Data Science หรือฉันต้องหลวมประสิทธิภาพส่วนใหญ่ที่ได้จากการเขียนโปรแกรมCด้วยการโทรหาRสคริปต์หรือภาษาอื่น ๆ …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.