วิทยาศาสตร์ข้อมูล dataset

6

ฉันเป็นนักศึกษาปริญญาโท CS ในด้านการขุดข้อมูล หัวหน้างานของฉันเคยบอกฉันว่าก่อนที่ฉันจะเรียกใช้ตัวจําแนกใด ๆ หรือทำอะไรกับชุดข้อมูลฉันต้องเข้าใจข้อมูลทั้งหมดและตรวจสอบให้แน่ใจว่าข้อมูลสะอาดและถูกต้อง คำถามของฉัน: อะไรคือวิธีปฏิบัติที่ดีที่สุดในการทำความเข้าใจชุดข้อมูล (มิติสูงที่มีคุณลักษณะตัวเลขและระบุ)? วิธีปฏิบัติเพื่อให้แน่ใจว่าชุดข้อมูลนั้นสะอาดหรือไม่ วิธีปฏิบัติเพื่อให้แน่ใจว่าชุดข้อมูลไม่มีค่าผิดหรือเป็นเช่นนั้น?

13 statistics dataset

4

ทางเลือกการเข้ารหัสแบบร้อนสำหรับค่าหมวดใหญ่?

สวัสดีมี dataframe ที่มีค่าหมวดใหญ่มากกว่า 1600 หมวดมีวิธีใดที่ฉันสามารถหาทางเลือกเพื่อที่ฉันจะได้ไม่เกิน 1600 คอลัมน์ ฉันพบลิงค์ด้านล่างที่น่าสนใจhttp://amunategui.github.io/feature-hashing/#sourcecode แต่พวกเขากำลังแปลงเป็นคลาส / วัตถุที่ฉันไม่ต้องการ ฉันต้องการผลลัพธ์สุดท้ายของฉันเป็น dataframe เพื่อให้ฉันสามารถทดสอบกับโมเดลการเรียนรู้ของเครื่องอื่นได้หรือไม่ หรือมีวิธีใดที่ฉันสามารถใช้เมทริกซ์ genetrated ในการฝึกอบรมโมเดลการเรียนรู้ของเครื่องอื่นนอกเหนือจาก Logistic ถดถอยหรือ XGBoost จะมีต่อไปฉันจะใช้?

13 machine-learning dataset dimensionality-reduction encoding

2

ทำไมเราต้องจัดการกับความไม่สมดุลของข้อมูล?

ฉันต้องรู้ว่าทำไมเราต้องจัดการกับความไม่สมดุลของข้อมูล ฉันรู้วิธีจัดการกับมันและวิธีการที่แตกต่างกันในการแก้ปัญหาซึ่งคือการสุ่มตัวอย่างขึ้นหรือการสุ่มตัวอย่างหรือโดยใช้ Smote ตัวอย่างเช่นถ้าฉันมีโรคหายาก 1 เปอร์เซ็นต์จาก 100 และให้บอกว่าฉันตัดสินใจที่จะมีชุดข้อมูลที่สมดุลสำหรับชุดฝึกอบรมของฉันซึ่งก็คือ: ตัวอย่าง 50/50 จะไม่ทำให้เครื่องคิดว่า 50% ของผู้ป่วยจะมี โรค? แม้ว่าอัตราส่วนคือ 1 จาก 100 ดังนั้น ทำไมเราต้องจัดการกับความไม่สมดุลของข้อมูล? อัตราส่วนที่แนะนำให้มีการตั้งค่าสมดุลคืออะไร

12 classification dataset sampling class-imbalance

2

อัตราค่าโดยสารของสายการบิน - การวิเคราะห์ใดที่ควรใช้เพื่อตรวจสอบพฤติกรรมการตั้งราคาและความสัมพันธ์ของราคา

ฉันต้องการตรวจสอบพฤติกรรมการตั้งราคาของสายการบิน - โดยเฉพาะว่าสายการบินตอบสนองต่อการกำหนดราคาของคู่แข่งอย่างไร ตามที่ฉันจะบอกความรู้ของฉันเกี่ยวกับการวิเคราะห์ที่ซับซ้อนมากขึ้นค่อนข้าง จำกัด ฉันได้ทำวิธีการพื้นฐานทั้งหมดเพื่อรวบรวมมุมมองโดยรวมของข้อมูล ซึ่งรวมถึงกราฟอย่างง่ายซึ่งช่วยระบุรูปแบบที่คล้ายกัน ฉันใช้ SAS Enterprise 9.4 ด้วย อย่างไรก็ตามฉันกำลังมองหาวิธีการตามจำนวนมากขึ้น ชุดข้อมูล ชุดข้อมูลที่รวบรวม (ตัวเอง) ที่ฉันกำลังใช้อยู่มีประมาณ ~ 54.000 อัตราค่าโดยสาร ค่าโดยสารทั้งหมดถูกรวบรวมภายในหน้าต่างเวลา 60 วันเป็นประจำทุกวัน (ทุกคืนเวลา 00:00 น.) ดังนั้นทุกค่าโดยสารภายในช่วงเวลาดังกล่าวจะเกิดขึ้นครั้งขึ้นอยู่กับความพร้อมของค่าโดยสารรวมถึงวันที่ออกเดินทางของเที่ยวบินเมื่อผ่านไปตามวันที่เรียกเก็บค่าโดยสาร (คุณไม่สามารถรวบรวมค่าโดยสารสำหรับเที่ยวบินเมื่อวันที่ออกเดินทางของเที่ยวบินในอดีต)nnn รูปแบบที่ไม่มีการจัดรูปแบบโดยทั่วไปมีลักษณะดังนี้: (ข้อมูลปลอม) +--------------------+-----------+--------------------+--------------------------+---------------+ | requestDate | price| tripStartDeparture | tripDestinationDeparture | flightCarrier | +--------------------+-----------+--------------------+--------------------------+---------------+ | 14APR2015:00:00:00 | 725.32 | 16APR2015:10:50:02 | 23APR2015:21:55:04 …

12 data-mining dataset regression correlation visualization

4

การดาวน์โหลดชุดข้อมูลขนาดใหญ่บนเว็บโดยตรงไปยัง AWS S3

ไม่มีใครรู้ว่าเป็นไปได้ที่จะนำเข้าชุดข้อมูลขนาดใหญ่ไปยัง Amazon S3 จาก URL หรือไม่? โดยทั่วไปฉันต้องการหลีกเลี่ยงการดาวน์โหลดไฟล์ขนาดใหญ่แล้วทำการอัปโหลดไฟล์ซ้ำอีกครั้งเป็น S3 ผ่านเว็บพอร์ทัล ฉันแค่ต้องการให้ URL ดาวน์โหลดไปยัง S3 และรอให้พวกเขาดาวน์โหลดไปยังระบบไฟล์ของพวกเขา ดูเหมือนจะเป็นเรื่องง่ายที่จะทำ แต่ฉันก็หาเอกสารไม่เจอ

12 dataset aws

1

ฉันควรใช้เซลล์ LSTM กี่เซลล์

มีกฎของหัวแม่มือ (หรือกฎจริง) ที่เกี่ยวข้องกับจำนวน LSTM ขั้นต่ำ, สูงสุดและ "สมเหตุสมผล" ที่ฉันควรใช้หรือไม่? โดยเฉพาะฉันเกี่ยวข้องกับBasicLSTMCellจาก TensorFlow และnum_unitsคุณสมบัติ โปรดสมมติว่าฉันมีปัญหาการจำแนกที่กำหนดโดย: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples ตัวอย่างจริงหรือไม่ที่จำนวนตัวอย่างการฝึกอบรมควรมากกว่า: 4*((n+1)*m + m*m)*c ที่cเป็นจำนวนของเซลล์? ฉันใช้สิ่งนี้: จะคำนวณจำนวนพารามิเตอร์ของเครือข่าย …

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

3

มีรูปแบบภาษาที่ดีนอกกรอบสำหรับงูใหญ่หรือไม่?

ฉันกำลังสร้างต้นแบบแอปพลิเคชันและฉันต้องการโมเดลภาษาเพื่อคำนวณความงุนงงในประโยคที่สร้างขึ้น มีรูปแบบภาษาที่ผ่านการฝึกอบรมในภาษาไพ ธ อนที่ฉันสามารถใช้ได้หรือไม่? บางสิ่งที่เรียบง่ายเช่น model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 ฉันดูบางกรอบ แต่ไม่สามารถค้นหาสิ่งที่ฉันต้องการ ฉันรู้ว่าฉันสามารถใช้สิ่งที่ชอบ: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) สิ่งนี้ใช้การแจกแจงความน่าจะเป็นที่ดีใน Brown Corpus แต่ฉันกำลังมองหาโมเดลที่สร้างขึ้นอย่างดีในชุดข้อมูลขนาดใหญ่เช่นชุดข้อมูลคำ 1b สิ่งที่ฉันสามารถเชื่อถือได้จริง ๆ ผลลัพธ์สำหรับโดเมนทั่วไป (ไม่เพียงข่าว)

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

2

มีข้อมูลเพียงพอสำหรับการฝึกอบรมรูปแบบการเรียนรู้ของเครื่อง?

ฉันทำงานเกี่ยวกับการเรียนรู้ของเครื่องจักรและชีวสารสนเทศมาระยะหนึ่งแล้วและวันนี้ฉันได้สนทนากับเพื่อนร่วมงานเกี่ยวกับประเด็นทั่วไปที่สำคัญของการทำเหมืองข้อมูล เพื่อนร่วมงานของฉัน (ซึ่งเป็นผู้เชี่ยวชาญด้านการเรียนรู้ของเครื่อง) กล่าวว่าในความคิดของเขาในด้านการปฏิบัติเนื้อหาที่สำคัญที่สุดของการเรียนรู้เครื่องเป็นวิธีที่จะเข้าใจว่าคุณมีการเก็บรวบรวมข้อมูลเพียงพอในการฝึกอบรมการเรียนรู้แบบเครื่องของคุณ คำสั่งนี้ทำให้ฉันประหลาดใจเพราะฉันไม่เคยให้ความสำคัญกับเรื่องนี้มากนัก ... จากนั้นผมก็มองหาข้อมูลเพิ่มเติมเกี่ยวกับอินเทอร์เน็ตและผมพบว่าการโพสต์เกี่ยวกับเรื่องนี้FastML.comรายงานเป็นกฎของหัวแม่มือที่คุณต้องการประมาณ10 ครั้งเป็นกรณีข้อมูลมากที่สุดเท่าที่มีคุณสมบัติ สองคำถาม: 1 - ปัญหานี้เกี่ยวข้องกับการเรียนรู้ของเครื่องจริงหรือไม่? 2 - กฎ 10 ครั้งทำงานใช่ไหม มีแหล่งข้อมูลที่เกี่ยวข้องอื่น ๆ สำหรับชุดรูปแบบนี้หรือไม่?

11 machine-learning data-mining dataset data-cleaning data

4

ฉันจะดาวน์โหลดมูลค่าหลักทรัพย์ตามราคาตลาดในอดีตและข้อมูลการหมุนเวียนรายวันสำหรับหุ้นได้ที่ไหน

มีแหล่งข้อมูลมากมายที่ให้ข้อมูลสต็อคในอดีต แต่จะมีเพียงฟิลด์ OHLC พร้อมกับปริมาณและการปิดปรับปรุง นอกจากนี้แหล่งข้อมูลสองแห่งที่ฉันพบให้ชุดข้อมูลตามราคาตลาด แต่พวกเขาถูก จำกัด เฉพาะหุ้นสหรัฐ Yahoo Finance ให้ข้อมูลนี้ออนไลน์ แต่ไม่มีตัวเลือกให้ดาวน์โหลด (หรือไม่มีใครรู้) ฉันจะดาวน์โหลดข้อมูลนี้สำหรับหุ้นที่เป็นของตลาดหลักทรัพย์ชั้นนำต่าง ๆ ทั่วประเทศโดยใช้ชื่อสัญลักษณ์ได้อย่างไร มีวิธีดาวน์โหลดผ่าน Yahoo Finance หรือ Google Finance บ้างไหม? ฉันต้องการข้อมูลในช่วงสิบปีที่ผ่านมาและด้วยเหตุนี้จึงต้องมีสคริปต์หรือ API ที่จะทำเช่นนี้

11 dataset

3

เมื่อใดที่เราควรพิจารณาชุดข้อมูลว่าไม่สมดุล

ฉันกำลังเผชิญสถานการณ์ที่จำนวนตัวอย่างบวกและลบในชุดข้อมูลนั้นไม่สมดุลกัน คำถามของฉันคือมีกฎของหัวแม่มือที่บอกเราเมื่อเราควร subsample หมวดหมู่ขนาดใหญ่เพื่อบังคับสมดุลบางประเภทในชุดข้อมูล ตัวอย่าง: หากจำนวนตัวอย่างที่เป็นบวกคือ 1,000 และจำนวนตัวอย่างเชิงลบคือ 10,000 ฉันควรไปฝึกลักษณนามลักษณนามของฉันในชุดข้อมูลแบบเต็มหรือฉันควรตัวอย่างตัวอย่างเชิงลบหรือไม่ คำถามเดียวกันสำหรับตัวอย่างบวก 1,000 ข้อและลบ 100,000 ข้อ คำถามเดียวกันสำหรับ 10,000 บวกและ 1,000 ลบ ฯลฯ ...

10 classification dataset sampling class-imbalance

3

ชุดข้อมูลการวิเคราะห์เครือข่ายแบบคลาสสิก

มีชุดข้อมูลคลาสสิกหลายชุดสำหรับการจัดหมวดหมู่ / การถดถอยของการเรียนรู้ของเครื่อง ความนิยมมากที่สุดคือ: ชุดข้อมูลดอกไม้ Iris ; ชุดข้อมูลไททานิค ; Motor Trend Cars ; เป็นต้น แต่ไม่มีใครรู้ชุดข้อมูลที่คล้ายกันสำหรับการวิเคราะห์เครือข่าย / ทฤษฎีกราฟ? เป็นรูปธรรมมากขึ้น - ฉันกำลังมองหาชุดข้อมูลมาตรฐานทองคำสำหรับการเปรียบเทียบ / การประเมิน / การเรียนรู้: มาตรการศูนย์กลาง อัลกอริทึมการจัดกลุ่มเครือข่าย ฉันไม่ต้องการรายการเครือข่าย / กราฟจำนวนมากที่เปิดเผยต่อสาธารณชน แต่มีชุดข้อมูลที่ต้องรู้สองสามรายการ แก้ไข: มันค่อนข้างยากที่จะให้คุณสมบัติที่แน่นอนสำหรับ "ชุดข้อมูลมาตรฐานทองคำ" แต่นี่เป็นความคิดบางอย่าง ฉันคิดว่าชุดข้อมูลคลาสสิกที่แท้จริงควรเป็นไปตามเกณฑ์เหล่านี้: การอ้างอิงหลายบทความและตำรา รวมอยู่ในแพ็คเกจซอฟต์แวร์การวิเคราะห์เครือข่ายที่มีชื่อเสียง เวลาที่เพียงพอในการดำรงอยู่; การใช้งานในหลายหลักสูตรเกี่ยวกับการวิเคราะห์กราฟ เกี่ยวกับสาขาที่ฉันสนใจฉันต้องการคลาสที่ติดป้ายกำกับสำหรับจุดยอดและ / หรือ "คะแนนผู้มีอำนาจ" ที่กำหนดไว้ล่วงหน้า (หรือที่กำหนดไว้ล่วงหน้า) (เช่นการประมาณค่าส่วนกลาง) หลังจากถามคำถามนี้ฉันค้นหาต่อไปและนี่คือตัวอย่างที่เหมาะสม: สโมสรคาราเต้ของ Zachary : …

10 dataset graphs

1

HDF5 สามารถเขียนและอ่านได้อย่างน่าเชื่อถือพร้อมกันด้วยกระบวนการหลามแบบแยกกันหรือไม่?

ฉันกำลังเขียนสคริปต์เพื่อบันทึกข้อมูลสดตามกาลเวลาเป็นไฟล์ HDF5 เดียวซึ่งรวมถึงชุดข้อมูลทั้งหมดของฉันสำหรับโครงการนี้ ฉันทำงานกับ Python 3.6 และตัดสินใจสร้างเครื่องมือบรรทัดคำสั่งclickเพื่อใช้รวบรวมข้อมูล ความกังวลของฉันคือสิ่งที่จะเกิดขึ้นถ้าสคริปต์รวบรวมข้อมูลคือการเขียนไปยังแฟ้ม HDF5 และยังเพื่อจะ ML พยายามประยุกต์ใช้ในการอ่านข้อมูลจากไฟล์เดียวกันได้หรือไม่ ฉันดูเอกสารของกลุ่ม HDF เกี่ยวกับHDF5 I / O แบบขนานแต่นั่นก็ไม่ได้ทำให้ฉันชัดเจน

9 python dataset

2

ชุดข้อมูลมาตรฐานสำหรับการกรองร่วมกัน

ฉันต้องการที่จะทดสอบขั้นตอนวิธีการใหม่สำหรับการกรองการทำงานร่วมกัน กรณีการใช้งานทั่วไปคือการแนะนำภาพยนตร์ตามการตั้งค่าของผู้ใช้ที่คล้ายกับผู้ใช้ที่เฉพาะเจาะจง ชุดข้อมูลเบนช์มาร์กทั่วไปที่นักวิจัยมักใช้เพื่อทดสอบอัลกอริทึมคืออะไร ฉันรู้ว่าใน Computer Vision ผู้คนมักใช้ MNIST หรือ CIFAR แต่ฉันไม่พบชุดข้อมูลที่คล้ายกันสำหรับการกรองร่วมกัน

9 dataset recommender-system

2

วิธีจำลองพฤติกรรมการซื้อของผู้ใช้ใน Amazon

สำหรับโครงการหลักสูตรสุดท้ายของเราในวิทยาศาสตร์ข้อมูลเราเสนอดังต่อไปนี้ - ให้ชุดข้อมูลบทวิจารณ์ของ Amazonเราวางแผนที่จะคิดอัลกอริทึม (นั่นคือคร่าวๆตาม Personalized PageRank) ที่กำหนดตำแหน่งเชิงกลยุทธ์สำหรับการวางโฆษณาใน Amazon ตัวอย่างเช่นมีผลิตภัณฑ์นับล้านรายการใน Amazon และชุดข้อมูลจะให้ข้อมูลเกี่ยวกับผลิตภัณฑ์ที่เกี่ยวข้องผลิตภัณฑ์ที่นำมารวมกันดูด้วยกันเป็นต้น (เราสามารถสร้างกราฟพร้อมข้อมูลที่ดูได้และซื้อด้วย) นอกจากนี้ยังให้บทวิจารณ์ที่เกี่ยวข้องกับผลิตภัณฑ์แต่ละชิ้นผ่าน 14 ปี ใช้ข้อมูลเหล่านี้ทั้งหมดเราจะให้คะแนน / จัดอันดับผลิตภัณฑ์ใน Amazon ตอนนี้คุณเป็นผู้ขายใน Amazon ที่ต้องการปรับปรุงปริมาณการใช้งานไปยังหน้าผลิตภัณฑ์ของพวกเขา อัลกอริทึมของเราช่วยให้คุณระบุตำแหน่งเชิงกลยุทธ์ในกราฟที่คุณสามารถวางโฆษณาของคุณเพื่อให้คุณได้รับอัตราการเข้าชมสูงสุด ตอนนี้คำถามของศาสตราจารย์คือคุณจะตรวจสอบอัลกอริทึมของคุณโดยไม่มีผู้ใช้จริงได้อย่างไร พวกเราพูด- เราสามารถสร้างแบบจำลองชุดผู้ใช้ที่แน่นอน ผู้ใช้บางคนติดตามalso_boughtและalso_viewedเชื่อมโยงไปยังการกระโดดครั้งที่สามบ่อยกว่าการกระโดดครั้งแรกหรือครั้งที่ห้า มีการกระจายพฤติกรรมของผู้ใช้ตามปกติ ผู้ใช้บางคนแทบไม่มีการนำทางใด ๆ เลยหลังจากกระโดดครั้งแรก พฤติกรรมของผู้ใช้ชุดนี้มีการกระจายชี้แจง ศาสตราจารย์ของเรากล่าวว่า - ไม่ว่าผู้ใช้จะปฏิบัติตามสิ่งใดก็ตามผู้ใช้นำทางโดยใช้ลิงก์สำหรับผลิตภัณฑ์ที่คล้ายกัน อัลกอริทึมการจัดอันดับของคุณพิจารณาผลิตภัณฑ์ b / w 2 ที่คล้ายคลึงกันเพื่อจัดอันดับผลิตภัณฑ์ ดังนั้นการใช้อัลกอริทึมการตรวจสอบนี้จึงเป็นเรื่องcheatingจริง มาพร้อมกับพฤติกรรมของผู้ใช้อื่น ๆ ซึ่งมีความสมจริงและตั้งฉากกับอัลกอริทึมมากขึ้น มีความคิดเห็นเกี่ยวกับวิธีจำลองพฤติกรรมของผู้ใช้อย่างไร ฉันยินดีที่จะให้รายละเอียดเพิ่มเติมเกี่ยวกับอัลโก

9 machine-learning data-mining dataset recommender-system

4

แนะนำชุดข้อมูลการฝึกอบรมตัวจําแนกข้อความ

ชุดข้อมูลใดที่ฉันสามารถใช้เพื่อฝึกตัวแยกประเภทข้อความได้อย่างอิสระ เราพยายามปรับปรุงการมีส่วนร่วมของผู้ใช้โดยแนะนำเนื้อหาที่เกี่ยวข้องมากที่สุดสำหรับเขาดังนั้นเราจึงคิดว่าถ้าเราจัดหมวดหมู่เนื้อหาตามคำที่กำหนดไว้ล่วงหน้าเราสามารถแนะนำให้เขามีส่วนร่วมเนื้อหาโดยรับข้อเสนอแนะของเขา ก่อน. เราสามารถใช้ข้อมูลนี้เพื่อแนะนำให้เขาติดป้ายกำกับที่มีคลาสเหล่านั้น แต่เราพบว่าหากเราใช้ถุงคำที่กำหนดไว้ล่วงหน้าซึ่งไม่เกี่ยวข้องกับเนื้อหาของเราเวกเตอร์คุณลักษณะจะเต็มไปด้วยเลขศูนย์หมวดหมู่อาจไม่เกี่ยวข้องกับเนื้อหาของเรา ดังนั้นด้วยเหตุผลเหล่านั้นเราจึงลองใช้วิธีแก้ไขปัญหาอื่นซึ่งจะทำการจัดกลุ่มเนื้อหาของเราไม่แยกประเภท ขอบคุณ :)

9 machine-learning classification dataset clustering text-mining

คำถามติดแท็ก dataset