คำถามติดแท็ก dataset

ชุดข้อมูลคือชุดของข้อมูลมักจะอยู่ในรูปแบบตารางหรือเมทริกซ์ แท็กนี้ไม่ได้มีไว้สำหรับคำขอข้อมูล ("ฉันสามารถหาชุดข้อมูลเกี่ยวกับ ... ") -> ดู OpenData

6
ชุดข้อมูลเข้าใจวิธีปฏิบัติที่ดีที่สุด
ฉันเป็นนักศึกษาปริญญาโท CS ในด้านการขุดข้อมูล หัวหน้างานของฉันเคยบอกฉันว่าก่อนที่ฉันจะเรียกใช้ตัวจําแนกใด ๆ หรือทำอะไรกับชุดข้อมูลฉันต้องเข้าใจข้อมูลทั้งหมดและตรวจสอบให้แน่ใจว่าข้อมูลสะอาดและถูกต้อง คำถามของฉัน: อะไรคือวิธีปฏิบัติที่ดีที่สุดในการทำความเข้าใจชุดข้อมูล (มิติสูงที่มีคุณลักษณะตัวเลขและระบุ)? วิธีปฏิบัติเพื่อให้แน่ใจว่าชุดข้อมูลนั้นสะอาดหรือไม่ วิธีปฏิบัติเพื่อให้แน่ใจว่าชุดข้อมูลไม่มีค่าผิดหรือเป็นเช่นนั้น?

4
ทางเลือกการเข้ารหัสแบบร้อนสำหรับค่าหมวดใหญ่?
สวัสดีมี dataframe ที่มีค่าหมวดใหญ่มากกว่า 1600 หมวดมีวิธีใดที่ฉันสามารถหาทางเลือกเพื่อที่ฉันจะได้ไม่เกิน 1600 คอลัมน์ ฉันพบลิงค์ด้านล่างที่น่าสนใจhttp://amunategui.github.io/feature-hashing/#sourcecode แต่พวกเขากำลังแปลงเป็นคลาส / วัตถุที่ฉันไม่ต้องการ ฉันต้องการผลลัพธ์สุดท้ายของฉันเป็น dataframe เพื่อให้ฉันสามารถทดสอบกับโมเดลการเรียนรู้ของเครื่องอื่นได้หรือไม่ หรือมีวิธีใดที่ฉันสามารถใช้เมทริกซ์ genetrated ในการฝึกอบรมโมเดลการเรียนรู้ของเครื่องอื่นนอกเหนือจาก Logistic ถดถอยหรือ XGBoost จะมีต่อไปฉันจะใช้?

2
ทำไมเราต้องจัดการกับความไม่สมดุลของข้อมูล?
ฉันต้องรู้ว่าทำไมเราต้องจัดการกับความไม่สมดุลของข้อมูล ฉันรู้วิธีจัดการกับมันและวิธีการที่แตกต่างกันในการแก้ปัญหาซึ่งคือการสุ่มตัวอย่างขึ้นหรือการสุ่มตัวอย่างหรือโดยใช้ Smote ตัวอย่างเช่นถ้าฉันมีโรคหายาก 1 เปอร์เซ็นต์จาก 100 และให้บอกว่าฉันตัดสินใจที่จะมีชุดข้อมูลที่สมดุลสำหรับชุดฝึกอบรมของฉันซึ่งก็คือ: ตัวอย่าง 50/50 จะไม่ทำให้เครื่องคิดว่า 50% ของผู้ป่วยจะมี โรค? แม้ว่าอัตราส่วนคือ 1 จาก 100 ดังนั้น ทำไมเราต้องจัดการกับความไม่สมดุลของข้อมูล? อัตราส่วนที่แนะนำให้มีการตั้งค่าสมดุลคืออะไร

2
อัตราค่าโดยสารของสายการบิน - การวิเคราะห์ใดที่ควรใช้เพื่อตรวจสอบพฤติกรรมการตั้งราคาและความสัมพันธ์ของราคา
ฉันต้องการตรวจสอบพฤติกรรมการตั้งราคาของสายการบิน - โดยเฉพาะว่าสายการบินตอบสนองต่อการกำหนดราคาของคู่แข่งอย่างไร ตามที่ฉันจะบอกความรู้ของฉันเกี่ยวกับการวิเคราะห์ที่ซับซ้อนมากขึ้นค่อนข้าง จำกัด ฉันได้ทำวิธีการพื้นฐานทั้งหมดเพื่อรวบรวมมุมมองโดยรวมของข้อมูล ซึ่งรวมถึงกราฟอย่างง่ายซึ่งช่วยระบุรูปแบบที่คล้ายกัน ฉันใช้ SAS Enterprise 9.4 ด้วย อย่างไรก็ตามฉันกำลังมองหาวิธีการตามจำนวนมากขึ้น ชุดข้อมูล ชุดข้อมูลที่รวบรวม (ตัวเอง) ที่ฉันกำลังใช้อยู่มีประมาณ ~ 54.000 อัตราค่าโดยสาร ค่าโดยสารทั้งหมดถูกรวบรวมภายในหน้าต่างเวลา 60 วันเป็นประจำทุกวัน (ทุกคืนเวลา 00:00 น.) ดังนั้นทุกค่าโดยสารภายในช่วงเวลาดังกล่าวจะเกิดขึ้นครั้งขึ้นอยู่กับความพร้อมของค่าโดยสารรวมถึงวันที่ออกเดินทางของเที่ยวบินเมื่อผ่านไปตามวันที่เรียกเก็บค่าโดยสาร (คุณไม่สามารถรวบรวมค่าโดยสารสำหรับเที่ยวบินเมื่อวันที่ออกเดินทางของเที่ยวบินในอดีต)nnn รูปแบบที่ไม่มีการจัดรูปแบบโดยทั่วไปมีลักษณะดังนี้: (ข้อมูลปลอม) +--------------------+-----------+--------------------+--------------------------+---------------+ | requestDate | price| tripStartDeparture | tripDestinationDeparture | flightCarrier | +--------------------+-----------+--------------------+--------------------------+---------------+ | 14APR2015:00:00:00 | 725.32 | 16APR2015:10:50:02 | 23APR2015:21:55:04 …

4
การดาวน์โหลดชุดข้อมูลขนาดใหญ่บนเว็บโดยตรงไปยัง AWS S3
ไม่มีใครรู้ว่าเป็นไปได้ที่จะนำเข้าชุดข้อมูลขนาดใหญ่ไปยัง Amazon S3 จาก URL หรือไม่? โดยทั่วไปฉันต้องการหลีกเลี่ยงการดาวน์โหลดไฟล์ขนาดใหญ่แล้วทำการอัปโหลดไฟล์ซ้ำอีกครั้งเป็น S3 ผ่านเว็บพอร์ทัล ฉันแค่ต้องการให้ URL ดาวน์โหลดไปยัง S3 และรอให้พวกเขาดาวน์โหลดไปยังระบบไฟล์ของพวกเขา ดูเหมือนจะเป็นเรื่องง่ายที่จะทำ แต่ฉันก็หาเอกสารไม่เจอ
12 dataset  aws 

1
ฉันควรใช้เซลล์ LSTM กี่เซลล์
มีกฎของหัวแม่มือ (หรือกฎจริง) ที่เกี่ยวข้องกับจำนวน LSTM ขั้นต่ำ, สูงสุดและ "สมเหตุสมผล" ที่ฉันควรใช้หรือไม่? โดยเฉพาะฉันเกี่ยวข้องกับBasicLSTMCellจาก TensorFlow และnum_unitsคุณสมบัติ โปรดสมมติว่าฉันมีปัญหาการจำแนกที่กำหนดโดย: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples ตัวอย่างจริงหรือไม่ที่จำนวนตัวอย่างการฝึกอบรมควรมากกว่า: 4*((n+1)*m + m*m)*c ที่cเป็นจำนวนของเซลล์? ฉันใช้สิ่งนี้: จะคำนวณจำนวนพารามิเตอร์ของเครือข่าย …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

3
มีรูปแบบภาษาที่ดีนอกกรอบสำหรับงูใหญ่หรือไม่?
ฉันกำลังสร้างต้นแบบแอปพลิเคชันและฉันต้องการโมเดลภาษาเพื่อคำนวณความงุนงงในประโยคที่สร้างขึ้น มีรูปแบบภาษาที่ผ่านการฝึกอบรมในภาษาไพ ธ อนที่ฉันสามารถใช้ได้หรือไม่? บางสิ่งที่เรียบง่ายเช่น model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 ฉันดูบางกรอบ แต่ไม่สามารถค้นหาสิ่งที่ฉันต้องการ ฉันรู้ว่าฉันสามารถใช้สิ่งที่ชอบ: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) สิ่งนี้ใช้การแจกแจงความน่าจะเป็นที่ดีใน Brown Corpus แต่ฉันกำลังมองหาโมเดลที่สร้างขึ้นอย่างดีในชุดข้อมูลขนาดใหญ่เช่นชุดข้อมูลคำ 1b สิ่งที่ฉันสามารถเชื่อถือได้จริง ๆ ผลลัพธ์สำหรับโดเมนทั่วไป (ไม่เพียงข่าว)
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

2
มีข้อมูลเพียงพอสำหรับการฝึกอบรมรูปแบบการเรียนรู้ของเครื่อง?
ฉันทำงานเกี่ยวกับการเรียนรู้ของเครื่องจักรและชีวสารสนเทศมาระยะหนึ่งแล้วและวันนี้ฉันได้สนทนากับเพื่อนร่วมงานเกี่ยวกับประเด็นทั่วไปที่สำคัญของการทำเหมืองข้อมูล เพื่อนร่วมงานของฉัน (ซึ่งเป็นผู้เชี่ยวชาญด้านการเรียนรู้ของเครื่อง) กล่าวว่าในความคิดของเขาในด้านการปฏิบัติเนื้อหาที่สำคัญที่สุดของการเรียนรู้เครื่องเป็นวิธีที่จะเข้าใจว่าคุณมีการเก็บรวบรวมข้อมูลเพียงพอในการฝึกอบรมการเรียนรู้แบบเครื่องของคุณ คำสั่งนี้ทำให้ฉันประหลาดใจเพราะฉันไม่เคยให้ความสำคัญกับเรื่องนี้มากนัก ... จากนั้นผมก็มองหาข้อมูลเพิ่มเติมเกี่ยวกับอินเทอร์เน็ตและผมพบว่าการโพสต์เกี่ยวกับเรื่องนี้FastML.comรายงานเป็นกฎของหัวแม่มือที่คุณต้องการประมาณ10 ครั้งเป็นกรณีข้อมูลมากที่สุดเท่าที่มีคุณสมบัติ สองคำถาม: 1 - ปัญหานี้เกี่ยวข้องกับการเรียนรู้ของเครื่องจริงหรือไม่? 2 - กฎ 10 ครั้งทำงานใช่ไหม มีแหล่งข้อมูลที่เกี่ยวข้องอื่น ๆ สำหรับชุดรูปแบบนี้หรือไม่?

4
ฉันจะดาวน์โหลดมูลค่าหลักทรัพย์ตามราคาตลาดในอดีตและข้อมูลการหมุนเวียนรายวันสำหรับหุ้นได้ที่ไหน
มีแหล่งข้อมูลมากมายที่ให้ข้อมูลสต็อคในอดีต แต่จะมีเพียงฟิลด์ OHLC พร้อมกับปริมาณและการปิดปรับปรุง นอกจากนี้แหล่งข้อมูลสองแห่งที่ฉันพบให้ชุดข้อมูลตามราคาตลาด แต่พวกเขาถูก จำกัด เฉพาะหุ้นสหรัฐ Yahoo Finance ให้ข้อมูลนี้ออนไลน์ แต่ไม่มีตัวเลือกให้ดาวน์โหลด (หรือไม่มีใครรู้) ฉันจะดาวน์โหลดข้อมูลนี้สำหรับหุ้นที่เป็นของตลาดหลักทรัพย์ชั้นนำต่าง ๆ ทั่วประเทศโดยใช้ชื่อสัญลักษณ์ได้อย่างไร มีวิธีดาวน์โหลดผ่าน Yahoo Finance หรือ Google Finance บ้างไหม? ฉันต้องการข้อมูลในช่วงสิบปีที่ผ่านมาและด้วยเหตุนี้จึงต้องมีสคริปต์หรือ API ที่จะทำเช่นนี้
11 dataset 

3
เมื่อใดที่เราควรพิจารณาชุดข้อมูลว่าไม่สมดุล
ฉันกำลังเผชิญสถานการณ์ที่จำนวนตัวอย่างบวกและลบในชุดข้อมูลนั้นไม่สมดุลกัน คำถามของฉันคือมีกฎของหัวแม่มือที่บอกเราเมื่อเราควร subsample หมวดหมู่ขนาดใหญ่เพื่อบังคับสมดุลบางประเภทในชุดข้อมูล ตัวอย่าง: หากจำนวนตัวอย่างที่เป็นบวกคือ 1,000 และจำนวนตัวอย่างเชิงลบคือ 10,000 ฉันควรไปฝึกลักษณนามลักษณนามของฉันในชุดข้อมูลแบบเต็มหรือฉันควรตัวอย่างตัวอย่างเชิงลบหรือไม่ คำถามเดียวกันสำหรับตัวอย่างบวก 1,000 ข้อและลบ 100,000 ข้อ คำถามเดียวกันสำหรับ 10,000 บวกและ 1,000 ลบ ฯลฯ ...

3
ชุดข้อมูลการวิเคราะห์เครือข่ายแบบคลาสสิก
มีชุดข้อมูลคลาสสิกหลายชุดสำหรับการจัดหมวดหมู่ / การถดถอยของการเรียนรู้ของเครื่อง ความนิยมมากที่สุดคือ: ชุดข้อมูลดอกไม้ Iris ; ชุดข้อมูลไททานิค ; Motor Trend Cars ; เป็นต้น แต่ไม่มีใครรู้ชุดข้อมูลที่คล้ายกันสำหรับการวิเคราะห์เครือข่าย / ทฤษฎีกราฟ? เป็นรูปธรรมมากขึ้น - ฉันกำลังมองหาชุดข้อมูลมาตรฐานทองคำสำหรับการเปรียบเทียบ / การประเมิน / การเรียนรู้: มาตรการศูนย์กลาง อัลกอริทึมการจัดกลุ่มเครือข่าย ฉันไม่ต้องการรายการเครือข่าย / กราฟจำนวนมากที่เปิดเผยต่อสาธารณชน แต่มีชุดข้อมูลที่ต้องรู้สองสามรายการ แก้ไข: มันค่อนข้างยากที่จะให้คุณสมบัติที่แน่นอนสำหรับ "ชุดข้อมูลมาตรฐานทองคำ" แต่นี่เป็นความคิดบางอย่าง ฉันคิดว่าชุดข้อมูลคลาสสิกที่แท้จริงควรเป็นไปตามเกณฑ์เหล่านี้: การอ้างอิงหลายบทความและตำรา รวมอยู่ในแพ็คเกจซอฟต์แวร์การวิเคราะห์เครือข่ายที่มีชื่อเสียง เวลาที่เพียงพอในการดำรงอยู่; การใช้งานในหลายหลักสูตรเกี่ยวกับการวิเคราะห์กราฟ เกี่ยวกับสาขาที่ฉันสนใจฉันต้องการคลาสที่ติดป้ายกำกับสำหรับจุดยอดและ / หรือ "คะแนนผู้มีอำนาจ" ที่กำหนดไว้ล่วงหน้า (หรือที่กำหนดไว้ล่วงหน้า) (เช่นการประมาณค่าส่วนกลาง) หลังจากถามคำถามนี้ฉันค้นหาต่อไปและนี่คือตัวอย่างที่เหมาะสม: สโมสรคาราเต้ของ Zachary : …
10 dataset  graphs 

1
HDF5 สามารถเขียนและอ่านได้อย่างน่าเชื่อถือพร้อมกันด้วยกระบวนการหลามแบบแยกกันหรือไม่?
ฉันกำลังเขียนสคริปต์เพื่อบันทึกข้อมูลสดตามกาลเวลาเป็นไฟล์ HDF5 เดียวซึ่งรวมถึงชุดข้อมูลทั้งหมดของฉันสำหรับโครงการนี้ ฉันทำงานกับ Python 3.6 และตัดสินใจสร้างเครื่องมือบรรทัดคำสั่งclickเพื่อใช้รวบรวมข้อมูล ความกังวลของฉันคือสิ่งที่จะเกิดขึ้นถ้าสคริปต์รวบรวมข้อมูลคือการเขียนไปยังแฟ้ม HDF5 และยังเพื่อจะ ML พยายามประยุกต์ใช้ในการอ่านข้อมูลจากไฟล์เดียวกันได้หรือไม่ ฉันดูเอกสารของกลุ่ม HDF เกี่ยวกับHDF5 I / O แบบขนานแต่นั่นก็ไม่ได้ทำให้ฉันชัดเจน
9 python  dataset 

2
ชุดข้อมูลมาตรฐานสำหรับการกรองร่วมกัน
ฉันต้องการที่จะทดสอบขั้นตอนวิธีการใหม่สำหรับการกรองการทำงานร่วมกัน กรณีการใช้งานทั่วไปคือการแนะนำภาพยนตร์ตามการตั้งค่าของผู้ใช้ที่คล้ายกับผู้ใช้ที่เฉพาะเจาะจง ชุดข้อมูลเบนช์มาร์กทั่วไปที่นักวิจัยมักใช้เพื่อทดสอบอัลกอริทึมคืออะไร ฉันรู้ว่าใน Computer Vision ผู้คนมักใช้ MNIST หรือ CIFAR แต่ฉันไม่พบชุดข้อมูลที่คล้ายกันสำหรับการกรองร่วมกัน

2
วิธีจำลองพฤติกรรมการซื้อของผู้ใช้ใน Amazon
สำหรับโครงการหลักสูตรสุดท้ายของเราในวิทยาศาสตร์ข้อมูลเราเสนอดังต่อไปนี้ - ให้ชุดข้อมูลบทวิจารณ์ของ Amazonเราวางแผนที่จะคิดอัลกอริทึม (นั่นคือคร่าวๆตาม Personalized PageRank) ที่กำหนดตำแหน่งเชิงกลยุทธ์สำหรับการวางโฆษณาใน Amazon ตัวอย่างเช่นมีผลิตภัณฑ์นับล้านรายการใน Amazon และชุดข้อมูลจะให้ข้อมูลเกี่ยวกับผลิตภัณฑ์ที่เกี่ยวข้องผลิตภัณฑ์ที่นำมารวมกันดูด้วยกันเป็นต้น (เราสามารถสร้างกราฟพร้อมข้อมูลที่ดูได้และซื้อด้วย) นอกจากนี้ยังให้บทวิจารณ์ที่เกี่ยวข้องกับผลิตภัณฑ์แต่ละชิ้นผ่าน 14 ปี ใช้ข้อมูลเหล่านี้ทั้งหมดเราจะให้คะแนน / จัดอันดับผลิตภัณฑ์ใน Amazon ตอนนี้คุณเป็นผู้ขายใน Amazon ที่ต้องการปรับปรุงปริมาณการใช้งานไปยังหน้าผลิตภัณฑ์ของพวกเขา อัลกอริทึมของเราช่วยให้คุณระบุตำแหน่งเชิงกลยุทธ์ในกราฟที่คุณสามารถวางโฆษณาของคุณเพื่อให้คุณได้รับอัตราการเข้าชมสูงสุด ตอนนี้คำถามของศาสตราจารย์คือคุณจะตรวจสอบอัลกอริทึมของคุณโดยไม่มีผู้ใช้จริงได้อย่างไร พวกเราพูด- เราสามารถสร้างแบบจำลองชุดผู้ใช้ที่แน่นอน ผู้ใช้บางคนติดตามalso_boughtและalso_viewedเชื่อมโยงไปยังการกระโดดครั้งที่สามบ่อยกว่าการกระโดดครั้งแรกหรือครั้งที่ห้า มีการกระจายพฤติกรรมของผู้ใช้ตามปกติ ผู้ใช้บางคนแทบไม่มีการนำทางใด ๆ เลยหลังจากกระโดดครั้งแรก พฤติกรรมของผู้ใช้ชุดนี้มีการกระจายชี้แจง ศาสตราจารย์ของเรากล่าวว่า - ไม่ว่าผู้ใช้จะปฏิบัติตามสิ่งใดก็ตามผู้ใช้นำทางโดยใช้ลิงก์สำหรับผลิตภัณฑ์ที่คล้ายกัน อัลกอริทึมการจัดอันดับของคุณพิจารณาผลิตภัณฑ์ b / w 2 ที่คล้ายคลึงกันเพื่อจัดอันดับผลิตภัณฑ์ ดังนั้นการใช้อัลกอริทึมการตรวจสอบนี้จึงเป็นเรื่องcheatingจริง มาพร้อมกับพฤติกรรมของผู้ใช้อื่น ๆ ซึ่งมีความสมจริงและตั้งฉากกับอัลกอริทึมมากขึ้น มีความคิดเห็นเกี่ยวกับวิธีจำลองพฤติกรรมของผู้ใช้อย่างไร ฉันยินดีที่จะให้รายละเอียดเพิ่มเติมเกี่ยวกับอัลโก

4
แนะนำชุดข้อมูลการฝึกอบรมตัวจําแนกข้อความ
ชุดข้อมูลใดที่ฉันสามารถใช้เพื่อฝึกตัวแยกประเภทข้อความได้อย่างอิสระ เราพยายามปรับปรุงการมีส่วนร่วมของผู้ใช้โดยแนะนำเนื้อหาที่เกี่ยวข้องมากที่สุดสำหรับเขาดังนั้นเราจึงคิดว่าถ้าเราจัดหมวดหมู่เนื้อหาตามคำที่กำหนดไว้ล่วงหน้าเราสามารถแนะนำให้เขามีส่วนร่วมเนื้อหาโดยรับข้อเสนอแนะของเขา ก่อน. เราสามารถใช้ข้อมูลนี้เพื่อแนะนำให้เขาติดป้ายกำกับที่มีคลาสเหล่านั้น แต่เราพบว่าหากเราใช้ถุงคำที่กำหนดไว้ล่วงหน้าซึ่งไม่เกี่ยวข้องกับเนื้อหาของเราเวกเตอร์คุณลักษณะจะเต็มไปด้วยเลขศูนย์หมวดหมู่อาจไม่เกี่ยวข้องกับเนื้อหาของเรา ดังนั้นด้วยเหตุผลเหล่านั้นเราจึงลองใช้วิธีแก้ไขปัญหาอื่นซึ่งจะทำการจัดกลุ่มเนื้อหาของเราไม่แยกประเภท ขอบคุณ :)
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.