คำถามติดแท็ก categorical-data

ข้อมูลหมวดหมู่สามารถรับค่าที่เป็นไปได้จำนวน จำกัด (โดยปกติจะคงที่) ซึ่งเรียกว่าประเภท ค่าตามหมวดหมู่ "label" ไม่ "วัด" ประเภทมาตราส่วนที่กำหนดและแบบไดโคโตมัส / ไบนารีเป็นประเภท บางคนถือว่ามาตราส่วนตามลำดับเป็นหมวดหมู่เกินไป

13
K-หมายถึงการจัดกลุ่มสำหรับข้อมูลตัวเลขและหมวดหมู่ผสม
ชุดข้อมูลของฉันมีแอตทริบิวต์ตัวเลขจำนวนหนึ่งและหนึ่งหมวดหมู่ พูดว่าNumericAttr1, NumericAttr2, ..., NumericAttrN, CategoricalAttr, ที่CategoricalAttrจะใช้เวลาหนึ่งของค่าที่เป็นไปได้ที่สาม: CategoricalAttrValue1, หรือCategoricalAttrValue2CategoricalAttrValue3 ฉันใช้ค่าเริ่มต้น k หมายถึงการจัดกลุ่มการดำเนินการขั้นตอนวิธีสำหรับคู่https://blog.west.uni-koblenz.de/2012-07-14/a-working-k-means-code-for-octave/ ใช้งานได้กับข้อมูลตัวเลขเท่านั้น ดังนั้นคำถามของฉัน: มันเป็นที่ถูกต้องในการแยกแอตทริบิวต์เด็ดขาดCategoricalAttrเป็นสามตัวเลข (binary) ตัวแปรเช่นIsCategoricalAttrValue1, IsCategoricalAttrValue2, IsCategoricalAttrValue3?

3
เมื่อใดจึงต้องใช้ One Hot Encoding กับ LabelEncoder vs DictVectorizor
ฉันได้สร้างแบบจำลองที่มีข้อมูลหมวดหมู่มาระยะหนึ่งแล้วและเมื่ออยู่ในสถานการณ์นี้ฉันเริ่มใช้ฟังก์ชั่น LabelEncoder ของ scikit-Learn เพื่อแปลงข้อมูลนี้ก่อนที่จะสร้างแบบจำลอง ผมเข้าใจความแตกต่างระหว่างOHE, LabelEncoderและDictVectorizorในแง่ของสิ่งที่พวกเขากำลังทำเพื่อข้อมูล แต่สิ่งที่ไม่ชัดเจนกับผมคือเมื่อคุณอาจเลือกที่จะจ้างเทคนิคหนึ่งมากกว่าอีก มีอัลกอริทึมหรือสถานการณ์บางอย่างที่มีข้อดี / ข้อเสียเกี่ยวกับผู้อื่นหรือไม่?

3
วิธีการรวมฟีเจอร์อินพุตและหมวดหมู่อย่างต่อเนื่องสำหรับการฝึกอบรมโครงข่ายประสาทเทียม
สมมติว่าเรามีคุณสมบัติอินพุตสองประเภทจัดหมวดหมู่และต่อเนื่อง ข้อมูลหมวดหมู่อาจถูกแทนด้วยรหัสร้อนแรง A ในขณะที่ข้อมูลต่อเนื่องเป็นเพียงเวกเตอร์ B ในพื้นที่มิติ N ดูเหมือนว่าการใช้ concat (A, B) ไม่ใช่ทางเลือกที่ดีเพราะ A, B เป็นข้อมูลที่แตกต่างกันโดยสิ้นเชิง ตัวอย่างเช่นแตกต่างจาก B ไม่มีลำดับตัวเลขใน A. ดังนั้นคำถามของฉันคือการรวมข้อมูลสองชนิดนี้หรือมีวิธีการทั่วไปในการจัดการพวกเขา อันที่จริงฉันเสนอโครงสร้างไร้เดียงสาตามที่แสดงในภาพ ดังที่คุณเห็นเลเยอร์แรก ๆ จะใช้ในการเปลี่ยนข้อมูล (หรือแผนที่) A เป็นเอาท์พุทกลางในพื้นที่ต่อเนื่องและจากนั้นจะถูกเชื่อมโยงกับ data B ซึ่งเป็นคุณลักษณะอินพุตใหม่ในพื้นที่ต่อเนื่องสำหรับเลเยอร์ในภายหลัง ฉันสงสัยว่ามันสมเหตุสมผลหรือเป็นแค่เกม "ลองผิดลองถูก" ขอบคุณ.

2
ทำไมเราต้องละทิ้งตัวแปรจำลองหนึ่งตัว
ฉันได้เรียนรู้ว่าสำหรับการสร้างแบบจำลองการถดถอยเราต้องดูแลตัวแปรเด็ดขาดโดยการแปลงให้เป็นตัวแปรจำลอง ตัวอย่างเช่นถ้าในชุดข้อมูลของเรามีตัวแปรเช่นตำแหน่ง: Location ---------- Californian NY Florida เราต้องแปลงพวกเขาเช่น: 1 0 0 0 1 0 0 0 1 อย่างไรก็ตามขอแนะนำให้เราทิ้งตัวแปรดัมมี่หนึ่งตัวไม่ว่าจะมีตัวแปรจำลองกี่ตัว ทำไมเราต้องละทิ้งตัวแปรจำลองหนึ่งตัว

1
ความสำคัญของคุณลักษณะที่มีคุณลักษณะหมวดหมู่ที่มีความสำคัญสูงสำหรับการถดถอย (ตัวแปร depdendent ที่เป็นตัวเลข)
ฉันพยายามใช้ความสำคัญของคุณลักษณะจาก Random Forests เพื่อทำการเลือกคุณลักษณะเชิงประจักษ์สำหรับปัญหาการถดถอยที่คุณสมบัติทั้งหมดเป็นหมวดหมู่และส่วนใหญ่มีหลายระดับ (ตามลำดับที่ 100-1,000) เนื่องจากการเข้ารหัสแบบ one-hot สร้างตัวแปรดัมมี่สำหรับแต่ละระดับความสำคัญของคุณลักษณะสำหรับแต่ละระดับและไม่ใช่แต่ละฟีเจอร์ (คอลัมน์) วิธีที่ดีในการรวมความสำคัญของคุณลักษณะเหล่านี้คืออะไร ฉันคิดเกี่ยวกับการสรุปหรือรับความสำคัญโดยเฉลี่ยสำหรับทุกระดับของคุณลักษณะ (อาจเป็นไปได้ว่าในอดีตจะมีอคติต่อคุณลักษณะเหล่านั้นที่มีระดับมากขึ้น) มีการอ้างอิงใด ๆ เกี่ยวกับปัญหานี้หรือไม่? เราสามารถทำอะไรได้อีกเพื่อลดจำนวนคุณสมบัติ ฉันตระหนักถึงกลุ่มเชือกไม่สามารถหาอะไรที่ง่ายต่อการใช้งานสำหรับการเรียนรู้ Scikit

3
มวลแปลงคอลัมน์เด็ดขาดใน Pandas (ไม่ใช่การเข้ารหัสแบบร้อนแรง)
ฉันมี dataframe นุ่นกับคอลัมน์เด็ดขาดมากมายซึ่งฉันกำลังวางแผนที่จะใช้ในต้นไม้การตัดสินใจกับ scikit- เรียนรู้ ฉันต้องการแปลงให้เป็นค่าตัวเลข ฉันสามารถทำได้ด้วย LabelEncoder จาก scikit-learn ปัญหาคือมีจำนวนมากเกินไปและฉันไม่ต้องการแปลงด้วยตนเอง อะไรจะเป็นวิธีที่ง่ายในการทำให้กระบวนการนี้เป็นแบบอัตโนมัติ

3
ฉันจะแยกความแตกต่างระหว่างข้อมูลที่เป็นหมวดหมู่และข้อมูลที่เป็นตัวเลขได้อย่างไร
ฉันรู้จักใครที่กำลังทำงานในโครงการที่เกี่ยวข้องกับการนำเข้าแฟ้มข้อมูลโดยไม่คำนึงถึงคอลัมน์หรือชนิดข้อมูล ภารกิจคือการใช้ไฟล์ที่มีคอลัมน์จำนวนเท่าใดก็ได้รวมถึงชนิดข้อมูลต่างๆและสถิติสรุปผลลัพธ์ของข้อมูลตัวเลข อย่างไรก็ตามเขาไม่แน่ใจว่าจะดำเนินการกำหนดประเภทข้อมูลแบบไดนามิกสำหรับข้อมูลตามจำนวนที่แน่นอนได้อย่างไร ตัวอย่างเช่น: CITY Albuquerque Boston Chicago เห็นได้ชัดว่านี่ไม่ใช่ข้อมูลตัวเลขและจะถูกเก็บไว้เป็นข้อความ อย่างไรก็ตาม ZIP 80221 60653 25525 ไม่ชัดเจนว่าเป็นหมวดหมู่ ซอฟต์แวร์ของเขาจะกำหนดรหัสไปรษณีย์เป็นตัวเลขและสรุปสถิติผลลัพธ์ของมันซึ่งไม่สมเหตุสมผลสำหรับข้อมูลประเภทนั้น แนวคิดสองสามข้อที่เรามี: หากคอลัมน์เป็นจำนวนเต็มทั้งหมดให้ระบุชื่อเป็นหมวดหมู่ เห็นได้ชัดว่าใช้งานไม่ได้ แต่เป็นความคิด หากคอลัมน์มีค่าที่ไม่ซ้ำกันน้อยกว่าnค่าและเป็นตัวเลขให้กำหนดป้ายกำกับให้เป็นหมวดหมู่ นี่อาจเข้าใกล้ แต่ก็ยังอาจมีปัญหาเกี่ยวกับข้อมูลที่เป็นตัวเลข ปรับปรุงรายการข้อมูลตัวเลขทั่วไปที่ควรจัดหมวดหมู่และเปรียบเทียบส่วนหัวคอลัมน์กับรายการนี้เพื่อจับคู่ ตัวอย่างเช่นทุกอย่างที่มี "ZIP" ในนั้นจะเป็นหมวดหมู่ ลำไส้ของฉันบอกฉันว่าไม่มีวิธีที่จะกำหนดข้อมูลตัวเลขอย่างถูกต้องเป็นหมวดหมู่หรือตัวเลข แต่หวังว่าจะได้รับคำแนะนำ ข้อมูลเชิงลึกใด ๆ ที่คุณได้รับการชื่นชมอย่างมาก

3
มีรูปแบบภาษาที่ดีนอกกรอบสำหรับงูใหญ่หรือไม่?
ฉันกำลังสร้างต้นแบบแอปพลิเคชันและฉันต้องการโมเดลภาษาเพื่อคำนวณความงุนงงในประโยคที่สร้างขึ้น มีรูปแบบภาษาที่ผ่านการฝึกอบรมในภาษาไพ ธ อนที่ฉันสามารถใช้ได้หรือไม่? บางสิ่งที่เรียบง่ายเช่น model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 ฉันดูบางกรอบ แต่ไม่สามารถค้นหาสิ่งที่ฉันต้องการ ฉันรู้ว่าฉันสามารถใช้สิ่งที่ชอบ: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) สิ่งนี้ใช้การแจกแจงความน่าจะเป็นที่ดีใน Brown Corpus แต่ฉันกำลังมองหาโมเดลที่สร้างขึ้นอย่างดีในชุดข้อมูลขนาดใหญ่เช่นชุดข้อมูลคำ 1b สิ่งที่ฉันสามารถเชื่อถือได้จริง ๆ ผลลัพธ์สำหรับโดเมนทั่วไป (ไม่เพียงข่าว)
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

2
วิธีการแปลงข้อมูลเด็ดขาดเป็นข้อมูลตัวเลขใน Pyspark
ฉันกำลังใช้สมุดบันทึก Ipython เพื่อทำงานกับแอปพลิเคชัน pyspark ฉันมีไฟล์ CSV ที่มีคอลัมน์หมวดหมู่มากมายเพื่อพิจารณาว่ารายได้อยู่ในช่วงหรือมากกว่า 50k ฉันต้องการดำเนินการอัลกอริทึมการจำแนกโดยใช้อินพุตทั้งหมดเพื่อกำหนดช่วงรายได้ ฉันต้องสร้างพจนานุกรมของตัวแปรเพื่อทำแผนที่ตัวแปรและใช้ฟังก์ชั่นแผนที่เพื่อแมปตัวแปรกับตัวเลขสำหรับการประมวลผล โดยพื้นฐานแล้วฉันต้องการให้ชุดข้อมูลของฉันอยู่ในรูปแบบตัวเลขเพื่อให้ฉันสามารถใช้งานโมเดลได้ ในชุดข้อมูลมีคอลัมน์หมวดหมู่เช่นการศึกษาสถานภาพการทำงาน ฯลฯ มีคนบอกวิธีแปลงเป็นคอลัมน์ตัวเลขใน pyspark ได้ไหม workclass = {'?':0,'Federal-gov':1,'Local-gov':2,'Never- worked':3,'Private':4,'Self-emp-inc':5,'Self-emp-not-inc':6,'State-gov':7,'Without-pay':8} ฉันสร้างพจนานุกรมตัวอย่างพร้อมคู่ค่าคีย์สำหรับคลาสงาน แต่ฉันไม่รู้วิธีใช้สิ่งนี้ในฟังก์ชั่นแผนที่และแทนที่ข้อมูลหมวดหมู่ในไฟล์ CSV ด้วยค่าที่สอดคล้องกัน wc = pd.read_csv('PATH', usecols = ['Workclass']) df = pd.DataFrame(wc) wcdict = {' ?':0,' Federal-gov':1,' Local-gov':2,' Never-worked':3,' Private':4,' Self-emp-inc':5,' Self-emp-n-inc':6,' State-gov':7,' Without-pay':8} df_new = df.applymap(lambda s: wcdict.get(s) …

3
ภาษาที่ดีที่สุดสำหรับการคำนวณทางวิทยาศาสตร์ [ปิด]
ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน5 ปีที่ผ่านมา ดูเหมือนว่าภาษาส่วนใหญ่จะมีห้องสมุดคำนวณทางวิทยาศาสตร์จำนวนหนึ่ง Python มี Scipy Rust มี SciRust C++มีหลายอย่างรวมถึงViennaCLและArmadillo JavaมีJava NumericsและColtเช่นเดียวกับหลาย ๆ ไม่ต้องพูดถึงภาษาที่ชอบRและJuliaออกแบบมาอย่างชัดเจนสำหรับการคำนวณทางวิทยาศาสตร์ ด้วยตัวเลือกมากมายคุณจะเลือกภาษาที่ดีที่สุดสำหรับงานอย่างไร นอกจากนี้ภาษาใดที่จะเป็นคนที่มีประสิทธิภาพมากที่สุด? PythonและRดูเหมือนว่าจะมีแรงฉุดที่สุดในอวกาศ แต่ภาษาที่รวบรวมได้ดูเหมือนจะเป็นทางเลือกที่ดีกว่า และจะมีอะไรดีกว่านี้Fortranไหม ภาษาที่คอมไพล์ด้วยนอกจากนี้มักจะมีการเร่งความเร็วของ GPU ในขณะที่ตีความภาษาเช่นRและPythonไม่ ฉันควรคำนึงถึงอะไรเมื่อเลือกภาษาและภาษาใดให้ความสมดุลของยูทิลิตี้และประสิทธิภาพที่ดีที่สุด มีภาษาใดบ้างที่มีทรัพยากรการคำนวณทางวิทยาศาสตร์ที่สำคัญที่ฉันพลาดไป
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

3
ฉันจะจำแนกข้อมูลที่ไม่มีหมวดหมู่ได้อย่างไร?
ฉันมีปัญหาการจัดหมวดหมู่ด้วยข้อมูลทั้งหมวดหมู่และตัวเลข ปัญหาที่ฉันเผชิญคือข้อมูลที่เป็นหมวดหมู่ของฉันไม่ได้รับการแก้ไขนั่นหมายความว่าผู้สมัครใหม่ที่มีป้ายกำกับที่ฉันต้องการคาดการณ์อาจมีหมวดหมู่ใหม่ที่ไม่ได้สังเกตเห็นล่วงหน้า ตัวอย่างเช่นถ้าข้อมูลที่แน่ชัดของฉันเป็นsexเพียงป้ายชื่อที่เป็นไปได้female, maleและotherไม่ว่าสิ่งที่ อย่างไรก็ตามตัวแปรตามหมวดหมู่ของฉันคือcityมันอาจเกิดขึ้นได้ว่าคนที่ฉันพยายามจะทำนายมีเมืองใหม่ที่ตัวจำแนกของฉันไม่เคยเห็น ฉันสงสัยว่ามีวิธีการจัดหมวดหมู่ในข้อกำหนดเหล่านี้หรือถ้าฉันควรทำการฝึกอบรมอีกครั้งโดยพิจารณาข้อมูลหมวดหมู่ใหม่นี้
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.