คำถามติดแท็ก feature-extraction

ตัวแปร (ใช้สำหรับการทำนายหรือการอธิบาย) ที่ใช้ในการถดถอยหรือแบบจำลองการถดถอย (เช่นการจัดกลุ่มการเลือกปฏิบัติ) ใช้แท็กนี้สำหรับคำถามเกี่ยวกับการสร้างตัวแปรดังกล่าวหรือเลือกสิ่งที่ดีที่สุด

11
การลดมิติข้อมูลคืออะไร? ความแตกต่างระหว่างการเลือกคุณสมบัติและการแยกคืออะไร?
จากวิกิพีเดีย การลดขนาดหรือการลดขนาดเป็นกระบวนการลดจำนวนตัวแปรสุ่มที่พิจารณาและสามารถแบ่งออกเป็นการเลือกคุณลักษณะและการแยกคุณลักษณะ ความแตกต่างระหว่างการเลือกคุณสมบัติและการแยกคุณสมบัติคืออะไร? ตัวอย่างของการลดมิติข้อมูลในงานประมวลผลภาษาธรรมชาติคืออะไร

6
มีเครื่องมือใดสำหรับวิศวกรรมฟีเจอร์หรือไม่
โดยเฉพาะสิ่งที่ฉันกำลังมองหาคือเครื่องมือที่มีฟังก์ชั่นการใช้งานบางอย่างซึ่งเป็นคุณสมบัติเฉพาะสำหรับงานวิศวกรรม ฉันต้องการที่จะสามารถเรียบมองเห็นเติมช่องว่าง ฯลฯ สิ่งที่คล้ายกับ MS Excel แต่ที่มี R เป็นภาษาพื้นฐานแทน VB

6
คุณสมบัติการเข้ารหัสเช่นเดือนและชั่วโมงเป็นหมวดหมู่หรือตัวเลข?
มันจะดีกว่าที่จะเข้ารหัสคุณสมบัติเช่นเดือนและชั่วโมงเป็นปัจจัยหรือตัวเลขในรูปแบบการเรียนรู้ของเครื่อง? ในอีกด้านหนึ่งฉันรู้สึกว่าการเข้ารหัสตัวเลขอาจสมเหตุสมผลเนื่องจากเวลาเป็นกระบวนการที่ก้าวหน้าไปข้างหน้า (เดือนที่ห้าตามด้วยเดือนที่หก) แต่ในทางกลับกันฉันคิดว่าการเข้ารหัส categorial อาจสมเหตุสมผลมากกว่าเนื่องจากลักษณะวงจร ของปีและวัน (เดือนที่ 12 ตามด้วยเดือนแรก) มีวิธีแก้ไขปัญหาทั่วไปหรือแบบแผนสำหรับสิ่งนี้หรือไม่?

3
การแปลงคุณสมบัติของข้อมูลอินพุต
ฉันอ่านเกี่ยวกับวิธีแก้ปัญหาตัวต่อOTTO Kaggleนี้และวิธีแก้ปัญหาอันดับแรกดูเหมือนว่าจะใช้การแปลงหลายอย่างสำหรับข้อมูลอินพุต X เช่น Log (X + 1), sqrt (X + 3/8) เป็นต้นมี คำแนะนำทั่วไปเกี่ยวกับเวลาที่จะใช้การแปลงชนิดกับตัวแยกประเภทต่างๆ? ฉันเข้าใจแนวคิดเกี่ยวกับการทำให้ค่าเฉลี่ยและ var-normal-normalization อย่างไรก็ตามสำหรับการแปลงข้างต้นฉันเดาว่า Log และ Sqrt จะใช้ในการบีบอัดช่วงไดนามิกของข้อมูล และการเลื่อนแกน x เป็นเพียงการป้อนข้อมูลอีกครั้ง อย่างไรก็ตามผู้เขียนเลือกที่จะใช้วิธีการต่าง ๆ ของการทำให้เป็นมาตรฐานสำหรับอินพุต X เดียวกันเมื่อป้อนเข้าสู่ตัวแยกประเภทที่แตกต่างกัน ความคิดใด ๆ

3
เป็นวิธีที่ดีในการแปลงแอตทริบิวต์ลำดับรอบเป็นอย่างไร
ฉันมีฟิลด์ 'ชั่วโมง' เป็นคุณลักษณะของฉัน แต่มันต้องใช้ค่าวงจร ฉันจะแปลงคุณสมบัติเพื่อรักษาข้อมูลเช่น '23' และ '0' ชั่วโมงได้อย่างไร วิธีหนึ่งที่ฉันสามารถคิดได้คือทำการเปลี่ยนแปลง: min(h, 23-h) Input: [0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23] Output: [0 1 2 3 4 5 6 7 8 9 10 11 …

3
วิธีการดำเนินการด้านวิศวกรรมคุณสมบัติในคุณสมบัติที่ไม่รู้จัก?
ฉันมีส่วนร่วมในการแข่งขัน kaggle ชุดข้อมูลมีคุณลักษณะประมาณ 100 รายการและไม่เป็นที่รู้จักทั้งหมด โดยทั่วไปพวกเขาเป็นเพียงตัวเลข ผู้คนกำลังดำเนินการด้านวิศวกรรมฟีเจอร์กับฟีเจอร์มากมาย ฉันสงสัยว่าคนหนึ่งสามารถทำงานด้านวิศวกรรมคุณลักษณะบนคุณสมบัติที่ไม่รู้จักได้อย่างไร ใครช่วยกรุณาช่วยฉันเข้าใจเรื่องนี้และเคล็ดลับเกี่ยวกับฉันจะดำเนินการด้านวิศวกรรมคุณลักษณะในคุณสมบัติที่ไม่รู้จักได้อย่างไร

3
การแยกคุณสมบัติของภาพใน Python
ในชั้นเรียนของฉันฉันต้องสร้างแอปพลิเคชั่นโดยใช้ตัวแยกประเภทสองตัวเพื่อตัดสินใจว่าวัตถุในภาพเป็นตัวอย่างของไฟลัมพอฟิรา (seasponge) หรือวัตถุอื่น ๆ อย่างไรก็ตามฉันหลงทางอย่างสิ้นเชิงเมื่อพูดถึงเทคนิคการแยกฟีเจอร์ในไพ ธ อน ที่ปรึกษาของฉันโน้มน้าวให้ฉันใช้รูปภาพที่ไม่ได้กล่าวถึงในชั้นเรียน ใครสามารถบอกฉันถึงเอกสารที่มีความหมายหรืออ่านหรือแนะนำวิธีการในการพิจารณา?

5
ทำให้แผนที่ความร้อนของทะเลใหญ่ขึ้น
ฉันสร้างcorr()df จาก df ดั้งเดิม corr()DF ออก 70 X 70 มาและมันเป็นไปไม่ได้ที่จะเห็นภาพ heatmap ส sns.heatmap(df)... ถ้าฉันพยายามที่จะแสดงcorr = df.corr()ตารางที่ไม่พอดีกับหน้าจอและฉันสามารถดูความสัมพันธ์ทั้งหมด มันเป็นวิธีที่จะพิมพ์ทั้งdfโดยไม่คำนึงถึงขนาดของมันหรือเพื่อควบคุมขนาดของ heatmap หรือไม่?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

2
วิธีการเลือกคุณสมบัติสำหรับเครือข่ายประสาทเทียม?
ฉันรู้ว่าไม่มีคำตอบที่ชัดเจนสำหรับคำถามนี้ แต่สมมติว่าฉันมีเครือข่ายประสาทขนาดใหญ่ที่มีข้อมูลจำนวนมากและฉันต้องการเพิ่มคุณสมบัติใหม่ในอินพุต วิธีที่ "ดีที่สุด" คือการทดสอบเครือข่ายด้วยคุณสมบัติใหม่และดูผลลัพธ์ แต่มีวิธีทดสอบว่าคุณลักษณะดังกล่าวไม่เป็นประโยชน์หรือไม่? เช่นเดียวกับมาตรการความสัมพันธ์ ( http://www3.nd.edu/~mclark19/learn/CorrelationComparison.pdf ) เป็นต้น?

5
การเลือกคุณสมบัติเทียบกับการแยกคุณสมบัติ จะใช้เมื่อใด
การแยกคุณลักษณะและการเลือกคุณสมบัติเป็นหลักช่วยลดมิติข้อมูล แต่การดึงคุณสมบัติยังทำให้ข้อมูลแยกกันได้มากขึ้นถ้าฉันพูดถูก เทคนิคใดจะเป็นที่ต้องการมากกว่าอีกอันและเมื่อใด ฉันคิดว่าเนื่องจากการเลือกคุณสมบัติไม่ได้แก้ไขข้อมูลต้นฉบับและคุณสมบัติของมันฉันคิดว่าคุณจะใช้การเลือกคุณสมบัติเมื่อสิ่งสำคัญคือคุณสมบัติที่คุณกำลังฝึกอบรมไม่เปลี่ยนแปลง แต่ฉันไม่สามารถจินตนาการได้ว่าทำไมคุณต้องการบางสิ่งเช่นนี้ ..

3
เหตุใดเราจึงแปลงข้อมูลที่เบ้เป็นการแจกแจงแบบปกติ
ฉันกำลังแก้ไขปัญหาการแข่งขันด้านราคาที่อยู่อาศัยใน Kaggle ( เคอร์เนลของ Human Analog ในราคาบ้าน: เทคนิคการถดถอยขั้นสูง ) และได้ข้ามส่วนนี้: # Transform the skewed numeric features by taking log(feature + 1). # This will make the features more normal. from scipy.stats import skew skewed = train_df_munged[numeric_features].apply(lambda x: skew(x.dropna().astype(float))) skewed = skewed[skewed > 0.75] skewed = skewed.index train_df_munged[skewed] = np.log1p(train_df_munged[skewed]) test_df_munged[skewed] …

2
คุณสมบัติใดที่ใช้โดยทั่วไปจากต้นการแยกวิเคราะห์ในกระบวนการจำแนกใน NLP
ฉันกำลังสำรวจโครงสร้างต้นไม้แยกวิเคราะห์ประเภทต่างๆ โครงสร้างการแยกวิเคราะห์ต้นไม้ที่รู้จักกันอย่างกว้างขวางทั้งสองคือก) การแยกวิเคราะห์ต้นไม้ตามโครงสร้างและข) โครงสร้างการแยกวิเคราะห์ต้นไม้ที่ขึ้นอยู่กับการพึ่งพา ฉันสามารถใช้สร้างโครงสร้างการแยกวิเคราะห์ต้นไม้ทั้งสองชนิดโดยใช้แพ็คเกจ Stanford NLP อย่างไรก็ตามฉันไม่แน่ใจว่าจะใช้โครงสร้างต้นไม้เหล่านี้สำหรับงานการจัดหมวดหมู่ของฉันได้อย่างไร ตัวอย่างเช่นถ้าฉันต้องการวิเคราะห์ความเชื่อมั่นและต้องการจัดหมวดหมู่ข้อความเป็นคลาสบวกและลบฉันสามารถใช้คุณลักษณะใดได้บ้างจากโครงสร้างการแยกวิเคราะห์ต้นไม้สำหรับงานการจัดหมวดหมู่ของฉัน

1
ความแตกต่างระหว่างการเข้ารหัสแบบร้อนและการเข้ารหัสแบบครั้งเดียวคืออะไร
ฉันกำลังอ่านงานนำเสนอและไม่แนะนำให้ใช้การเข้ารหัสการลาแบบหนึ่งครั้ง แต่ก็โอเคกับการเข้ารหัสแบบร้อนเพียงครั้งเดียว ฉันคิดว่าพวกเขาทั้งสองเหมือนกัน ใครสามารถอธิบายความแตกต่างระหว่างพวกเขาคืออะไร?

3
การเรียนรู้คุณลักษณะที่ไม่ได้รับการสนับสนุนสำหรับ NER
ฉันใช้ระบบ NER ด้วยการใช้อัลกอริธึม CRF กับคุณลักษณะแบบ handcrafted ของฉันที่ให้ผลลัพธ์ค่อนข้างดี สิ่งหนึ่งคือฉันใช้คุณสมบัติที่แตกต่างมากมายรวมถึงแท็ก POS และบทแทรก ตอนนี้ฉันต้องการสร้าง NER เดียวกันสำหรับภาษาอื่น ปัญหานี่คือฉันไม่สามารถใช้แท็ก POS และบทแทรก ฉันเริ่มอ่านบทความเกี่ยวกับการเรียนรู้อย่างลึกล้ำและการเรียนรู้คุณสมบัติที่ไม่มีผู้ดูแล คำถามของฉันคือ: เป็นไปได้ไหมที่จะใช้วิธีการสำหรับการเรียนรู้คุณสมบัติที่ไม่ได้รับการจัดการด้วยอัลกอริทึม CRF? ไม่มีใครลองและได้ผลดีบ้างไหม? มีบทความหรือการสอนเกี่ยวกับเรื่องนี้หรือไม่? ฉันยังไม่เข้าใจวิธีการสร้างคุณลักษณะนี้อย่างสมบูรณ์ดังนั้นฉันจึงไม่ต้องการใช้เวลามากสำหรับบางสิ่งที่ไม่ได้ผล ดังนั้นข้อมูลใด ๆ จะเป็นประโยชน์จริงๆ ในการสร้างระบบ NER ทั้งหมดโดยอิงจากการเรียนรู้เชิงลึกนั้นเป็นเรื่องที่ค่อนข้างมากในตอนนี้

3
วิธีการใช้ GAN สำหรับการแยกฟีเจอร์ที่ไม่ได้รับอนุญาตจากรูปภาพ?
ฉันเข้าใจว่า GAN ทำงานอย่างไรในขณะที่เครือข่ายสองเครือข่าย (กำเนิดและเลือกปฏิบัติ) แข่งขันกันเอง ฉันได้สร้าง DCGAN (GAN พร้อมกับ discriminator discriminator และ de-convolutional generator) ซึ่งตอนนี้สร้างตัวเลขที่เขียนด้วยลายมือได้สำเร็จคล้ายกับที่อยู่ในชุดข้อมูล MNIST ฉันได้อ่านมากเกี่ยวกับแอปพลิเคชันของ GAN สำหรับการแยกฟีเจอร์จากรูปภาพ ฉันจะใช้โมเดล GAN ที่ผ่านการฝึกอบรมของฉัน (บนชุดข้อมูล MNIST) เพื่อแยกคุณลักษณะออกจากรูปภาพ Digist ที่เขียนด้วยลายมือด้วยตัวเองได้อย่างไร?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.