คำถามติดแท็ก dimensionality-reduction

การลดขนาดหมายถึงเทคนิคในการลดตัวแปรจำนวนมากให้มีจำนวนน้อยลงในขณะที่เก็บข้อมูลไว้ให้มากที่สุด วิธีหนึ่งที่โดดเด่นคือ [tag pca]

11
การลดมิติข้อมูลคืออะไร? ความแตกต่างระหว่างการเลือกคุณสมบัติและการแยกคืออะไร?
จากวิกิพีเดีย การลดขนาดหรือการลดขนาดเป็นกระบวนการลดจำนวนตัวแปรสุ่มที่พิจารณาและสามารถแบ่งออกเป็นการเลือกคุณลักษณะและการแยกคุณลักษณะ ความแตกต่างระหว่างการเลือกคุณสมบัติและการแยกคุณสมบัติคืออะไร? ตัวอย่างของการลดมิติข้อมูลในงานประมวลผลภาษาธรรมชาติคืออะไร

6
SVD และ PCA มีข้อมูลขนาดใหญ่ได้อย่างไร
ฉันมีชุดข้อมูลขนาดใหญ่ (ประมาณ 8GB) ฉันต้องการใช้การเรียนรู้ของเครื่องเพื่อวิเคราะห์ ดังนั้นฉันคิดว่าฉันควรใช้ SVD แล้ว PCA เพื่อลดมิติข้อมูลเพื่อประสิทธิภาพ อย่างไรก็ตาม MATLAB และ Octave ไม่สามารถโหลดชุดข้อมูลขนาดใหญ่ดังกล่าวได้ เครื่องมือใดที่ฉันสามารถใช้เพื่อทำ SVD ด้วยข้อมูลจำนวนมาก

6
เทคนิคการเรียนรู้ของเครื่องสำหรับการประเมินอายุของผู้ใช้ตามเว็บไซต์ Facebook ที่พวกเขาชอบ
ฉันมีฐานข้อมูลจากแอปพลิเคชัน Facebook ของฉันและฉันพยายามใช้การเรียนรู้ของเครื่องเพื่อประเมินอายุของผู้ใช้ตามไซต์ Facebook ที่พวกเขาชอบ มีสามลักษณะที่สำคัญของฐานข้อมูลของฉัน: การแจกแจงอายุในชุดการฝึกอบรมของฉัน (รวมเป็น 12k ของผู้ใช้) เอียงไปทางผู้ใช้ที่อายุน้อยกว่า (เช่นฉันมีผู้ใช้ 1157 คนอายุ 27 และ 23 ผู้ใช้อายุ 65 ปี) หลายไซต์มี likers ไม่เกิน 5 (ฉันกรองเว็บไซต์ FB ที่มี likers น้อยกว่า 5) มีคุณสมบัติมากมายกว่าตัวอย่าง ดังนั้นคำถามของฉันคือกลยุทธ์ใดที่คุณแนะนำให้เตรียมข้อมูลเพื่อการวิเคราะห์เพิ่มเติม ฉันควรลดมิติข้อมูลลงบ้างไหม? วิธีการ ML แบบใดที่เหมาะสมที่สุดที่จะใช้ในกรณีนี้ ฉันใช้ Python เป็นหลักดังนั้นคำแนะนำเฉพาะของ Python จะได้รับการชื่นชมอย่างมาก

7
วัตถุประสงค์ของการแสดงข้อมูลมิติสูงหรือไม่
มีเทคนิคมากมายสำหรับการแสดงชุดข้อมูลมิติสูงเช่น T-SNE, isomap, PCA, PCA ภายใต้การดูแล ฯลฯ และเราผ่านการเคลื่อนไหวของการฉายข้อมูลลงในพื้นที่ 2D หรือ 3D ดังนั้นเราจึงมี "ภาพสวย" " บางส่วนของวิธีการเหล่านี้ฝัง (การเรียนรู้ต่าง ๆ นานา) อธิบายไว้ที่นี่ แต่นี่คือ "ภาพสวย" ที่มีความหมายจริงหรือ มีข้อมูลเชิงลึกที่เป็นไปได้ที่ใครบางคนสามารถคว้าโดยพยายามมองภาพพื้นที่ฝังตัวนี้ ฉันถามเพราะการฉายภาพลงไปในพื้นที่ฝังตัวนี้มักไม่มีความหมาย ตัวอย่างเช่นหากคุณฉายข้อมูลของคุณลงไปยังองค์ประกอบหลักที่สร้างโดย PCA ส่วนประกอบหลักเหล่านั้น (eiganvectors) จะไม่สอดคล้องกับคุณลักษณะในชุดข้อมูล พวกเขากำลังพื้นที่คุณสมบัติของตัวเอง ในทำนองเดียวกัน t-SNE จะฉายข้อมูลของคุณลงในช่องว่างซึ่งรายการอยู่ใกล้กันถ้าพวกมันลดความแตกต่างของ KL บางส่วน นี่ไม่ใช่พื้นที่ฟีเจอร์ดั้งเดิมอีกต่อไป (แก้ไขให้ฉันถ้าฉันผิด แต่ฉันไม่คิดว่าจะมีความพยายามอย่างมากจากชุมชน ML ในการใช้ t-SNE เพื่อช่วยในการจัดหมวดหมู่ซึ่งเป็นปัญหาที่แตกต่างจากการสร้างภาพข้อมูล) ฉันแค่สับสนมากว่าทำไมผู้คนถึงทำเรื่องใหญ่ ๆ เกี่ยวกับการสร้างภาพข้อมูลเหล่านี้

1
ขนาดของ t-sne มีความหมายไหม?
มีความหมายใด ๆ กับขนาดของการฝังตัวที - เอ็นหรือไม่? เช่นเดียวกับ PCA เรามีความรู้สึกถึงการแปรปรวนเชิงเส้นแปรปรวนสูงสุด แต่สำหรับ t-sne นั้นมีสัญชาตญาณนอกเหนือจากพื้นที่ที่เรากำหนดไว้สำหรับการจับคู่และลดระยะทาง KL

4
ปรับปรุงความเร็วของการนำ t-sne ไปใช้ในไพ ธ อนสำหรับข้อมูลขนาดใหญ่
ฉันอยากจะลดมิติข้อมูลลงบนเวกเตอร์เกือบ 1 ล้านตัวที่มี 200 มิติ ( doc2vec) ฉันใช้TSNEการใช้งานจากsklearn.manifoldโมดูลสำหรับมันและปัญหาที่สำคัญคือความซับซ้อนของเวลา ถึงแม้จะมีmethod = barnes_hutความเร็วในการคำนวณยังต่ำ บางครั้งถึงแม้หน่วยความจำจะหมด ฉันใช้งานบนโปรเซสเซอร์ 48 คอร์ที่มี RAM 130G มีวิธีเรียกใช้แบบขนานหรือใช้ประโยชน์จากทรัพยากรที่มีอยู่มากมายเพื่อเร่งกระบวนการให้เร็วขึ้น

3
เพื่อนบ้านที่ใกล้ที่สุดค้นหาข้อมูลมิติที่สูงมาก
ฉันมีเมทริกซ์กระจัดกระจายขนาดใหญ่ของผู้ใช้และรายการที่พวกเขาชอบ (เรียงตามผู้ใช้ 1M และรายการ 100K ที่มีระดับความเบาบางต่ำมาก) ฉันสำรวจวิธีการที่ฉันสามารถทำการค้นหาด้วย kNN ด้วยขนาดของชุดข้อมูลของฉันและการทดสอบเริ่มต้นที่ฉันทำข้อสมมติฐานของฉันคือวิธีการที่ฉันจะใช้จะต้องขนานหรือกระจาย ดังนั้นฉันจึงพิจารณาวิธีแก้ปัญหาที่เป็นไปได้สองคลาส: อันที่มีอยู่ (หรือนำไปใช้ได้ในวิธีที่ง่ายพอสมควร) บนเครื่องมัลติคอร์เดียวอีกอันในคลัสเตอร์ Spark เช่นเป็นโปรแกรม MapReduce ต่อไปนี้เป็นแนวคิดสามประการที่ฉันพิจารณา: สมมติว่ามีความคล้ายคลึงกันแบบโคไซน์ให้ทำการคูณเมทริกซ์ที่ได้รับการทำให้เป็นมาตรฐานเต็มรูปแบบด้วยทรานสโพส (นำมาใช้เป็นผลรวมของผลิตภัณฑ์ด้านนอก) การใช้การแฮชที่มีความอ่อนไหวต่อท้องที่ (LSH) การลดมิติแรกของปัญหาด้วย PCA ฉันขอขอบคุณความคิดหรือคำแนะนำเกี่ยวกับวิธีการที่เป็นไปได้ที่ฉันสามารถแก้ไขปัญหานี้ได้

5
การเลือกคุณสมบัติเทียบกับการแยกคุณสมบัติ จะใช้เมื่อใด
การแยกคุณลักษณะและการเลือกคุณสมบัติเป็นหลักช่วยลดมิติข้อมูล แต่การดึงคุณสมบัติยังทำให้ข้อมูลแยกกันได้มากขึ้นถ้าฉันพูดถูก เทคนิคใดจะเป็นที่ต้องการมากกว่าอีกอันและเมื่อใด ฉันคิดว่าเนื่องจากการเลือกคุณสมบัติไม่ได้แก้ไขข้อมูลต้นฉบับและคุณสมบัติของมันฉันคิดว่าคุณจะใช้การเลือกคุณสมบัติเมื่อสิ่งสำคัญคือคุณสมบัติที่คุณกำลังฝึกอบรมไม่เปลี่ยนแปลง แต่ฉันไม่สามารถจินตนาการได้ว่าทำไมคุณต้องการบางสิ่งเช่นนี้ ..

1
คะแนนที่ใกล้เคียงกันจะถือว่าคล้ายกันมากขึ้นในการสร้างภาพข้อมูล T-SNE ได้หรือไม่?
ฉันเข้าใจจากกระดาษของฮินตันว่า T-SNE ทำงานได้ดีในการรักษาความคล้ายคลึงกันในท้องถิ่นและงานที่ดีในการรักษาโครงสร้างของโลก (การจัดกลุ่ม) อย่างไรก็ตามฉันไม่ชัดเจนว่าจุดใดที่ปรากฎอยู่ใกล้ ๆ ในการแสดงภาพ 2D t-sne สามารถสันนิษฐานได้ว่าเป็นจุดข้อมูลที่ "คล้ายกันมากขึ้น" ฉันกำลังใช้ข้อมูลกับคุณสมบัติ 25 อย่าง ตัวอย่างเช่นจากการสังเกตภาพด้านล่างฉันสามารถสมมติว่าดาต้าพอยน์สีน้ำเงินนั้นมีความคล้ายคลึงกับสีเขียวมากกว่าโดยเฉพาะกับกลุ่มจุดสีเขียวที่ใหญ่ที่สุด? หรือการถามที่แตกต่างกันมันถือว่าโอเคไหมที่จุดสีน้ำเงินนั้นคล้ายกับสีเขียวในกระจุกที่อยู่ใกล้ที่สุดมากกว่าสีแดงในกระจุกอีกอัน? (ไม่สนใจจุดสีเขียวในกลุ่มสีแดง - ไอช) เมื่อสังเกตตัวอย่างอื่น ๆ เช่นตัวอย่างที่นำเสนอในชุด Sci-Kit เรียนรู้การเรียนรู้ Manifold ดูเหมือนว่าถูกต้องแล้ว แต่ฉันไม่แน่ใจว่าพูดถูกต้องหรือไม่ แก้ไข ฉันได้คำนวณระยะทางจากชุดข้อมูลดั้งเดิมด้วยตนเอง (ระยะทางแบบยุคลิดแบบคู่เฉลี่ย) และการสร้างภาพข้อมูลจริงแสดงระยะทางเชิงพื้นที่ตามสัดส่วนที่เกี่ยวข้องกับชุดข้อมูล อย่างไรก็ตามฉันอยากจะรู้ว่านี่เป็นสิ่งที่ยอมรับได้พอสมควรหรือไม่จากสูตรทางคณิตศาสตร์ดั้งเดิมของ t-sne และไม่ใช่เรื่องบังเอิญ

2
ข้อมูลมิติสูง: เทคนิคที่เป็นประโยชน์ที่จะรู้คืออะไร?
เนื่องจากคำสาปของขนาดต่าง ๆความแม่นยำและความเร็วของเทคนิคการทำนายทั่วไปจำนวนมากจะลดลงในข้อมูลมิติสูง เทคนิค / เทคนิค / การวิเคราะห์พฤติกรรมที่มีประโยชน์ที่สุดที่ช่วยจัดการกับข้อมูลมิติสูงอย่างมีประสิทธิภาพคืออะไร ตัวอย่างเช่น, วิธีการทางสถิติ / แบบจำลองบางอย่างทำงานได้ดีกับชุดข้อมูลที่มีมิติสูงหรือไม่? เราสามารถปรับปรุงประสิทธิภาพของแบบจำลองการทำนายของเราบนข้อมูลมิติสูงโดยใช้บางอย่าง (ที่กำหนดแนวคิดทางเลือกของระยะทาง) หรือเมล็ด (ที่กำหนดความคิดทางเลือกของผลิตภัณฑ์จุด) อะไรคือเทคนิคที่มีประโยชน์ที่สุดในการลดมิติข้อมูลสำหรับข้อมูลมิติสูง?

3
เหตุใดระบบสร้างโค้ดอัตโนมัติสำหรับการลดขนาดแบบสมมาตร
ฉันไม่ได้เป็นผู้เชี่ยวชาญใน autoencoders หรือเครือข่ายประสาทด้วยวิธีการใด ๆ ดังนั้นยกโทษให้ฉันถ้านี่เป็นคำถามที่โง่ สำหรับวัตถุประสงค์ของการลดขนาดหรือการแสดงภาพกลุ่มในข้อมูลมิติสูงเราสามารถใช้ autoencoder เพื่อสร้างการแสดงภาพ 2 มิติ (สูญเสีย) โดยการตรวจสอบผลลัพธ์ของเลเยอร์เครือข่ายด้วย 2 โหนด ตัวอย่างเช่นด้วยสถาปัตยกรรมต่อไปนี้เราจะตรวจสอบผลลัพธ์ของเลเยอร์ที่สาม [ X] → N1= 100 → N2= 25 → ( N3= 2 ) → N4= 25 → N5= 100 → [ X][X]→N1=100→N2=25→(N3=2)→N4=25→N5=100→[X][X] \rightarrow N_1=100 \rightarrow N_2=25 \rightarrow (N_3=2) \rightarrow N_4=25 \rightarrow N_5=100 \rightarrow [X] โดยที่คือข้อมูลอินพุตและคือจำนวนโหนดในเลเยอร์ …

4
ทางเลือกการเข้ารหัสแบบร้อนสำหรับค่าหมวดใหญ่?
สวัสดีมี dataframe ที่มีค่าหมวดใหญ่มากกว่า 1600 หมวดมีวิธีใดที่ฉันสามารถหาทางเลือกเพื่อที่ฉันจะได้ไม่เกิน 1600 คอลัมน์ ฉันพบลิงค์ด้านล่างที่น่าสนใจhttp://amunategui.github.io/feature-hashing/#sourcecode แต่พวกเขากำลังแปลงเป็นคลาส / วัตถุที่ฉันไม่ต้องการ ฉันต้องการผลลัพธ์สุดท้ายของฉันเป็น dataframe เพื่อให้ฉันสามารถทดสอบกับโมเดลการเรียนรู้ของเครื่องอื่นได้หรือไม่ หรือมีวิธีใดที่ฉันสามารถใช้เมทริกซ์ genetrated ในการฝึกอบรมโมเดลการเรียนรู้ของเครื่องอื่นนอกเหนือจาก Logistic ถดถอยหรือ XGBoost จะมีต่อไปฉันจะใช้?

2
การลดขนาดอย่างมีประสิทธิภาพสำหรับชุดข้อมูลขนาดใหญ่
ฉันมีชุดข้อมูลที่มี ~ 1M แถวและ ~ 500K คุณสมบัติกระจัดกระจาย ฉันต้องการลดมิติข้อมูลลงที่ใดที่หนึ่งตามลำดับของคุณลักษณะที่หนาแน่น 1K-5K sklearn.decomposition.PCAไม่ทำงานกับข้อมูลที่กระจัดกระจายและฉันพยายามใช้sklearn.decomposition.TruncatedSVDแต่ได้รับข้อผิดพลาดของหน่วยความจำอย่างรวดเร็ว ตัวเลือกของฉันในการลดมิติข้อมูลที่มีประสิทธิภาพในระดับนี้คืออะไร

3
มีรูปแบบภาษาที่ดีนอกกรอบสำหรับงูใหญ่หรือไม่?
ฉันกำลังสร้างต้นแบบแอปพลิเคชันและฉันต้องการโมเดลภาษาเพื่อคำนวณความงุนงงในประโยคที่สร้างขึ้น มีรูปแบบภาษาที่ผ่านการฝึกอบรมในภาษาไพ ธ อนที่ฉันสามารถใช้ได้หรือไม่? บางสิ่งที่เรียบง่ายเช่น model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 ฉันดูบางกรอบ แต่ไม่สามารถค้นหาสิ่งที่ฉันต้องการ ฉันรู้ว่าฉันสามารถใช้สิ่งที่ชอบ: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) สิ่งนี้ใช้การแจกแจงความน่าจะเป็นที่ดีใน Brown Corpus แต่ฉันกำลังมองหาโมเดลที่สร้างขึ้นอย่างดีในชุดข้อมูลขนาดใหญ่เช่นชุดข้อมูลคำ 1b สิ่งที่ฉันสามารถเชื่อถือได้จริง ๆ ผลลัพธ์สำหรับโดเมนทั่วไป (ไม่เพียงข่าว)
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

1
t-SNE: ทำไมค่าข้อมูลเท่ากันไม่ปิดทางสายตา
ฉันมีจุดข้อมูล 200 จุดที่มีค่าเหมือนกันกับคุณสมบัติทั้งหมด หลังจากการลดขนาด t-SNE พวกเขาไม่ได้ดูเท่ากันอีกต่อไปเช่นนี้ ทำไมพวกเขาถึงไม่อยู่ในจุดเดียวกันในการสร้างภาพและแม้กระทั่งดูเหมือนว่าจะกระจายอยู่ในสองกลุ่มที่แตกต่างกัน?
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.