คำถามติดแท็ก logistic-regression

โดยทั่วไปหมายถึงขั้นตอนทางสถิติที่ใช้ฟังก์ชันโลจิสติกซึ่งส่วนใหญ่มักเป็นรูปแบบต่างๆของการถดถอยโลจิสติกส์

4
Scikit-learn: รับ SGDClassifier เพื่อทำนายเช่นเดียวกับ Logistic Regression
วิธีในการฝึกอบรม Logistic Regression คือการใช้การไล่ระดับสีแบบสุ่มสุ่มซึ่ง scikit-learn นำเสนออินเตอร์เฟส สิ่งที่ฉันต้องการจะทำคือการใช้ scikit การเรียนรู้ของSGDClassifierและมีมันคะแนนเช่นเดียวกับการถดถอยโลจิสติกที่นี่ อย่างไรก็ตามฉันต้องขาดการปรับปรุงการเรียนรู้ของเครื่องเนื่องจากคะแนนของฉันไม่เท่ากัน นี่คือรหัสปัจจุบันของฉัน ฉันขาดอะไรใน SGDClassifier ที่จะให้ผลลัพธ์เช่นเดียวกับ Logistic Regression from sklearn import datasets from sklearn.linear_model import LogisticRegression from sklearn.linear_model import SGDClassifier import numpy as np import pandas as pd from sklearn.cross_validation import KFold from sklearn.metrics import accuracy_score # Note that the iris dataset …

1
การแบ่งปันพารามิเตอร์ระหว่างคุณลักษณะและคลาสหมายความว่าอย่างไร
เมื่ออ่านบทความนี้จะมีบรรทัดที่ระบุว่า "ตัวแยกประเภทแบบเส้นตรงไม่ใช้พารามิเตอร์ร่วมกันระหว่างคุณลักษณะและคลาส" ความหมายของคำนี้คืออะไร? หมายความว่าลักษณนามเชิงเส้นเช่นการถดถอยโลจิสติกต้องการคุณสมบัติที่เป็นอิสระร่วมกัน?

2
จะรับค่า p-value และช่วงความมั่นใจใน LogisticRegression ด้วย sklearn ได้อย่างไร
ฉันกำลังสร้างการถดถอยโลจิสติกพหุนามด้วย sklearn (LogisticRegression) แต่หลังจากเสร็จสิ้นฉันจะได้รับค่า p และช่วงความมั่นใจของแบบจำลองของฉันได้อย่างไร ปรากฏว่า sklearn ให้ค่าสัมประสิทธิ์และดักเท่านั้น ขอบคุณมาก.

2
การจัดหมวดหมู่ข้อความ: รวมคุณสมบัติที่แตกต่าง
ปัญหาที่ฉันแก้ปัญหาคือการจัดหมวดหมู่ข้อความสั้น ๆ เป็นหลายคลาส วิธีการปัจจุบันของฉันคือการใช้ความถี่เทอม tf-idf และเรียนรู้ลักษณนามเชิงเส้นอย่างง่าย (การถดถอยโลจิสติก) วิธีนี้ใช้ได้ดีพอสมควร (มาโคร 90% F-1 ในชุดทดสอบเกือบ 100% สำหรับชุดฝึกอบรม) ปัญหาใหญ่คือสิ่งที่มองไม่เห็นคำ / n-g ฉันพยายามปรับปรุงตัวจําแนกโดยการเพิ่มคุณสมบัติอื่น ๆ เช่นเวกเตอร์ขนาดคงที่ที่คำนวณโดยใช้ความคล้ายคลึงกันแบบกระจาย (ตามที่คำนวณโดย word2vec) หรือคุณสมบัติหมวดหมู่อื่น ๆ ของตัวอย่าง ความคิดของฉันคือการเพิ่มคุณสมบัติให้กับคุณสมบัติการป้อนข้อมูลแบบเบาบางจากถุงคำ อย่างไรก็ตามผลลัพธ์นี้มีประสิทธิภาพที่แย่ลงในชุดการทดสอบและการฝึกอบรม คุณสมบัติเพิ่มเติมด้วยตัวเองให้ประมาณ 80% F-1 ในชุดทดสอบดังนั้นพวกเขาจึงไม่ขยะ การขยายคุณสมบัติไม่ได้ช่วยเช่นกัน ความคิดปัจจุบันของฉันคือคุณสมบัติเหล่านี้ไม่เข้ากันได้ดีกับคุณลักษณะถุงคำ (เบาบาง) ดังนั้นคำถามคือสมมติว่าคุณสมบัติเพิ่มเติมให้ข้อมูลเพิ่มเติมวิธีที่ดีที่สุดที่จะรวมพวกเขาคืออะไร? สามารถแยกตัวแยกประเภทและรวมพวกมันในงานวงดนตรีบางประเภทได้หรือไม่ (นี่อาจเป็นข้อเสียเปรียบที่จะไม่มีการโต้ตอบระหว่างคุณลักษณะของตัวแยกประเภทที่แตกต่างกัน) มีรุ่นอื่นที่ซับซ้อนกว่านี้ที่ฉันควรพิจารณาอีกหรือไม่

3
การใช้งาน Python ของฟังก์ชั่นต้นทุนในการถดถอยโลจิสติก: เหตุใดการคูณดอทในนิพจน์หนึ่ง แต่การคูณองค์ประกอบที่ชาญฉลาดในอีกอันหนึ่ง
ฉันมีคำถามพื้นฐานที่เกี่ยวข้องกับ Python จำนวน numpy และการคูณเมทริกซ์ในการตั้งค่าของการถดถอยโลจิสติก ก่อนอื่นให้ฉันขอโทษที่ไม่ได้ใช้สัญกรณ์คณิตศาสตร์ ฉันสับสนเกี่ยวกับการใช้การคูณเมทริกซ์ดอทกับการแบ่งส่วนที่ชาญฉลาด ฟังก์ชันต้นทุนได้รับจาก: และในไพ ธ อนฉันได้เขียนสิ่งนี้เป็น cost = -1/m * np.sum(Y * np.log(A) + (1-Y) * (np.log(1-A))) แต่สำหรับตัวอย่างการแสดงออกนี้ (อันแรก - อนุพันธ์ของ J เทียบกับ w) คือ dw = 1/m * np.dot(X, dz.T) ฉันไม่เข้าใจว่าทำไมมันถูกต้องที่จะใช้การคูณดอทในข้างต้น แต่ใช้การคูณองค์ประกอบที่ชาญฉลาดในฟังก์ชั่นค่าใช้จ่ายเช่นทำไมไม่: cost = -1/m * np.sum(np.dot(Y,np.log(A)) + np.dot(1-Y, np.log(1-A))) ฉันเข้าใจอย่างเต็มที่ว่านี่ไม่ได้อธิบายอย่างละเอียด แต่ฉันเดาว่าคำถามง่ายมากที่ทุกคนที่มีประสบการณ์การถดถอยโลจิสติกขั้นพื้นฐานจะเข้าใจปัญหาของฉัน

5
เลือกอัลกอริทึมการจำแนกประเภทไบนารี
ฉันมีปัญหาการจำแนกเลขฐานสอง: ประมาณ 1,000 ตัวอย่างในชุดฝึกอบรม 10 คุณลักษณะรวมถึงไบนารีตัวเลขและหมวดหมู่ อัลกอริทึมใดเป็นตัวเลือกที่ดีที่สุดสำหรับปัญหาประเภทนี้ โดยค่าเริ่มต้นฉันจะเริ่มต้นด้วย SVM (เบื้องต้นมีค่าแอตทริบิวต์เล็กน้อยแปลงเป็นคุณสมบัติไบนารี) เนื่องจากถือว่าดีที่สุดสำหรับข้อมูลที่ค่อนข้างสะอาดและไม่มีเสียงดัง

4
ต้นไม้ตัดสินใจหรือการถดถอยโลจิสติก?
ฉันกำลังทำงานกับปัญหาการจำแนก ฉันมีชุดข้อมูลที่มีตัวแปรเด็ดขาดและตัวแปรต่อเนื่องจำนวนเท่ากัน ฉันจะรู้เทคนิคการใช้งานได้อย่างไร? ระหว่างต้นไม้ตัดสินใจกับการถดถอยโลจิสติกส์? การสมมติว่าการถดถอยโลจิสติกจะเหมาะสมกว่าสำหรับตัวแปรต่อเนื่องและต้นไม้ตัดสินใจจะเหมาะสมกว่าสำหรับตัวแปรต่อเนื่อง + หมวดหมู่หรือไม่

2
แบบจำลองการจำแนกประเภทไบนารีสำหรับข้อมูลที่ไม่สมดุล
ฉันมีชุดข้อมูลที่มีข้อกำหนดต่อไปนี้: ชุดข้อมูลการฝึกอบรมที่มีตัวอย่าง 193,176 ตัวอย่างมีผลบวก 2,821 รายการ ชุดข้อมูลทดสอบ 82,887 ตัวอย่างที่มีผลบวก 673 รายการ มี 10 คุณสมบัติ ฉันต้องการทำการจำแนกเลขฐานสอง (0 หรือ 1) ปัญหาที่ฉันเผชิญคือข้อมูลไม่สมดุลมาก หลังจากการทำให้เป็นมาตรฐานและปรับขนาดข้อมูลพร้อมกับคุณสมบัติทางวิศวกรรมบางอย่างและการใช้อัลกอริธึมที่แตกต่างกันสองสามอย่างนี่เป็นผลลัพธ์ที่ดีที่สุดที่ฉันสามารถทำได้: mean square error : 0.00804710026904 Confusion matrix : [[82214 667] [ 0 6]] นั่นคือเพียง 6 การค้นพบในเชิงบวกที่ถูกต้อง นี่คือการใช้การถดถอยโลจิสติก นี่คือสิ่งต่าง ๆ ที่ฉันลองด้วย: อัลกอริทึมที่แตกต่างกันเช่น RandomForest, DecisionTree, SVM การเปลี่ยนค่าพารามิเตอร์เพื่อเรียกใช้ฟังก์ชัน คุณสมบัติทางวิศวกรรมตามสัญชาตญาณเพื่อรวมเอาคุณสมบัติที่รวมเข้าด้วยกัน ตอนนี้คำถามของฉันคือ: ฉันจะทำอย่างไรเพื่อปรับปรุงจำนวนครั้งการค้นหาที่เป็นค่าบวก เราจะตัดสินได้อย่างไรว่ามีกรณีเกินจริงในกรณีเช่นนี้? (ฉันได้ลองพล็อตและอื่น …

2
การถดถอยเชิงเส้นพร้อมฟังก์ชันต้นทุนที่ไม่สมมาตร
ฉันต้องการที่จะทำนายค่าบางและฉันพยายามที่จะได้รับบางทำนายที่เพิ่มประสิทธิภาพระหว่างการเป็นที่ต่ำที่สุดเท่าที่เป็นไปได้ แต่ยังคงความมีขนาดใหญ่กว่า(x) กล่าวอีกนัยหนึ่ง: Y ( x ) Y ( x ) ค่าใช้จ่าย{ Y ( x ) ≳ Y ( x ) } > > ค่าใช้จ่าย{ Y ( x ) ≳ Y ( x ) }Y(x)Y(x)Y(x)Y^(x)Y^(x)\hat Y(x)Y(x)Y(x)Y(x)cost{Y(x)≳Y^(x)}>>cost{Y^(x)≳Y(x)}cost{Y(x)≳Y^(x)}>>cost{Y^(x)≳Y(x)}\text{cost}\left\{ Y(x) \gtrsim \hat Y(x) \right\} >> \text{cost}\left\{ \hat Y(x) \gtrsim Y(x) \right\} ฉันคิดว่าการถดถอยเชิงเส้นอย่างง่ายควรทำได้ดี ดังนั้นฉันค่อนข้างรู้วิธีการใช้งานด้วยตนเอง …

3
มีรูปแบบภาษาที่ดีนอกกรอบสำหรับงูใหญ่หรือไม่?
ฉันกำลังสร้างต้นแบบแอปพลิเคชันและฉันต้องการโมเดลภาษาเพื่อคำนวณความงุนงงในประโยคที่สร้างขึ้น มีรูปแบบภาษาที่ผ่านการฝึกอบรมในภาษาไพ ธ อนที่ฉันสามารถใช้ได้หรือไม่? บางสิ่งที่เรียบง่ายเช่น model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 ฉันดูบางกรอบ แต่ไม่สามารถค้นหาสิ่งที่ฉันต้องการ ฉันรู้ว่าฉันสามารถใช้สิ่งที่ชอบ: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) สิ่งนี้ใช้การแจกแจงความน่าจะเป็นที่ดีใน Brown Corpus แต่ฉันกำลังมองหาโมเดลที่สร้างขึ้นอย่างดีในชุดข้อมูลขนาดใหญ่เช่นชุดข้อมูลคำ 1b สิ่งที่ฉันสามารถเชื่อถือได้จริง ๆ ผลลัพธ์สำหรับโดเมนทั่วไป (ไม่เพียงข่าว)
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

4
การถดถอยโลจิสติกส์เป็นอัลกอริทึมการถดถอยจริงหรือไม่
ความหมายปกติของการถดถอย (เท่าที่ผมทราบ) จะทำนายตัวแปรที่ส่งออกต่อเนื่องมาจากชุดที่กำหนดของตัวแปร การถดถอยโลจิสติกเป็นอัลกอริทึมการจำแนกแบบไบนารีดังนั้นจึงสร้างเอาต์พุตหมวดหมู่ มันเป็นขั้นตอนวิธีการถดถอยจริงหรือ ถ้าเป็นเช่นนั้นทำไม

3
ภาษาที่ดีที่สุดสำหรับการคำนวณทางวิทยาศาสตร์ [ปิด]
ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน5 ปีที่ผ่านมา ดูเหมือนว่าภาษาส่วนใหญ่จะมีห้องสมุดคำนวณทางวิทยาศาสตร์จำนวนหนึ่ง Python มี Scipy Rust มี SciRust C++มีหลายอย่างรวมถึงViennaCLและArmadillo JavaมีJava NumericsและColtเช่นเดียวกับหลาย ๆ ไม่ต้องพูดถึงภาษาที่ชอบRและJuliaออกแบบมาอย่างชัดเจนสำหรับการคำนวณทางวิทยาศาสตร์ ด้วยตัวเลือกมากมายคุณจะเลือกภาษาที่ดีที่สุดสำหรับงานอย่างไร นอกจากนี้ภาษาใดที่จะเป็นคนที่มีประสิทธิภาพมากที่สุด? PythonและRดูเหมือนว่าจะมีแรงฉุดที่สุดในอวกาศ แต่ภาษาที่รวบรวมได้ดูเหมือนจะเป็นทางเลือกที่ดีกว่า และจะมีอะไรดีกว่านี้Fortranไหม ภาษาที่คอมไพล์ด้วยนอกจากนี้มักจะมีการเร่งความเร็วของ GPU ในขณะที่ตีความภาษาเช่นRและPythonไม่ ฉันควรคำนึงถึงอะไรเมื่อเลือกภาษาและภาษาใดให้ความสมดุลของยูทิลิตี้และประสิทธิภาพที่ดีที่สุด มีภาษาใดบ้างที่มีทรัพยากรการคำนวณทางวิทยาศาสตร์ที่สำคัญที่ฉันพลาดไป
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

4
นี่เป็นวิธีปฏิบัติที่ดีของวิศวกรรมฟีเจอร์หรือไม่?
ฉันมีคำถามเชิงปฏิบัติเกี่ยวกับวิศวกรรมฟีเจอร์ ... บอกว่าฉันต้องการทำนายราคาบ้านโดยใช้การถดถอยโลจิสติกส์และใช้คุณสมบัติหลายอย่างรวมถึงรหัสไปรษณีย์ จากนั้นเมื่อตรวจสอบความสำคัญของคุณสมบัติฉันรู้ว่า zip เป็นคุณสมบัติที่ดีพอสมควรดังนั้นฉันจึงตัดสินใจเพิ่มคุณสมบัติเพิ่มเติมตามรหัสไปรษณีย์ - ตัวอย่างเช่นฉันไปที่สำนักสำรวจสำมะโนประชากรและรับรายได้เฉลี่ยประชากรจำนวนโรงเรียนและจำนวน ของโรงพยาบาลของแต่ละไปรษณีย์ ด้วยคุณสมบัติใหม่ทั้งสี่นี้ฉันพบว่าแบบจำลองมีประสิทธิภาพดีขึ้นในขณะนี้ ดังนั้นฉันจึงเพิ่มฟีเจอร์ที่เกี่ยวข้องกับ zip มากขึ้น ... และรอบนี้จะดำเนินต่อไปเรื่อย ๆ ในที่สุดรูปแบบจะถูกครอบงำโดยคุณสมบัติที่เกี่ยวข้องกับรหัสไปรษณีย์เหล่านี้ใช่ไหม คำถามของฉัน: มันสมเหตุสมผลไหมที่ทำสิ่งเหล่านี้ตั้งแต่แรก? ถ้าใช่ฉันจะรู้ได้อย่างไรว่าเวลาใดที่จะหยุดรอบนี้ ถ้าไม่ทำไมล่ะ

4
เรียนรู้การถดถอยอันดับใน R?
ฉันกำลังทำงานในโครงการและต้องการทรัพยากรเพื่อให้ได้ความเร็ว ชุดข้อมูลอยู่ที่ประมาณ 35000 ข้อสังเกตในตัวแปร 30 ตัวหรือมากกว่านั้น ประมาณครึ่งหนึ่งของตัวแปรนั้นมีการจัดหมวดหมู่และบางส่วนมีค่าที่เป็นไปได้ที่แตกต่างกันมากมายเช่นถ้าคุณแบ่งตัวแปรเด็ดขาดออกเป็นตัวแปรดัมมี่คุณจะมีตัวแปรมากกว่า 30 ตัว แต่ก็ยังคงอยู่ในคำสั่งของสองสามร้อยสูงสุด (n> P) การตอบสนองที่เราต้องการทำนายคือลำดับที่ 5 ระดับ (1,2,3,4,5) ตัวทำนายนั้นเป็นการผสมผสานอย่างต่อเนื่องและเป็นหมวดหมู่ประมาณครึ่งหนึ่ง นี่คือความคิด / แผนของฉันจนถึงตอนนี้: 1. ปฏิบัติต่อการตอบสนองอย่างต่อเนื่องและดำเนินการถดถอยเชิงเส้นวานิลลา 2. เรียกใช้ค่าปกติและเลขลอจิสติกและการถดถอยแบบ probit 3. ใช้ MARS และ / หรือรสชาติอื่นของการถดถอยแบบไม่เชิงเส้น ฉันคุ้นเคยกับการถดถอยเชิงเส้น MARS อธิบายได้ดีจาก Hastie และ Tibshirani แต่ฉันกำลังสูญเสียเมื่อพูดถึงลำดับ logit / probit โดยเฉพาะกับตัวแปรจำนวนมากและชุดข้อมูลขนาดใหญ่ ดูเหมือนว่าแพคเกจ r ของglmnetcrจะเป็นทางออกที่ดีที่สุดของฉันจนถึงตอนนี้ แต่เอกสารแทบจะไม่พอเลยที่จะได้รับตำแหน่งที่ฉันต้องการ ฉันจะไปเรียนรู้เพิ่มเติมได้ที่ไหน

2
จะทำการ Logistic Regression ด้วยคุณสมบัติจำนวนมากได้อย่างไร?
ฉันมีชุดข้อมูลที่มี 330 ตัวอย่างและ 27 คุณสมบัติสำหรับแต่ละกลุ่มตัวอย่างที่มีปัญหาระดับไบนารีสำหรับการถดถอยโลจิสติก ตามกฎ "ถ้าสิบ" ฉันต้องการอย่างน้อย 10 เหตุการณ์เพื่อให้รวมคุณลักษณะแต่ละรายการ แม้ว่าฉันมีชุดข้อมูลที่ไม่สมดุลโดยมีคลาสบวก 20% และคลาสลบ 80% นั่นทำให้ฉันมีเพียง 70 เหตุการณ์อนุญาตให้รวมฟีเจอร์ประมาณ 7/8 เท่านั้นในโมเดลโลจิสติก ฉันต้องการประเมินคุณสมบัติทั้งหมดเป็นตัวทำนายฉันไม่ต้องการเลือกคุณสมบัติใด ๆ ดังนั้นคุณจะแนะนำอะไร ฉันควรจะรวมคุณสมบัติทั้งหมด 7 อย่างที่เป็นไปได้หรือไม่ ฉันควรประเมินแต่ละคุณลักษณะโดยลำพังด้วยรูปแบบการเชื่อมโยงแล้วเลือกเฉพาะคุณลักษณะที่ดีที่สุดสำหรับรุ่นสุดท้าย ฉันยังสงสัยเกี่ยวกับการจัดการคุณสมบัติที่เป็นหมวดหมู่และต่อเนื่องฉันจะผสมมันได้หรือไม่ หากฉันมีหมวดหมู่ [0-1] และต่อเนื่อง [0-100] ฉันควรทำให้เป็นมาตรฐานหรือไม่ ฉันกำลังทำงานกับ Python ขอบคุณมาก ๆ สำหรับความช่วยเหลือของคุณ!

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.