คำถามติดแท็ก regression

เทคนิคการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "ตาม" หนึ่งตัว (หรือมากกว่า) กับตัวแปร "อิสระ"

3
โครงข่ายประสาทเทียมสำหรับการส่งออกหลาย ๆ
ฉันมีชุดข้อมูลที่มีคอลัมน์อินพุต 34 คอลัมน์และ 8 คอลัมน์เอาต์พุต วิธีหนึ่งในการแก้ปัญหาคือใช้อินพุต 34 ตัวและสร้างแบบจำลองการถดถอยแบบแยกเฉพาะสำหรับแต่ละคอลัมน์ผลลัพธ์ ฉันสงสัยว่าปัญหานี้สามารถแก้ไขได้โดยใช้เพียงหนึ่งโมเดลโดยเฉพาะอย่างยิ่งการใช้ Neural Network ฉันใช้ Multilayer Perceptron แต่ต้องการโมเดลหลายแบบเช่นการถดถอยเชิงเส้น Sequence to Sequence เป็นตัวเลือกที่ทำงานได้หรือไม่? ฉันใช้ TensorFlow ฉันมีรหัส แต่ฉันคิดว่ามันสำคัญกว่าที่จะเข้าใจสิ่งที่ฉันพลาดในแง่ของทฤษฎีพหุเพอร์ตรอนหลายชั้น ฉันเข้าใจว่าใน MLP ถ้าคุณมีหนึ่งโหนดมันจะให้ผลลัพธ์หนึ่ง หากคุณมีโหนดเอาต์พุต 10 โหนดแสดงว่าเป็นปัญหาแบบหลายคลาส คุณเลือกคลาสที่มีความน่าจะเป็นสูงสุดจาก 10 เอาต์พุต แต่ในกรณีของฉันแน่นอนว่าจะมี 8 เอาต์พุตสำหรับอินพุตเดียวกัน ให้บอกว่าสำหรับชุดอินพุตคุณจะได้รับพิกัด 3 มิติของบางสิ่ง (X, Y, Z) ชอบอินพุต = {1,10,5,7} เอาท์พุท = {1,2,1} ดังนั้นสำหรับอินพุตเดียวกัน {1,10,5,7} ฉันต้องสร้างแบบจำลองสำหรับค่า …

5
ทำให้แผนที่ความร้อนของทะเลใหญ่ขึ้น
ฉันสร้างcorr()df จาก df ดั้งเดิม corr()DF ออก 70 X 70 มาและมันเป็นไปไม่ได้ที่จะเห็นภาพ heatmap ส sns.heatmap(df)... ถ้าฉันพยายามที่จะแสดงcorr = df.corr()ตารางที่ไม่พอดีกับหน้าจอและฉันสามารถดูความสัมพันธ์ทั้งหมด มันเป็นวิธีที่จะพิมพ์ทั้งdfโดยไม่คำนึงถึงขนาดของมันหรือเพื่อควบคุมขนาดของ heatmap หรือไม่?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

2
ทำไมเราต้องละทิ้งตัวแปรจำลองหนึ่งตัว
ฉันได้เรียนรู้ว่าสำหรับการสร้างแบบจำลองการถดถอยเราต้องดูแลตัวแปรเด็ดขาดโดยการแปลงให้เป็นตัวแปรจำลอง ตัวอย่างเช่นถ้าในชุดข้อมูลของเรามีตัวแปรเช่นตำแหน่ง: Location ---------- Californian NY Florida เราต้องแปลงพวกเขาเช่น: 1 0 0 0 1 0 0 0 1 อย่างไรก็ตามขอแนะนำให้เราทิ้งตัวแปรดัมมี่หนึ่งตัวไม่ว่าจะมีตัวแปรจำลองกี่ตัว ทำไมเราต้องละทิ้งตัวแปรจำลองหนึ่งตัว

3
เหตุใดเราจึงแปลงข้อมูลที่เบ้เป็นการแจกแจงแบบปกติ
ฉันกำลังแก้ไขปัญหาการแข่งขันด้านราคาที่อยู่อาศัยใน Kaggle ( เคอร์เนลของ Human Analog ในราคาบ้าน: เทคนิคการถดถอยขั้นสูง ) และได้ข้ามส่วนนี้: # Transform the skewed numeric features by taking log(feature + 1). # This will make the features more normal. from scipy.stats import skew skewed = train_df_munged[numeric_features].apply(lambda x: skew(x.dropna().astype(float))) skewed = skewed[skewed > 0.75] skewed = skewed.index train_df_munged[skewed] = np.log1p(train_df_munged[skewed]) test_df_munged[skewed] …


2
อัตราค่าโดยสารของสายการบิน - การวิเคราะห์ใดที่ควรใช้เพื่อตรวจสอบพฤติกรรมการตั้งราคาและความสัมพันธ์ของราคา
ฉันต้องการตรวจสอบพฤติกรรมการตั้งราคาของสายการบิน - โดยเฉพาะว่าสายการบินตอบสนองต่อการกำหนดราคาของคู่แข่งอย่างไร ตามที่ฉันจะบอกความรู้ของฉันเกี่ยวกับการวิเคราะห์ที่ซับซ้อนมากขึ้นค่อนข้าง จำกัด ฉันได้ทำวิธีการพื้นฐานทั้งหมดเพื่อรวบรวมมุมมองโดยรวมของข้อมูล ซึ่งรวมถึงกราฟอย่างง่ายซึ่งช่วยระบุรูปแบบที่คล้ายกัน ฉันใช้ SAS Enterprise 9.4 ด้วย อย่างไรก็ตามฉันกำลังมองหาวิธีการตามจำนวนมากขึ้น ชุดข้อมูล ชุดข้อมูลที่รวบรวม (ตัวเอง) ที่ฉันกำลังใช้อยู่มีประมาณ ~ 54.000 อัตราค่าโดยสาร ค่าโดยสารทั้งหมดถูกรวบรวมภายในหน้าต่างเวลา 60 วันเป็นประจำทุกวัน (ทุกคืนเวลา 00:00 น.) ดังนั้นทุกค่าโดยสารภายในช่วงเวลาดังกล่าวจะเกิดขึ้นครั้งขึ้นอยู่กับความพร้อมของค่าโดยสารรวมถึงวันที่ออกเดินทางของเที่ยวบินเมื่อผ่านไปตามวันที่เรียกเก็บค่าโดยสาร (คุณไม่สามารถรวบรวมค่าโดยสารสำหรับเที่ยวบินเมื่อวันที่ออกเดินทางของเที่ยวบินในอดีต)nnn รูปแบบที่ไม่มีการจัดรูปแบบโดยทั่วไปมีลักษณะดังนี้: (ข้อมูลปลอม) +--------------------+-----------+--------------------+--------------------------+---------------+ | requestDate | price| tripStartDeparture | tripDestinationDeparture | flightCarrier | +--------------------+-----------+--------------------+--------------------------+---------------+ | 14APR2015:00:00:00 | 725.32 | 16APR2015:10:50:02 | 23APR2015:21:55:04 …

2
อนุกรมเวลาแบบไม่สม่ำเสมอ
ฉันมีตัวแปรต่อเนื่องสุ่มตัวอย่างในช่วงเวลาหนึ่งปีในช่วงเวลาที่ผิดปกติ บางวันมีมากกว่าหนึ่งการสังเกตต่อชั่วโมงในขณะที่ช่วงเวลาอื่นไม่มีอะไรเป็นวัน สิ่งนี้ทำให้ยากต่อการตรวจสอบรูปแบบในอนุกรมเวลาเนื่องจากบางเดือน (ตัวอย่างเช่นเดือนตุลาคม) มีการสุ่มตัวอย่างสูงในขณะที่คนอื่นไม่ได้ คำถามของฉันคืออะไรจะเป็นวิธีที่ดีที่สุดในการสร้างแบบจำลองเวลานี้ ฉันเชื่อว่าเทคนิคการวิเคราะห์อนุกรมเวลาส่วนใหญ่ (เช่น ARMA) ต้องการความถี่คงที่ ฉันสามารถรวมข้อมูลเพื่อให้มีตัวอย่างคงที่หรือเลือกชุดย่อยของข้อมูลที่มีรายละเอียดมาก ด้วยตัวเลือกทั้งสองฉันจะพลาดข้อมูลบางส่วนจากชุดข้อมูลดั้งเดิมที่สามารถเปิดเผยรูปแบบที่แตกต่าง แทนที่จะย่อยสลายซีรีส์ในรอบฉันสามารถป้อนข้อมูลโมเดลด้วยชุดข้อมูลทั้งหมดและคาดว่าจะรับรูปแบบ ตัวอย่างเช่นฉันแปลงชั่วโมงวันทำงานและเดือนเป็นตัวแปรเด็ดขาดและลองการถดถอยหลายครั้งด้วยผลลัพธ์ที่ดี (R2 = 0.71) ฉันมีความคิดว่าเทคนิคการเรียนรู้ด้วยเครื่องจักรเช่น ANN สามารถเลือกรูปแบบเหล่านี้ได้จากอนุกรมเวลาที่ไม่สม่ำเสมอ แต่ฉันสงสัยว่ามีใครลองดูบ้างและสามารถให้คำแนะนำเกี่ยวกับวิธีที่ดีที่สุดในการแสดงรูปแบบเวลาในเครือข่ายประสาท

1
ฉันควรใช้เซลล์ LSTM กี่เซลล์
มีกฎของหัวแม่มือ (หรือกฎจริง) ที่เกี่ยวข้องกับจำนวน LSTM ขั้นต่ำ, สูงสุดและ "สมเหตุสมผล" ที่ฉันควรใช้หรือไม่? โดยเฉพาะฉันเกี่ยวข้องกับBasicLSTMCellจาก TensorFlow และnum_unitsคุณสมบัติ โปรดสมมติว่าฉันมีปัญหาการจำแนกที่กำหนดโดย: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples ตัวอย่างจริงหรือไม่ที่จำนวนตัวอย่างการฝึกอบรมควรมากกว่า: 4*((n+1)*m + m*m)*c ที่cเป็นจำนวนของเซลล์? ฉันใช้สิ่งนี้: จะคำนวณจำนวนพารามิเตอร์ของเครือข่าย …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

2
การแก้ระบบสมการด้วยข้อมูลที่กระจัดกระจาย
ฉันพยายามที่จะแก้ชุดสมการซึ่งมีตัวแปรอิสระ 40 ตัว (x1, ... , x40) และตัวแปรตาม (y) หนึ่งตัว จำนวนสมการทั้งหมด (จำนวนแถว) คือ ~ 300 และฉันต้องการแก้สำหรับชุดของ 40 สัมประสิทธิ์ที่ช่วยลดข้อผิดพลาดรวมของสี่เหลี่ยมจัตุรัสระหว่าง y และค่าที่คาดการณ์ไว้ ปัญหาของฉันคือเมทริกซ์เบาบางมากและฉันไม่รู้วิธีที่ดีที่สุดในการแก้ระบบสมการด้วยข้อมูลเบาบาง ตัวอย่างของชุดข้อมูลที่แสดงด้านล่าง: y x1 x2 x3 x4 x5 x6 ... x40 87169 14 0 1 0 0 2 ... 0 46449 0 0 4 0 1 4 ... 12 846449 …

3
ต้นไม้ถดถอยสามารถทำนายได้อย่างต่อเนื่องหรือไม่?
สมมติว่าฉันมีฟังก์ชั่นได้อย่างราบรื่นเช่น 2 ฉันมีชุดการฝึกอบรมD \ subsetneq \ {((x, y), f (x, y)) | (x, y) \ in \ mathbb {R} ^ 2 \}และแน่นอนฉันไม่รู้fถึงแม้ว่าฉันสามารถประเมินfทุกที่ที่ฉันต้องการฉ( x , y) = x2+ y2ฉ(x,Y)=x2+Y2f(x, y) = x^2+y^2D ⊊ { ( ( x , y) , ฉ( x , y) ) | ( x , y) ∈ …

3
การถดถอยแบบใดที่ใช้ในการคำนวณผลการเลือกตั้งในระบบหลายส่วน?
ฉันต้องการทำนายผลการเลือกตั้งรัฐสภา ผลลัพธ์ของฉันจะเป็น% ที่แต่ละฝ่ายได้รับ มีมากกว่า 2 ฝ่ายดังนั้นการถดถอยโลจิสติกจึงไม่ใช่ตัวเลือกที่เหมาะสม ฉันสามารถสร้างความถดถอยแยกกันสำหรับแต่ละฝ่าย แต่ในกรณีนั้นผลลัพธ์จะเป็นไปอย่างอิสระจากกัน มันจะไม่แน่ใจว่าผลรวมของผลลัพธ์จะเป็น 100% ฉันควรใช้การถดถอยแบบใด (หรือวิธีการอื่น) เป็นไปได้หรือไม่ที่จะใช้วิธีนี้ใน R หรือ Python ผ่านไลบรารี่เฉพาะ

3
ทำนายเวลาที่ดีที่สุดในการโทร
ฉันมีชุดข้อมูลรวมถึงชุดลูกค้าในเมืองต่าง ๆ ของรัฐแคลิฟอร์เนียเวลาที่โทรหาลูกค้าแต่ละรายและสถานะการโทร (จริงถ้าลูกค้ารับสายและเท็จถ้าลูกค้าไม่รับสาย) ฉันต้องหาเวลาที่เหมาะสมในการโทรหาลูกค้าในอนาคตเพื่อให้โอกาสในการตอบรับสูง ดังนั้นกลยุทธ์ที่ดีที่สุดสำหรับปัญหานี้คืออะไร ฉันควรพิจารณาว่าเป็นปัญหาการจำแนกซึ่งชั่วโมง (0,1,2, ... 23) เป็นชั้นเรียนหรือไม่ หรือฉันควรพิจารณาว่าเป็นงานการถดถอยซึ่งเวลาเป็นตัวแปรต่อเนื่องหรือไม่ ฉันจะแน่ใจได้อย่างไรว่าความน่าจะเป็นที่จะรับสายจะสูง ความช่วยเหลือใด ๆ ที่จะได้รับการชื่นชม มันจะดีมากถ้าคุณอ้างอิงถึงปัญหาที่คล้ายกัน ด้านล่างนี้เป็นภาพรวมของข้อมูล

2
จะทำอย่างไรเมื่อการทดสอบข้อมูลมีคุณสมบัติน้อยกว่าข้อมูลการฝึกอบรม?
สมมติว่าเราคาดการณ์ยอดขายของร้านค้าและข้อมูลการฝึกอบรมของฉันมีคุณสมบัติสองชุด: หนึ่งเกี่ยวกับยอดขายของร้านค้าที่มีวันที่ (ฟิลด์ "Store" ไม่ซ้ำกัน) ประเภทหนึ่งเกี่ยวกับร้านค้า (ฟิลด์ "Store" ไม่ซ้ำกันที่นี่) เมทริกซ์จะออกมาเป็นแบบนี้: +-------+-----------+------------+---------+-----------+------+-------+--------------+ | Store | DayOfWeek | Date | Sales | Customers | Open | Promo | StateHoliday | +-------+-----------+------------+---------+-----------+------+-------+--------------+ | 1 | 5 | 2015-07-31 | 5263.0 | 555.0 | 1 | 1 | 0 | | 2 | 5 …

2
การถดถอยเชิงเส้นหลายตัวแปรในหลาม
ฉันกำลังมองหาแพ็คเกจ Python ที่ใช้การถดถอยเชิงเส้นหลายตัวแปร (หมายเหตุเกี่ยวกับคำศัพท์: การถดถอยหลายตัวแปรที่เกี่ยวข้องกับกรณีที่มีมากกว่าหนึ่งตัวแปรขึ้นอยู่กับในขณะที่หลาย ๆการถดถอยเกี่ยวข้องกับกรณีที่มีตัวแปรตาม แต่หนึ่งตัวแปรอิสระมากกว่าหนึ่ง)

2
โคตรลาดไล่สีแบบสุ่มตามการดำเนินการของเวกเตอร์
สมมติว่าฉันต้องการฝึกอัลกอริธึมการถดถอยแบบไล่ระดับสีแบบสุ่มโดยใช้ชุดข้อมูลที่มีตัวอย่าง N ตัว เนื่องจากขนาดของชุดข้อมูลได้รับการแก้ไขฉันจะใช้ข้อมูล T ครั้ง ในการทำซ้ำแต่ละครั้งหรือ "ยุค" ฉันใช้ตัวอย่างการฝึกอบรมแต่ละครั้งทันทีหลังจากจัดลำดับการฝึกทั้งหมดใหม่แบบสุ่ม การติดตั้งของฉันนั้นใช้ Python และ Numpy ดังนั้นการใช้การดำเนินการเวกเตอร์สามารถลดเวลาในการคำนวณได้อย่างน่าทึ่ง การหาเวกเตอร์ของการไล่สีแบบแบทช์นั้นค่อนข้างตรงไปตรงมา อย่างไรก็ตามในกรณีของการไล่ระดับสีแบบสุ่มสุ่มฉันไม่สามารถหาวิธีที่จะหลีกเลี่ยงการวนรอบนอกที่วนซ้ำผ่านตัวอย่างทั้งหมดในแต่ละยุค ไม่มีใครรู้ว่าการใช้เวกเตอร์ของการไล่ระดับสีแบบสุ่มสุ่ม? แก้ไข : ฉันถูกถามว่าทำไมฉันถึงต้องการใช้การไล่ระดับสีแบบออนไลน์ถ้าขนาดของชุดข้อมูลของฉันได้รับการแก้ไข จาก [1] เราจะเห็นได้ว่าการไล่ระดับสีแบบออนไลน์นั้นช้ากว่าการไล่ระดับสีแบบแบทช์เป็นค่าต่ำสุดของต้นทุนเชิงประจักษ์ อย่างไรก็ตามมันมาบรรจบกันได้เร็วขึ้นจนถึงค่าต่ำสุดที่คาดไว้ซึ่งวัดประสิทธิภาพทั่วไป ฉันต้องการทดสอบผลกระทบของผลลัพธ์ทางทฤษฎีเหล่านี้ในปัญหาเฉพาะของฉันโดยใช้การตรวจสอบข้าม หากไม่มีการใช้งาน vectorized แล้วโค้ดโคตรลาดของฉันออนไลน์จะช้ากว่าโคตรเกรเดียนต์ของแบทช์ ที่เพิ่มขึ้นอย่างน่าทึ่งเวลาที่ใช้ในกระบวนการตรวจสอบข้ามที่จะแล้วเสร็จ แก้ไข : ฉันรวมที่นี่ pseudocode ของการดำเนินการสืบเชื้อสายการไล่ระดับสีแบบออนไลน์ของฉันตามที่เพื่อนร้องขอ ฉันกำลังแก้ปัญหาการถดถอย Method: on-line gradient descent (regression) Input: X (nxp matrix; each line contains a training sample, …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.