สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

1
แปลงข้อมูลเป็นค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐาน
ฉันกำลังมองหาวิธีในการแปลงชุดข้อมูลของฉันจากค่าเฉลี่ยปัจจุบันและส่วนเบี่ยงเบนมาตรฐานเป็นค่าเฉลี่ยเป้าหมายและส่วนเบี่ยงเบนมาตรฐานเป้าหมาย โดยพื้นฐานแล้วฉันต้องการย่อ / ขยายการกระจายและขยายตัวเลขทั้งหมดให้เท่ากับค่าเฉลี่ย มันไม่ทำงานที่จะทำการแปลงเชิงเส้นแยกกันสองอันอันหนึ่งสำหรับค่าเบี่ยงเบนมาตรฐานแล้วก็อีกอันสำหรับค่าเฉลี่ย ฉันควรใช้วิธีใด วิธีแก้ปัญหาอาจถูกนำไปใช้กับตัวอย่างที่มีจุด 1.02 ในชุดข้อมูลที่มี SD .4 และค่าเฉลี่ย 0.88 ถูกเปลี่ยนเมื่อฉันปรับค่าเฉลี่ยของชุดข้อมูลเป็น 0.5 และ SD เป็น 0.1667 หรือไม่ คุณค่าใหม่ของประเด็นคืออะไร?

3
ความแตกต่างในการใช้การไล่ระดับสีปกติและการไล่ระดับสี
ในการตั้งค่าทั่วไปของอัลกอริทึมเชื้อสายลาดเรามีที่x nเป็นจุดปัจจุบันηคือขนาดขั้นตอนและกรัมR d ฉันอีn T x nมีการไล่ระดับสีที่ประเมินx n xn + 1= xn- η∗ กรัมr a dฉันe n Txnxn+1=xn−η∗gradientxnx_{n+1} = x_{n} - \eta * gradient_{x_n}xnxnx_nηη\etaก.r a dฉันe n Txngradientxngradient_{x_n}xnxnx_n ฉันได้เห็นในขั้นตอนวิธีการบางคนใช้การไล่ระดับสีปกติแทนการไล่ระดับสี ฉันต้องการที่จะรู้ว่าอะไรคือความแตกต่างในการใช้การไล่ระดับสีปกติและการไล่ระดับสีอย่างง่าย

2
การกระจายก่อนดีสำหรับดีกรีอิสระในการกระจายคืออะไร?
ฉันต้องการใช้ที่การกระจายเพื่อส่งคืนสินทรัพย์ช่วงเวลาสั้น ๆ ในโมเดลแบบเบย์ ฉันต้องการประเมินทั้งองศาอิสระ (พร้อมกับพารามิเตอร์อื่น ๆ ในโมเดลของฉัน) สำหรับการแจกแจง ฉันรู้ว่าผลตอบแทนของสินทรัพย์นั้นไม่ปกติ แต่ฉันไม่รู้มากไปกว่านั้น อะไรคือการแจกแจงก่อนที่เหมาะสมและให้ข้อมูลอย่างละเอียดสำหรับองศาอิสระในโมเดลดังกล่าว?

1
logloss vs gini / auc
ฉันได้ฝึกสองรุ่น (ตัวแยกประเภทไบนารีโดยใช้ h2o AutoML) และฉันต้องการเลือกหนึ่งตัวที่จะใช้ ฉันมีผลลัพธ์ต่อไปนี้: model_id auc logloss logloss_train logloss_valid gini_train gini_valid DL_grid_1 0.542694 0.287469 0.092717 0.211956 0.872932 0.312975 DL_grid_2 0.543685 0.251431 0.082616 0.186196 0.900955 0.312662 aucและloglossคอลัมน์ที่เป็นตัวชี้วัดการตรวจสอบข้าม (การตรวจสอบข้ามใช้เฉพาะข้อมูลการฝึกอบรม) พบ..._trainและ..._validตัวชี้วัดโดยการเรียกใช้การฝึกอบรมและการตรวจสอบความถูกต้องผ่านรูปแบบตามลำดับ ฉันต้องการใช้logloss_validหรือgini_validเพื่อเลือกรุ่นที่ดีที่สุด รุ่น 1 มี gini ที่ดีกว่า (เช่น AUC ที่ดีขึ้น) แต่รุ่นที่สองมี logloss ที่ดีกว่า คำถามของฉันคือแบบใดที่ฉันจะเลือกซึ่งฉันคิดว่าจะเป็นคำถามอะไรคือข้อดี / ข้อเสียของการใช้ gini (AUC) หรือ logloss เพื่อการตัดสินใจ

4
การเลือกฟีเจอร์และการเพิ่มประสิทธิภาพพารามิเตอร์ไฮเปอร์จะต้องสั่งซื้อในขั้นตอนการเรียนรู้ของเครื่องอย่างไร?
วัตถุประสงค์ของฉันคือการจำแนกสัญญาณเซ็นเซอร์ แนวคิดของการแก้ปัญหาของฉันคือ: i) คุณสมบัติทางวิศวกรรมจากสัญญาณดิบ ii) การเลือกคุณสมบัติที่เกี่ยวข้องกับ ReliefF และวิธีการจัดกลุ่ม iii) ใช้ NN, Random Forest และ SVM อย่างไรก็ตามฉันติดอยู่ในภาวะที่กลืนไม่เข้าคายไม่ออก ใน ii) และ iii) มีพารามิเตอร์หลายตัวเช่น k-Neigbours ที่ใกล้ที่สุดสำหรับ ReliefF หรือความยาวหน้าต่างซึ่งสัญญาณเซ็นเซอร์จะถูกประเมินหรือจำนวนหน่วยที่ซ่อนอยู่ในแต่ละชั้นของ NN มี 3 ปัญหาที่ฉันเห็นที่นี่: 1) การปรับพารามิเตอร์การเลือกคุณสมบัติจะมีผลต่อประสิทธิภาพการแยกประเภท 2) การเพิ่มประสิทธิภาพของพารามิเตอร์ตัวจําแนก 3) การประเมินการรวมกันที่เป็นไปได้ของการกำหนดค่าแต่ละอย่างเป็นไปไม่ได้ ดังนั้นคำถามของฉันคือ: a) ฉันสามารถสร้างสมมติฐานที่ทำให้เข้าใจง่ายได้ง่ายพารามิเตอร์การเลือกคุณลักษณะการปรับค่า st สามารถแยกออกจากการปรับพารามิเตอร์ตัวแยกประเภทได้หรือไม่ b) มีวิธีแก้ไขอื่น ๆ ที่เป็นไปได้หรือไม่?

1
เลเยอร์คอขวดหมายถึงอะไรในเครือข่ายประสาทเทียม
ฉันกำลังอ่านกระดาษFaceNetและในย่อหน้าที่ 3 ของบทนำกล่าวว่า: วิธีการจดจำใบหน้าก่อนหน้านี้ที่ใช้เครือข่ายชั้นลึกใช้เลเยอร์การจัดหมวดหมู่ที่ได้รับการฝึกฝนผ่านชุดของใบหน้าที่รู้จักกันแล้วนำเลเยอร์คอขวดที่อยู่ตรงกลางมาเป็นตัวแทนที่ใช้ในการสรุปการจดจำนอกเหนือจาก ฉันสงสัยว่าพวกเขาหมายถึงอะไรโดยเลเยอร์คอขวดกลาง?

2
เราสามารถใช้ตัวแปรอิสระอย่างเด็ดขาดในการวิเคราะห์จำแนกหรือไม่?
ในการวิเคราะห์จำแนกจำแนกตัวแปรตามเป็นหมวด แต่ฉันสามารถใช้ตัวแปรเด็ดขาด (เช่นสถานะที่อยู่อาศัย: ชนบทเมือง) พร้อมกับตัวแปรต่อเนื่องอื่น ๆ เป็นตัวแปรอิสระในการวิเคราะห์จำแนกเชิงเส้น?

2
ทำไมฟังก์ชั่น bootstrap ของ scikit-Learn จึงทำการทดสอบตัวอย่างอีกครั้ง
เมื่อใช้ bootstrapping สำหรับการประเมินแบบจำลองฉันมักคิดเสมอว่าตัวอย่างถุงนอกถูกใช้โดยตรงเป็นชุดทดสอบ อย่างไรก็ตามสิ่งนี้ดูเหมือนจะไม่เป็นกรณีสำหรับแนวทางการเรียนรู้แบบ Scikit ที่เลิก เรียนBootstrapซึ่งดูเหมือนว่าจะสร้างชุดการทดสอบจากการวาดภาพโดยการแทนที่จากชุดย่อยข้อมูลนอกถุง อะไรคือเหตุผลเชิงสถิติที่อยู่เบื้องหลังสิ่งนี้? มีสถานการณ์ที่เฉพาะเจาะจงซึ่งเทคนิคนี้ดีกว่าเพียงแค่การประเมินตัวอย่างนอกหรือในทางกลับกัน?

1
การแปลง betas ที่ได้มาตรฐานกลับไปเป็นตัวแปรดั้งเดิม
ฉันรู้ว่านี่อาจเป็นคำถามง่าย ๆ แต่หลังจากค้นหาฉันไม่พบคำตอบที่ฉันค้นหา ฉันมีปัญหาที่ฉันจำเป็นต้องสร้างมาตรฐานให้กับตัวแปรที่เรียกใช้ (การถดถอยริดจ์) เพื่อคำนวณค่าประมาณสันเขาของเบต้า ฉันต้องแปลงกลับไปเป็นขนาดดั้งเดิม แต่ฉันจะทำสิ่งนี้ได้อย่างไร ฉันพบสูตรสำหรับกรณีที่มีการแปรสภาพนั้น β∗=β^SxSy.β∗=β^SxSy. \beta^* = \hat\beta \frac{S_x}{S_y} \>. สิ่งนี้ได้รับใน D. Gujarati เศรษฐมิติพื้นฐานหน้า 175 สูตร (6.3.8) โดยที่เป็นตัวประมาณจากการถดถอยที่ทำงานบนตัวแปรมาตรฐานและเป็นตัวประมาณเดียวกันที่แปลงกลับไปเป็นมาตราส่วนดั้งเดิมคือค่าเบี่ยงเบนมาตรฐานตัวอย่างของรีจีสเตอร์และคือค่าเบี่ยงเบนมาตรฐานตัวอย่างβ∗β∗\beta^*β^β^\hat\betaSySyS_ySxSxS_x น่าเสียดายที่หนังสือเล่มนี้ไม่ครอบคลุมผลลัพธ์ที่คล้ายคลึงกันสำหรับการถดถอยหลายครั้ง นอกจากนี้ฉันไม่แน่ใจว่าฉันเข้าใจคดี bivariate หรือไม่ การปรับพีชคณิตอย่างง่ายให้สูตรในระดับเดิม:β^β^\hat\beta β^=β∗SySxβ^=β∗SySx \hat\beta=\beta^* \frac{S_y}{S_x} ดูเหมือนว่าแปลกสำหรับฉันที่ที่คำนวณกับตัวแปรที่ได้รับการยุบแล้วจะต้องมีการยุบโดยอีกครั้งเพื่อที่จะถูกแปลงกลับ? (และทำไมค่าเฉลี่ยไม่ถูกเพิ่มเข้ามา)β^β^\hat\betaSxSxS_xSxSxS_x ดังนั้นใครบางคนสามารถอธิบายวิธีการทำเช่นนี้สำหรับกรณีหลายตัวแปรโดยมีแหล่งที่มาเพื่อให้ฉันเข้าใจผลลัพธ์

4
จะสร้างข้อมูลเด็ดขาดแบบสุ่มได้อย่างไร?
สมมติว่าฉันมีตัวแปรเด็ดขาดซึ่งสามารถรับค่า A, B, C และ D ฉันจะสร้างจุดข้อมูลและการควบคุม 10,000 จุดสำหรับแต่ละความถี่ได้อย่างไร ตัวอย่างเช่น: A = 10% B = 20% C = 65% D = 5% ความคิดใดที่ฉันสามารถทำได้

2
ฟังก์ชั่นที่มีอิทธิพลและ OLS
ฉันพยายามที่จะเข้าใจว่าการทำงานของฟังก์ชั่นมีอิทธิพลอย่างไร มีคนอธิบายได้ในบริบทของการถดถอย OLS แบบง่าย ๆ yi=α+β⋅xi+εiyi=α+β⋅xi+εi\begin{equation} y_i = \alpha + \beta \cdot x_i + \varepsilon_i \end{equation} ที่ฉันต้องการฟังก์ชั่นที่มีอิทธิพลสำหรับ\ββ\beta

1
"ความสามารถ" ของรูปแบบการเรียนรู้ของเครื่องคืออะไร?
ฉันกำลังศึกษานี้กวดวิชาในแปรผัน Autoencoders โดยคาร์ล Doersch ในหน้าสองมันระบุ: หนึ่งในเฟรมเวิร์กดังกล่าวที่ได้รับความนิยมมากที่สุดคือ Variational Autoencoder [1, 3] ซึ่งเป็นหัวเรื่องของบทช่วยสอนนี้ สมมติฐานของรุ่นนี้อ่อนแอและการฝึกอบรมนั้นรวดเร็วผ่านการ backpropagation VAE ทำการประมาณค่า แต่ข้อผิดพลาดที่แนะนำโดยการประมาณนี้มีขนาดเล็กมากซึ่งเป็นแบบจำลองความจุสูง ลักษณะเหล่านี้มีส่วนทำให้ความนิยมเพิ่มขึ้นอย่างรวดเร็ว ฉันเคยอ่านข้อเรียกร้องเหล่านี้เกี่ยวกับโมเดลความจุสูงมาแล้ว แต่ดูเหมือนว่าฉันจะไม่พบคำจำกัดความที่ชัดเจนสำหรับมัน ฉันยังพบคำถาม stackoverflow ที่เกี่ยวข้องนี้แต่สำหรับฉันคำตอบนั้นไม่น่าพอใจมาก มีคำจำกัดความสำหรับความสามารถของแบบจำลองหรือไม่? คุณวัดได้ไหม

2
ความคลาดเคลื่อนเฉลี่ยสูงสุด (การกระจายระยะทาง)
ฉันมีชุดข้อมูลสองชุด (แหล่งข้อมูลและข้อมูลเป้าหมาย) ซึ่งเป็นไปตามการแจกแจงที่แตกต่างกัน ฉันกำลังใช้ MMD - นั่นคือการกระจายระยะทางแบบไม่อิงพารามิเตอร์ - เพื่อคำนวณการกระจายระยะขอบระหว่างข้อมูลต้นทางและเป้าหมาย แหล่งข้อมูล Xs ข้อมูลเป้าหมาย Xt การปรับเมทริกซ์ A * ข้อมูลที่คาดการณ์ไว้ Zs = A '* Xs และ Zt = A' Xt * MMD => ระยะทาง (P (Xs), P (Xt)) = | Mean (A'Xs) - mean (A ' Xt) | นั่นหมายถึง: ระยะห่างของการกระจายระหว่างข้อมูลต้นทางและปลายทางในพื้นที่ดั้งเดิมเท่ากับระยะห่างระหว่างวิธีการของแหล่งข้อมูลที่คาดการณ์และข้อมูลเป้าหมายในพื้นที่ฝังตัว ฉันมีคำถามเกี่ยวกับแนวคิดของ MMD ในสูตร …

1
RNNs: เมื่อใดที่จะใช้ BPTT และ / หรืออัปเดตน้ำหนัก
ฉันพยายามที่จะเข้าใจการใช้ RNN ระดับสูงในการติดฉลากตามลำดับผ่านทางกระดาษ (ในหมู่อื่น ๆ ) บทความ 2005 ของ Graves ในการจำแนกฟอนิม ในการสรุปปัญหา: เรามีชุดฝึกอบรมขนาดใหญ่ซึ่งประกอบด้วยไฟล์เสียง (อินพุต) ของประโยคเดียวและ (เอาต์พุต) เวลาเริ่มต้นที่มีป้ายกำกับจากผู้เชี่ยวชาญเวลาหยุดและป้ายกำกับสำหรับหน่วยเสียงส่วนบุคคล (รวมถึงหน่วยเสียงพิเศษบางอย่างเช่นเงียบ เช่นว่าแต่ละตัวอย่างในไฟล์เสียงแต่ละไฟล์มีป้ายกำกับด้วยสัญรูปฟอนิม) แรงขับของกระดาษคือการใช้ RNN กับเซลล์หน่วยความจำ LSTM ในเลเยอร์ที่ซ่อนอยู่กับปัญหานี้ (เขาใช้หลายตัวแปรและเทคนิคอื่น ๆ เพื่อเปรียบเทียบฉันใช้เวลาเพียงสนใจ LSTM ทิศทางเดียวเพื่อให้สิ่งต่าง ๆ ง่ายขึ้น) ฉันเชื่อว่าฉันเข้าใจสถาปัตยกรรมของเครือข่าย: เลเยอร์อินพุตที่สอดคล้องกับ windows 10 ms ของไฟล์เสียงได้รับการประมวลผลล่วงหน้าในรูปแบบมาตรฐานสำหรับการทำงานของเสียง เลเยอร์ที่ซ่อนอยู่ของเซลล์ LSTM และเลเยอร์เอาท์พุทที่มีการเข้ารหัสสัญลักษณ์ 61 หมายเลขโทรศัพท์ที่เป็นไปได้ทั้งหมด ฉันเชื่อว่าฉันเข้าใจสมการ (ที่ซับซ้อน แต่ตรงไปตรงมา) ของ pass pass และ backward …
15 lstm  rnn 

2
จะรับช่วงความมั่นใจสำหรับเปอร์เซ็นไทล์ได้อย่างไร
ฉันมีค่าข้อมูลดิบจำนวนมากที่เป็นจำนวนเงินดอลลาร์และฉันต้องการค้นหาช่วงความมั่นใจสำหรับเปอร์เซ็นต์ไทล์ของข้อมูลนั้น มีสูตรสำหรับช่วงความมั่นใจเช่นนี้หรือไม่?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.