สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
การเลือกแบนด์วิดท์สำหรับการประมาณความหนาแน่นของเคอร์เนล
สำหรับตัวประมาณความหนาแน่นของเคอร์เนล (KDE) ฉันใช้กฎของ Silverman ในการคำนวณ :ชั่วโมงชั่วโมงh 0.9 นาที( s d, ผมQ R / 1.34 ) × n- 0.20.9นาที(sd,ผมQR/1.34)×n-0.2\begin{equation} 0.9 \min(sd, IQR/1.34)\times n^{-0.2} \end{equation} อะไรคือกฎมาตรฐานสำหรับ KDE หลายตัวแปร (สมมติว่าเคอร์เนลปกติ)

3
R: การสุ่มฟอเรสต์การโยน NaN / Inf ในข้อผิดพลาด“ การเรียกฟังก์ชันต่างประเทศ” แม้จะไม่มีชุดข้อมูลของ NaN [ปิด]
ฉันใช้คาเร็ตเพื่อรันฟอเรสต์แบบสุ่มที่ผ่านการตรวจสอบความถูกต้องข้ามชุดข้อมูล ตัวแปร Y เป็นปัจจัย ไม่มีชุดข้อมูลของ NaN, Inf's หรือ NA ในชุดข้อมูลของฉัน อย่างไรก็ตามเมื่อใช้ป่าสุ่มฉันได้รับ Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs …

4
ทำไม Andrew Ng จึงต้องการใช้ SVD และไม่ใช่ EIG ของความแปรปรวนร่วมเพื่อทำ PCA
ฉันกำลังศึกษา PCA จากหลักสูตร Coursera ของ Andrew Ng และสื่ออื่น ๆ ในการมอบหมายครั้งแรกของ Stanford NLP แน่นอน cs224n และในวิดีโอการบรรยายจาก Andrew Ngพวกเขาทำการสลายตัวของค่าเอกพจน์แทนการสลายตัว eigenvector ของเมทริกซ์ความแปรปรวนร่วมและ Ng บอกว่า SVD มีความเสถียรเชิงตัวเลขมากกว่า eigendecomposition จากความเข้าใจของฉันสำหรับ PCA เราควรทำ SVD ของเมทริกซ์ข้อมูล(m,n)ขนาดไม่ใช่เมทริกซ์ความแปรปรวนร่วมของ(n,n)ขนาด และการสลายตัวของไอเก็นเวกเตอร์ของเมทริกซ์ความแปรปรวนร่วม ทำไมพวกเขาถึงทำ SVD ของเมทริกซ์ความแปรปรวนร่วมไม่ใช่เมทริกซ์ข้อมูล?

4
ฟังก์ชั่นค่าใช้จ่ายเป็นอย่างไรจาก Logistic Regression
ฉันกำลังเรียนหลักสูตร Machine Learning Stanford ใน Coursera ในบทที่เกี่ยวกับการถดถอยโลจิสติกฟังก์ชันต้นทุนคือ: จากนั้นมันจะอยู่ที่นี่: ฉันพยายามหาอนุพันธ์ของฟังก์ชันต้นทุน แต่ฉันได้บางอย่างที่แตกต่างออกไปอย่างสิ้นเชิง อนุพันธ์ได้มาอย่างไร ขั้นตอนตัวกลางคืออะไร

1
ตัวเลขในรายงานการจำแนกประเภทของ sklearn หมายถึงอะไร
ฉันมีตัวอย่างด้านล่างที่ดึงมาจากเอกสาร sklearn.metrics.classification_report ของ sklearn สิ่งที่ฉันไม่เข้าใจคือเหตุผลที่มีค่า f1 คะแนนความแม่นยำและการเรียกคืนค่าสำหรับแต่ละชั้นที่ฉันเชื่อว่าระดับเป็นป้ายตัวทำนาย? ฉันคิดว่าคะแนน f1 บอกคุณถึงความแม่นยำโดยรวมของโมเดล นอกจากนี้คอลัมน์สนับสนุนบอกอะไรเรา ฉันไม่พบข้อมูลใด ๆ print(classification_report(y_true, y_pred, target_names=target_names)) precision recall f1-score support class 0 0.50 1.00 0.67 1 class 1 0.00 0.00 0.00 1 class 2 1.00 0.67 0.80 3 avg / total 0.70 0.60 0.61 5

2
ข้อผิดพลาด“ ระบบเป็นเอกพจน์คำนวณ” เมื่อเรียกใช้ glm
ฉันใช้แพ็คเกจฐานข้อมูลที่แข็งแกร่งเพื่อเรียกใช้การประมาณค่า GLM อย่างไรก็ตามเมื่อฉันทำฉันได้รับข้อผิดพลาดต่อไปนี้: Error in solve.default(crossprod(X, DiagB * X)/nobs, EEq) : system is computationally singular: reciprocal condition number = 1.66807e-16 สิ่งนี้หมายความว่า / บ่งชี้? และฉันจะแก้ปัญหาได้อย่างไร PS หากคุณต้องการอะไร (สูตร / ข้อมูลจำเพาะหรือข้อมูล) ที่จะตอบฉันยินดีที่จะให้มัน

3
เหตุใด AUC ที่สูงขึ้นสำหรับลักษณนามที่มีความแม่นยำน้อยกว่าตัวที่มีความแม่นยำมากกว่า
ฉันมีตัวจําแนกสองตัว A: เครือข่าย Bayesian ที่ไร้เดียงสา B: ต้นไม้ (เชื่อมต่อโดยลำพัง) เครือข่ายแบบเบย์ ในแง่ของความแม่นยำและมาตรการอื่น ๆ A ทำงานค่อนข้างแย่กว่า B. อย่างไรก็ตามเมื่อฉันใช้ R แพ็คเกจ ROCR และ AUC เพื่อทำการวิเคราะห์ ROC ปรากฎว่า AUC สำหรับ A สูงกว่า AUC สำหรับ B เหตุใดจึงเป็นเช่นนี้ เกิดขึ้น? จริงบวก (tp), เท็จบวก (fp), ลบเท็จ (fn), ลบจริง (tn), ความไว (เซน), ความจำเพาะ (spec), ค่าพยากรณ์เชิงบวก (ppv), ค่าพยากรณ์ลบ (npv), และ ความแม่นยำ …

4
เราวัดความไม่สม่ำเสมอของการแจกแจงได้อย่างไร
ฉันกำลังพยายามหาตัวชี้วัดสำหรับการวัดความไม่สม่ำเสมอของการแจกแจงสำหรับการทดลองที่ฉันใช้อยู่ ฉันมีตัวแปรสุ่มที่ควรกระจายอย่างสม่ำเสมอในกรณีส่วนใหญ่และฉันต้องการระบุตัวอย่างของชุดข้อมูลที่และตัวแปรไม่กระจายอย่างสม่ำเสมอภายในระยะขอบ ตัวอย่างของชุดข้อมูลสามชุดแต่ละชุดมีการวัด 10 ค่าซึ่งแสดงความถี่ของการเกิดสิ่งที่ฉันวัดได้อาจเป็นดังนี้: a: [10% 11% 10% 9% 9% 11% 10% 10% 12% 8%] b: [10% 10% 10% 8% 10% 10% 9% 9% 12% 8%] c: [ 3% 2% 60% 2% 3% 7% 6% 5% 5% 7%] <-- non-uniform d: [98% 97% 99% 98% 98% 96% 99% 96% …

2
Statistics.com เผยแพร่คำตอบที่ผิดหรือไม่?
Statistics.com เผยแพร่ปัญหาประจำสัปดาห์: อัตราการฉ้อโกงประกันภัยที่อยู่อาศัยคือ 10% (หนึ่งในสิบข้อเรียกร้องนั้นเป็นการฉ้อโกง) ที่ปรึกษาได้เสนอระบบการเรียนรู้ของเครื่องเพื่อตรวจสอบการอ้างสิทธิ์และจำแนกพวกเขาว่าเป็นการฉ้อโกงหรือไม่หลอกลวง ระบบมีประสิทธิภาพ 90% ในการตรวจจับการอ้างสิทธิ์ที่ฉ้อโกง แต่มีประสิทธิภาพ 80% เท่านั้นในการจำแนกการเรียกร้องการฉ้อโกงที่ไม่ถูกต้อง หากระบบจัดประเภทการเรียกร้องว่าเป็นการฉ้อโกงความน่าจะเป็นที่จะเป็นการหลอกลวงคืออะไร https://www.statistics.com/news/231/192/Conditional-Probability/?showtemplate=true เพื่อนของฉันและฉันทั้งคู่เกิดคำตอบเดียวกันอย่างอิสระและไม่ตรงกับโซลูชันที่เผยแพร่ ทางออกของเรา: (0.9 * 0.1) / ((. 9 * 0.1) + (. 2 * 0.9)) = 1/3 ทางออกของพวกเขา: นี่เป็นปัญหาของความน่าจะเป็นแบบมีเงื่อนไข (มันเป็นปัญหาของ Bayesian แต่การใช้สูตรใน Bayes Rule จะช่วยปกปิดสิ่งที่เกิดขึ้น) พิจารณาการอ้างสิทธิ์ 100 ครั้ง 10 จะเป็นการฉ้อโกงและระบบจะติดป้าย 9 อย่างถูกต้องว่าเป็น“ การฉ้อโกง” 90 การเรียกร้องจะใช้ได้ แต่ระบบจะจำแนก …

2
แบบจำลองทางสถิติที่อยู่เบื้องหลังอัลกอริทึม SVM คืออะไร
ฉันได้เรียนรู้ว่าเมื่อจัดการกับข้อมูลโดยใช้แบบจำลองขั้นตอนแรกคือการสร้างแบบจำลองขั้นตอนข้อมูลเป็นแบบจำลองทางสถิติ จากนั้นขั้นตอนต่อไปคือการพัฒนาอัลกอริทึมการอนุมานที่มีประสิทธิภาพ / เร็ว / การเรียนรู้ตามแบบจำลองทางสถิตินี้ ดังนั้นฉันต้องการถามว่าแบบจำลองทางสถิติใดอยู่เบื้องหลังอัลกอริธึมเวกเตอร์สนับสนุน (SVM) หรือไม่

3
เหตุใดการผสมของตัวแปรที่แจกแจงสองแบบปกติเท่านั้น bimodal หากค่าเฉลี่ยของพวกเขาแตกต่างกันอย่างน้อยสองเท่าของค่าเบี่ยงเบนมาตรฐานทั่วไป?
ภายใต้การผสมผสานของการแจกแจงปกติสองรายการ: https://en.wikipedia.org/wiki/Multimodal_distribution#Mixture_of_two_normal_distributions "การผสมของการแจกแจงปกติสองแบบมีพารามิเตอร์ห้าตัวที่จะประมาณ: สองวิธี, ความแปรปรวนสองตัวและพารามิเตอร์การผสมการผสมของการแจกแจงสองแบบปกติที่มีค่าเบี่ยงเบนมาตรฐานเท่ากันนั้น bimodal เฉพาะในกรณีที่ค่าเฉลี่ยแตกต่างกันอย่างน้อยสองครั้ง ." ฉันกำลังมองหาคำอธิบายที่ได้มาหรือคำอธิบายที่เข้าใจง่ายว่าทำไมสิ่งนี้ถึงเป็นจริง ฉันเชื่อว่ามันสามารถอธิบายได้ในรูปแบบของการทดสอบตัวอย่างสองตัวอย่าง: μ1−μ2σpμ1−μ2σp\frac{\mu_1-\mu_2}{\sigma_p} โดยที่คือค่าเบี่ยงเบนมาตรฐานที่รวมไว้σpσp\sigma_p
28 bimodal 

2
ความหมาย (และหลักฐาน) ของ“ RNN สามารถประมาณอัลกอริทึมใด ๆ ”
เมื่อเร็ว ๆ นี้ฉันอ่านว่าเครือข่ายประสาทที่เกิดขึ้นซ้ำสามารถประมาณอัลกอริทึมใด ๆ ดังนั้นคำถามของฉันคือ: สิ่งนี้หมายความว่าอะไรและคุณสามารถให้ฉันอ้างอิงที่นี่พิสูจน์แล้ว?
28 references  rnn 

4
การประมาณค่าโวลต์การประมาณค่า
อะไรคือความแตกต่างระหว่างการประมาณและการประมาณและวิธีที่แม่นยำที่สุดในการใช้คำเหล่านี้คืออะไร? ตัวอย่างเช่นฉันได้เห็นคำสั่งในกระดาษโดยใช้การแก้ไขเป็น: "ขั้นตอน interpolates รูปร่างของฟังก์ชั่นโดยประมาณระหว่างจุดถังขยะ" ประโยคที่ใช้ทั้งการคาดการณ์และการแก้ไขคือตัวอย่างเช่น: ขั้นตอนก่อนหน้านี้ที่เราประมาณค่าฟังก์ชันสอดแทรกโดยใช้วิธีเคอร์เนลไปทางด้านซ้ายและด้านขวาของอุณหภูมิ ใครสามารถให้วิธีที่ชัดเจนและง่ายต่อการแยกแยะพวกเขาและแนะนำวิธีการใช้คำเหล่านี้อย่างถูกต้องด้วยตัวอย่าง?

3
นานาคืออะไร?
ในเทคนิคการลดขนาดเช่นการวิเคราะห์องค์ประกอบหลัก LDA ฯลฯ มักใช้คำที่หลากหลาย นานาในระยะที่ไม่ใช่ด้านเทคนิคคืออะไร? หากจุดเป็นของทรงกลมที่มีมิติที่ฉันต้องการลดและหากมีจุดรบกวนและและไม่เกี่ยวข้องกันแล้วจุดที่แท้จริงจะถูกแยกออกจากกันเนื่องจากเสียงรบกวน ดังนั้นจึงจำเป็นต้องมีการกรองสัญญาณรบกวน ดังนั้นการลดมิติจะได้รับการดำเนินการเกี่ยวกับ y ที่ ดังนั้นและเป็นของแมนิโฟลด์ที่ต่างกันหรือไม่?y x z = x + y x yxxxyyyxxxyyyxxxz=x+yz=x+yz = x+yxxxyyy ฉันกำลังทำงานกับข้อมูลจุดเมฆที่มักใช้ในการมองเห็นหุ่นยนต์ เมฆจุดนั้นเสียงดังเนื่องจากเสียงรบกวนในการได้มาและฉันต้องลดเสียงก่อนที่จะลดขนาด มิฉะนั้นฉันจะได้รับการลดขนาดที่ไม่ถูกต้อง ดังนั้นนานาคืออะไรที่นี่และเสียงรบกวนเป็นส่วนหนึ่งของ manifold เดียวกันกับที่เป็นเจ้าของ?xxx

1
มีการวิเคราะห์ปัจจัยหรือ PCA สำหรับข้อมูลลำดับหรือข้อมูลไบนารีหรือไม่
ฉันเสร็จสิ้นการวิเคราะห์องค์ประกอบหลัก (PCA), การวิเคราะห์ปัจจัยเชิงสำรวจ (EFA) และการวิเคราะห์ปัจจัยยืนยัน (CFA), การจัดการข้อมูลด้วยสเกล likert (การตอบสนอง 5 ระดับ: ไม่มี, น้อย, บาง, .. ) อย่างต่อเนื่อง ตัวแปร. จากนั้นใช้ Lavaan ฉันทำซ้ำ CFA ที่กำหนดตัวแปรเป็นหมวดหมู่ ฉันต้องการทราบว่าการวิเคราะห์ประเภทใดที่เหมาะสมและจะเทียบเท่ากับ PCA และ EFA เมื่อข้อมูลมีลำดับตามธรรมชาติ และเมื่อไบนารี ฉันขอขอบคุณข้อเสนอแนะสำหรับแพ็คเกจหรือซอฟต์แวร์เฉพาะที่สามารถนำไปใช้ในการวิเคราะห์ได้อย่างง่ายดาย

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.