สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
การเลือกพารามิเตอร์ความซับซ้อนใน CART
ในรูทีน rpart () เพื่อสร้างโมเดลรถเข็นคุณระบุพารามิเตอร์ความซับซ้อนที่คุณต้องการตัดต้นไม้ของคุณ ฉันเห็นคำแนะนำที่แตกต่างกันสองข้อสำหรับการเลือกพารามิเตอร์ความซับซ้อน: เลือกพารามิเตอร์ความซับซ้อนที่เกี่ยวข้องกับข้อผิดพลาดการตรวจสอบข้ามขั้นต่ำที่เป็นไปได้ วิธีนี้แนะนำโดยQuick-Rและ HSAUR เลือกพารามิเตอร์ความซับซ้อนที่ยิ่งใหญ่ที่สุดซึ่งมีข้อผิดพลาดการตรวจสอบข้ามโดยประมาณยังอยู่ใน SE ของข้อผิดพลาดการตรวจสอบข้ามขั้นต่ำที่เป็นไปได้ นี่คือการตีความเอกสารแพคเกจของฉันซึ่งบอกว่า: "ตัวเลือกที่ดีของ cp สำหรับการตัดแต่งมักเป็นค่าทางซ้ายสุดที่ค่าเฉลี่ยอยู่ต่ำกว่าเส้นแนวนอน" ในการอ้างอิงถึงพล็อตนี้ cp สองตัวเลือกให้สร้างต้นไม้ที่แตกต่างกันมากในชุดข้อมูลของฉัน ดูเหมือนว่าวิธีแรกจะสร้างต้นไม้ที่มีความซับซ้อนมากขึ้นและอาจมีการติดตั้งมากเกินไป มีข้อดีข้อเสียคำแนะนำในวรรณคดีอื่น ๆ หรือไม่ฉันควรพิจารณาเมื่อตัดสินใจว่าจะใช้วิธีการใด ฉันสามารถให้ข้อมูลเพิ่มเติมเกี่ยวกับปัญหาการสร้างแบบจำลองเฉพาะของฉันได้หากจะมีประโยชน์ แต่ฉันพยายามทำให้คำถามนี้กว้างพอที่จะเกี่ยวข้องกับคนอื่น
16 r  cart  rpart 

4
ความแม่นยำการจำแนกต่ำจะทำอย่างไรต่อไป
ดังนั้นฉันเป็นมือใหม่ในสาขา ML และฉันพยายามจัดหมวดหมู่ เป้าหมายของฉันคือการทำนายผลของการแข่งขันกีฬา ฉันรวบรวมข้อมูลทางประวัติศาสตร์บางอย่างแล้วและตอนนี้พยายามฝึกฝนตัวจําแนก ฉันมีตัวอย่างประมาณ 1200 ตัวอย่าง 0.2 ของพวกเขาแยกออกเพื่อวัตถุประสงค์ในการทดสอบและอื่น ๆ ที่ฉันใส่ลงในการค้นหากริด ฉันได้ลอง SVM ด้วยเมล็ดแบบเชิงเส้น rbf และโพลิโนมินัลและป่าสุ่มไปแล้ว น่าเสียดายที่ฉันไม่สามารถรับความแม่นยำมากกว่า 0.5 ได้อย่างมีนัยสำคัญ (เช่นเดียวกับการสุ่มเลือกชั้นเรียน) หมายความว่าฉันไม่สามารถคาดการณ์ผลลัพธ์ของเหตุการณ์ที่ซับซ้อนเช่นนี้ได้หรือไม่ หรือฉันสามารถรับความแม่นยำอย่างน้อย 0.7-0.8 ถ้าเป็นไปได้แล้วฉันจะดูอะไรต่อไป รับข้อมูลเพิ่มเติมหรือไม่ (ฉันสามารถขยายชุดข้อมูลได้สูงสุด 5 ครั้ง) ลองตัวแยกประเภทอื่นหรือไม่ (การถดถอยโลจิสติก, kNN, ฯลฯ ) ประเมินชุดคุณสมบัติของฉันอีกครั้ง? มี ML-tools ใดที่ต้องวิเคราะห์ซึ่งคุณสมบัติใดที่เหมาะสมและไม่ใช้ บางทีฉันควรลดชุดคุณลักษณะ (ปัจจุบันฉันมีคุณสมบัติ 12 อย่าง) หรือไม่

2
กระบวนการใดที่สามารถสร้างข้อมูลหรือพารามิเตอร์แบบกระจาย Laplace (double exponential)
การแจกแจงจำนวนมากมี "ตำนานต้นกำเนิด" หรือตัวอย่างของกระบวนการทางกายภาพที่อธิบายได้ดี: คุณสามารถรับข้อมูลที่กระจายตามปกติจากผลรวมของข้อผิดพลาดที่ไม่เกี่ยวข้องโดยใช้ทฤษฎีการ จำกัด ส่วนกลาง คุณสามารถรับข้อมูลแบบกระจายสองทางได้จากการโยนเหรียญอิสระหรือตัวแปรกระจายแบบปัวซองจากกระบวนการที่ จำกัด คุณสามารถรับข้อมูลแบบกระจายชี้แจงจากเวลาที่รอภายใต้อัตราการสลายตัวคงที่ และอื่น ๆ แต่แล้วการกระจายแบบ Laplaceล่ะ? มันมีประโยชน์สำหรับการทำให้เป็นมาตรฐาน L1 และการถดถอยแบบ LADแต่มันยากสำหรับฉันที่จะนึกถึงสถานการณ์ที่ใคร ๆ ควรคาดหวังที่จะเห็นมันในธรรมชาติ การกระจัดกระจายคือเกาส์เซียนและตัวอย่างทั้งหมดที่ฉันสามารถนึกได้ด้วยการแจกแจงแบบเอ็กซ์โพเนนเชียล (เช่นเวลาที่รอ) เกี่ยวข้องกับค่าที่ไม่เป็นลบ

4
กำหนดกรอบการแจกแจงทวินามลบสำหรับการหาลำดับดีเอ็นเอ
การแจกแจงแบบทวินามลบได้กลายเป็นแบบจำลองที่ได้รับความนิยมสำหรับข้อมูลนับ (โดยเฉพาะจำนวนลำดับที่คาดหวังของการอ่านลำดับภายในภูมิภาคที่กำหนดของจีโนมจากการทดลองที่กำหนด) ในชีวสารสนเทศศาสตร์ คำอธิบายแตกต่างกันไป: บางคนอธิบายว่ามันเป็นสิ่งที่ใช้งานได้เหมือนการแจกแจงปัวซอง แต่มีพารามิเตอร์เพิ่มเติมทำให้มีอิสระมากขึ้นในการจำลองการแจกแจงที่แท้จริงด้วยความแปรปรวนไม่จำเป็นต้องเท่ากับค่าเฉลี่ย บางคนอธิบายว่ามันเป็นน้ำหนักแบบผสมของการแจกแจงปัวซง (ด้วยการแจกแจงแบบแกมม่าผสมกับพารามิเตอร์ปัวซอง) มีวิธีใดที่จะทำให้เหตุผลเหล่านี้เข้ากับนิยามดั้งเดิมของการแจกแจงแบบทวินามลบเพื่อจำลองจำนวนความสำเร็จของการทดลองของเบอร์นูลลีก่อนที่จะเห็นความล้มเหลวจำนวนหนึ่ง? หรือฉันควรคิดว่ามันเป็นเรื่องบังเอิญที่มีความสุขที่การกระจายน้ำหนักแบบปัวซองด้วยการแจกแจงการผสมแกมมามีฟังก์ชันความน่าจะเป็นเช่นเดียวกับทวินามลบ

3
ปัวซองกำลังจะยกกำลังเป็นแกมม่าปัวซองคืออะไร?
กระจาย Poisson สามารถวัดเหตุการณ์ต่อหน่วยเวลาและพารามิเตอร์เป็นλλλ\lambdaการแจกแจงเอ็กซ์โพเนนเชียลวัดเวลาจนถึงเหตุการณ์ถัดไปด้วยพารามิเตอร์1λ1λ\frac{1}{\lambda}λ หนึ่งสามารถแปลงการแจกแจงแบบหนึ่งให้เป็นแบบอื่นได้ขึ้นอยู่กับว่ามันง่ายกว่าในการจำลองเหตุการณ์หรือเวลา ตอนนี้ Gamma-Poisson เป็น Poisson แบบ "ยืด" ที่มีความแปรปรวนมากขึ้น การแจกแจงแบบ Weibull เป็นเลขชี้กำลัง "ยืด" ที่มีความแปรปรวนมากขึ้น แต่ทั้งสองจะสามารถแปลงเป็นกันและกันได้อย่างง่ายดายในลักษณะเดียวกันปัวซองสามารถแปลงเป็นเลขชี้กำลัง? หรือมีการกระจายอื่น ๆ ที่เหมาะสมกว่าที่จะใช้ร่วมกับการกระจายแกมม่า - ปัวซอง? แกมม่าปัวซองเรียกอีกอย่างว่าการกระจายตัวแบบทวินามเชิงลบหรือ NBD

1
วิธีการจำลองจากแบบเกาส์เกาส์?
สมมติว่าฉันมีการแจกแจงมาร์จิ้นที่ไม่แปรผันสองค่ากล่าวว่าFFFและGGGซึ่งฉันสามารถจำลองได้ ตอนนี้สร้างร่วมกันจำหน่ายของตนโดยใช้เชื่อม Gaussianชี้แนะC(F,G;Σ)C(F,G;Σ)C(F,G;\Sigma) ) ทราบพารามิเตอร์ทั้งหมด มีวิธีการที่ไม่ใช่ MCMC สำหรับการจำลองจาก copula นี้หรือไม่?

1
ความหมายและการบรรจบกันของกำลังสองน้อยที่สุดที่ได้รับคืน
ฉันได้ใช้กำลังสองน้อยที่สุดซ้ำอย่างน้อยกำลังสอง (IRLS) เพื่อย่อฟังก์ชันของแบบฟอร์มต่อไปนี้ J(m)=∑Ni=1ρ(|xi−m|)J(m)=∑i=1Nρ(|xi−m|)J(m) = \sum_{i=1}^{N} \rho \left(\left| x_i - m \right|\right) โดยที่NNNคือจำนวนอินสแตนซ์ของxi∈Rxi∈Rx_i \in \mathbb{R} , m∈Rm∈Rm \in \mathbb{R}คือค่าประมาณที่ฉันต้องการและρρ\rhoเป็นฟังก์ชันการปรับค่าที่เหมาะสม สมมติว่ามันเป็นนูน (แต่ไม่จำเป็นต้องเข้มงวด) และเปลี่ยนแปลงได้ในตอนนี้ เป็นตัวอย่างที่ดีของดังกล่าวρρ\rhoเป็นฟังก์ชั่นการสูญเสีย Huber สิ่งที่ฉันทำคือแยกความแตกต่างJ(m)J(m)J(m)เทียบกับmmm (และจัดการ) ที่จะได้รับ dJdm=∑Ni=1ρ′(|xi−m|)|xi−m|(xi−m)dJdm=∑i=1Nρ′(|xi−m|)|xi−m|(xi−m)\frac{dJ}{dm}= \sum_{i=1}^{N} \frac{\rho'\left( \left|x_i-m\right|\right) }{\left|x_i-m\right|} \left( x_i-m \right) และแก้ปัญหานี้ซ้ำ ๆ โดยการตั้งค่าให้เท่ากับ 0 และกำหนดน้ำหนักที่การวนซ้ำkkkเป็นwi(k)=ρ′(|xi−m(k)|)|xi−m(k)|wi(k)=ρ′(|xi−m(k)|)|xi−m(k)|w_i(k) = \frac{\rho'\left( \left|x_i-m{(k)}\right|\right) }{\left|x_i-m{(k)}\right|}(หมายเหตุว่าภาวะเอกฐานการรับรู้ที่xi=m(k)xi=m(k)x_i=m{(k)}คือจริงๆเอกพจน์ที่ถอดออกได้ในทุกρρ\rho's ฉันอาจจะเกี่ยวกับการดูแล) จากนั้นฉันก็จะได้ ∑Ni=1wi(k)(xi−m(k+1))=0∑i=1Nwi(k)(xi−m(k+1))=0\sum_{i=1}^{N} w_i(k) \left( x_i-m{(k+1)} …

3
การประมาณค่ามัธยฐานของค่ามัธยฐาน
สมมติว่าเรามีตัวแปรสุ่มXXXสนับสนุนบน[0,1][0,1][0,1]ซึ่งเราสามารถวาดตัวอย่างได้ เราจะหาค่ามัธยฐานของเป็นกลางได้XXXอย่างไร แน่นอนว่าเราสามารถสร้างกลุ่มตัวอย่างและใช้ค่ามัธยฐานตัวอย่างได้ แต่ฉันเข้าใจว่าสิ่งนี้จะไม่เอนเอียงโดยทั่วไป หมายเหตุ: คำถามนี้เกี่ยวข้อง แต่ไม่เหมือนกันกับคำถามสุดท้ายของฉันซึ่งในกรณีXXXสามารถสุ่มตัวอย่างได้ประมาณเท่านั้น
16 sampling 

3
การประมาณความน่าจะเป็นของการเปลี่ยนแปลงมาร์คอฟจากข้อมูลลำดับ
ฉันมีชุดเต็มของลำดับ (การสังเกต 432 จะแม่นยำ) ของ 4 รัฐA−DA−DA-D : เช่น Y=⎛⎝⎜⎜⎜⎜AB⋮BCA⋮CDA⋮ADC⋮DBA⋮AA−⋮BC−⋮A⎞⎠⎟⎟⎟⎟Y=(ACDDBACBAACA−−⋮⋮⋮⋮⋮⋮⋮BCADABA)Y=\left(\begin{array}{c c c c c c c} A& C& D&D & B & A &C\\ B& A& A&C & A&- &-\\ \vdots&\vdots&\vdots&\vdots&\vdots&\vdots&\vdots\\ B& C& A&D & A & B & A\\ \end{array}\right) แก้ไข : ลำดับการสังเกตมีความยาวไม่เท่ากัน! สิ่งนี้เปลี่ยนแปลงอะไรหรือไม่? มีวิธีคำนวณเมทริกซ์การเปลี่ยนแปลงPij(Yt=j|Yt−1=i)Pij(Yt=j|Yt−1=i)P_{ij}(Y_{t}=j|Y_{t-1}=i)ใน Matlab หรือ R หรือคล้ายกันหรือไม่? …

1
รูปแบบผสมกับการรวมข้อผิดพลาดมาตรฐานสำหรับการศึกษาหลายเว็บไซต์ - ทำไมรูปแบบผสมจึงมีประสิทธิภาพมากกว่ามาก
ฉันมีชุดข้อมูลที่ประกอบด้วยชุดของกรณี "รายเดือนที่หัก" นับจากเว็บไซต์จำนวนหนึ่ง ฉันกำลังพยายามหาค่าประมาณสรุปเดียวจากสองเทคนิคที่ต่างกัน: เทคนิคที่ 1: ติดตั้ง "แท่งหัก" กับ Poisson GLM พร้อมตัวแปรตัวบ่งชี้ 0/1 และใช้ตัวแปรเวลาและเวลา ^ 2 เพื่อควบคุมแนวโน้มในเวลา การประมาณค่าตัวแปร 0/1 ของตัวบ่งชี้และ SE นั้นจะรวมกันโดยใช้วิธีโมเมนต์ขึ้นและลงแบบสวย ๆ หรือใช้แพ็คเกจ tlnise ใน R เพื่อรับการประมาณ "Bayesian" สิ่งนี้คล้ายกับที่ Peng และ Dominici ทำกับข้อมูลมลพิษทางอากาศ แต่มีไซต์น้อยกว่า (~ โหล) เทคนิคที่ 2: ละทิ้งการควบคุมเฉพาะไซต์สำหรับแนวโน้มในเวลาและใช้โมเดลเชิงเส้นผสม โดยเฉพาะอย่างยิ่ง: lmer(cases ~ indicator + (1+month+I(month^2) + offset(log(p)), family="poisson", data=data) …

3
เธต้าหมายถึงอะไร
ผมมือใหม่สถิติและพบนี้ ในสถิติθตัวอักษรกรีกตัวพิมพ์เล็ก 'theta' เป็นชื่อปกติสำหรับพารามิเตอร์ (vector of) (s) ของการแจกแจงความน่าจะเป็นทั่วไป ปัญหาที่พบบ่อยคือการหาค่าของ theta โปรดสังเกตว่าไม่มีความหมายใด ๆ ในการตั้งชื่อพารามิเตอร์ด้วยวิธีนี้ เราอาจจะเรียกมันว่าอะไรก็ได้ ในความเป็นจริงการแจกแจงจำนวนมากมีพารามิเตอร์ที่มักจะได้รับชื่ออื่น ตัวอย่างเช่นการใช้งานทั่วไปเพื่อตั้งชื่อค่าเฉลี่ยและส่วนเบี่ยงเบนของการแจกแจงปกติμ (อ่าน: 'mu') และการเบี่ยงเบนσ ('sigma') ตามลำดับ แต่ฉันก็ยังไม่รู้ว่ามันแปลว่าอะไรในภาษาอังกฤษธรรมดา?

3
ค้นหากริดบนการตรวจสอบความถูกต้องข้ามของ k-fold
ฉันมีชุดข้อมูล 120 ตัวอย่างในการตั้งค่าการตรวจสอบความถูกต้องไขว้ 10 เท่า ขณะนี้ฉันเลือกข้อมูลการฝึกอบรมของการค้างชำระครั้งแรกและทำการตรวจสอบความถูกต้องข้าม 5 เท่าเพื่อเลือกค่าของแกมม่าและ C โดยการค้นหากริด ฉันใช้ SVM กับเคอร์เนล RBF เนื่องจากฉันใช้การตรวจสอบข้าม 10 ครั้งเพื่อรายงานความแม่นยำการเรียกคืนฉันจะทำการค้นหากริดนี้ในข้อมูลการฝึกอบรมของแต่ละรายการที่ค้างอยู่ (มี 10 โฮลด์แต่ละคนมีการทดสอบ 10% และ 90% ข้อมูลการฝึกอบรม) นั่นจะไม่ใช้เวลานานเกินไปหรือ ถ้าฉันใช้แกมม่าและ C ของสิ่งที่ค้างอยู่ครั้งแรกและใช้มันสำหรับส่วนที่เหลือจาก 9 การตรวจสอบความถูกต้องแบบข้าม k-fold นั่นคือการละเมิดเพราะฉันจะใช้ข้อมูลรถไฟเพื่อรับแกมม่าและ C และใช้อีกครั้ง ส่วนของข้อมูลรถไฟเป็นการทดสอบในช่วงที่สอง

1
ค่าที่คาดหวังของตัวกำหนดล็อกของเมทริกซ์ Wishart
ให้คือกระจายตามD × Dกระจายมิติริชาร์ตที่มีค่าเฉลี่ยν Ψและองศาอิสระν ฉันต้องการนิพจน์สำหรับE ( log | Λ | )โดยที่| Λ | เป็นตัวกำหนดΛ∼WD(ν,Ψ)Λ∼WD(ν,Ψ)\Lambda \sim \mathcal W_D(\nu, \Psi)D×DD×DD \times DνΨνΨ\nu \Psiνν\nuE(log|Λ|)E(log⁡|Λ|)E(\log |\Lambda|)|Λ||Λ||\Lambda| ฉันขอคำตอบเล็กน้อยจาก google และได้รับข้อมูลที่ขัดแย้งกันบ้าง บทความนี้ระบุว่า โดยที่ψ(⋅)หมายถึงฟังก์ชั่น digammadE(log|Λ|)=Dlog2+log|Ψ|+∑i=1Dψ(ν−i+12)E(log⁡|Λ|)=Dlog⁡2+log⁡|Ψ|+∑i=1Dψ(ν−i+12) E(\log|\Lambda|) = D \log 2 + \log |\Psi| + \sum_{i = 1} ^ D \psi\left(\frac{\nu - i + 1} 2\right) ψ(⋅)ψ(⋅)\psi(\cdot)ddxlogΓ(x)ddxlog⁡Γ(x)\frac d …

1
นิพจน์แบบปิดสำหรับควอนไทล์ของ
ฉันมีตัวแปรสุ่มสองตัวโดยที่คือการกระจายแบบ 0-1U ( 0 , 1 )αi∼iid U(0,1),i=1,2αi∼iid U(0,1),i=1,2\alpha_i\sim \text{iid }U(0,1),\;\;i=1,2U(0,1)U(0,1)U(0,1) จากนั้นสิ่งเหล่านี้ให้กระบวนการพูดว่า: P( x ) = α1บาป( x ) + α2cos( x ) ,x∈(0,2π)P(x)=α1sin⁡(x)+α2cos⁡(x),x∈(0,2π)P(x)=\alpha_1\sin(x)+\alpha_2\cos(x), \;\;\;x\in (0,2\pi) ตอนนี้ฉันกำลังสงสัยว่ามีการแสดงออกในรูปแบบปิดสำหรับเชิงทฤษฎี 75 เปอร์เซ็นต์ quantile ของสำหรับ - ฉันคิดว่าฉันสามารถทำได้ด้วยคอมพิวเตอร์และการรับรู้จำนวนมากของแต่ฉันชอบรูปแบบปิด -P ( x ) x ∈ ( 0 , 2 π ) P ( x )F−1(P(x);0.75)F−1(P(x);0.75)F^{-1}(P(x);0.75)P(x)P(x)P(x)x∈(0,2π)x∈(0,2π)x\in(0,2\pi)P(x)P(x)P(x)

1
อะไรคือการกระจายตัวของความน่าจะเป็นซิมเพล็กซ์?
ให้เป็นเริมน่าจะเป็นของมิติK - 1คือx ∈ Δ Kเป็นเช่นนั้นx ฉัน ≥ 0และΣ ฉันx ฉัน = 1ΔKΔK\Delta_{K}K−1K−1K-1x∈ΔKx∈ΔKx \in \Delta_{K}xi≥0xi≥0x_i \ge 0∑ixi=1∑ixi=1\sum_i x_i = 1 อะไรกระจายซึ่งมักจะเป็น (หรือที่รู้จักกันดีหรือที่กำหนดไว้ในอดีตที่ผ่านมา) มากกว่าอยู่?ΔKΔK\Delta_{K} เห็นได้ชัดว่ามีการแจกแจงดีริชเลต์และการแจกแจงแบบ Logit-Normal มีการแจกแจงอื่น ๆ ที่เกิดขึ้นตามธรรมชาติในบริบทนี้หรือไม่?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.