สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
Sparsity โดยยกเลิกค่าสัมประสิทธิ์กำลังสองน้อยสุด
สมมติว่าฉันต้องการถอยหลังเทียบกับมาตรฐานแต่ฉันต้องการสารละลายที่กระจัดกระจาย หลังจากการถดถอยทำไมไม่ทิ้งค่าสัมประสิทธิ์ที่มีขนาดน้อยที่สุด?YYYXXX สำหรับบันทึกฉันเคยได้ยินและมักจะใช้วิธีการ LARS และ LASSO ฉันแค่อยากรู้ว่าทำไมวิธีการด้านบนใช้ไม่ได้

1
การถดถอยปัวซองที่ไม่ทำให้เป็นศูนย์
สมมติว่ามีความเป็นอิสระและY=(Y1,…,Yn)′Y=(Y1,…,Yn)′ \textbf{Y} = (Y_1, \dots, Y_n)' Yi=0Yi=kwith probability pi+(1−pi)e−λiwith probability (1−pi)e−λiλki/k!Yi=0with probability pi+(1−pi)e−λiYi=kwith probability (1−pi)e−λiλik/k!\eqalign{ Y_i = 0 & \text{with probability} \ p_i+(1-p_i)e^{-\lambda_i}\\ Y_i = k & \text{with probability} \ (1-p_i)e^{-\lambda_i} \lambda_{i}^{k}/k! } นอกจากนี้ยังคิดว่าพารามิเตอร์และP = ( P 1 , ... , P n )ความพึงพอใจλ=(λ1,…,λn)′λ=(λ1,…,λn)′\mathbf{\lambda} = (\lambda_1, \dots, \lambda_n)'p=(p1,…,pn)p=(p1,…,pn)\textbf{p} = (p_1, …

1
วิธีการลดผลรวมที่เหลือของกำลังสองของการยกกำลังสองได้อย่างไร?
ฉันมีข้อมูลต่อไปนี้และต้องการให้พอดีกับรูปแบบการเติบโตแบบเอ็กซ์โปเนนเชียลเชิงลบของมัน: Days <- c( 1,5,12,16,22,27,36,43) Emissions <- c( 936.76, 1458.68, 1787.23, 1840.04, 1928.97, 1963.63, 1965.37, 1985.71) plot(Days, Emissions) fit <- nls(Emissions ~ a* (1-exp(-b*Days)), start = list(a = 2000, b = 0.55)) curve((y = 1882 * (1 - exp(-0.5108*x))), from = 0, to =45, add = T, col = "green", …

2
คุณจะทำอย่างไรเมื่อคุณมีตัวแปรตัวทำนายที่ใช้ค่าเฉลี่ยของกลุ่มที่มีขนาดตัวอย่างต่างกัน
พิจารณาปัญหาคลาสสิกการวิเคราะห์ข้อมูลที่คุณมีผลYiYiY_{i}และวิธีการที่เกี่ยวข้องกับจำนวนของการทำนายXi1,...,XipXi1,...,XipX_{i1}, ..., X_{ip} . ประเภทพื้นฐานของแอปพลิเคชันในที่นี้คือ YiYiY_{i}บางผลระดับกลุ่มเช่นอัตราการเกิดอาชญากรรมในเมืองผมiii ทำนายลักษณะระดับกลุ่มเช่นคุณลักษณะทางประชากรของเมืองที่ฉันiii เป้าหมายพื้นฐานคือเพื่อให้เหมาะสมกับโมเดลการถดถอย (อาจมีเอฟเฟกต์แบบสุ่ม แต่ลืมไปแล้วว่าตอนนี้): E(Yi|Xi)=β0+β1Xi1+...+βpXipE(Yi|Xi)=β0+β1Xi1+...+βpXip E(Y_{i} | {\bf X}_{i} ) = \beta_0 + \beta_1 X_{i1} + ... + \beta_p X_{ip} ความยุ่งยากทางเทคนิคบางอย่างเกิดขึ้นหรือไม่เมื่อหนึ่ง (หรือมากกว่า) ของผู้ทำนายเป็นผลจากการสำรวจที่มีขนาดตัวอย่างแตกต่างกันสำหรับแต่ละหน่วย? ตัวอย่างเช่นสมมติว่าเป็นคะแนนสรุปสำหรับเมืองที่ฉันนั่นคือการตอบสนองโดยเฉลี่ยจากกลุ่มตัวอย่างประชาชนจากเมืองฉันแต่ตัวอย่างขนาดเฉลี่ยเหล่านี้อยู่บนพื้นฐานของความแตกต่างกันอย่างดุเดือด:Xi1Xi1X_{i1}iiiiii City12345⋮Sample size2010030053⋮CitySample size120210033004553⋮⋮\begin{array}{c|c} {\rm City} & {\rm Sample \ size} \\ \hline 1 & 20 \\ 2 & 100 \\ …

1
อัลกอริธึมการถดถอยแบบไปข้างหน้าคืออะไร?
อาจเป็นเพียงว่าฉันเหนื่อย แต่ฉันมีปัญหาในการพยายามทำความเข้าใจอัลกอริทึมการถดถอยของ Stagewise Forward จาก"องค์ประกอบของการเรียนรู้ทางสถิติ"หน้า 60: Forward-stagewise regression (FS) ยิ่งมีข้อ จำกัด มากกว่าการถดถอยแบบขั้นตอนไปข้างหน้า มันเริ่มต้นจากการถดถอยแบบก้าวไปข้างหน้าโดยมีจุดตัดเท่ากับ [ค่าเฉลี่ยของ] y และตัวทำนายกึ่งกลางที่มี coe ffi cients ทั้งหมด 0 เริ่มแรก ในแต่ละขั้นตอนอัลกอริทึมระบุตัวแปรที่สัมพันธ์กับส่วนที่เหลือในปัจจุบันมากที่สุด จากนั้นคำนวณค่าสัมประสิทธิ์การถดถอยเชิงเส้นอย่างง่ายของส่วนที่เหลือของตัวแปรที่เลือกนี้แล้วเพิ่มลงในค่าปัจจุบันสำหรับตัวแปรนั้น สิ่งนี้จะดำเนินต่อไปจนกระทั่งไม่มีตัวแปรใดที่มีความสัมพันธ์กับส่วนที่เหลือ - นั่นคือสแควร์สน้อยที่สุดเมื่อ N> p นี่คืออัลกอริทึมหรือไม่: b[1]=mean(y) b[2..n]=0 r=(y-X*b) index, maxCorr = max(transpose(r)*X) while(abs(maxCorr) > someThreshold) b[index]=b[index]+regress(r,X[1..n][index]) r=(y-X*b) index, maxCorr = max(transpose(r)*X) โดยที่ b คือคอลัมน์เวกเตอร์ของสัมประสิทธิ์ X …

2
ข้อผิดพลาดมาตรฐานของการนับ
ฉันมีชุดข้อมูลของเหตุการณ์ที่เกิดขึ้นตามฤดูกาลของโรคที่หายาก ตัวอย่างเช่นสมมติว่ามี 180 กรณีในฤดูใบไม้ผลิ 90 ในฤดูร้อน 45 ในฤดูใบไม้ร่วงและ 210 ในฤดูหนาว ฉันกำลังดิ้นรนกับว่ามันเหมาะสมที่จะแนบข้อผิดพลาดมาตรฐานกับตัวเลขเหล่านี้ เป้าหมายการวิจัยมีความสำคัญในแง่ที่ว่าเรากำลังมองหารูปแบบตามฤดูกาลในการเกิดโรคที่อาจเกิดขึ้นอีกในอนาคต ดังนั้นจึงรู้สึกอย่างสังหรณ์ใจว่าควรเป็นไปได้ที่จะแนบการวัดความไม่แน่นอนกับผลรวม อย่างไรก็ตามฉันไม่แน่ใจว่าจะคำนวณข้อผิดพลาดมาตรฐานในกรณีนี้อย่างไรเนื่องจากเรากำลังจัดการกับการนับง่าย ๆ แทนที่จะเป็นเช่นวิธีการหรือสัดส่วน ท้ายที่สุดคำตอบนั้นขึ้นอยู่กับว่าข้อมูลแสดงถึงจำนวนผู้ป่วย (ทุกกรณีที่เคยเกิดขึ้น) หรือสุ่มตัวอย่างหรือไม่? หากฉันไม่ผิดพลาดโดยทั่วไปไม่เหมาะสมที่จะแสดงข้อผิดพลาดมาตรฐานกับสถิติประชากรเนื่องจากไม่มีการอนุมาน

1
กำลังมองหาขั้นตอนผ่านตัวอย่างของการวิเคราะห์ปัจจัยเกี่ยวกับข้อมูลแบบแบ่งขั้ว (ตัวแปรไบนารี) โดยใช้ R
ฉันมีข้อมูลแบบแบ่งขั้วมีเพียงตัวแปรไบนารีเท่านั้นและเจ้านายของฉันขอให้ฉันทำการวิเคราะห์ปัจจัยโดยใช้เมทริกซ์สหสัมพันธ์ tetrachoric ก่อนหน้านี้ฉันสามารถสอนตัวเองถึงวิธีการวิเคราะห์ที่แตกต่างกันตามตัวอย่างที่นี่และที่เว็บไซต์สถิติของ UCLAและเว็บไซต์อื่น ๆ เช่นนี้ แต่ฉันไม่สามารถหาขั้นตอนผ่านตัวอย่างของการวิเคราะห์ปัจจัยบน dichotomous ข้อมูล (ตัวแปรไบนารี) โดยใช้ R ฉันเห็นการตอบสนองของ chl ต่อคำถามที่ค่อนข้างคล้ายคลึงกันและฉันก็เห็นคำตอบของ ttnphnsด้วย แต่ฉันกำลังมองหาบางสิ่งที่สะกดได้มากกว่านี้อีกขั้นจากตัวอย่างที่ฉันสามารถใช้งานได้ ไม่มีใครที่นี่รู้ขั้นตอนดังกล่าวผ่านตัวอย่างของการวิเคราะห์ปัจจัยในตัวแปรไบนารีโดยใช้ R หรือไม่? อัปเดต 2012-07-11 22: 03: 35Z ฉันควรเพิ่มว่าฉันกำลังทำงานกับเครื่องมือที่กำหนดขึ้นซึ่งมีสามมิติซึ่งเราได้เพิ่มคำถามเพิ่มเติมและตอนนี้เราหวังว่าจะพบสี่มิติที่แตกต่างกัน นอกจากนี้ขนาดตัวอย่างของเรามีเพียงและขณะนี้เรามี19รายการ ฉันเปรียบเทียบขนาดตัวอย่างและจำนวนรายการของเรากับบทความจิตวิทยาจำนวนหนึ่งและเราอยู่ในระดับล่างสุด แต่เราต้องการลองต่อไป แม้ว่านี่จะไม่สำคัญสำหรับขั้นตอนในตัวอย่างที่ฉันกำลังมองหาและตัวอย่างของ caracal ด้านล่างดูน่าทึ่งจริงๆ ฉันจะใช้วิธีของฉันผ่านมันโดยใช้ข้อมูลของฉันเป็นสิ่งแรกในตอนเช้าn = 153n=153n=153191919

1
วิธีการประเมินองค์ประกอบความแปรปรวนกับ lmer สำหรับแบบจำลองที่มีเอฟเฟกต์แบบสุ่มและเปรียบเทียบกับผลการค้นหา lme
ฉันทำการทดลองที่ฉันเลี้ยงดูครอบครัวที่แตกต่างกันซึ่งมาจากประชากรสองแหล่งที่แตกต่างกัน แต่ละครอบครัวได้รับมอบหมายให้หนึ่งในสองของการรักษา หลังจากการทดลองฉันวัดคุณสมบัติหลายอย่างของแต่ละคน เพื่อทดสอบผลกระทบของการรักษาหรือแหล่งที่มารวมทั้งการมีปฏิสัมพันธ์ของพวกเขาฉันใช้แบบจำลองเชิงเส้นผลกระทบเชิงเส้นกับครอบครัวเป็นปัจจัยสุ่มเช่น lme(fixed=Trait~Treatment*Source,random=~1|Family,method="ML") ดีมากตอนนี้ฉันต้องคำนวณส่วนประกอบความแปรปรวนแบบสัมพัทธ์นั่นคือเปอร์เซ็นต์ของความแปรปรวนที่อธิบายโดยการรักษาหรือแหล่งที่มาเช่นเดียวกับการมีปฏิสัมพันธ์ หากไม่มีเอฟเฟกต์แบบสุ่มฉันสามารถใช้ผลรวมของกำลังสอง (SS) เพื่อคำนวณความแปรปรวนที่อธิบายโดยแต่ละปัจจัย แต่สำหรับโมเดลผสม (ที่มีการประมาณค่า ML) ไม่มี SS ดังนั้นฉันคิดว่าฉันสามารถใช้การรักษาและแหล่งที่มาเป็นเอฟเฟกต์แบบสุ่มเพื่อประเมินความแปรปรวนเช่น lme(fixed=Trait~1,random=~(Treatment*Source)|Family, method="REML") อย่างไรก็ตามในบางกรณี lme ไม่ได้รวมกันดังนั้นฉันใช้ lmer จากแพ็คเกจ lme4: lmer(Trait~1+(Treatment*Source|Family),data=DATA) ที่ฉันแยกความแตกต่างจากแบบจำลองโดยใช้ฟังก์ชันสรุป: model<-lmer(Trait~1+(Treatment*Source|Family),data=regrexpdat) results<-VarCorr(model) variances<-results[,3] ฉันได้รับค่าเช่นเดียวกับฟังก์ชั่น VarCorr ฉันใช้ค่าเหล่านี้แล้วในการคำนวณอัตราร้อยละของการเปลี่ยนแปลงที่เกิดขึ้นจริงโดยนำผลรวมเป็นรูปแบบทั้งหมด สิ่งที่ฉันกำลังดิ้นรนคือการตีความผลลัพธ์จากแบบจำลอง lme เริ่มต้น (ด้วยการรักษาและแหล่งที่มาเป็นผลกระทบคงที่) และแบบจำลองแบบสุ่มเพื่อประเมินองค์ประกอบความแปรปรวน (พร้อมการรักษาและแหล่งที่มาเป็นผลแบบสุ่ม) ฉันพบว่าส่วนใหญ่ร้อยละของความแปรปรวนที่อธิบายโดยแต่ละปัจจัยไม่สอดคล้องกับความสำคัญของผลกระทบคงที่ ตัวอย่างเช่นสำหรับลักษณะ HD, lme เริ่มต้นแสดงให้เห็นแนวโน้มสำหรับการมีปฏิสัมพันธ์เช่นเดียวกับความสำคัญสำหรับการรักษา เมื่อใช้วิธีการย้อนหลังฉันพบว่าการรักษามีแนวโน้มใกล้เคียงอย่างมีนัยสำคัญ อย่างไรก็ตามการประมาณส่วนประกอบความแปรปรวนฉันพบว่าแหล่งที่มานั้นมีความแปรปรวนสูงสุดคิดเป็น 26.7% ของความแปรปรวนทั้งหมด The lme: anova(lme(fixed=HD~as.factor(Treatment)*as.factor(Source),random=~1|as.factor(Family),method="ML",data=test),type="m") numDF …
14 r  anova  variance  lme4-nlme 

1
การคืนค่าสัมประสิทธิ์และความแปรปรวนจากการถดถอยพหุนามแบบฉากฉาก
ดูเหมือนว่าถ้าฉันมีโมเดลการถดถอยเช่นyi∼β0+β1xi+β2x2i+β3x3iyi∼β0+β1xi+β2xi2+β3xi3y_i \sim \beta_0 + \beta_1 x_i+\beta_2 x_i^2 +\beta_3 x_i^3ฉันสามารถใส่พหุนามดิบและได้ผลลัพธ์ที่ไม่น่าเชื่อถือหรือใส่พหุนาม orthogonal และรับสัมประสิทธิ์ที่ไม่มีการตีความทางกายภาพโดยตรง (เช่นฉันไม่สามารถใช้พวกมันเพื่อค้นหาตำแหน่งของ extrema ในระดับเดิม) ดูเหมือนว่าฉันควรจะมีสิ่งที่ดีที่สุดของทั้งสองโลกและสามารถแปลงค่าสัมประสิทธิ์มุมฉากที่เหมาะสมและความแปรปรวนของพวกมันกลับคืนสู่ระดับดิบ ฉันใช้หลักสูตรบัณฑิตศึกษาในการประยุกต์การถดถอยเชิงเส้น (โดยใช้ Kutner, 5ed) และฉันดูผ่านบทการถดถอยพหุนามในเดรเปอร์ (3ed ที่อ้างถึงโดย Kutner) แต่ไม่พบการสนทนาเกี่ยวกับวิธีการทำเช่นนี้ ข้อความช่วยเหลือสำหรับpoly()ฟังก์ชั่นใน R ไม่ได้ ฉันไม่พบสิ่งใดในการค้นหาเว็บของฉันรวมถึงที่นี่ด้วย กำลังสร้างค่าสัมประสิทธิ์ดิบ (และรับค่าความแปรปรวน) จากค่าสัมประสิทธิ์ที่พอดีกับพหุนาม orthogonal ... เป็นไปไม่ได้ที่จะทำและฉันเสียเวลา อาจเป็นไปได้ แต่ไม่ทราบว่าในกรณีทั่วไป เป็นไปได้ แต่ไม่ได้พูดถึงเพราะ "ใครจะไป?" เป็นไปได้ แต่ไม่ได้กล่าวถึงเพราะ "ชัดเจน" หากคำตอบคือ 3 หรือ 4 ฉันจะขอบคุณมากถ้ามีคนมีความอดทนที่จะอธิบายวิธีการทำเช่นนี้หรือชี้ไปที่แหล่งที่ทำเช่นนั้น ถ้าเป็น 1 หรือ …

3
thresholding รุ่น Markov ที่ซ่อนอยู่
ฉันได้พัฒนาระบบแนวคิดสำหรับการรู้จำเสียงโดยใช้ mfcc และรุ่นมาร์คอฟที่ซ่อนอยู่ มันให้ผลลัพธ์ที่มีแนวโน้มเมื่อฉันทดสอบระบบด้วยเสียงที่รู้จัก แม้ว่าระบบเมื่อมีการป้อนข้อมูลเสียงที่ไม่รู้จักส่งคืนผลลัพธ์ด้วยการจับคู่ที่ใกล้เคียงที่สุดและคะแนนไม่ได้แตกต่างกันในการคิดค้นมันเป็นเสียงที่ไม่รู้จักเช่น: ฉันได้ฝึกอบรมมาร์คอฟที่ซ่อนอยู่ 3 ตัวสำหรับการพูดหนึ่งสำหรับน้ำที่ออกมาจากก๊อกน้ำและอีกอันสำหรับเคาะบนโต๊ะ จากนั้นฉันจะทดสอบพวกเขาเกี่ยวกับข้อมูลที่มองไม่เห็นและรับผลลัพธ์ต่อไปนี้: input: speech HMM\knocking: -1213.8911146444477 HMM\speech: -617.8735676792728 HMM\watertap: -1504.4735097322673 So highest score speech which is correct input: watertap HMM\knocking: -3715.7246152783955 HMM\speech: -4302.67960438553 HMM\watertap: -1965.6149147201534 So highest score watertap which is correct input: knocking HMM\filler -806.7248912250212 HMM\knocking: -756.4428782636676 HMM\speech: -1201.686687761133 HMM\watertap: -3025.181144273698 So …

4
เป็นไปได้หรือไม่ที่จะผนวกข้อมูลการฝึกอบรมเข้ากับโมเดล SVM ที่มีอยู่
ฉันใช้ libsvm และสังเกตว่าทุกครั้งที่ฉันเรียก svmtrain () ฉันจะสร้างรูปแบบใหม่และดูเหมือนว่าจะไม่มีตัวเลือกในการใส่ข้อมูลในรูปแบบที่มีอยู่ เป็นไปได้ที่จะทำอย่างไร ฉันแค่ไม่เห็นแง่มุมนี้ใน libsvm?
14 svm  libsvm 

2
คุณปฏิเสธสมมติฐานว่างเมื่อหรือหรือไม่
นี่เป็นเพียงคำจำกัดความหรือการประชุมอย่างชัดเจนและแทบไม่มีความสำคัญในทางปฏิบัติ หากถูกตั้งค่าเป็นค่าดั้งเดิมที่ 0.05 จะมีค่าเป็น0.0500000000000 ... ถือว่ามีนัยสำคัญทางสถิติหรือไม่? กฎในการกำหนดนัยสำคัญทางสถิติมักถือว่าเป็นหรือไม่αα\alphapppp&lt;αp&lt;αp < \alphap≤αp≤αp \leq \alpha

1
การแบ่งความแปรปรวนและการเปลี่ยนแปลงตามยาวที่สัมพันธ์กับข้อมูลไบนารี
ฉันกำลังวิเคราะห์ข้อมูลเกี่ยวกับนักเรียน 300,000 คนใน 175 โรงเรียนที่มีรูปแบบเอฟเฟกต์แบบผสมเชิงเส้นเชิงโลจิสติก (การสกัดแบบสุ่ม) นักเรียนแต่ละคนเกิดขึ้นเพียงครั้งเดียวและข้อมูลมีระยะเวลา 6 ปี ฉันจะแบ่งความแตกต่างระหว่างระดับโรงเรียนและระดับนักเรียนได้อย่างไรในทำนองเดียวกันกับ VPC / ICC สำหรับผลลัพธ์อย่างต่อเนื่อง ฉันได้เห็นนี้บทความซึ่งนำเสนอ 4 วิธีการที่ A และ B ปรากฏที่น่าสนใจกับผม แต่ผมอยากจะรู้ว่าสิ่งที่ข้อดี / ข้อเสียอาจจะมีการใช้ทั้งสองเหล่านี้และแน่นอนว่ามีวิธีอื่น ๆ ที่จะทำ มัน. ฉันจะเปรียบเทียบความแปรปรวนของระดับที่เหลือของโรงเรียนในแต่ละปีได้อย่างไร (หรือช่วงเวลาอื่น) เพื่อให้ห่างไกลฉันได้กระทำนี้โดยการหารข้อมูลโดยปีและทำงานกับรูปแบบในแต่ละปีของข้อมูล แต่ฉันคิดว่านี่เป็นข้อบกพร่องเนื่องจาก i) ไม่มีเหตุผลที่ชัดเจนว่าทำไมฉันควรจะแยกจากปี ; และ ii) เนื่องจากการประเมินผลคงที่แตกต่างกันไปในแต่ละปีการเปรียบเทียบผลกระทบแบบสุ่มทุกปีอาจไม่สมเหตุสมผล (นี่เป็นเพียงสัญชาตญาณของฉันมันจะดีมากถ้ามีใครสามารถอธิบายเรื่องนี้ได้อย่างเป็นทางการถ้ามันถูกต้อง) หมายเหตุ: ฉันเขียนคำถามนี้อีกครั้งหลังจากการสนทนาใน metaกับ whuber และ Macro

1
การเขียนโค้ดประเภทใดบ้างที่มีให้สำหรับตัวแปรเด็ดขาด (ใน R) และคุณจะใช้เมื่อใด
หากคุณพอดีกับโมเดลเชิงเส้นหรือโมเดลผสมมีโค้ดหลายชนิดที่พร้อมใช้งานในการแปลง varibale หมวดหมู่หรือชื่อเป็นตัวแปรจำนวนหนึ่งที่มีการประมาณพารามิเตอร์เช่นพารามิเตอร์จำลอง (การกำหนดค่าเริ่มต้น R) และเอฟเฟกต์การเข้ารหัส ฉันได้ยินมาว่าเอฟเฟกต์การเขียนโค้ด (บางครั้งเรียกว่าการเบี่ยงเบนหรือการเข้ารหัสความคมชัด) เป็นที่ต้องการเมื่อคุณมีปฏิสัมพันธ์ แต่อะไรคือความแตกต่างที่เป็นไปได้และคุณจะใช้ความคมชัดประเภทใด บริบทเป็นแบบผสมในการใช้ R lme4แต่ฉันคิดว่าการตอบสนองในวงกว้างนั้นใช้ได้ ขออภัยถ้าฉันพลาดคำถามที่คล้ายกัน แก้ไข: ลิงก์ที่มีประโยชน์สองลิงก์คือ: เอฟเฟ็กต์การเข้ารหัสและการจำลองดัมมี่อธิบาย

3
แบบจำลองหัวข้อสำหรับเอกสารสั้น ๆ
ได้รับแรงบันดาลใจจากคำถามนี้ฉันสงสัยว่างานใด ๆ ที่ทำกับแบบจำลองหัวข้อสำหรับคอลเลกชันขนาดใหญ่ของข้อความสั้น ๆ เป็นพิเศษหรือไม่ สัญชาตญาณของฉันคือ Twitter ควรเป็นแรงบันดาลใจตามธรรมชาติสำหรับโมเดลดังกล่าว อย่างไรก็ตามจากการทดลองที่ จำกัด บางครั้งดูเหมือนว่าหัวข้อโมเดลมาตรฐาน (LDA ฯลฯ ) จะทำงานได้ค่อนข้างแย่กับข้อมูลประเภทนี้ มีใครรู้บ้างเกี่ยวกับงานที่ทำในด้านนี้บ้างไหม บทความนี้พูดเกี่ยวกับการใช้ LDA กับ Twitter แต่ฉันสนใจจริง ๆ ว่ามีอัลกอริทึมอื่น ๆ ที่ทำงานได้ดีขึ้นในบริบทของเอกสารระยะสั้นหรือไม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.