สถิติและข้อมูลขนาดใหญ่ data-mining

2

ฉันจะจัดกลุ่มสตริงตามธีมทั่วไปได้อย่างไร

ฉันกำลังพยายามจัดกลุ่มเช่นสตริงเกี่ยวกับการเขียนโปรแกรมกับสตริงอื่น ๆ เกี่ยวกับการเขียนโปรแกรมสตริงเกี่ยวกับฟิสิกส์กับสตริงอื่น ๆ เกี่ยวกับฟิสิกส์ ฯลฯ สำหรับหัวข้อที่หลากหลาย แม้จะมีแง่มุมทางภาษาที่ชัดเจนทางทฤษฎีของปัญหา แต่ฉันกำลังมองหาที่จะทำสิ่งนี้โดยใช้การเขียนโปรแกรม / ซอฟต์แวร์ บทสรุป:ด้วยสตริงจำนวนมากฉันจะจัดกลุ่มตามธีมความหมายได้อย่างไร แอปพลิเคชันเฉพาะ:ฉันมีคำถามแบบไม่สำคัญประมาณ 200,000 คำถามที่ฉันต้องการจัดหมวดหมู่เป็นกลุ่มร่วมกัน (รถยนต์คอมพิวเตอร์การเมืองแคนาดาอาหารบารักโอบา ฯลฯ ) สิ่งที่ฉันได้ดู: Wikipedia มีรายการชุดเครื่องมือประมวลผลภาษาธรรมชาติ (สมมติว่าสิ่งที่ฉันพยายามทำจริง ๆ แล้วเรียกว่า NLP) ดังนั้นฉันจึงดูบ้าง แต่ดูเหมือนไม่มีใครทำอะไรที่คล้ายกับความต้องการของฉัน หมายเหตุ:มีการชี้ให้เห็นว่าการทำเช่นนี้ต้องใช้ความรู้เพิ่มเติม (เช่น Porsche เป็นรถยนต์ส่วน C ++ เป็นภาษาโปรแกรม) ฉันคิดว่าจำเป็นต้องใช้ข้อมูลการฝึกอบรม แต่ถ้าฉันมีเพียงรายการคำถามและคำตอบฉันจะสร้างข้อมูลการฝึกอบรมได้อย่างไร จากนั้นฉันจะใช้ข้อมูลการฝึกอบรมอย่างไร หมายเหตุเพิ่มเติม:หากการจัดรูปแบบปัจจุบันของความช่วยเหลือ Q & As ของฉัน (แม้ว่าจะดูเหมือนว่า JSON มันเป็นไฟล์ข้อความดิบ): // row 1: is metadata …

10 natural-language data-mining

3

การเหลือบมองครั้งแรกอย่างรวดเร็วที่ชุดข้อมูล

กรุณาให้อภัยความไม่รู้ของฉัน แต่ ... ฉันพบตัวเองอยู่ในสถานการณ์ที่ฉันต้องเผชิญกับข้อมูลใหม่ ๆ มากมายที่ฉันพยายามหา ข้อมูลนี้มักจะมีลักษณะดังนี้: Date Number1 Number2 Category1 Category2 20120125 11 101 Dog Brown 20120126 21 90 Cat Black 20120126 31 134 Cat Brown (...) โดยทั่วไปในครั้งแรกที่ฉันไม่สามารถบอกได้ว่ามีแนวโน้มใด ๆ ที่นี่หรือไม่ ความสัมพันธ์ระหว่างคอลัมน์ต่าง ๆ อาจไม่สำคัญมาก แต่ฉันจะดีใจถ้าฉันไม่ต้องสร้างพล็อตด้วยตนเองสำหรับทุกชุดของคอลัมน์ / หมวดหมู่ที่เป็นไปได้ มีเครื่องมือที่จะยอมรับตารางของข้อมูลพร้อมกับข้อมูลที่คอลัมน์ควรจะถือว่าเป็นตัวเลขวันที่และหมวดหมู่แล้วดำเนินการพล็อต: ความสัมพันธ์ระหว่างแต่ละคอลัมน์สองคอลัมน์ ความสัมพันธ์ระหว่างแต่ละคอลัมน์สองคอลัมน์โดยมีเส้นแนวโน้มแยกกันสำหรับแต่ละหมวดหมู่ แต่ละคอลัมน์ตัวเลขเป็นอนุกรมเวลา แต่ละคอลัมน์ตัวเลขเป็นอนุกรมเวลาคั่นด้วยหมวดหมู่ เป็นต้น ในที่สุดสิ่งนี้จะสร้างแปลงจำนวนมากซึ่งส่วนใหญ่จะแสดงเพียงเสียงรบกวน ตามหลักการแล้วเครื่องมือสามารถทำคะแนนพล็อตตามความสัมพันธ์และในที่สุดก็แสดงสไลด์โชว์โดยเริ่มจากพล็อตการให้คะแนนสูงสุด นี่จะไม่สมบูรณ์มาก แต่มีประโยชน์อย่างรวดเร็วก่อนที่ชุดข้อมูล ดังนั้น? มีเครื่องมือที่ทุกคนใช้สำหรับสิ่งนี้และฉันไม่รู้เกี่ยวกับมันหรือเป็นสิ่งที่เราต้องทำหรือไม่?

10 data-visualization correlation data-mining eda

1

ฉันจะค้นหาความสัมพันธ์ระหว่างการขัดข้องและสภาพแวดล้อมระบบได้อย่างไร

ในเวลาว่างของฉันฉันกำลังทำงานบนระบบเว็บขนาดเล็กซึ่งรวบรวมรายงานข้อผิดพลาด (แต่ไม่ใช่รายงานข้อผิดพลาดอื่น ๆ ที่ไม่หยุดทำงาน) ที่ส่งจากแอปพลิเคชัน Delphi ของ Windows สำหรับการแก้ไขปัญหาผู้ใช้ยินดีที่จะมีคุณสมบัติการขุดข้อมูลเพื่อค้นหาความสัมพันธ์ระหว่างรุ่นฮาร์ดแวร์หรือระบบปฏิบัติการและข้อผิดพลาดเฉพาะและ / หรือความผิดพลาด เป็นตัวอย่างวิธีการใช้งาน: สำหรับความผิดพลาดทุกครั้งจะมีรายงานในฐานข้อมูลซึ่งมีรหัสลายนิ้วมือ / แฮชของการติดตามสแต็ก (call stack) ในขณะที่เกิดความผิดพลาดเพื่อระบุรายการที่ซ้ำกัน อัลกอริทึมจะตรวจสอบว่ามีการรายงานข้อผิดพลาดซ้ำกันทั้งหมดหรือไม่มีคุณลักษณะทั่วไปอื่น ๆ เช่นเซอร์วิสแพ็คที่ขาดหายไปของระบบปฏิบัติการ ผลการวิเคราะห์แสดงคุณสมบัติทั้งหมดที่รายงานบั๊กมีเหมือนกัน สมมติว่ารายงานข้อผิดพลาดอัตโนมัติเหล่านี้มีข้อมูลสำคัญทั้งหมดเช่นชื่อของกระบวนการทั้งหมดที่กำลังทำงานอยู่ชื่อไฟล์ข้อมูลรุ่นของ DLLs ที่โหลดเป็นต้น ฉันจะค้นหาความสัมพันธ์ระหว่างการขัดข้องซ้ำกับสภาพแวดล้อมได้อย่างไร มีอัลกอริทึมเฉพาะหรือวิธีการทางสถิติที่จะช่วยหรือไม่

10 data-mining

1

จัดทำเป็นเอกสาร / ตัวอย่างที่จำลองได้ของการประยุกต์ใช้วิธีเศรษฐมิติที่ประสบความสำเร็จในโลกแห่งความจริง?

คำถามนี้อาจฟังดูกว้างมาก แต่นี่คือสิ่งที่ฉันกำลังมองหา ฉันรู้ว่ามีหนังสือที่ยอดเยี่ยมมากมายเกี่ยวกับวิธีเศรษฐมิติและบทความเกี่ยวกับเทคนิคเศรษฐมิติที่ยอดเยี่ยมมากมาย นอกจากนี้ที่ดีเยี่ยมแม้ทำซ้ำตัวอย่างของเศรษฐที่อธิบายไว้ใน CrossValidated นี้คำถาม อันที่จริงตัวอย่างในคำถามนี้มาใกล้กับสิ่งที่ฉันกำลังมองหา สิ่งเดียวที่ขาดหายไปในตัวอย่างเหล่านั้นคือการที่พวกเขาเป็นเพียงการวิจัยรายงานโดยไม่ต้องเอ่ยถึงว่าผลของการศึกษาที่มีอาการในใด ๆการประยุกต์ใช้จริงในโลก สิ่งที่ฉันกำลังมองหาคือเอกสาร / ตัวอย่างที่สามารถจำลองได้ของการประยุกต์ใช้ทฤษฎีทางเศรษฐมิติในโลกแห่งความเป็นจริงซึ่งมีลักษณะดังต่อไปนี้: พวกเขาควรจะทำซ้ำเช่นมีคำอธิบายรายละเอียดของ (และตัวชี้ไปยัง) ข้อมูลเทคนิคทางเศรษฐมิติและรหัส นึกคิดรหัสจะเป็นภาษา R ควรมีเอกสารรายละเอียดแสดงให้เห็นว่าเทคนิคที่ประสบความสำเร็จในโลกแห่งความเป็นจริงตามการวัดที่ดีของความสำเร็จ (เช่น "เทคนิคที่ช่วยเพิ่มรายได้เพราะมันเปิดใช้การคาดการณ์ความต้องการที่ดีขึ้นและนี่คือตัวเลขที่เกี่ยวข้อง") ฉันใช้ระยะทางเศรษฐมิติค่อนข้างกว้างที่นี่ - ผมหมายถึงใด ๆ เรียงลำดับของการทำเหมืองข้อมูล , สถิติวิเคราะห์ข้อมูล , predictiion , การคาดการณ์หรือเครื่องเรียนรู้เทคนิค ปัญหาหนึ่งในการค้นหาตัวอย่างเช่น: การประยุกต์ใช้เศรษฐมิติที่ประสบความสำเร็จในการตั้งค่าเพื่อผลกำไรและเป็นกรรมสิทธิ์ดังนั้นหากเทคนิคทำงานได้ดีมันอาจจะไม่ถูกเผยแพร่ (นี่เป็นเรื่องจริงโดยเฉพาะอย่างยิ่งในกรณีของการซื้อขายแบบกรรมสิทธิ์ กลยุทธ์) แต่ฉันหวังว่าจะมีตัวอย่างที่เผยแพร่ซึ่งมีคุณสมบัติอย่างน้อย (2) ข้างต้นหากไม่ใช่ทั้ง (1) และ (2)

10 r machine-learning forecasting data-mining econometrics

2

ความแตกต่างระหว่างการวิเคราะห์ข้อมูลการทำงานและการวิเคราะห์ข้อมูลมิติสูงคืออะไร

มีการอ้างอิงจำนวนมากในวรรณกรรมทางสถิติถึง " ข้อมูลการทำงาน " (เช่นข้อมูลที่เป็นเส้นโค้ง) และในแนวขนานกับ " ข้อมูลมิติสูง " (เช่นเมื่อข้อมูลเป็นเวกเตอร์มิติสูง) คำถามของฉันเกี่ยวกับความแตกต่างระหว่างข้อมูลสองประเภท เมื่อพูดถึงวิธีการทางสถิติที่ประยุกต์ใช้ในกรณีที่ 1 สามารถเข้าใจได้ว่าเป็นการใช้วิธีการใหม่จากกรณีที่ 2 ถึงการฉายภาพในขอบเขตย่อยที่มีขอบเขตมิติของพื้นที่ของฟังก์ชั่น . และจะแปลปัญหาการทำงานให้เป็นปัญหาเวคเตอร์แบบมิติแน่นอน (เนื่องจากในวิชาคณิตศาสตร์ประยุกต์ทุกอย่างก็มีขอบเขตในบางจุด) คำถามของฉันคือ เราสามารถพูดได้ว่ากระบวนการทางสถิติใด ๆ ที่ใช้กับข้อมูลการทำงานสามารถนำไปใช้ (เกือบจะโดยตรง) กับข้อมูลมิติสูงและกระบวนการใด ๆ ที่อุทิศให้กับข้อมูลมิติสูงสามารถนำไปใช้กับข้อมูลการทำงานได้หรือไม่ หากคำตอบคือไม่คุณสามารถอธิบายได้ไหม? แก้ไข / ปรับปรุงด้วยความช่วยเหลือของคำตอบของ Simon Byrne: sparsity (สมมติฐาน S-เบาบางลูกและอ่อนแอลิตรPลูกP < 1 ) ใช้เป็นสมมติฐานโครงสร้างในการวิเคราะห์ทางสถิติสูงมิติล.พีล.พีl^pล.พีล.พีl^pp < 1พี<1p<1 "ความเรียบ" ใช้เป็นข้อสมมติฐานเชิงโครงสร้างในการวิเคราะห์ข้อมูลการทำงาน ในทางกลับกันการแปลงฟูริเยร์และการแปลงเวฟเล็ตแบบผกผันจะเปลี่ยนความเป็นช่องว่างให้เป็นความเรียบเนียนและความเรียบเนียนจะถูกเปลี่ยนเป็นแบบ Sparcity โดยการแปลงเวฟเล็ตและฟูริเยร์ สิ่งนี้ทำให้ความแตกต่างที่สำคัญที่ Simon พูดถึงไม่สำคัญอย่างนั้นเหรอ?

10 data-mining signal-processing curve-fitting wavelet

6

ใช้หลักการประมวลผลสัญญาณที่น่าสงสัยเพื่อระบุแนวโน้ม

ฉันกำลังเสนอให้พยายามหาแนวโน้มในข้อมูลระยะยาวที่มีเสียงดังมาก ข้อมูลนั้นเป็นการวัดรายสัปดาห์ของสิ่งที่เคลื่อนไหวประมาณ 5 มม. ในช่วงเวลาประมาณ 8 เดือน ข้อมูลมีความแม่นยำ 1 มม. และมีเสียงดังมากเปลี่ยนเป็นประจำ +/- 1 หรือ 2 มม. ในหนึ่งสัปดาห์ เรามีข้อมูลไปยังมิลลิเมตรที่ใกล้ที่สุดเท่านั้น เราวางแผนที่จะใช้การประมวลผลสัญญาณพื้นฐานด้วยการแปลงฟูริเยร์ที่รวดเร็วเพื่อแยกสัญญาณรบกวนออกจากข้อมูลดิบ สมมติฐานพื้นฐานคือถ้าเราสะท้อนชุดข้อมูลของเราและเพิ่มลงในส่วนท้ายของชุดข้อมูลที่มีอยู่ของเราเราสามารถสร้างความยาวคลื่นเต็มรูปแบบของข้อมูลและดังนั้นข้อมูลของเราจะแสดงในการแปลงฟูริเยร์ที่รวดเร็วและหวังว่าจะแยกมันออกได้ . ระบุว่าสิ่งนี้ฟังดูน่าสงสัยเล็กน้อยสำหรับฉันนี่เป็นวิธีที่คุ้มค่าหรือไม่หรือเป็นวิธีการทำมิเรอร์และต่อท้ายข้อมูลของเรา เรากำลังดูวิธีการอื่น ๆ เช่นการใช้ตัวกรองสัญญาณความถี่ต่ำเช่นกัน

10 time-series data-mining signal-processing trend

1

K- หมายถึง: มีการทำซ้ำหลายครั้งในสถานการณ์จริง

ฉันไม่ได้มีประสบการณ์ในอุตสาหกรรมในการขุดข้อมูลหรือข้อมูลขนาดใหญ่ดังนั้นชอบที่จะได้ยินคุณแบ่งปันประสบการณ์ ผู้คนใช้งาน k-mean, PAM, CLARA และอื่น ๆ ในชุดข้อมูลขนาดใหญ่จริง ๆ หรือไม่? หรือพวกมันสุ่มเลือกตัวอย่างจากมัน? หากพวกเขาใช้ตัวอย่างของชุดข้อมูลผลลัพธ์จะน่าเชื่อถือหากชุดข้อมูลนั้นไม่ได้รับการกระจายตามปกติ ในสถานการณ์จริงเมื่อรันอัลกอริทึมเหล่านี้เราสามารถบอกได้ไหมว่าจะต้องทำซ้ำหลายครั้งจนกว่าจะเกิดการบรรจบกัน? หรือจำนวนการวนซ้ำมักเพิ่มขึ้นตามขนาดข้อมูลหรือไม่ ฉันถามสิ่งนี้เพราะฉันคิดว่าการพัฒนาวิธีการที่จะยุติอัลกอริทึมซ้ำก่อนการบรรจบกัน แต่ผลลัพธ์ยังคงเป็นที่ยอมรับ ฉันคิดว่ามันคุ้มค่าที่จะลองถ้าจำนวนการวนซ้ำพูดมากกว่า 1,000 ครั้งเพื่อให้เราสามารถประหยัดต้นทุนและเวลาในการคำนวณได้ คุณคิดอย่างไร?

10 clustering data-mining k-means convergence large-data

2

สูงสุดและปิดบ่อย - คำตอบรวมอยู่ด้วย

My dataset:My dataset:My \ \ dataset: 1:A,B,C,E1:A,B,C,E1: A,B,C,E 2:A,C,D,E2:A,C,D,E2:A,C,D,E 3: B,C,E3: B,C,E3:\ \ \ \ \ B,C,E 4:A,C,D,E4:A,C,D,E4:A,C,D,E 5: C,D,E5: C,D,E5:\ \ \ \ C, D, E 6: A,D,E6: A,D,E6: \ \ \ \ A, D,E ฉันต้องการที่จะหาชุดรายการบ่อยสูงสุดและปิดชุดรายการบ่อย ชุดรายการที่ใช้บ่อย X∈FX∈FX ∈ Fเป็นสูงสุดถ้ามันไม่ได้มี supersets ใด ๆ บ่อย ชุดรายการที่ใช้บ่อย X ∈ F ปิดหากไม่มีชุดซูเปอร์เซ็ตที่มีความถี่เท่ากัน …

10 data-mining dataset association-rules

1

R ตัวแปรเชิงเส้นถดถอยหมวดหมู่ "ซ่อน" ค่า

นี่เป็นเพียงตัวอย่างที่ฉันเจอหลายครั้งดังนั้นฉันจึงไม่มีข้อมูลตัวอย่าง ใช้แบบจำลองการถดถอยเชิงเส้นใน R: a.lm = lm(Y ~ x1 + x2) x1เป็นตัวแปรต่อเนื่อง x2เป็นหมวดหมู่และมีสามค่าเช่น "ต่ำ", "ปานกลาง" และ "สูง" อย่างไรก็ตามเอาต์พุตที่กำหนดโดย R จะเป็นดังนี้: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 ฉันเข้าใจว่า R แนะนำการเข้ารหัสแบบหลอกบางอย่างเกี่ยวกับปัจจัยดังกล่าว ( …

10 r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

5

วิดีโอบรรยายเกี่ยวกับ data mining?

ฉันต้องการเรียนรู้การขุดข้อมูล มีวิดีโอบรรยายฟรีซึ่งอธิบายถึงกระบวนการขุดข้อมูลในเชิงลึกหรือไม่?

10 references data-mining

2

การประมาณความผิดพลาดนอกถุงเพื่อเพิ่ม?

ในฟอเรสต์ฟอเรสต์ต้นไม้แต่ละต้นจะเติบโตขนานกันบนตัวอย่าง Boostrap ที่เป็นเอกลักษณ์ของข้อมูล เนื่องจากตัวอย่าง Boostrap แต่ละอันคาดว่าจะมีการสังเกตการณ์ที่เป็นเอกลักษณ์ประมาณ 63% ทำให้มีการสำรวจประมาณ 37% ของการสังเกตออกซึ่งสามารถใช้สำหรับการทดสอบต้นไม้ ตอนนี้ดูเหมือนว่าใน Stochastic Gradient Boosting ยังมีการคล้ายกับค่าใน RF:ต. ตBe r r o rOOBอีRRโอROOB_{error} หาก bag.fraction ถูกตั้งค่าเป็นมากกว่า 0 (แนะนำให้ 0.5) gbm จะคำนวณการประมาณค่าแบบไม่อยู่ในถุงเพื่อปรับปรุงประสิทธิภาพการทำนาย มันประเมินการลดความเบี่ยงเบนของข้อสังเกตเหล่านั้นที่ไม่ได้ใช้ในการเลือกแผนผังการถดถอยถัดไป แหล่งที่มา: Ridgeway (2007) , ส่วน 3.3 (หน้า 8) ฉันมีปัญหาในการเข้าใจวิธีการทำงาน / ใช้ได้ สมมติว่าฉันกำลังเพิ่มต้นไม้ในลำดับ ฉันกำลังปลูกต้นไม้นี้ในกลุ่มย่อยสุ่มของชุดข้อมูลดั้งเดิม ฉันสามารถทดสอบต้นไม้ต้นเดียวนี้ได้จากการสังเกตที่ไม่ได้นำมาปลูก ตกลง แต่เนื่องจากการส่งเสริมเป็นลำดับฉันจึงค่อนข้างใช้ลำดับของต้นไม้ทั้งหมดที่สร้างขึ้นเพื่อให้การคาดการณ์สำหรับการสังเกตจากซ้ายเหล่านั้น และมีโอกาสสูงที่ต้นไม้ก่อนหน้านี้จำนวนมากได้เห็นการสังเกตเหล่านี้แล้ว ดังนั้นรูปแบบนั้นไม่ได้ถูกทดสอบจริง ๆ ในแต่ละรอบจากการสังเกตการณ์ที่มองไม่เห็นเช่นเดียวกับ …

9 machine-learning cross-validation data-mining random-forest boosting

2

ต้นไม้ CART จับการโต้ตอบระหว่างผู้ทำนายหรือไม่?

บทความนี้อ้างว่าใน CART เนื่องจากมีการดำเนินการแยกแบบไบนารีใน covariate เดียวในแต่ละขั้นตอนการแยกทั้งหมดเป็นแบบมุมฉากดังนั้นจึงไม่ถือว่าการมีปฏิสัมพันธ์ระหว่าง covariates อย่างไรก็ตามมีการอ้างอิงที่จริงจังมากที่อ้างว่าโครงสร้างแบบลำดับชั้นของต้นไม้รับประกันได้ว่าการโต้ตอบระหว่างตัวทำนายจะถูกสร้างแบบจำลองโดยอัตโนมัติ (เช่นเอกสารนี้และแน่นอน Hastie) ถูกต้องใคร ต้นไม้ที่ปลูกในรถเข็นสามารถจับการโต้ตอบระหว่างตัวแปรอินพุตได้ไหม

9 machine-learning classification data-mining cart

1

การเลือก k-value สำหรับการวิเคราะห์ตรวจจับ Local Outlier Factor (LOF)

ฉันมีชุดข้อมูลสามมิติและฉันพยายามใช้การวิเคราะห์ Local Outlier Factor เพื่อระบุค่าที่แปลกที่สุดหรือแปลกที่สุด เราจะตัดสินใจ k-value ที่จะใช้ในการวิเคราะห์ LOF ได้อย่างไร? ฉันเข้าใจสิ่งที่ค่า k กำหนดและดังนั้นฉันจึงไม่แปลกใจเลยที่ฉันเห็นผลลัพธ์ที่แตกต่างกันเล็กน้อยเมื่อใช้ k ที่ต่างกัน แต่ฉันไม่แน่ใจว่ามีลักษณะของชุดข้อมูลของฉันที่จะผลักดันฉันไปยังค่าหนึ่งมากกว่าค่าอื่น ๆ . ขอบคุณ!

9 data-mining outliers

1

การใช้เครื่องมือการประมวลผลข้อความ / ภาษาธรรมชาติสำหรับเศรษฐมิติ

ฉันไม่แน่ใจว่าคำถามนี้เหมาะสมอย่างยิ่งหรือไม่โปรดลบ ฉันเป็นนักเรียนที่จบการศึกษาด้านเศรษฐศาสตร์ สำหรับโครงการที่ตรวจสอบปัญหาในการประกันสังคมฉันสามารถเข้าถึงรายงานกรณีการบริหาร (> 200k) จำนวนมากซึ่งจัดการกับการประเมินสิทธิ์ รายงานเหล่านี้อาจเชื่อมโยงกับข้อมูลการดูแลส่วนบุคคล ฉันต้องการดึงข้อมูลจากรายงานเหล่านี้ที่สามารถนำมาใช้ในการวิเคราะห์เชิงปริมาณและการค้นหาคำหลัก / regex ง่าย ๆ โดยใช้grep/ awketc การประมวลผลภาษาธรรมชาติมีประโยชน์อย่างไรสำหรับสิ่งนี้ อะไรคือวิธีการขุดข้อความที่มีประโยชน์อื่น ๆ จากสิ่งที่ฉันเข้าใจว่านี่เป็นเขตข้อมูลขนาดใหญ่และส่วนใหญ่มีรายงานบางส่วนที่จะต้องถูกเปลี่ยนเป็นใช้เป็นคลังข้อมูล มันคุ้มค่าที่จะลงทุนสักระยะเพื่อทำความคุ้นเคยกับวรรณกรรมและวิธีการหรือไม่? มันจะมีประโยชน์และมีสิ่งที่คล้ายกันเคยทำมาก่อนหรือไม่ มันคุ้มค่าหรือไม่ในแง่ของรางวัลเช่นฉันสามารถดึงข้อมูลที่เป็นประโยชน์โดยใช้ NLP สำหรับการศึกษาเชิงประจักษ์ทางเศรษฐศาสตร์ได้หรือไม่? อาจมีการระดมทุนเพื่อจ้างคนอ่านและเตรียมรายงานบางส่วน นี่เป็นโครงการขนาดใหญ่และมีความเป็นไปได้ที่จะใช้เงินทุนเพิ่มเติม ฉันสามารถให้รายละเอียดเพิ่มเติมเกี่ยวกับหัวข้อหากจำเป็นอย่างเคร่งครัด ความซับซ้อนที่อาจเกิดขึ้นคือภาษาเยอรมันไม่ใช่ภาษาอังกฤษ เกี่ยวกับคุณวุฒิส่วนใหญ่ฉันได้รับการฝึกฝนด้านเศรษฐมิติและมีความรู้เกี่ยวกับสถิติการคำนวณในระดับHastie et al หนังสือ ฉันรู้จัก Python, R, Stata และอาจคุ้นเคยกับ Matlab อย่างรวดเร็ว ให้ห้องสมุดฉันคิดว่าหลามเป็นเครื่องมือของการเลือกนี้ ไม่มีการฝึกอบรมในวิธีการเชิงคุณภาพถ้ามันเกี่ยวข้อง แต่ฉันรู้ว่ามีบางคนที่ฉันสามารถติดต่อได้ ฉันดีใจที่ได้รับข้อมูลใด ๆ เกี่ยวกับเรื่องนี้เช่นถ้านี่อาจเป็นประโยชน์ถ้าเป็นเช่นนั้นสถานที่ที่จะเริ่มอ่านและเครื่องมือใดที่ควรให้ความสำคัญเป็นพิเศษ

9 machine-learning data-mining econometrics text-mining natural-language

5

การจัดกลุ่มล่วงหน้าช่วยในการสร้างแบบจำลองการทำนายที่ดีขึ้นหรือไม่?

สำหรับภารกิจของการปั่นแบบจำลองฉันกำลังพิจารณา: คำนวณ k กลุ่มสำหรับข้อมูล สร้างโมเดล k สำหรับแต่ละคลัสเตอร์แยกกัน เหตุผลก็คือว่าไม่มีอะไรที่จะพิสูจน์ว่าประชากรของผู้ใต้บังคับบัญชาเป็นเนื้อเดียวกันดังนั้นจึงมีเหตุผลที่จะคิดว่ากระบวนการสร้างข้อมูลอาจแตกต่างกันสำหรับ "กลุ่ม" ที่แตกต่างกัน คำถามของฉันคือมันเป็นวิธีการที่เหมาะสมหรือไม่ มันละเมิดอะไรหรือไม่หรือถือว่าไม่ดีด้วยเหตุผลบางอย่าง? ถ้าเป็นเช่นนั้นทำไม ถ้าไม่คุณจะแบ่งปันแนวทางปฏิบัติที่ดีที่สุดเกี่ยวกับปัญหานั้นหรือไม่ และสิ่งที่สอง - เป็นการดีกว่าหรือแย่กว่าการทำ preclustering กว่าโมเดลต้นไม้ (ตามที่กำหนดไว้ใน Witten, Frank - ต้นไม้จำแนก / ถดถอยด้วยแบบจำลองที่ใบไม้) สังหรณ์ใจดูเหมือนว่าสเตจต้นไม้ตัดสินใจเป็นเพียงรูปแบบการรวมกลุ่มอื่น idk หากมีข้อได้เปรียบเหนือการจัดกลุ่ม "ปกติ")

9 machine-learning clustering data-mining predictive-models

คำถามติดแท็ก data-mining