คำถามติดแท็ก data-mining

การขุดข้อมูลใช้วิธีการจากปัญญาประดิษฐ์ในบริบทฐานข้อมูลเพื่อค้นหารูปแบบที่ไม่รู้จักก่อนหน้านี้ ดังนั้นวิธีการดังกล่าวมักจะไม่ได้รับการดูแล มันเกี่ยวข้องอย่างใกล้ชิด แต่ไม่เหมือนกับการเรียนรู้ของเครื่อง งานที่สำคัญของการขุดข้อมูลคือการวิเคราะห์กลุ่มการตรวจหานอกและกฎการเชื่อมโยง

2
ฉันจะจัดกลุ่มสตริงตามธีมทั่วไปได้อย่างไร
ฉันกำลังพยายามจัดกลุ่มเช่นสตริงเกี่ยวกับการเขียนโปรแกรมกับสตริงอื่น ๆ เกี่ยวกับการเขียนโปรแกรมสตริงเกี่ยวกับฟิสิกส์กับสตริงอื่น ๆ เกี่ยวกับฟิสิกส์ ฯลฯ สำหรับหัวข้อที่หลากหลาย แม้จะมีแง่มุมทางภาษาที่ชัดเจนทางทฤษฎีของปัญหา แต่ฉันกำลังมองหาที่จะทำสิ่งนี้โดยใช้การเขียนโปรแกรม / ซอฟต์แวร์ บทสรุป:ด้วยสตริงจำนวนมากฉันจะจัดกลุ่มตามธีมความหมายได้อย่างไร แอปพลิเคชันเฉพาะ:ฉันมีคำถามแบบไม่สำคัญประมาณ 200,000 คำถามที่ฉันต้องการจัดหมวดหมู่เป็นกลุ่มร่วมกัน (รถยนต์คอมพิวเตอร์การเมืองแคนาดาอาหารบารักโอบา ฯลฯ ) สิ่งที่ฉันได้ดู: Wikipedia มีรายการชุดเครื่องมือประมวลผลภาษาธรรมชาติ (สมมติว่าสิ่งที่ฉันพยายามทำจริง ๆ แล้วเรียกว่า NLP) ดังนั้นฉันจึงดูบ้าง แต่ดูเหมือนไม่มีใครทำอะไรที่คล้ายกับความต้องการของฉัน หมายเหตุ:มีการชี้ให้เห็นว่าการทำเช่นนี้ต้องใช้ความรู้เพิ่มเติม (เช่น Porsche เป็นรถยนต์ส่วน C ++ เป็นภาษาโปรแกรม) ฉันคิดว่าจำเป็นต้องใช้ข้อมูลการฝึกอบรม แต่ถ้าฉันมีเพียงรายการคำถามและคำตอบฉันจะสร้างข้อมูลการฝึกอบรมได้อย่างไร จากนั้นฉันจะใช้ข้อมูลการฝึกอบรมอย่างไร หมายเหตุเพิ่มเติม:หากการจัดรูปแบบปัจจุบันของความช่วยเหลือ Q & As ของฉัน (แม้ว่าจะดูเหมือนว่า JSON มันเป็นไฟล์ข้อความดิบ): // row 1: is metadata …

3
การเหลือบมองครั้งแรกอย่างรวดเร็วที่ชุดข้อมูล
กรุณาให้อภัยความไม่รู้ของฉัน แต่ ... ฉันพบตัวเองอยู่ในสถานการณ์ที่ฉันต้องเผชิญกับข้อมูลใหม่ ๆ มากมายที่ฉันพยายามหา ข้อมูลนี้มักจะมีลักษณะดังนี้: Date Number1 Number2 Category1 Category2 20120125 11 101 Dog Brown 20120126 21 90 Cat Black 20120126 31 134 Cat Brown (...) โดยทั่วไปในครั้งแรกที่ฉันไม่สามารถบอกได้ว่ามีแนวโน้มใด ๆ ที่นี่หรือไม่ ความสัมพันธ์ระหว่างคอลัมน์ต่าง ๆ อาจไม่สำคัญมาก แต่ฉันจะดีใจถ้าฉันไม่ต้องสร้างพล็อตด้วยตนเองสำหรับทุกชุดของคอลัมน์ / หมวดหมู่ที่เป็นไปได้ มีเครื่องมือที่จะยอมรับตารางของข้อมูลพร้อมกับข้อมูลที่คอลัมน์ควรจะถือว่าเป็นตัวเลขวันที่และหมวดหมู่แล้วดำเนินการพล็อต: ความสัมพันธ์ระหว่างแต่ละคอลัมน์สองคอลัมน์ ความสัมพันธ์ระหว่างแต่ละคอลัมน์สองคอลัมน์โดยมีเส้นแนวโน้มแยกกันสำหรับแต่ละหมวดหมู่ แต่ละคอลัมน์ตัวเลขเป็นอนุกรมเวลา แต่ละคอลัมน์ตัวเลขเป็นอนุกรมเวลาคั่นด้วยหมวดหมู่ เป็นต้น ในที่สุดสิ่งนี้จะสร้างแปลงจำนวนมากซึ่งส่วนใหญ่จะแสดงเพียงเสียงรบกวน ตามหลักการแล้วเครื่องมือสามารถทำคะแนนพล็อตตามความสัมพันธ์และในที่สุดก็แสดงสไลด์โชว์โดยเริ่มจากพล็อตการให้คะแนนสูงสุด นี่จะไม่สมบูรณ์มาก แต่มีประโยชน์อย่างรวดเร็วก่อนที่ชุดข้อมูล ดังนั้น? มีเครื่องมือที่ทุกคนใช้สำหรับสิ่งนี้และฉันไม่รู้เกี่ยวกับมันหรือเป็นสิ่งที่เราต้องทำหรือไม่?

1
ฉันจะค้นหาความสัมพันธ์ระหว่างการขัดข้องและสภาพแวดล้อมระบบได้อย่างไร
ในเวลาว่างของฉันฉันกำลังทำงานบนระบบเว็บขนาดเล็กซึ่งรวบรวมรายงานข้อผิดพลาด (แต่ไม่ใช่รายงานข้อผิดพลาดอื่น ๆ ที่ไม่หยุดทำงาน) ที่ส่งจากแอปพลิเคชัน Delphi ของ Windows สำหรับการแก้ไขปัญหาผู้ใช้ยินดีที่จะมีคุณสมบัติการขุดข้อมูลเพื่อค้นหาความสัมพันธ์ระหว่างรุ่นฮาร์ดแวร์หรือระบบปฏิบัติการและข้อผิดพลาดเฉพาะและ / หรือความผิดพลาด เป็นตัวอย่างวิธีการใช้งาน: สำหรับความผิดพลาดทุกครั้งจะมีรายงานในฐานข้อมูลซึ่งมีรหัสลายนิ้วมือ / แฮชของการติดตามสแต็ก (call stack) ในขณะที่เกิดความผิดพลาดเพื่อระบุรายการที่ซ้ำกัน อัลกอริทึมจะตรวจสอบว่ามีการรายงานข้อผิดพลาดซ้ำกันทั้งหมดหรือไม่มีคุณลักษณะทั่วไปอื่น ๆ เช่นเซอร์วิสแพ็คที่ขาดหายไปของระบบปฏิบัติการ ผลการวิเคราะห์แสดงคุณสมบัติทั้งหมดที่รายงานบั๊กมีเหมือนกัน สมมติว่ารายงานข้อผิดพลาดอัตโนมัติเหล่านี้มีข้อมูลสำคัญทั้งหมดเช่นชื่อของกระบวนการทั้งหมดที่กำลังทำงานอยู่ชื่อไฟล์ข้อมูลรุ่นของ DLLs ที่โหลดเป็นต้น ฉันจะค้นหาความสัมพันธ์ระหว่างการขัดข้องซ้ำกับสภาพแวดล้อมได้อย่างไร มีอัลกอริทึมเฉพาะหรือวิธีการทางสถิติที่จะช่วยหรือไม่

1
จัดทำเป็นเอกสาร / ตัวอย่างที่จำลองได้ของการประยุกต์ใช้วิธีเศรษฐมิติที่ประสบความสำเร็จในโลกแห่งความจริง?
คำถามนี้อาจฟังดูกว้างมาก แต่นี่คือสิ่งที่ฉันกำลังมองหา ฉันรู้ว่ามีหนังสือที่ยอดเยี่ยมมากมายเกี่ยวกับวิธีเศรษฐมิติและบทความเกี่ยวกับเทคนิคเศรษฐมิติที่ยอดเยี่ยมมากมาย นอกจากนี้ที่ดีเยี่ยมแม้ทำซ้ำตัวอย่างของเศรษฐที่อธิบายไว้ใน CrossValidated นี้คำถาม อันที่จริงตัวอย่างในคำถามนี้มาใกล้กับสิ่งที่ฉันกำลังมองหา สิ่งเดียวที่ขาดหายไปในตัวอย่างเหล่านั้นคือการที่พวกเขาเป็นเพียงการวิจัยรายงานโดยไม่ต้องเอ่ยถึงว่าผลของการศึกษาที่มีอาการในใด ๆการประยุกต์ใช้จริงในโลก สิ่งที่ฉันกำลังมองหาคือเอกสาร / ตัวอย่างที่สามารถจำลองได้ของการประยุกต์ใช้ทฤษฎีทางเศรษฐมิติในโลกแห่งความเป็นจริงซึ่งมีลักษณะดังต่อไปนี้: พวกเขาควรจะทำซ้ำเช่นมีคำอธิบายรายละเอียดของ (และตัวชี้ไปยัง) ข้อมูลเทคนิคทางเศรษฐมิติและรหัส นึกคิดรหัสจะเป็นภาษา R ควรมีเอกสารรายละเอียดแสดงให้เห็นว่าเทคนิคที่ประสบความสำเร็จในโลกแห่งความเป็นจริงตามการวัดที่ดีของความสำเร็จ (เช่น "เทคนิคที่ช่วยเพิ่มรายได้เพราะมันเปิดใช้การคาดการณ์ความต้องการที่ดีขึ้นและนี่คือตัวเลขที่เกี่ยวข้อง") ฉันใช้ระยะทางเศรษฐมิติค่อนข้างกว้างที่นี่ - ผมหมายถึงใด ๆ เรียงลำดับของการทำเหมืองข้อมูล , สถิติวิเคราะห์ข้อมูล , predictiion , การคาดการณ์หรือเครื่องเรียนรู้เทคนิค ปัญหาหนึ่งในการค้นหาตัวอย่างเช่น: การประยุกต์ใช้เศรษฐมิติที่ประสบความสำเร็จในการตั้งค่าเพื่อผลกำไรและเป็นกรรมสิทธิ์ดังนั้นหากเทคนิคทำงานได้ดีมันอาจจะไม่ถูกเผยแพร่ (นี่เป็นเรื่องจริงโดยเฉพาะอย่างยิ่งในกรณีของการซื้อขายแบบกรรมสิทธิ์ กลยุทธ์) แต่ฉันหวังว่าจะมีตัวอย่างที่เผยแพร่ซึ่งมีคุณสมบัติอย่างน้อย (2) ข้างต้นหากไม่ใช่ทั้ง (1) และ (2)

2
ความแตกต่างระหว่างการวิเคราะห์ข้อมูลการทำงานและการวิเคราะห์ข้อมูลมิติสูงคืออะไร
มีการอ้างอิงจำนวนมากในวรรณกรรมทางสถิติถึง " ข้อมูลการทำงาน " (เช่นข้อมูลที่เป็นเส้นโค้ง) และในแนวขนานกับ " ข้อมูลมิติสูง " (เช่นเมื่อข้อมูลเป็นเวกเตอร์มิติสูง) คำถามของฉันเกี่ยวกับความแตกต่างระหว่างข้อมูลสองประเภท เมื่อพูดถึงวิธีการทางสถิติที่ประยุกต์ใช้ในกรณีที่ 1 สามารถเข้าใจได้ว่าเป็นการใช้วิธีการใหม่จากกรณีที่ 2 ถึงการฉายภาพในขอบเขตย่อยที่มีขอบเขตมิติของพื้นที่ของฟังก์ชั่น . และจะแปลปัญหาการทำงานให้เป็นปัญหาเวคเตอร์แบบมิติแน่นอน (เนื่องจากในวิชาคณิตศาสตร์ประยุกต์ทุกอย่างก็มีขอบเขตในบางจุด) คำถามของฉันคือ เราสามารถพูดได้ว่ากระบวนการทางสถิติใด ๆ ที่ใช้กับข้อมูลการทำงานสามารถนำไปใช้ (เกือบจะโดยตรง) กับข้อมูลมิติสูงและกระบวนการใด ๆ ที่อุทิศให้กับข้อมูลมิติสูงสามารถนำไปใช้กับข้อมูลการทำงานได้หรือไม่ หากคำตอบคือไม่คุณสามารถอธิบายได้ไหม? แก้ไข / ปรับปรุงด้วยความช่วยเหลือของคำตอบของ Simon Byrne: sparsity (สมมติฐาน S-เบาบางลูกและอ่อนแอลิตรPลูกP &lt; 1 ) ใช้เป็นสมมติฐานโครงสร้างในการวิเคราะห์ทางสถิติสูงมิติล.พีล.พีl^pล.พีล.พีl^pp &lt; 1พี&lt;1p<1 "ความเรียบ" ใช้เป็นข้อสมมติฐานเชิงโครงสร้างในการวิเคราะห์ข้อมูลการทำงาน ในทางกลับกันการแปลงฟูริเยร์และการแปลงเวฟเล็ตแบบผกผันจะเปลี่ยนความเป็นช่องว่างให้เป็นความเรียบเนียนและความเรียบเนียนจะถูกเปลี่ยนเป็นแบบ Sparcity โดยการแปลงเวฟเล็ตและฟูริเยร์ สิ่งนี้ทำให้ความแตกต่างที่สำคัญที่ Simon พูดถึงไม่สำคัญอย่างนั้นเหรอ?

6
ใช้หลักการประมวลผลสัญญาณที่น่าสงสัยเพื่อระบุแนวโน้ม
ฉันกำลังเสนอให้พยายามหาแนวโน้มในข้อมูลระยะยาวที่มีเสียงดังมาก ข้อมูลนั้นเป็นการวัดรายสัปดาห์ของสิ่งที่เคลื่อนไหวประมาณ 5 มม. ในช่วงเวลาประมาณ 8 เดือน ข้อมูลมีความแม่นยำ 1 มม. และมีเสียงดังมากเปลี่ยนเป็นประจำ +/- 1 หรือ 2 มม. ในหนึ่งสัปดาห์ เรามีข้อมูลไปยังมิลลิเมตรที่ใกล้ที่สุดเท่านั้น เราวางแผนที่จะใช้การประมวลผลสัญญาณพื้นฐานด้วยการแปลงฟูริเยร์ที่รวดเร็วเพื่อแยกสัญญาณรบกวนออกจากข้อมูลดิบ สมมติฐานพื้นฐานคือถ้าเราสะท้อนชุดข้อมูลของเราและเพิ่มลงในส่วนท้ายของชุดข้อมูลที่มีอยู่ของเราเราสามารถสร้างความยาวคลื่นเต็มรูปแบบของข้อมูลและดังนั้นข้อมูลของเราจะแสดงในการแปลงฟูริเยร์ที่รวดเร็วและหวังว่าจะแยกมันออกได้ . ระบุว่าสิ่งนี้ฟังดูน่าสงสัยเล็กน้อยสำหรับฉันนี่เป็นวิธีที่คุ้มค่าหรือไม่หรือเป็นวิธีการทำมิเรอร์และต่อท้ายข้อมูลของเรา เรากำลังดูวิธีการอื่น ๆ เช่นการใช้ตัวกรองสัญญาณความถี่ต่ำเช่นกัน

1
K- หมายถึง: มีการทำซ้ำหลายครั้งในสถานการณ์จริง
ฉันไม่ได้มีประสบการณ์ในอุตสาหกรรมในการขุดข้อมูลหรือข้อมูลขนาดใหญ่ดังนั้นชอบที่จะได้ยินคุณแบ่งปันประสบการณ์ ผู้คนใช้งาน k-mean, PAM, CLARA และอื่น ๆ ในชุดข้อมูลขนาดใหญ่จริง ๆ หรือไม่? หรือพวกมันสุ่มเลือกตัวอย่างจากมัน? หากพวกเขาใช้ตัวอย่างของชุดข้อมูลผลลัพธ์จะน่าเชื่อถือหากชุดข้อมูลนั้นไม่ได้รับการกระจายตามปกติ ในสถานการณ์จริงเมื่อรันอัลกอริทึมเหล่านี้เราสามารถบอกได้ไหมว่าจะต้องทำซ้ำหลายครั้งจนกว่าจะเกิดการบรรจบกัน? หรือจำนวนการวนซ้ำมักเพิ่มขึ้นตามขนาดข้อมูลหรือไม่ ฉันถามสิ่งนี้เพราะฉันคิดว่าการพัฒนาวิธีการที่จะยุติอัลกอริทึมซ้ำก่อนการบรรจบกัน แต่ผลลัพธ์ยังคงเป็นที่ยอมรับ ฉันคิดว่ามันคุ้มค่าที่จะลองถ้าจำนวนการวนซ้ำพูดมากกว่า 1,000 ครั้งเพื่อให้เราสามารถประหยัดต้นทุนและเวลาในการคำนวณได้ คุณคิดอย่างไร?

2
สูงสุดและปิดบ่อย - คำตอบรวมอยู่ด้วย
My dataset:My dataset:My \ \ dataset: 1:A,B,C,E1:A,B,C,E1: A,B,C,E 2:A,C,D,E2:A,C,D,E2:A,C,D,E 3: B,C,E3: B,C,E3:\ \ \ \ \ B,C,E 4:A,C,D,E4:A,C,D,E4:A,C,D,E 5: C,D,E5: C,D,E5:\ \ \ \ C, D, E 6: A,D,E6: A,D,E6: \ \ \ \ A, D,E ฉันต้องการที่จะหาชุดรายการบ่อยสูงสุดและปิดชุดรายการบ่อย ชุดรายการที่ใช้บ่อย X∈FX∈FX ∈ Fเป็นสูงสุดถ้ามันไม่ได้มี supersets ใด ๆ บ่อย ชุดรายการที่ใช้บ่อย X ∈ F ปิดหากไม่มีชุดซูเปอร์เซ็ตที่มีความถี่เท่ากัน …

1
R ตัวแปรเชิงเส้นถดถอยหมวดหมู่ "ซ่อน" ค่า
นี่เป็นเพียงตัวอย่างที่ฉันเจอหลายครั้งดังนั้นฉันจึงไม่มีข้อมูลตัวอย่าง ใช้แบบจำลองการถดถอยเชิงเส้นใน R: a.lm = lm(Y ~ x1 + x2) x1เป็นตัวแปรต่อเนื่อง x2เป็นหมวดหมู่และมีสามค่าเช่น "ต่ำ", "ปานกลาง" และ "สูง" อย่างไรก็ตามเอาต์พุตที่กำหนดโดย R จะเป็นดังนี้: summary(a.lm) Estimate Std. Error t value Pr(&gt;|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 ฉันเข้าใจว่า R แนะนำการเข้ารหัสแบบหลอกบางอย่างเกี่ยวกับปัจจัยดังกล่าว ( …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 


2
การประมาณความผิดพลาดนอกถุงเพื่อเพิ่ม?
ในฟอเรสต์ฟอเรสต์ต้นไม้แต่ละต้นจะเติบโตขนานกันบนตัวอย่าง Boostrap ที่เป็นเอกลักษณ์ของข้อมูล เนื่องจากตัวอย่าง Boostrap แต่ละอันคาดว่าจะมีการสังเกตการณ์ที่เป็นเอกลักษณ์ประมาณ 63% ทำให้มีการสำรวจประมาณ 37% ของการสังเกตออกซึ่งสามารถใช้สำหรับการทดสอบต้นไม้ ตอนนี้ดูเหมือนว่าใน Stochastic Gradient Boosting ยังมีการคล้ายกับค่าใน RF:ต. ตBe r r o rOOBอีRRโอROOB_{error} หาก bag.fraction ถูกตั้งค่าเป็นมากกว่า 0 (แนะนำให้ 0.5) gbm จะคำนวณการประมาณค่าแบบไม่อยู่ในถุงเพื่อปรับปรุงประสิทธิภาพการทำนาย มันประเมินการลดความเบี่ยงเบนของข้อสังเกตเหล่านั้นที่ไม่ได้ใช้ในการเลือกแผนผังการถดถอยถัดไป แหล่งที่มา: Ridgeway (2007) , ส่วน 3.3 (หน้า 8) ฉันมีปัญหาในการเข้าใจวิธีการทำงาน / ใช้ได้ สมมติว่าฉันกำลังเพิ่มต้นไม้ในลำดับ ฉันกำลังปลูกต้นไม้นี้ในกลุ่มย่อยสุ่มของชุดข้อมูลดั้งเดิม ฉันสามารถทดสอบต้นไม้ต้นเดียวนี้ได้จากการสังเกตที่ไม่ได้นำมาปลูก ตกลง แต่เนื่องจากการส่งเสริมเป็นลำดับฉันจึงค่อนข้างใช้ลำดับของต้นไม้ทั้งหมดที่สร้างขึ้นเพื่อให้การคาดการณ์สำหรับการสังเกตจากซ้ายเหล่านั้น และมีโอกาสสูงที่ต้นไม้ก่อนหน้านี้จำนวนมากได้เห็นการสังเกตเหล่านี้แล้ว ดังนั้นรูปแบบนั้นไม่ได้ถูกทดสอบจริง ๆ ในแต่ละรอบจากการสังเกตการณ์ที่มองไม่เห็นเช่นเดียวกับ …

2
ต้นไม้ CART จับการโต้ตอบระหว่างผู้ทำนายหรือไม่?
บทความนี้อ้างว่าใน CART เนื่องจากมีการดำเนินการแยกแบบไบนารีใน covariate เดียวในแต่ละขั้นตอนการแยกทั้งหมดเป็นแบบมุมฉากดังนั้นจึงไม่ถือว่าการมีปฏิสัมพันธ์ระหว่าง covariates อย่างไรก็ตามมีการอ้างอิงที่จริงจังมากที่อ้างว่าโครงสร้างแบบลำดับชั้นของต้นไม้รับประกันได้ว่าการโต้ตอบระหว่างตัวทำนายจะถูกสร้างแบบจำลองโดยอัตโนมัติ (เช่นเอกสารนี้และแน่นอน Hastie) ถูกต้องใคร ต้นไม้ที่ปลูกในรถเข็นสามารถจับการโต้ตอบระหว่างตัวแปรอินพุตได้ไหม

1
การเลือก k-value สำหรับการวิเคราะห์ตรวจจับ Local Outlier Factor (LOF)
ฉันมีชุดข้อมูลสามมิติและฉันพยายามใช้การวิเคราะห์ Local Outlier Factor เพื่อระบุค่าที่แปลกที่สุดหรือแปลกที่สุด เราจะตัดสินใจ k-value ที่จะใช้ในการวิเคราะห์ LOF ได้อย่างไร? ฉันเข้าใจสิ่งที่ค่า k กำหนดและดังนั้นฉันจึงไม่แปลกใจเลยที่ฉันเห็นผลลัพธ์ที่แตกต่างกันเล็กน้อยเมื่อใช้ k ที่ต่างกัน แต่ฉันไม่แน่ใจว่ามีลักษณะของชุดข้อมูลของฉันที่จะผลักดันฉันไปยังค่าหนึ่งมากกว่าค่าอื่น ๆ . ขอบคุณ!

1
การใช้เครื่องมือการประมวลผลข้อความ / ภาษาธรรมชาติสำหรับเศรษฐมิติ
ฉันไม่แน่ใจว่าคำถามนี้เหมาะสมอย่างยิ่งหรือไม่โปรดลบ ฉันเป็นนักเรียนที่จบการศึกษาด้านเศรษฐศาสตร์ สำหรับโครงการที่ตรวจสอบปัญหาในการประกันสังคมฉันสามารถเข้าถึงรายงานกรณีการบริหาร (&gt; 200k) จำนวนมากซึ่งจัดการกับการประเมินสิทธิ์ รายงานเหล่านี้อาจเชื่อมโยงกับข้อมูลการดูแลส่วนบุคคล ฉันต้องการดึงข้อมูลจากรายงานเหล่านี้ที่สามารถนำมาใช้ในการวิเคราะห์เชิงปริมาณและการค้นหาคำหลัก / regex ง่าย ๆ โดยใช้grep/ awketc การประมวลผลภาษาธรรมชาติมีประโยชน์อย่างไรสำหรับสิ่งนี้ อะไรคือวิธีการขุดข้อความที่มีประโยชน์อื่น ๆ จากสิ่งที่ฉันเข้าใจว่านี่เป็นเขตข้อมูลขนาดใหญ่และส่วนใหญ่มีรายงานบางส่วนที่จะต้องถูกเปลี่ยนเป็นใช้เป็นคลังข้อมูล มันคุ้มค่าที่จะลงทุนสักระยะเพื่อทำความคุ้นเคยกับวรรณกรรมและวิธีการหรือไม่? มันจะมีประโยชน์และมีสิ่งที่คล้ายกันเคยทำมาก่อนหรือไม่ มันคุ้มค่าหรือไม่ในแง่ของรางวัลเช่นฉันสามารถดึงข้อมูลที่เป็นประโยชน์โดยใช้ NLP สำหรับการศึกษาเชิงประจักษ์ทางเศรษฐศาสตร์ได้หรือไม่? อาจมีการระดมทุนเพื่อจ้างคนอ่านและเตรียมรายงานบางส่วน นี่เป็นโครงการขนาดใหญ่และมีความเป็นไปได้ที่จะใช้เงินทุนเพิ่มเติม ฉันสามารถให้รายละเอียดเพิ่มเติมเกี่ยวกับหัวข้อหากจำเป็นอย่างเคร่งครัด ความซับซ้อนที่อาจเกิดขึ้นคือภาษาเยอรมันไม่ใช่ภาษาอังกฤษ เกี่ยวกับคุณวุฒิส่วนใหญ่ฉันได้รับการฝึกฝนด้านเศรษฐมิติและมีความรู้เกี่ยวกับสถิติการคำนวณในระดับHastie et al หนังสือ ฉันรู้จัก Python, R, Stata และอาจคุ้นเคยกับ Matlab อย่างรวดเร็ว ให้ห้องสมุดฉันคิดว่าหลามเป็นเครื่องมือของการเลือกนี้ ไม่มีการฝึกอบรมในวิธีการเชิงคุณภาพถ้ามันเกี่ยวข้อง แต่ฉันรู้ว่ามีบางคนที่ฉันสามารถติดต่อได้ ฉันดีใจที่ได้รับข้อมูลใด ๆ เกี่ยวกับเรื่องนี้เช่นถ้านี่อาจเป็นประโยชน์ถ้าเป็นเช่นนั้นสถานที่ที่จะเริ่มอ่านและเครื่องมือใดที่ควรให้ความสำคัญเป็นพิเศษ

5
การจัดกลุ่มล่วงหน้าช่วยในการสร้างแบบจำลองการทำนายที่ดีขึ้นหรือไม่?
สำหรับภารกิจของการปั่นแบบจำลองฉันกำลังพิจารณา: คำนวณ k กลุ่มสำหรับข้อมูล สร้างโมเดล k สำหรับแต่ละคลัสเตอร์แยกกัน เหตุผลก็คือว่าไม่มีอะไรที่จะพิสูจน์ว่าประชากรของผู้ใต้บังคับบัญชาเป็นเนื้อเดียวกันดังนั้นจึงมีเหตุผลที่จะคิดว่ากระบวนการสร้างข้อมูลอาจแตกต่างกันสำหรับ "กลุ่ม" ที่แตกต่างกัน คำถามของฉันคือมันเป็นวิธีการที่เหมาะสมหรือไม่ มันละเมิดอะไรหรือไม่หรือถือว่าไม่ดีด้วยเหตุผลบางอย่าง? ถ้าเป็นเช่นนั้นทำไม ถ้าไม่คุณจะแบ่งปันแนวทางปฏิบัติที่ดีที่สุดเกี่ยวกับปัญหานั้นหรือไม่ และสิ่งที่สอง - เป็นการดีกว่าหรือแย่กว่าการทำ preclustering กว่าโมเดลต้นไม้ (ตามที่กำหนดไว้ใน Witten, Frank - ต้นไม้จำแนก / ถดถอยด้วยแบบจำลองที่ใบไม้) สังหรณ์ใจดูเหมือนว่าสเตจต้นไม้ตัดสินใจเป็นเพียงรูปแบบการรวมกลุ่มอื่น idk หากมีข้อได้เปรียบเหนือการจัดกลุ่ม "ปกติ")

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.