วิทยาศาสตร์ข้อมูล

ถามตอบสำหรับผู้เชี่ยวชาญด้านข้อมูลวิทยาศาสตร์ผู้เชี่ยวชาญด้านการเรียนรู้ของเครื่องจักรและผู้ที่สนใจเรียนรู้เพิ่มเติมเกี่ยวกับสาขานี้

2
การสร้างคอลัมน์ใหม่โดยวนซ้ำแถวใน dataframe แพนด้า
ฉันมีกรอบข้อมูลแพนด้า (X11) เช่นนี้: ในความเป็นจริงฉันมี 99 คอลัมน์จนถึง dx99 dx1 dx2 dx3 dx4 0 25041 40391 5856 0 1 25041 40391 25081 5856 2 25041 40391 42822 0 3 25061 40391 0 0 4 25041 40391 0 5856 5 40391 25002 5856 3569 ฉันต้องการสร้างคอลัมน์เพิ่มเติมสำหรับค่าของเซลล์เช่น 25041,40391,5856 เป็นต้นดังนั้นจะมีคอลัมน์ 25041 ที่มีค่าเป็น 1 หรือ 0 หาก …

3
เวกเตอร์สเปซโมเดลโคไซน์ tf-idf สำหรับค้นหาเอกสารที่คล้ายกัน
มีคลังเอกสารมากกว่าล้านฉบับ สำหรับเอกสารที่ต้องการต้องการค้นหาเอกสารที่คล้ายกันโดยใช้โคไซน์เหมือนกับในแบบจำลองเวกเตอร์สเปซ d1⋅d2/(||d1||||d2||)d1⋅d2/(||d1||||d2||)d_1 \cdot d_2 / ( ||d_1|| ||d_2|| ) TF ทั้งหมดได้รับการทำให้เป็นมาตรฐานโดยใช้ความถี่ที่เพิ่มขึ้นเพื่อป้องกันความเอนเอียงไปสู่เอกสารที่ยาวขึ้นดังเช่นในtf-idf นี้ : tf(t,d)=0.5+0.5f(t,d)max{f(t,d):t∈d}tf(t,d)=0.5+0.5f(t,d)max{f(t,d):t∈d}tf(t,d)=0.5+0.5\frac{f(t,d)}{\mathrm{max}\{f(t,d): t\in d\}} คำนวณล่วงหน้าทั้งหมด มีค่าสำหรับตัวหารคำนวณล่วงหน้า ดังนั้นสำหรับd 1 ที่ต้องการคะแนนมากกว่า 1 ล้านd 2 มีเกณฑ์ 0.6 โคไซน์สำหรับความคล้ายคลึงกัน ||d||||d||||d||d1d1d1d2d2d2 ฉันสามารถสังเกตได้ว่าสำหรับมีช่วงที่ค่อนข้างแคบของ| | d 2 | | สำหรับโคไซน์≥ 0.6 ตัวอย่างเช่นในการค้นหาเดียวสำหรับโคไซน์ของ≥ 0.6 และ a | | d 1 | | จาก 7.7631 จากนั้น| …

7
โครงการวิทยาศาสตร์ข้อมูลอธิบายทีละขั้นตอน?
ฉันกำลังมองหาเว็บไซต์หรือหนังสือที่มีตัวอย่างการปฏิบัติหลายขั้นตอนอธิบายวิธีการเลือกคุณสมบัติที่เกี่ยวข้องขั้นตอนการเลือกรุ่น ฯลฯ

3
สิ่งใดเร็วกว่า: PostgreSQL vs MongoDB บนชุดข้อมูล JSON ขนาดใหญ่
ฉันมีชุดข้อมูลขนาดใหญ่ที่มีวัตถุ JSON ขนาด 9m ที่แต่ละอันมีขนาดประมาณ 300 ไบต์ ข้อความเหล่านี้เป็นบทความจากตัวรวบรวมลิงก์: โดยทั่วไปลิงก์ (URL, ชื่อและรหัสผู้แต่ง) และความคิดเห็น (ข้อความและ ID ผู้เขียน) + ข้อมูลเมตา พวกเขาอาจเป็นระเบียนเชิงสัมพันธ์ได้ดีในตารางยกเว้นข้อเท็จจริงที่ว่าพวกเขามีเขตข้อมูลแถวเดียวที่มีรหัสที่ชี้ไปยังระเบียนลูก การใช้งานแบบใดที่ดูแข็งแกร่งกว่านี้? วัตถุ JSON ในฐานข้อมูล PostgreSQL (เพียงหนึ่งตารางขนาดใหญ่ที่มีหนึ่งคอลัมน์คือวัตถุ JSON) วัตถุ JSON บน MongoDB ระเบิดวัตถุ JSON เป็นคอลัมน์และใช้อาร์เรย์ใน PostgreSQL ฉันต้องการเพิ่มประสิทธิภาพการรวมสูงสุดดังนั้นฉันสามารถนวดข้อมูลและสำรวจจนกว่าฉันจะพบการวิเคราะห์ที่น่าสนใจ ณ จุดนี้ฉันคิดว่ามันจะเป็นการดีกว่าที่จะแปลงข้อมูลให้เป็นรูปแบบเฉพาะสำหรับการวิเคราะห์แต่ละครั้ง

4
วิธีการขูดหน้าเว็บ imdb?
ฉันพยายามเรียนรู้การขูดเว็บโดยใช้ Python ด้วยตนเองเป็นส่วนหนึ่งของความพยายามในการเรียนรู้การวิเคราะห์ข้อมูล ฉันพยายามขูดหน้าเว็บ imdb ซึ่งมี url ต่อไปนี้: http://www.imdb.com/search/title?sort=num_votes,desc&start=1&title_type=feature&year=1950,2012 ฉันกำลังใช้โมดูล BeautifulSoup ต่อไปนี้เป็นรหัสที่ฉันใช้: r = requests.get(url) # where url is the above url bs = BeautifulSoup(r.text) for movie in bs.findAll('td','title'): title = movie.find('a').contents[0] genres = movie.find('span','genre').findAll('a') genres = [g.contents[0] for g in genres] runtime = movie.find('span','runtime').contents[0] year = movie.find('span','year_type').contents[0] print title, …

1
สปาร์คแยก RDD เดี่ยวออกเป็นสองส่วนอย่างเหมาะสมที่สุด
ฉันมีชุดข้อมูลขนาดใหญ่ที่ฉันจำเป็นต้องแบ่งออกเป็นกลุ่มตามพารามิเตอร์เฉพาะ ฉันต้องการให้งานดำเนินการอย่างมีประสิทธิภาพมากที่สุด ฉันจินตนาการได้สองวิธี ตัวเลือกที่ 1 - สร้างแผนที่จาก RDD ดั้งเดิมและตัวกรอง def customMapper(record): if passesSomeTest(record): return (1,record) else: return (0,record) mappedRdd = rddIn.map(lambda x: customMapper(x)) rdd0 = mappedRdd.filter(lambda x: x[0]==0).cache() rdd1 = mappedRdd.filter(lambda x: x[1]==1).cache() ตัวเลือก 2 - กรอง RDD ดั้งเดิมโดยตรง def customFilter(record): return passesSomeTest(record) rdd0 = rddIn.filter(lambda x: customFilter(x)==False).cache() rdd1 = …

1
ป้ายกำกับหลายรายการในอัลกอริทึมการเรียนรู้แบบมีผู้สอน
ฉันมีคลังข้อความที่มีหัวข้อที่เกี่ยวข้อง ตัวอย่างและได้รับการระบุว่าเป็น"A rapper Tupac was shot in LA" ["celebrity", "murder"]ดังนั้นโดยทั่วไปคุณสมบัติแต่ละอย่างของเวกเตอร์สามารถมีป้ายกำกับได้หลายรายการ (ไม่เท่ากันเวกเตอร์คุณลักษณะแรกสามารถมีป้ายกำกับได้ 3 ป้ายคือที่สองที่ 1 ที่สามที่ 5) หากฉันมีป้ายกำกับที่ตรงกับแต่ละข้อความฉันจะลองใช้ตัวจําแนกNaive Bayesแต่ฉันไม่ทราบว่าฉันควรดําเนินการต่อไปได้อย่างไรหากฉันมีฉลากได้หลายป้าย มีวิธีใดที่จะเปลี่ยน Naive Bayes ให้เป็นปัญหาการจำแนกฉลากแบบหลายฉลาก (หากมีวิธีการที่ดีกว่า - โปรดแจ้งให้เราทราบ) PSบางสิ่งเกี่ยวกับข้อมูลที่ฉันมี ประมาณ 10.000 องค์ประกอบในชุดข้อมูล ข้อความประมาณ 2-3 ประโยค สูงสุด 7 ป้ายกำกับต่อข้อความ

2
ห้องสมุดสำหรับการเรียนรู้ของเครื่องออนไลน์
ฉันกำลังมองหาแพคเกจ (ทั้งในหลาม, R หรือแพคเกจแบบสแตนด์อโลน) เพื่อทำการเรียนรู้ออนไลน์เพื่อทำนายข้อมูลสต็อก ฉันได้พบและอ่านเกี่ยวกับ Vowpal Wabbit ( https://github.com/JohnLangford/vowpal_wabbit/wiki ) ซึ่งดูเหมือนว่าจะมีแนวโน้มมาก แต่ฉันสงสัยว่ามีแพ็กเกจอื่น ๆ ขอบคุณล่วงหน้า.

1
ไลบรารี่สำหรับ (อัลกอริธึมการแพร่กระจายฉลาก / การทำเหมืองกราฟย่อยบ่อย) สำหรับกราฟใน R
คำอธิบายทั่วไปของปัญหา ฉันมีกราฟที่จุดยอดบางจุดติดป้ายกำกับประเภทที่มีค่าที่เป็นไปได้ 3 หรือ 4 สำหรับจุดยอดอื่นไม่ทราบประเภท เป้าหมายของฉันคือการใช้กราฟเพื่อทำนายประเภทของจุดยอดที่ไม่มีป้ายกำกับ กรอบที่เป็นไปได้ ฉันสงสัยว่าสิ่งนี้เหมาะสมกับกรอบทั่วไปของปัญหาการแพร่กระจายของฉลากตามการอ่านวรรณกรรมของฉัน (เช่นดูบทความนี้และบทความนี้ ) อีกวิธีหนึ่งที่กล่าวถึงมักจะเป็นFrequent Subgraph Miningซึ่งรวมถึงขั้นตอนวิธีการเช่นSUBDUE, และSLEUTHgSpan พบใน R เพียงการดำเนินการขยายพันธุ์ฉลากฉันจัดการเพื่อหาRคือlabel.propagation.community()จากigraphห้องสมุด อย่างไรก็ตามตามชื่อที่แนะนำส่วนใหญ่จะใช้เพื่อค้นหาชุมชนไม่ใช่สำหรับการจำแนกจุดยอดที่ไม่มีป้ายกำกับ ดูเหมือนว่าจะมีการอ้างอิงหลายรายการไปยังsubgraphMiningห้องสมุด (ตัวอย่างเช่นที่นี่) แต่ดูเหมือนว่ามันจะหายไปจาก CRAN คำถาม คุณรู้จักห้องสมุดหรือกรอบงานที่อธิบายไว้หรือไม่?

3
การวิเคราะห์ไฟล์บันทึก: การแยกส่วนข้อมูลจากส่วนค่า
ฉันกำลังพยายามสร้างชุดข้อมูลในไฟล์บันทึกต่างๆของหนึ่งในผลิตภัณฑ์ของเรา ล็อกไฟล์ต่าง ๆ มีเลย์เอาต์และเนื้อหาของตัวเอง ฉันจัดกลุ่มพวกเขาเข้าด้วยกันสำเร็จเหลือเพียงขั้นตอนเดียว ... อันที่จริงบันทึก "ข้อความ" เป็นข้อมูลที่ดีที่สุด ฉันไม่มีรายการที่ครอบคลุมของข้อความเหล่านั้นทั้งหมดและเป็นความคิดที่ดีที่จะใช้รหัสยากเนื่องจากข้อความเหล่านั้นสามารถเปลี่ยนแปลงได้ทุกวัน สิ่งที่ฉันต้องการจะทำคือการแยกข้อความการเยื้องออกจากข้อความค่า (ตัวอย่าง: "ไฟล์ Loaded XXX" กลายเป็น (รหัส: "ไฟล์ Loaded", ค่า: "XXX")) น่าเสียดายที่ตัวอย่างนี้ง่ายและในโลกแห่งความจริงมีเค้าโครงที่แตกต่างกันและบางครั้งมีหลายค่า ฉันคิดว่าจะใช้เมล็ดสตริง แต่มันมีไว้สำหรับการรวมกลุ่ม ... และการรวมกลุ่มไม่สามารถใช้งานได้ที่นี่ (ฉันไม่ทราบจำนวนข้อความและประเภทที่แตกต่างกันแม้ว่ามันจะมากเกินไป) คุณมีความคิดใด ๆ ขอบคุณสำหรับความช่วยเหลือของคุณ. PS: สำหรับผู้ที่โปรแกรมนี้สามารถเข้าใจได้ง่ายขึ้น สมมติว่ารหัสประกอบด้วยไฟล์บันทึก printf ("blabla% s", "xxx") -> ฉันต้องการมี "blabla" และ "xxx" แยกกัน

2
Scalable Outlier / Anomaly Detection
ฉันกำลังพยายามติดตั้งโครงสร้างพื้นฐานข้อมูลขนาดใหญ่โดยใช้ Hadoop, Hive, Elastic Search (รวมถึงอื่น ๆ ) และฉันต้องการเรียกใช้อัลกอริทึมบางอย่างกับชุดข้อมูลบางชุด ฉันต้องการอัลกอริทึมที่สามารถปรับขนาดได้ดังนั้นสิ่งนี้ไม่รวมการใช้เครื่องมือเช่น Weka, R หรือ RHadoop ควาญช้างห้องสมุด Apacheน่าจะเป็นตัวเลือกที่ดีและมันมีขั้นตอนวิธีการสำหรับงานที่ถดถอยและการจัดกลุ่ม สิ่งที่ฉันดิ้นรนเพื่อค้นหาเป็นวิธีการตรวจหาความผิดปกติหรือผิดปกติ เนื่องจาก Mahout นำเสนอ Hidden Markov Models และเทคนิคการจัดกลุ่มที่หลากหลาย (รวมถึง K-Means) ฉันสงสัยว่ามันจะเป็นไปได้ไหมที่จะสร้างแบบจำลองเพื่อตรวจจับค่าผิดปกติในอนุกรมเวลาโดยใช้สิ่งนี้ ฉันจะขอบคุณถ้าใครมีประสบการณ์เกี่ยวกับเรื่องนี้สามารถแนะนำฉัน ถ้าเป็นไปได้และในกรณีที่เป็น วิธีการทำรวมทั้ง การประเมินความพยายามที่เกี่ยวข้องและ ความแม่นยำ / ปัญหาของวิธีนี้

2
การใช้ความแตกต่างชั่วคราวในหมากรุก
ฉันได้พัฒนาโปรแกรมหมากรุกซึ่งใช้อัลกอริทึมการตัดอัลฟ่าเบต้าและฟังก์ชั่นการประเมินที่ประเมินตำแหน่งโดยใช้คุณสมบัติดังต่อไปนี้คือวัสดุความเป็นกษัตริย์ความปลอดภัยคล่องตัวโครงสร้างจำนำและชิ้นส่วนที่ติดอยู่ ฯลฯ ..... มาจาก ฉ( p ) = w1⋅ วัสดุ+ w2⋅ kingsafety + W3⋅ ความคล่องตัว+ w4awn pawn-structure + w5⋅ ชิ้นที่ติดอยู่f(p)=w1⋅material+w2⋅kingsafety+w3⋅mobility+w4⋅pawn-structure+w5⋅trapped piecesf(p) = w_1 \cdot \text{material} + w_2 \cdot \text{kingsafety} + w_3 \cdot \text{mobility} + w_4 \cdot \text{pawn-structure} + w_5 \cdot \text{trapped pieces} โดยที่คือน้ำหนักที่กำหนดให้กับแต่ละคุณสมบัติ ณ จุดนี้ฉันต้องการปรับน้ำหนักของฟังก์ชั่นการประเมินของฉันโดยใช้ความแตกต่างชั่วคราวที่ตัวแทนเล่นกับตัวเองและในกระบวนการรวบรวมข้อมูลการฝึกอบรมจากสภาพแวดล้อมของมัน (ซึ่งเป็นรูปแบบของการเรียนรู้การเสริมแรง) ฉันได้อ่านหนังสือและบทความบางอย่างเพื่อให้เข้าใจอย่างลึกซึ้งเกี่ยวกับวิธีการใช้งานใน Java แต่ดูเหมือนว่าพวกเขาจะใช้ทฤษฎีมากกว่าการใช้งานจริง ฉันต้องการคำอธิบายโดยละเอียดและรหัสหลอกเกี่ยวกับวิธีการปรับน้ำหนักของฟังก์ชั่นการประเมินของฉันโดยอัตโนมัติตามเกมก่อนหน้าWww

2
แยกสตริงที่ยอมรับจากรายการของสตริงที่มีเสียงดัง
ฉันมีหลายพันรายการของสตริงและแต่ละรายการมีประมาณ 10 สาย สตริงส่วนใหญ่ในรายการที่กำหนดจะคล้ายกันมากแม้ว่าบางสตริงจะไม่ค่อยเกี่ยวข้องกับสตริงอื่นและบางคำมีคำที่ไม่เกี่ยวข้อง พวกเขาอาจถูกพิจารณาว่าเป็นความแปรปรวนของสตริงที่ยอมรับได้ ฉันกำลังมองหาอัลกอริทึมหรือไลบรารีที่จะแปลงแต่ละรายการเป็นสตริงที่ยอมรับได้ นี่คือหนึ่งในรายการดังกล่าว Star Wars: Episode IV ความหวังใหม่ StarWars.com Star Wars Episode IV - ความหวังใหม่ (1977) Star Wars: Episode IV - ความหวังใหม่ - มะเขือเทศเน่า ดู Star Wars: Episode IV - ความหวังใหม่ออนไลน์ฟรี Star Wars (1977) - ภาพยนตร์ยอดเยี่ยม [REC] โปสเตอร์ 4 ใบรับประกันความตายโดย Outboard Motor - SciFiNow สำหรับรายการนี้สตริงใด ๆ …

4
ทำไมรุ่นหลายรุ่นอาจให้ผลลัพธ์ที่เหมือนกันเกือบ
ฉันวิเคราะห์ชุดข้อมูลของระเบียน ~ 400k และ 9 ตัวแปรตัวแปรตามเป็นไบนารี ฉันได้ติดตั้งการถดถอยแบบลอจิสติกต้นไม้การถดถอยแบบสุ่มป่าและต้นไม้แบบไล่ระดับสี พวกเขาทั้งหมดให้ความพอดีเหมือนกันของตัวเลขพอดีเมื่อฉันตรวจสอบพวกเขาในชุดข้อมูลอื่น ทำไมเป็นเช่นนี้ ฉันเดาว่าเป็นเพราะการสังเกตอัตราส่วนแปรปรวนของฉันสูงมาก หากสิ่งนี้ถูกต้องตัวแบบที่แตกต่างกันที่การสังเกตอัตราส่วนจะเริ่มให้ผลที่แตกต่างกันหรือไม่

4
ฉันควรใช้ขั้นตอนเริ่มต้นใดเพื่อให้เข้าใจถึงชุดข้อมูลขนาดใหญ่และฉันควรใช้เครื่องมือใด
Caveat: ฉันเป็นผู้เริ่มต้นที่สมบูรณ์เมื่อพูดถึงการเรียนรู้ด้วยเครื่องจักร แต่กระตือรือร้นที่จะเรียนรู้ ฉันมีชุดข้อมูลขนาดใหญ่และฉันพยายามค้นหารูปแบบในนั้น อาจมี / อาจไม่มีความสัมพันธ์ข้ามข้อมูลไม่ว่าจะเป็นตัวแปรที่รู้จักหรือตัวแปรที่มีอยู่ในข้อมูล แต่ที่ฉันยังไม่ได้ตระหนักคือตัวแปร / เกี่ยวข้องจริง ๆ ฉันเดาว่านี่จะเป็นปัญหาที่คุ้นเคยในโลกของการวิเคราะห์ข้อมูลดังนั้นฉันจึงมีคำถามสองสามข้อ: 'กระสุนเงิน' จะทำให้ข้อมูลทั้งหมดนี้เป็นโปรแกรมวิเคราะห์สถิติ / ข้อมูลและเพื่อบีบอัดข้อมูลที่มองหารูปแบบที่เป็นที่รู้จัก / ไม่รู้จักซึ่งพยายามค้นหาความสัมพันธ์ SPSS เหมาะสมหรือมีแอปพลิเคชันอื่นซึ่งอาจเหมาะสมกว่า ฉันควรเรียนรู้ภาษาเช่น R และหาวิธีการประมวลผลข้อมูลด้วยตนเอง สิ่งนี้จะไม่ประกอบด้วยการค้นหาความสัมพันธ์เพราะฉันจะต้องระบุสิ่งที่และวิธีการวิเคราะห์ข้อมูลด้วยตนเอง? นักขุดข้อมูลมืออาชีพจะเข้าถึงปัญหานี้ได้อย่างไรและขั้นตอนใดที่เขา / เธอต้องทำ?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.