วิทยาศาสตร์ข้อมูล

ถามตอบสำหรับผู้เชี่ยวชาญด้านข้อมูลวิทยาศาสตร์ผู้เชี่ยวชาญด้านการเรียนรู้ของเครื่องจักรและผู้ที่สนใจเรียนรู้เพิ่มเติมเกี่ยวกับสาขานี้

4
อัลกอริทึมสำหรับสร้างกฎการจำแนกประเภท
ดังนั้นเราจึงมีศักยภาพสำหรับแอปพลิเคชันการเรียนรู้ของเครื่องที่เหมาะสมอย่างเป็นธรรมกับโดเมนปัญหาดั้งเดิมที่แก้ไขโดยตัวแยกประเภทคือเรามีชุดของคุณลักษณะที่อธิบายรายการและ "ถัง" ที่พวกเขาลงเอยอย่างไรก็ตามแทนที่จะสร้างแบบจำลอง ของความน่าจะเป็นเช่น Naive Bayes หรือตัวแยกประเภทที่คล้ายกันเราต้องการให้ผลลัพธ์ของเราเป็นชุดของกฎที่มนุษย์สามารถอ่านได้ซึ่งสามารถตรวจสอบและแก้ไขได้โดยผู้ใช้ปลายทาง การเรียนรู้กฎของสมาคมดูเหมือนว่าตระกูลของอัลกอริทึมที่แก้ปัญหาประเภทนี้ แต่อัลกอริธึมเหล่านี้ดูเหมือนจะมุ่งเน้นไปที่การระบุชุดค่าผสมทั่วไปของคุณลักษณะและไม่รวมแนวคิดของที่เก็บข้อมูลสุดท้ายที่คุณลักษณะเหล่านั้นอาจชี้ไป ตัวอย่างเช่นชุดข้อมูลของเรามีลักษณะดังนี้: Item A { 4-door, small, steel } => { sedan } Item B { 2-door, big, steel } => { truck } Item C { 2-door, small, steel } => { coupe } ฉันแค่ต้องการกฎที่บอกว่า "ถ้ามันใหญ่และ 2 ประตูเป็นรถบรรทุก" ไม่ใช่กฎที่บอกว่า "ถ้าเป็น 4 …

2
การออกกลางคันของ LSTM ชั้นใด
ควรใช้หลายชั้นLSTMพร้อมกับดรอปเอาท์หรือไม่แนะนำให้วางออกกลางคันบนเลเยอร์ที่ซ่อนอยู่ทั้งหมดรวมถึงเอาท์พุทเลเยอร์หนาแน่น ในกระดาษของฮินตัน (ซึ่งเสนอให้ออกกลางคัน) เขาแค่วางกลางคันลงบนชั้นที่หนาแน่นเท่านั้น แต่นั่นเป็นเพราะชั้นในที่ซ่อนอยู่นั้นเป็นรูปธรรม เห็นได้ชัดว่าฉันสามารถทดสอบรูปแบบเฉพาะของฉัน แต่ฉันสงสัยว่ามีฉันทามติเกี่ยวกับเรื่องนี้หรือไม่?

1
วิธีใช้ Scikit-Learn การเผยแพร่ฉลากบนข้อมูลที่มีโครงสร้างของกราฟ
เป็นส่วนหนึ่งของการวิจัยของฉันฉันสนใจที่จะทำการเผยแพร่ฉลากบนกราฟ ฉันสนใจวิธีการทั้งสองนี้เป็นพิเศษ: เซี่ยวจินจู้และซู่บิน Ghahramani เรียนรู้จากข้อมูลที่ติดป้ายกำกับและไม่มีป้ายกำกับด้วยการเผยแพร่ฉลาก รายงานทางเทคนิค CMU-CALD-02-107, Carnegie Mellon University, 2002 http://pages.cs.wisc.edu/~jerryzhu/pub/CMU-CALD-02-107.pdf Dengyong Zhou, Olivier Bousquet, Thomas Navin Lal, Jason Weston, Bernhard Schoelkopf การเรียนรู้ด้วยความสอดคล้องระดับท้องถิ่นและระดับโลก (2004) http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.115.3219 ฉันเห็นว่า scikit เรียนรู้นำเสนอรูปแบบการทำเช่นนั้น อย่างไรก็ตามโมเดลนี้ควรใช้กับข้อมูลที่มีโครงสร้างแบบเวกเตอร์ ( เช่นจุดข้อมูล) โมเดลสร้างเมทริกซ์ความสัมพันธ์จากจุดข้อมูลโดยใช้เคอร์เนลจากนั้นเรียกใช้อัลกอริทึมบนเมทริกที่สร้างขึ้น ฉันต้องการที่จะป้อนเมทริกซ์ adjacency โดยตรงของกราฟของฉันแทนเมทริกซ์ความเหมือนกัน มีความคิดเกี่ยวกับวิธีการบรรลุผลนั้น หรือคุณรู้จักห้องสมุด Python ใด ๆ ที่จะอนุญาตให้เรียกใช้การเผยแพร่ฉลากโดยตรงบนข้อมูลโครงสร้างของกราฟสำหรับสองวิธีดังกล่าวข้างต้น ขอบคุณล่วงหน้าสำหรับความช่วยเหลือของ!

5
การแบ่งส่วนภาพที่ไม่ได้รับอนุญาต
ฉันพยายามที่จะใช้อัลกอริทึมที่ให้ภาพกับวัตถุต่าง ๆ บนตารางระนาบที่ต้องการคือผลลัพธ์ของรูปแบบการแบ่งส่วนสำหรับแต่ละวัตถุ แตกต่างจากของ CNN จุดประสงค์ที่นี่คือการตรวจจับวัตถุในสภาพแวดล้อมที่ไม่คุ้นเคย อะไรคือแนวทางที่ดีที่สุดในการแก้ไขปัญหานี้? นอกจากนี้ยังมีตัวอย่างการนำไปใช้งานทางออนไลน์หรือไม่ แก้ไข: ฉันขอโทษคำถามอาจทำให้เข้าใจผิดเล็กน้อย สิ่งที่ฉันหมายถึงโดย "สภาพแวดล้อมที่ไม่คุ้นเคย" คืออัลกอริทึมอาจไม่เป็นที่รู้จัก อัลกอริทึมไม่จำเป็นต้องเข้าใจว่าวัตถุคืออะไร แต่ควรตรวจจับวัตถุเท่านั้น ฉันจะแก้ไขปัญหานี้ได้อย่างไร

3
อะไรคือความแตกต่างระหว่าง vectorizer hashing และ Vectorizer tfidf
ฉันกำลังแปลงคลังข้อความเอกสารเป็นคำเวกเตอร์สำหรับแต่ละเอกสาร ฉันได้ลองแล้วโดยใช้TfidfVectorizerและHashingVectorizer ผมเข้าใจว่าHashingVectorizerไม่คำนึงถึงIDFคะแนนเหมือนTfidfVectorizerไม่ เหตุผลที่ฉันยังคงทำงานร่วมกับผู้HashingVectorizerที่มีความยืดหยุ่นจะช่วยให้ขณะที่การจัดการกับชุดข้อมูลขนาดใหญ่ตามที่อธิบายไว้ที่นี่และที่นี่ (ชุดข้อมูลดั้งเดิมของฉันมีเอกสาร 30 ล้านฉบับ) ขณะนี้ฉันทำงานกับกลุ่มตัวอย่าง 45,339 เอกสารดังนั้นผมมีความสามารถในการทำงานด้วยTfidfVectorizerนอกจากนี้ยังมี เมื่อฉันใช้ vectorizers สองตัวนี้บนเอกสาร 45339 เดียวกันเมทริกซ์ที่ฉันได้รับนั้นแตกต่างกัน hashing = HashingVectorizer() with LSM('corpus.db')) as corpus: hashing_matrix = hashing.fit_transform(corpus) print(hashing_matrix.shape) hashing เมทริกซ์รูปร่าง (45339, 1048576) tfidf = TfidfVectorizer() with LSM('corpus.db')) as corpus: tfidf_matrix = tfidf.fit_transform(corpus) print(tfidf_matrix.shape) รูปร่างเมทริกซ์ tfidf (45339, 663307) ฉันต้องการเข้าใจความแตกต่างระหว่าง a HashingVectorizerและ a TfidfVectorizerและเหตุผลที่เมทริกซ์เหล่านี้มีขนาดต่างกันโดยเฉพาะในจำนวนคำ …

1
ทำให้ Keras ทำงานบนระบบซีพียูมัลติคอร์หลายเครื่อง
ฉันกำลังทำงานกับโมเดล Seq2Seqโดยใช้ LSTM จาก Keras (โดยใช้พื้นหลัง Theano) และฉันต้องการที่จะทำให้กระบวนการเป็นคู่ขนานกันเพราะแม้แต่ข้อมูลไม่กี่ MB ก็ต้องใช้เวลาฝึกอบรมหลายชั่วโมง เป็นที่ชัดเจนว่า GPU นั้นดีกว่าในการขนานมากกว่า CPU ในขณะนี้ฉันมี CPU เท่านั้นที่จะทำงานได้ ฉันสามารถเข้าถึง 16 CPUs (2 เธรดต่อคอร์ X 4 คอร์ต่อซ็อกเก็ต X 2 ซ็อกเก็ต) จากเอกสารของการสนับสนุนมัลติคอร์ใน Theano ฉันจัดการเพื่อใช้ทั้งสี่คอร์ของซ็อกเก็ตเดียว ดังนั้นโดยทั่วไปซีพียูจะใช้งานที่ 400% เมื่อใช้ 4CPU และส่วนที่เหลืออีก 12 CPU ก็ยังไม่ได้ใช้งาน ฉันจะใช้ประโยชน์จากพวกเขาได้อย่างไร Tensorflow สามารถใช้แทนพื้นหลัง Theano ได้หากใช้งานได้

3
โครงข่ายประสาทเทียม - ความสัมพันธ์ระหว่างการสูญเสียและความแม่นยำ
ฉันสับสนเล็กน้อยจากการอยู่ร่วมกันของการวัดผลการสูญเสียและความแม่นยำในเครือข่ายประสาท ทั้งสองควรจะทำให้ "ความแน่นอน" ของการเปรียบเทียบของและใช่มั้ย ดังนั้นการประยุกต์ใช้สองซ้ำซ้อนในการฝึกอบรมไม่ใช่หรือ ยิ่งกว่านั้นทำไมพวกเขาถึงไม่สัมพันธ์กันyyyYy^y^\hat{y}

3
TensorFlow เป็นห้องสมุดการเรียนรู้ของเครื่องที่สมบูรณ์หรือไม่
ฉันใหม่สำหรับTensorFlowและฉันต้องเข้าใจความสามารถและข้อบกพร่องของ TensorFlow ก่อนที่ฉันจะสามารถใช้งานได้ ฉันรู้ว่ามันเป็นกรอบการเรียนรู้อย่างลึกซึ้ง แต่นอกเหนือจากสิ่งที่เราสามารถใช้อัลกอริธึมการเรียนรู้เครื่องจักรอื่น ๆ กับการไหลของเมตริกซ์ ตัวอย่างเช่นเราสามารถใช้ SVM หรือฟอเรสต์แบบสุ่มโดยใช้ TensorFlow ได้หรือไม่ (ฉันรู้ว่ามันฟังดูบ้า) ในระยะสั้นฉันต้องการทราบว่า TensorFlow สนับสนุนอัลกอริทึมการเรียนรู้ใด มันเป็นแค่การเรียนรู้อย่างลึกซึ้งหรืออะไรมากกว่านั้น?

2
คำถามเกี่ยวกับอคติในเครือข่าย Convolutional
ฉันกำลังพยายามหาจำนวนและความเอนเอียงที่จำเป็นสำหรับซีเอ็นเอ็น บอกว่าฉันมี (3, 32, 32) - ภาพและต้องการใช้ (32, 5, 5) - ตัวกรอง สำหรับแต่ละคุณลักษณะแผนที่ฉันมีน้ำหนัก 5x5 ดังนั้นฉันควรมีพารามิเตอร์ 3 x (5x5) x 32 ตอนนี้ฉันต้องเพิ่มอคติ ฉันเชื่อว่าฉันมีพารามิเตอร์ (3 x (5x5) + 1) x 32 เท่านั้นอคติเหมือนกันในทุกสี (RGB) หรือไม่ ถูกต้องหรือไม่ ฉันจะรักษาความลำเอียงที่เหมือนกันของแต่ละภาพในเชิงลึก (ในกรณีนี้ 3) ในขณะที่ฉันใช้น้ำหนักที่แตกต่างกันหรือไม่ ทำไมถึงเป็นอย่างนั้น?

4
อันไหนที่แรก: การเปรียบเทียบอัลกอริทึม, การเลือกคุณสมบัติ, การปรับพารามิเตอร์?
เมื่อพยายามที่จะทำเช่นการจัดหมวดหมู่วิธีการของฉันในปัจจุบันคือการ ลองใช้อัลกอริทึมต่าง ๆ ก่อนแล้วทำการเปรียบเทียบ ดำเนินการเลือกคุณสมบัติของอัลกอริทึมที่ดีที่สุดจากด้านบน 1 ปรับพารามิเตอร์โดยใช้คุณสมบัติและอัลกอริทึมที่เลือก อย่างไรก็ตามฉันมักไม่สามารถโน้มน้าวตัวเองได้ว่าอาจมีอัลกอริทึมที่ดีกว่าถ้าเลือกอัลกอริธึมอื่น ๆ ด้วยพารามิเตอร์ที่ดีที่สุด / คุณสมบัติที่เหมาะสมที่สุด ในเวลาเดียวกันการค้นหาคุณสมบัติอัลกอริทึม * พารามิเตอร์ * ทั้งหมดใช้เวลานานเกินไป มีข้อเสนอแนะเกี่ยวกับวิธีการ / ลำดับที่ถูกต้องหรือไม่?

3
ต้นไม้ถดถอยสามารถทำนายได้อย่างต่อเนื่องหรือไม่?
สมมติว่าฉันมีฟังก์ชั่นได้อย่างราบรื่นเช่น 2 ฉันมีชุดการฝึกอบรมD \ subsetneq \ {((x, y), f (x, y)) | (x, y) \ in \ mathbb {R} ^ 2 \}และแน่นอนฉันไม่รู้fถึงแม้ว่าฉันสามารถประเมินfทุกที่ที่ฉันต้องการฉ( x , y) = x2+ y2ฉ(x,Y)=x2+Y2f(x, y) = x^2+y^2D ⊊ { ( ( x , y) , ฉ( x , y) ) | ( x , y) ∈ …

2
วิธีการแปลงข้อมูลเด็ดขาดเป็นข้อมูลตัวเลขใน Pyspark
ฉันกำลังใช้สมุดบันทึก Ipython เพื่อทำงานกับแอปพลิเคชัน pyspark ฉันมีไฟล์ CSV ที่มีคอลัมน์หมวดหมู่มากมายเพื่อพิจารณาว่ารายได้อยู่ในช่วงหรือมากกว่า 50k ฉันต้องการดำเนินการอัลกอริทึมการจำแนกโดยใช้อินพุตทั้งหมดเพื่อกำหนดช่วงรายได้ ฉันต้องสร้างพจนานุกรมของตัวแปรเพื่อทำแผนที่ตัวแปรและใช้ฟังก์ชั่นแผนที่เพื่อแมปตัวแปรกับตัวเลขสำหรับการประมวลผล โดยพื้นฐานแล้วฉันต้องการให้ชุดข้อมูลของฉันอยู่ในรูปแบบตัวเลขเพื่อให้ฉันสามารถใช้งานโมเดลได้ ในชุดข้อมูลมีคอลัมน์หมวดหมู่เช่นการศึกษาสถานภาพการทำงาน ฯลฯ มีคนบอกวิธีแปลงเป็นคอลัมน์ตัวเลขใน pyspark ได้ไหม workclass = {'?':0,'Federal-gov':1,'Local-gov':2,'Never- worked':3,'Private':4,'Self-emp-inc':5,'Self-emp-not-inc':6,'State-gov':7,'Without-pay':8} ฉันสร้างพจนานุกรมตัวอย่างพร้อมคู่ค่าคีย์สำหรับคลาสงาน แต่ฉันไม่รู้วิธีใช้สิ่งนี้ในฟังก์ชั่นแผนที่และแทนที่ข้อมูลหมวดหมู่ในไฟล์ CSV ด้วยค่าที่สอดคล้องกัน wc = pd.read_csv('PATH', usecols = ['Workclass']) df = pd.DataFrame(wc) wcdict = {' ?':0,' Federal-gov':1,' Local-gov':2,' Never-worked':3,' Private':4,' Self-emp-inc':5,' Self-emp-n-inc':6,' State-gov':7,' Without-pay':8} df_new = df.applymap(lambda s: wcdict.get(s) …

2
ผลที่ตามมาของการปรับขนาดคุณสมบัติ
ขณะนี้ฉันใช้ SVM และปรับขนาดคุณสมบัติการฝึกอบรมของฉันให้อยู่ในช่วง [0,1] ฉันพอดีแรก / เปลี่ยนชุดฝึกอบรมของฉันและจากนั้นให้ใช้เดียวกันการเปลี่ยนแปลงการตั้งค่าการทดสอบของฉัน ตัวอย่างเช่น: ### Configure transformation and apply to training set min_max_scaler = MinMaxScaler(feature_range=(0, 1)) X_train = min_max_scaler.fit_transform(X_train) ### Perform transformation on testing set X_test = min_max_scaler.transform(X_test) สมมติว่าคุณลักษณะที่กำหนดในชุดการฝึกอบรมมีช่วง [0,100] และคุณลักษณะเดียวกันในชุดการทดสอบมีช่วง [-10,120] ในชุดการฝึกอบรมนั้นจะมีการปรับขนาดให้เหมาะสมกับ [0,1] ในขณะที่ชุดการทดสอบนั้นจะถูกปรับขนาดให้อยู่ในช่วงนอกช่วงที่ระบุไว้ครั้งแรกเช่น [-0.1,1.2] ฉันสงสัยว่าผลลัพธ์ของคุณลักษณะชุดการทดสอบนั้นอยู่นอกขอบเขตของสิ่งที่ใช้ในการฝึกอบรมโมเดลนั้นอย่างไร นี่เป็นปัญหาหรือไม่?

4
การใช้การทำคลัสเตอร์ในการประมวลผลข้อความ
สวัสดีนี่เป็นคำถามแรกของฉันใน Data Science stack ฉันต้องการสร้างอัลกอริทึมสำหรับการจำแนกข้อความ สมมติว่าฉันมีชุดข้อความและบทความจำนวนมาก ให้พูดประมาณ 5,000 ข้อความธรรมดา ฉันแรกใช้ฟังก์ชั่นง่าย ๆ เพื่อกำหนดความถี่ของคำทั้งสี่และข้างบน จากนั้นฉันใช้สิ่งนี้เป็นคุณสมบัติของตัวอย่างการฝึกอบรมแต่ละตัวอย่าง ตอนนี้ฉันต้องการให้อัลกอริทึมของฉันสามารถจัดกลุ่มชุดการฝึกอบรมตามคุณสมบัติของพวกเขาซึ่งนี่คือความถี่ของแต่ละคำในบทความ (โปรดทราบว่าในตัวอย่างนี้แต่ละบทความจะมีคุณลักษณะเฉพาะของตนเองเนื่องจากแต่ละบทความมีคุณสมบัติที่แตกต่างกันเช่นบทความมี 10 "น้ำและ 23" บริสุทธิ์ "และอีกบทความหนึ่งมี 8" การเมือง "และ 14" อำนาจ ") คุณช่วยแนะนำขั้นตอนวิธีการจัดกลุ่มที่ดีที่สุดสำหรับตัวอย่างนี้ได้ไหม

3
การถดถอยแบบใดที่ใช้ในการคำนวณผลการเลือกตั้งในระบบหลายส่วน?
ฉันต้องการทำนายผลการเลือกตั้งรัฐสภา ผลลัพธ์ของฉันจะเป็น% ที่แต่ละฝ่ายได้รับ มีมากกว่า 2 ฝ่ายดังนั้นการถดถอยโลจิสติกจึงไม่ใช่ตัวเลือกที่เหมาะสม ฉันสามารถสร้างความถดถอยแยกกันสำหรับแต่ละฝ่าย แต่ในกรณีนั้นผลลัพธ์จะเป็นไปอย่างอิสระจากกัน มันจะไม่แน่ใจว่าผลรวมของผลลัพธ์จะเป็น 100% ฉันควรใช้การถดถอยแบบใด (หรือวิธีการอื่น) เป็นไปได้หรือไม่ที่จะใช้วิธีนี้ใน R หรือ Python ผ่านไลบรารี่เฉพาะ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.