วิทยาศาสตร์ข้อมูล

ถามตอบสำหรับผู้เชี่ยวชาญด้านข้อมูลวิทยาศาสตร์ผู้เชี่ยวชาญด้านการเรียนรู้ของเครื่องจักรและผู้ที่สนใจเรียนรู้เพิ่มเติมเกี่ยวกับสาขานี้

3
ทำนายเวลาที่ดีที่สุดในการโทร
ฉันมีชุดข้อมูลรวมถึงชุดลูกค้าในเมืองต่าง ๆ ของรัฐแคลิฟอร์เนียเวลาที่โทรหาลูกค้าแต่ละรายและสถานะการโทร (จริงถ้าลูกค้ารับสายและเท็จถ้าลูกค้าไม่รับสาย) ฉันต้องหาเวลาที่เหมาะสมในการโทรหาลูกค้าในอนาคตเพื่อให้โอกาสในการตอบรับสูง ดังนั้นกลยุทธ์ที่ดีที่สุดสำหรับปัญหานี้คืออะไร ฉันควรพิจารณาว่าเป็นปัญหาการจำแนกซึ่งชั่วโมง (0,1,2, ... 23) เป็นชั้นเรียนหรือไม่ หรือฉันควรพิจารณาว่าเป็นงานการถดถอยซึ่งเวลาเป็นตัวแปรต่อเนื่องหรือไม่ ฉันจะแน่ใจได้อย่างไรว่าความน่าจะเป็นที่จะรับสายจะสูง ความช่วยเหลือใด ๆ ที่จะได้รับการชื่นชม มันจะดีมากถ้าคุณอ้างอิงถึงปัญหาที่คล้ายกัน ด้านล่างนี้เป็นภาพรวมของข้อมูล

3
วิธีการส่งออกเซลล์หนึ่งของโน้ตบุ๊ก jupyter
ฉันกำลังทำงาน / สร้างต้นแบบในสมุดบันทึกJupyter ฉันต้องการเรียกใช้โค้ดบางส่วนบนเชลล์iPythonแบบสแตนด์อโลน ตอนนี้ฉันส่งออกรหัสiPythonของฉัน(ไฟล์ -> ดาวน์โหลดเป็น) จากนั้นเรียกใช้งานในiPythonของฉัน(ด้วย% run) ใช้งานได้ แต่ฉันต้องการส่งออกเซลล์เดียวหรือชุดเซลล์ ดังนั้นฉันสามารถทำงานได้เฉพาะสิ่งที่ฉันแก้ไขในสมุดบันทึกJupyterของฉัน
10 ipython  jupyter 

2
วิธีปรับมาตรฐานข้อมูลสำหรับโครงข่ายประสาทและฟอเรสต์ตัดสินใจ
ฉันมีชุดข้อมูลที่มี 20,000 ตัวอย่างแต่ละตัวมีคุณสมบัติที่แตกต่างกัน 12 แบบ ตัวอย่างแต่ละตัวอย่างเป็นหมวดหมู่ 0 หรือ 1 ฉันต้องการฝึกโครงข่ายประสาทและกลุ่มฟอเรสต์ตัดสินใจจัดกลุ่มตัวอย่างเพื่อให้ฉันสามารถเปรียบเทียบผลลัพธ์และเทคนิคทั้งสองได้ สิ่งแรกที่ฉันสะดุดคือการฟื้นฟูข้อมูลที่เหมาะสม คุณลักษณะหนึ่งอยู่ในช่วงอีกคุณลักษณะหนึ่งในและมีคุณลักษณะหนึ่งที่ใช้ค่า 8 และบางครั้งส่วนใหญ่ 7 ดังนั้นเมื่อฉันอ่านในแหล่งที่แตกต่างกัน ข้อมูลเป็นสิ่งสำคัญสำหรับเครือข่ายประสาท ดังที่ฉันค้นพบมีวิธีที่เป็นไปได้มากมายในการทำให้ข้อมูลเป็นมาตรฐานเช่น:[0,106][0,106][0,10^6][30,40][30,40][30,40] การปรับสภาพให้ต่ำสุด - สูงสุด : ช่วงอินพุตจะถูกแปลงเชิงเส้นเป็นช่วง (หรืออีกทางหนึ่งมีความสำคัญหรือไม่?)[0,1][0,1][0,1][−1,1][−1,1][-1,1] การทำให้เป็นมาตรฐานของ Z : ข้อมูลถูกแปลงให้มีค่าเฉลี่ยศูนย์และความแปรปรวนของหน่วย: ynew=yold−meanVar−−−√ynew=yold−meanVary_{new}=\frac{y_{old}-\text{mean}}{\sqrt{\text{Var}}} ฉันควรเลือกบรรทัดฐานใด การฟื้นฟูสภาพป่าเป็นสิ่งจำเป็นสำหรับการตัดสินใจด้วยหรือไม่? ด้วยการทำให้เป็นมาตรฐาน Z คะแนนคุณสมบัติที่แตกต่างของข้อมูลการทดสอบของฉันไม่ได้อยู่ในช่วงเดียวกัน นี่อาจเป็นปัญหาหรือไม่? คุณสมบัติทุกอย่างควรทำให้เป็นมาตรฐานด้วยอัลกอริทึมเดียวกันดังนั้นฉันจึงตัดสินใจใช้ Min-Max สำหรับคุณสมบัติทั้งหมดหรือ Z-Score สำหรับคุณสมบัติทั้งหมด มีการรวมกันที่ข้อมูลถูกแมปไปที่และยังมีค่าเฉลี่ยเป็นศูนย์ (ซึ่งจะบอกเป็นนัยถึงการแปลงแบบไม่เป็นเชิงเส้นของข้อมูลและด้วยเหตุนี้การเปลี่ยนแปลงในความแปรปรวนและคุณสมบัติอื่น ๆ ของข้อมูลอินพุต)[−1,1][−1,1][-1,1] ฉันรู้สึกว่าหายไปเล็กน้อยเพราะฉันไม่สามารถหาข้อมูลอ้างอิงที่ตอบคำถามเหล่านี้ได้

2
Relu มีการไล่ระดับสี 0 ค่าตามนิยามดังนั้นทำไมการไล่ระดับสีหายไปจึงไม่เป็นปัญหาสำหรับ x <0
ตามคำนิยาม Relu max(0,f(x))คือ จากนั้นการไล่ระดับสีของมันจะถูกกำหนดเป็น: 1 if x &gt; 0 and 0 if x &lt; 0. นี่ไม่ได้หมายความว่าการไล่ระดับสีจะเป็น 0 เสมอ (หายไป) เมื่อ x &lt;0 ใช่ไหม แล้วทำไมเราถึงบอกว่า Relu ไม่ประสบปัญหาไล่ระดับสีหายไป?

3
จะจัดกลุ่มค่าที่เหมือนกันและนับความถี่ใน Python อย่างไร
มือใหม่ในการวิเคราะห์ด้วย Python ดังนั้นโปรดใช้ความสุภาพ :-) ฉันไม่สามารถหาคำตอบสำหรับคำถามนี้ได้ - ขออภัยหากมีคำตอบอยู่แล้วในรูปแบบอื่น ฉันมีชุดข้อมูลการทำธุรกรรมสำหรับร้านค้าปลีก ตัวแปรพร้อมคำอธิบายคือ: section: ส่วนของร้านค้า, str; prod_name: ชื่อผลิตภัณฑ์, str; ใบเสร็จรับเงิน: จำนวนของใบแจ้งหนี้, int; แคชเชียร์จำนวนแคชเชียร์ int ค่าใช้จ่าย: ค่าใช้จ่ายของรายการลอย; วันที่ในรูปแบบ MM / DD / YY, str; เวลาในรูปแบบ HH: MM: SS, a str; ใบเสร็จรับเงินมีมูลค่าเท่ากันสำหรับผลิตภัณฑ์ทั้งหมดที่ซื้อในการทำธุรกรรมเดียวดังนั้นจึงสามารถใช้เพื่อกำหนดจำนวนการซื้อโดยเฉลี่ยในการทำธุรกรรมครั้งเดียว วิธีที่ดีที่สุดที่จะไปเกี่ยวกับเรื่องนี้คืออะไร? โดยพื้นฐานแล้วฉันต้องการใช้groupby()จัดกลุ่มตัวแปรใบเสร็จตามเหตุการณ์ที่เกิดขึ้นของตัวเองเพื่อให้สามารถสร้างฮิสโตแกรมได้ การทำงานกับข้อมูลใน DataFrame แพนด้า แก้ไข: นี่คือตัวอย่างข้อมูลบางส่วนที่มีส่วนหัว (prod_name เป็นเลขฐานสิบหก): section,prod_name,receipt,cashier,cost,date,time electronics,b46f23e7,102856,5,70.50,05/20/15,9:08:20 womenswear,74558d0d,102857,8,20.00,05/20/15,9:12:46 womenswear,031f36b7,102857,8,30.00,05/20/15,9:12:47 menswear,1d52cd9d,102858,3,65.00,05/20/15,9:08:20 …

1
HOW TO: การกำหนดน้ำหนักเริ่มต้นของ Deep Neural Network
ได้รับเรื่องยากในการเรียนรู้งาน (เช่นมิติสูงซับซ้อนข้อมูลโดยธรรมชาติ) ลึกโครงข่ายประสาทกลายเป็นเรื่องยากที่จะรถไฟ เพื่อบรรเทาปัญหาที่อาจเกิดขึ้น: ทำข้อมูลคุณภาพ &amp; ให้เป็นแบบดั้งเดิม เลือกอัลกอริทึมการฝึกอบรมที่แตกต่างกัน(เช่น RMSprop แทน Gradient Descent) เลือกฟังก์ชันการไล่ระดับสีชัน(เช่น Cross Entropy แทน MSE) ใช้โครงสร้างเครือข่ายอื่น (เช่น Convolution เลเยอร์แทน Feedforward) ฉันเคยได้ยินว่ามีวิธีที่ชาญฉลาดในการเริ่มต้นน้ำหนักที่ดีขึ้น ตัวอย่างเช่นคุณสามารถเลือกขนาดได้ดีกว่า: Glorot และ Bengio (2010) สำหรับหน่วย sigmoid: ตัวอย่างUniform (-r, r)ด้วยr =6ยังไม่มีข้อความฉันn+ยังไม่มีข้อความo ยูที------√r=6Nin+Noutr = \sqrt{\frac{6}{N_{in} + N_{out}}} หรือไฮเพอร์โบลิกแทนเจนต์: ตัวอย่างชุด (-r, r)ด้วยr = 46ยังไม่มีข้อความฉันn+ยังไม่มีข้อความo ยูที------√r=46Nin+Noutr =4 \sqrt{\frac{6}{N_{in} + N_{out}}} …

3
การสร้างรูปแบบการเรียนรู้ของเครื่องเพื่อทำนายผลผลิตพืชจากข้อมูลสิ่งแวดล้อม
ฉันมีชุดข้อมูลที่มีข้อมูลเกี่ยวกับอุณหภูมิการตกตะกอนและผลผลิตถั่วเหลืองสำหรับฟาร์มเป็นเวลา 10 ปี (2005 - 2014) ฉันต้องการที่จะทำนายผลตอบแทนสำหรับปี 2015 จากข้อมูลนี้ โปรดทราบว่าชุดข้อมูลมีค่ารายวันสำหรับอุณหภูมิและปริมาณน้ำฝน แต่มีเพียง 1 ค่าต่อปีสำหรับผลผลิตเนื่องจากการเก็บเกี่ยวพืชผลเกิดขึ้นเมื่อสิ้นสุดฤดูกาลเพาะปลูก ฉันต้องการสร้างแบบจำลองการถดถอยหรือแบบจำลองการเรียนรู้ด้วยเครื่องอื่น ๆ เพื่อคาดการณ์ผลตอบแทนปี 2558 โดยยึดตามรูปแบบการถดถอย / แบบจำลองอื่น ๆ ที่ได้จากการศึกษาความสัมพันธ์ระหว่างอัตราผลตอบแทนกับอุณหภูมิและปริมาณน้ำฝนในปีก่อนหน้า ฉันคุ้นเคยกับการเรียนรู้ด้วยเครื่องโดยใช้ Scikit-Learn อย่างไรก็ตามไม่แน่ใจว่าจะแสดงปัญหานี้อย่างไร ส่วนที่ยุ่งยากนี่คืออุณหภูมิและปริมาณน้ำฝนเป็นรายวัน แต่ผลผลิตเพียง 1 ค่าต่อปี ฉันจะเข้าใกล้สิ่งนี้ได้อย่างไร

2
จะทำอย่างไรเมื่อการทดสอบข้อมูลมีคุณสมบัติน้อยกว่าข้อมูลการฝึกอบรม?
สมมติว่าเราคาดการณ์ยอดขายของร้านค้าและข้อมูลการฝึกอบรมของฉันมีคุณสมบัติสองชุด: หนึ่งเกี่ยวกับยอดขายของร้านค้าที่มีวันที่ (ฟิลด์ "Store" ไม่ซ้ำกัน) ประเภทหนึ่งเกี่ยวกับร้านค้า (ฟิลด์ "Store" ไม่ซ้ำกันที่นี่) เมทริกซ์จะออกมาเป็นแบบนี้: +-------+-----------+------------+---------+-----------+------+-------+--------------+ | Store | DayOfWeek | Date | Sales | Customers | Open | Promo | StateHoliday | +-------+-----------+------------+---------+-----------+------+-------+--------------+ | 1 | 5 | 2015-07-31 | 5263.0 | 555.0 | 1 | 1 | 0 | | 2 | 5 …

1
ผู้ใช้ผลิตภัณฑ์บวก (คลิกข้อมูล) ที่มีอยู่ วิธีสร้างข้อมูลเชิงลบ (ไม่มีข้อมูลคลิก)
เป็นเรื่องธรรมดามากในผู้แนะนำที่เรามีข้อมูลผลิตภัณฑ์ของผู้ใช้ที่มีป้ายกำกับเช่น "คลิก" เพื่อเรียนรู้รูปแบบฉันต้องคลิกและไม่คลิกข้อมูล วิธีที่ง่ายที่สุดในการสร้างคือการจับคู่ผลิตภัณฑ์ผู้ใช้ซึ่งไม่พบในข้อมูลการคลิก อย่างไรก็ตามนั่นอาจทำให้เข้าใจผิด ตัวอย่าง: user1, product1 (click) user2, product2 (click) user2, product3 (click) user3, product2 (click) ฉันสามารถใช้ user1 กับผลิตภัณฑ์ทั้งหมดยกเว้น product1 และติดป้ายกำกับเป็น "no_click" และอื่น ๆ แต่นี่อาจไม่เป็นความจริง บางทีผู้ใช้ 1 อาจคลิก product2 ถ้าเขาแสดงผลิตภัณฑ์ 2 แต่เพียงเพราะเขาแสดงชุดผลิตภัณฑ์อื่น ๆ - เขาไม่มีโอกาสตัดสินใจที่จะคลิก / ไม่คลิกผลิตภัณฑ์ 2 ดังนั้นวิธีการแก้ไขปัญหาข้อมูล unary?

2
การถดถอยเชิงเส้นหลายตัวแปรในหลาม
ฉันกำลังมองหาแพ็คเกจ Python ที่ใช้การถดถอยเชิงเส้นหลายตัวแปร (หมายเหตุเกี่ยวกับคำศัพท์: การถดถอยหลายตัวแปรที่เกี่ยวข้องกับกรณีที่มีมากกว่าหนึ่งตัวแปรขึ้นอยู่กับในขณะที่หลาย ๆการถดถอยเกี่ยวข้องกับกรณีที่มีตัวแปรตาม แต่หนึ่งตัวแปรอิสระมากกว่าหนึ่ง)

2
นักวิทยาศาสตร์คิดค่าพารามิเตอร์ Hidden Markov Model และทอพอโลยีที่ถูกต้องเพื่อใช้อย่างไร
ฉันเข้าใจว่า Hidden Markov Model ใช้ในลำดับจีโนมเช่นการค้นหายีนอย่างไร แต่ฉันไม่เข้าใจว่าจะเกิดอะไรขึ้นกับโมเดลของมาร์คอฟโดยเฉพาะ ฉันหมายความว่าควรมีโมเดลกี่รัฐ มีการเปลี่ยนที่เป็นไปได้กี่ครั้ง โมเดลควรมีการวนซ้ำหรือไม่? พวกเขาจะรู้ได้อย่างไรว่าแบบจำลองของพวกเขาดีที่สุด? พวกเขาลองจินตนาการว่าจะพูดถึง 10 แบบที่แตกต่างกันหรือไม่และเปรียบเทียบกับโมเดล 10 แบบนั้น

4
หนังสือเกี่ยวกับการเสริมแรงการเรียนรู้
ฉันพยายามทำความเข้าใจการเรียนรู้การเสริมแรงมานานแล้ว แต่อย่างใดฉันไม่สามารถจินตนาการวิธีการเขียนโปรแกรมสำหรับการเรียนรู้การเสริมแรงเพื่อแก้ปัญหาโลกกริด คุณช่วยแนะนำหนังสือเรียนซึ่งจะช่วยสร้างแนวความคิดที่ชัดเจนของการเรียนรู้เสริมแรงได้ไหม?

1
word2vec ต้องการข้อมูลการฝึกอบรมเท่าใด
ฉันต้องการเปรียบเทียบความแตกต่างระหว่างคำเดียวกันที่กล่าวถึงในแหล่งข้อมูลที่แตกต่างกัน นั่นคือวิธีที่ผู้เขียนต่างกันในการใช้คำที่ไม่ถูกต้องเช่น "ประชาธิปไตย" แผนสั้น ๆ คือ นำหนังสือที่พูดถึงคำว่า "ประชาธิปไตย" เป็นข้อความธรรมดา ในหนังสือแต่ละเล่มให้แทนที่democracyด้วยdemocracy_%AuthorName% ฝึกฝนword2vecโมเดลในหนังสือเหล่านี้ คำนวณระยะทางระหว่างdemocracy_AuthorA, democracy_AuthorBและการกล่าวถึง relabeled อื่น ๆ ของ "ประชาธิปไตย" ดังนั้น "ประชาธิปไตย" ของผู้เขียนแต่ละคนจึงได้เวกเตอร์ของตัวเองซึ่งใช้สำหรับการเปรียบเทียบ แต่ดูเหมือนว่าword2vecจะต้องมีมากกว่าหนังสือหลายเล่ม (แต่ละคำที่มีป้ายกำกับใหม่เกิดขึ้นเฉพาะในชุดย่อยของหนังสือ) เพื่อฝึกฝนเวกเตอร์ที่เชื่อถือได้ หน้าอย่างเป็นทางการขอแนะนำชุดข้อมูลรวมทั้งพันล้านคำ ฉันแค่อยากจะถามว่าหนังสือชุดหนึ่งของผู้แต่งเล่มหนึ่งมีขนาดใหญ่เท่าไรในการอนุมานด้วยword2vecหรือเครื่องมือทางเลือกถ้ามี

1
ความยืดหยุ่นในการเชื่อมโยงระหว่างฟังก์ชั่นวัตถุประสงค์และฟังก์ชั่นการเปิดใช้งานเลเยอร์เอาท์พุทคืออะไร?
ดูเหมือนว่ามาตรฐานในแพคเกจเครือข่ายนิวรัลจำนวนมากเพื่อจับคู่ฟังก์ชั่นวัตถุประสงค์ที่จะย่อเล็กสุดด้วยฟังก์ชั่นการเปิดใช้งานในชั้นเอาท์พุท ยกตัวอย่างเช่นสำหรับชั้นเอาท์พุทเชิงเส้นที่ใช้สำหรับการถดถอยมันเป็นมาตรฐาน (และมักจะเป็นทางเลือกเท่านั้น) ที่จะมีฟังก์ชั่นวัตถุประสงค์ข้อผิดพลาดกำลังสอง การจับคู่ปกติอีกอย่างหนึ่งคือการส่งออกและการสูญเสียบันทึก (หรือข้ามเอนโทรปี) และอีกอย่างคือ softmax และการสูญเสียบันทึกหลาย ใช้สัญลักษณ์ Zzz สำหรับค่าการเปิดใช้งานล่วงหน้า (ผลรวมของการเปิดใช้งานน้ำหนักครั้งจากเลเยอร์ก่อนหน้า) aaa สำหรับการเปิดใช้งาน Yyy สำหรับความจริงภาคพื้นดินที่ใช้สำหรับการฝึกอบรม ผมii สำหรับดัชนีของเซลล์ประสาทขาออก การเปิดใช้งานเชิงเส้น aผม=Zผมai=zia_i=z_i เกิดข้อผิดพลาดกำลังสอง 12Σ∀ ฉัน(Yผม-aผม)212∑∀i(yi−ai)2\frac{1}{2} \sum\limits_{\forall i} (y_i-a_i)^2 การเปิดใช้งาน Sigmoid aผม=11 +อี-Zผมai=11+e−zia_i = \frac{1}{1+e^{-z_i}} ไปกับวัตถุประสงค์ logloss / cross-entropy -Σ∀ ฉัน(Yผม∗ l o g(aผม) + ( 1 -Yผม) ∗ l o g( …

1
ฉันจะคำนวณคำศัพท์เดลต้าของเลเยอร์ Convolutional ได้อย่างไรเนื่องจากคำเดลต้าและน้ำหนักของเลเยอร์ Convolutional ก่อนหน้า
ฉันกำลังพยายามฝึกโครงข่ายใยประสาทเทียมด้วยชั้นสอง convolutional (c1, c2) และสองชั้นที่ซ่อนอยู่ (c1, c2) ฉันใช้วิธีการ backpropagation มาตรฐาน ใน backward pass ฉันคำนวณระยะเวลาข้อผิดพลาดของเลเยอร์ (เดลต้า) ตามข้อผิดพลาดของเลเยอร์ก่อนหน้านี้น้ำหนักของเลเยอร์ก่อนหน้าและการไล่ระดับสีของการเปิดใช้งานตามฟังก์ชั่นการเปิดใช้งานของเลเยอร์ปัจจุบัน โดยเฉพาะอย่างยิ่งเดลต้าของเลเยอร์ l มีลักษณะดังนี้: delta(l) = (w(l+1)' * delta(l+1)) * grad_f_a(l) ฉันสามารถคำนวณการไล่ระดับสีของ c2 ซึ่งเชื่อมต่อกับเลเยอร์ปกติ ฉันแค่คูณน้ำหนักของ h1 กับเดลต้าของมัน จากนั้นฉันก็เปลี่ยนรูปร่างเมทริกซ์นั้นให้อยู่ในรูปของเอาต์พุตของ c2 แล้วคูณมันด้วยการไล่ระดับสีของฟังก์ชั่นการกระตุ้นและเสร็จ ตอนนี้ฉันมีคำเดลต้าของ c2 - ซึ่งเป็นเมทริกซ์ขนาด 4 มิติ (featureMapSize, featureMapSize, filterNum, patternNum) นอกจากนี้ฉันมีน้ำหนัก c2 ซึ่งเป็นเมทริกซ์ 3 มิติของขนาด …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.