วิทยาศาสตร์ข้อมูลกับการวิจัยการปฏิบัติการ


11

คำถามทั่วไปตามที่ชื่อแนะนำคือ:

  • DS และ OR / การปรับให้เหมาะสมต่างกันอย่างไร

ในระดับแนวคิดฉันเข้าใจว่า DS พยายามดึงความรู้จากข้อมูลที่มีอยู่และใช้เทคนิคการเรียนรู้ของเครื่องเป็นส่วนใหญ่ ในทางกลับกันหรือใช้ข้อมูลเพื่อตัดสินใจบนพื้นฐานของข้อมูลตัวอย่างเช่นโดยการปรับฟังก์ชั่นวัตถุประสงค์ (เกณฑ์) ให้เหมาะสมกับข้อมูล (อินพุต)

ฉันสงสัยว่ากระบวนทัศน์ทั้งสองนี้เปรียบเทียบกันอย่างไร

  • เป็นหนึ่งส่วนย่อยของอื่น ๆ ?
  • พวกเขากำลังพิจารณาสาขาเสริมหรือไม่?
  • มีตัวอย่างที่ฟิลด์หนึ่งเติมเต็มฟิลด์อื่นหรือใช้ในการร่วม

โดยเฉพาะอย่างยิ่งฉันสนใจในสิ่งต่อไปนี้:

มีตัวอย่างใดบ้างที่ใช้เทคนิค OR ในการแก้คำถาม / ปัญหาด้าน Data Science?


3
ฉันไม่แน่ใจว่านี่เป็นคำถามเกี่ยวกับวิทยาศาสตร์คอมพิวเตอร์ แต่ฉันคิดว่ามันใกล้พอ ฉันแก้ไขส่วนเกี่ยวกับสิ่งที่คนในด้านหนึ่งคิดเกี่ยวกับอีกด้านหนึ่งเนื่องจากดูเหมือนจะเป็นเรื่องของความคิดเห็นทั้งหมด
David Richerby

@DavidRicherby ขอบคุณ ฉันเห็นด้วยกับคุณว่ามันอาจเป็นเรื่องของความเห็น ตามเนื้อผ้าทั้งสองได้รับการสอนและโผล่ออกมาจากชุมชน CS ดังนั้นฉันคิดว่านี่เป็นสถานที่ที่ถูกต้องที่จะถาม
PsySp


@DW ขอบคุณ ฉันได้อ่านบทความและบอกตามตรงฉันไม่เห็นการสนทนาใด ๆ เกี่ยวกับการทับซ้อนและ / หรือความแตกต่างระหว่างสองฟิลด์ที่กล่าวถึง โดยเฉพาะอย่างยิ่งวิธีหนึ่งเติมเต็มอื่น ๆ
PsySp

1
วิทยาศาสตร์ข้อมูลส่วนใหญ่เกี่ยวกับการทำงานเพื่อค้นหาข้อมูลผ่านข้อมูล การวิจัยการดำเนินงานส่วนใหญ่เกี่ยวกับการทำงานเพื่อปรับปรุงการตัดสินใจ คุณมักจะสามารถดูหรือใช้วิธีการเพื่อค้นหานโยบายที่ดีที่สุดสำหรับใช้ในการตัดสินใจ วิธีการบางอย่างที่ใช้ในหรือสามารถจัดเป็นวิธีการเสริมการเรียนรู้ในชุมชน CS แม้ว่าจะไม่มีปัญหาหรือทั้งหมดที่เป็นประเภทนี้
spektr

คำตอบ:


9

ในขณะที่ทั้งการวิจัยการดำเนินงานและวิทยาศาสตร์ข้อมูลครอบคลุมหัวข้อและพื้นที่จำนวนมากฉันจะพยายามให้มุมมองของฉันเกี่ยวกับสิ่งที่ฉันเห็นว่าเป็นตัวแทนมากที่สุด

ดังที่คนอื่น ๆ ได้ชี้ให้เห็นการวิจัยการดำเนินงานส่วนใหญ่เกี่ยวข้องกับการตัดสินใจเป็นหลัก ในขณะที่มีหลายวิธีในการกำหนดวิธีการตัดสินใจส่วนที่สำคัญที่สุดของ OR (ในความคิดของฉัน) จะเน้นไปที่การสร้างแบบจำลองปัญหาการตัดสินใจในกรอบการเขียนโปรแกรมทางคณิตศาสตร์ ในกรอบการทำงานประเภทนี้โดยทั่วไปคุณจะมีชุดของตัวแปรการตัดสินใจข้อ จำกัด เหนือตัวแปรเหล่านี้และฟังก์ชันวัตถุประสงค์ขึ้นอยู่กับตัวแปรการตัดสินใจของคุณที่คุณพยายามลดหรือขยายให้ใหญ่สุด เมื่อตัวแปรการตัดสินใจสามารถรับค่าในRข้อ จำกัด คือความไม่เท่าเทียมกันเชิงเส้นมากกว่าตัวแปรการตัดสินใจของคุณและฟังก์ชันวัตถุประสงค์คือฟังก์ชันเชิงเส้นของตัวแปรการตัดสินใจแล้วคุณมีโปรแกรมเชิงเส้น- ผู้ทำหน้าที่หลักของ OR ในช่วงหกสิบปีที่ผ่านมา ถ้าคุณมีชนิดอื่น ๆ ของฟังก์ชั่นวัตถุประสงค์หรือข้อ จำกัด ที่คุณพบว่าตัวเองอยู่ในขอบเขตของการเขียนโปรแกรมจำนวนเต็ม , การเขียนโปรแกรมกำลังสอง , การเขียนโปรแกรมกึ่งชัดเจนฯลฯ ...

ในทางกลับกันวิทยาศาสตร์ข้อมูลนั้นส่วนใหญ่เกี่ยวข้องกับการอนุมาน. ที่นี่คุณมักจะเริ่มต้นด้วยกองข้อมูลขนาดใหญ่และคุณต้องการอนุมานบางอย่างเกี่ยวกับข้อมูลที่คุณยังไม่ได้เห็นในกองใหญ่ของคุณ สิ่งต่าง ๆ ที่คุณเห็นอยู่ทั่วไปคือ: 1) กองข้อมูลขนาดใหญ่แสดงถึงผลลัพธ์ที่ผ่านมาของสองตัวเลือกที่แตกต่างกันและคุณต้องการทราบว่าตัวเลือกใดที่จะให้ผลลัพธ์ที่ดีที่สุด 2) กองข้อมูลขนาดใหญ่แสดงเวลา ชุดข้อมูลและคุณต้องการทราบว่าชุดเวลานั้นจะขยายไปสู่อนาคตอย่างไร 3) กองข้อมูลขนาดใหญ่แสดงชุดการสังเกตที่มีป้ายกำกับและคุณต้องการระบุป้ายกำกับสำหรับการสังเกตใหม่ที่ไม่มีป้ายกำกับ ตัวอย่างสองตัวอย่างแรกตกอยู่ในพื้นที่ทางสถิติแบบคลาสสิก (การทดสอบสมมติฐานและการพยากรณ์อนุกรมเวลาตามลำดับ) ในขณะที่ตัวอย่างที่สามที่ฉันคิดว่ามีความสัมพันธ์อย่างใกล้ชิดกับหัวข้อการเรียนรู้ของเครื่องที่ทันสมัย

ดังนั้นในความคิดของฉันการวิจัยการปฏิบัติการและวิทยาศาสตร์ข้อมูลนั้นส่วนใหญ่เป็นฉากฉากแม้ว่าจะมีบางส่วนที่ทับซ้อนกัน โดยเฉพาะอย่างยิ่งฉันคิดว่าการคาดการณ์อนุกรมเวลาจะปรากฏขึ้นในจำนวนที่ไม่สำคัญใน OR; เป็นหนึ่งในส่วนที่ไม่สำคัญกับการเขียนโปรแกรมของ OR การวิจัยการดำเนินงานเป็นที่ที่คุณจะเปิดหากคุณมีความสัมพันธ์ที่รู้จักระหว่างอินพุตและเอาต์พุต วิทยาศาสตร์ข้อมูลเป็นจุดที่คุณตัดสินใจหากคุณพยายามที่จะหาความสัมพันธ์นั้น (สำหรับคำจำกัดความของอินพุตและเอาต์พุต)


ขอบคุณสำหรับคำตอบที่ชัดเจน ฉันสงสัยว่าตัวอย่างสามารถใช้เทคนิค OR เพื่อแก้ปัญหา DS ได้หรือไม่ ฉันสนใจตัวอย่างดังกล่าว แต่จากคำตอบของคุณฉันสงสัยว่ามีอะไรบ้าง
PsySp

@Psysp ใช่มั้ย ฉันไม่สามารถนึกถึงส่วนบนสุดของหัวของฉันได้
mumum

1
ฉันไม่คิดว่าการแบ่งระหว่าง OR และ DS นั้นเข้มงวดมากเท่าที่คุณเชื่อ แต่อาจเป็นเพราะฉันพิจารณาหัวข้อการเรียนรู้ของเครื่องและการกำหนดเป็นส่วนหนึ่งของ DS แทนที่จะพิจารณา DS เป็นคำพ้องความหมายของสถิติ (น่าเสียดายที่ DS เป็นคำที่ไม่มีคำจำกัดความที่ยอมรับกันอย่างกว้างขวางเท่าที่ฉันรู้) อย่างไรก็ตามงานการสืบทอดและการอนุมานไม่จำเป็นต้องไม่เกิดร่วมกัน การเรียนรู้ของเครื่องนั้นเป็นสิ่งที่ถูกรวมเข้าด้วยกัน: บางครั้งการตัดสินใจที่ชาญฉลาดต้องทำการอนุมานที่เหมาะสมในบางครั้งการอ้างถึงที่ชาญฉลาดจะใช้สำหรับการตัดสินใจที่ดี
จิ้งจกไม่ต่อเนื่อง

@Discretelizard แน่นอนฉันเห็นด้วยในระดับหนึ่ง ฉันกำลังนำเสนอส่วนที่ค่อนข้างสิ้นเชิง (อาจเป็นภาพล้อเลียนหรือไม่?) และมุ่งเน้นไปที่ส่วนหลักของแต่ละฟิลด์เพื่อเน้นความแตกต่างในประเภทของปัญหาที่แต่ละฟิลด์ได้รับการปรับ ขอบของทั้งสองฟิลด์นั้นค่อนข้างคลุมเครือ (โดยเฉพาะใน DS ซึ่งใหม่กว่ามาก) และอาจมีการทับซ้อนกันมากกว่า นอกจากนี้ฉันเห็นด้วยว่ากระแสหลัก ๆ ของ DS รวมถึงสิ่งต่าง ๆ ของ ML แต่ฉันก็ไม่แน่ใจเหมือนกันว่า DS นั้นถูกแบ่งออกจาก ML อย่างไร
mhum

4

นี่ไม่ใช่คำตอบที่สมบูรณ์เนื่องจาก mhum ค่อนข้างดีในการเปรียบเทียบจุดประสงค์ที่แตกต่างกันของ OR กับ DS

แต่ฉันต้องการพูดถึงความคิดเห็นของคุณนี้:

ฉันสงสัยว่าตัวอย่างสามารถใช้เทคนิค OR เพื่อแก้ปัญหา DS ได้หรือไม่

คำตอบคือใช่ ตัวอย่างที่ชัดเจนที่มาถึงใจคือการสนับสนุนเวกเตอร์เครื่อง (SVMs)

ในการ "พอดี" โมเดล SVM กับข้อมูลบางอย่าง (ซึ่งต้องทำก่อนที่คุณจะสามารถใช้เพื่ออนุมานการคาดการณ์) ปัญหาการปรับให้เหมาะสมต่อไปนี้จะต้องแก้ไข:

ขยายใหญ่สุด

ก.(a)=Σผม=1ม.αผม-12Σผม=1ม.ΣJ=1ม.αผมαJYผมYJxผมTxJ,

ภายใต้ข้อ จำกัด

0αผม,Σผม=1nYผมαผม=0

นี่เป็นปัญหาการปรับให้เหมาะสมแบบ จำกัด เช่นเดียวกับหลาย ๆ อย่างในฟิลด์ OR และมันถูกแก้ไขโดยใช้วิธีการเขียนโปรแกรมกำลังสอง โดยทั่วไปแล้วสิ่งเหล่านี้เกี่ยวข้องกับฟิลด์ของ OR มากกว่า DS แต่นี่เป็นตัวอย่างของการบังคับใช้ที่กว้างขึ้น

โดยทั่วไปแล้วการปรับให้เหมาะสมเป็นกุญแจสำคัญของโมเดลการเรียนรู้เชิงสถิติและเครื่องจักรที่ใช้ในด้าน DS เนื่องจากกระบวนการฝึกอบรมแบบจำลองเหล่านี้มักจะสามารถกำหนดเป็นปัญหาการย่อเล็กสุดที่เกี่ยวข้องกับฟังก์ชั่นการสูญเสีย / เสียใจจากศตวรรษที่ต่ำต้อย แบบจำลองการถดถอยเชิงเส้นสู่เครือข่ายประสาทการเรียนรู้ที่ล้ำลึกมากล่าสุด

การอ้างอิงที่ดีในการจำแนกเป็นบิชอป


2

ในฐานะนักยุทธศาสตร์ฉันมีโอกาสได้ทำงานกับทั้งสองด้านของวินัย ในการพยายามอธิบายว่า OR และ DS คืออะไรสำหรับผู้บริหาร MBA ที่มีคุณภาพการแนะนำบรรทัดเดียวของฉัน (สุดเหวี่ยง) สำหรับแต่ละบรรทัด

หรือ: นักเศรษฐศาสตร์ที่รู้วิธีการรหัส
DS: นักสถิติที่รู้วิธีการรหัส

ในทางปฏิบัติแล้ววิธีการที่ทั้งสองกลุ่มมารวมกัน: ด้าน OR พัฒนารูปแบบการตัดสินใจและฝั่ง DS แสดงการใช้ข้อมูลที่เหมาะสมเพื่อป้อนข้อมูลแบบจำลอง

แต่ละคนจะต้องพึ่งพาประเพณีทางทฤษฎีของสาขาวิชาของพวกเขา - พวกเขาทำการทดลองเพื่อจัดโครงสร้างข้อมูลและปรับแต่งโมเดลเพื่อให้ได้ข้อมูลเชิงลึกที่แท้จริงที่จำเป็นสำหรับการตัดสินใจที่ดีที่สุด เมื่อแต่ละคนรู้จักกันมากขึ้นความคิดและภาษาของพวกเขามักจะมาบรรจบกัน


1
ฉันเข้าใจคำอธิบายที่ใช้งานได้จริงของ DS ในฐานะ 'นักสถิติผู้เขียนโค้ด' แต่คำอธิบายสำหรับ OR ดูเหมือนจะแปลกสำหรับฉัน หรือรวมถึงโลจิสติกส์และปัญหาการกำหนดเส้นทางที่เกี่ยวข้อง มันไม่ได้ดูเหมือนสถานที่ตามธรรมชาติสำหรับนักเศรษฐศาสตร์สำหรับฉัน บางทีคุณอาจอธิบายรายละเอียดเกี่ยวกับสาเหตุที่นักเศรษฐศาสตร์ในทางปฏิบัติหรือ
จิ้งจกไม่ต่อเนื่อง

1
@Discretelizard ฉันไม่สงสัยเลยว่านักเศรษฐศาสตร์ทำหรือ แต่ก็อย่างที่คุณพูดว่าเป็นจำนวนมากหรือที่ไม่เกี่ยวกับเศรษฐศาสตร์และทำโดยนักวิทยาศาสตร์คอมพิวเตอร์นักคณิตศาสตร์และคนอื่น ๆ
David Richerby

0

วิทยาศาสตร์ข้อมูลเป็นสาขาวิชาที่เกี่ยวข้องกับข้อมูลโดยทั่วไป ถ้าฟังดูคลุมเครือมันเป็นเรื่องปกติเพราะมันเป็นเรื่องจริง มันเป็นคำที่มีข่าวลือมาหลายปีแล้ว โดยพื้นฐานแล้วมันพยายามหาวิธีที่จะใช้ประโยชน์จากข้อมูล: ฉันจะทำอย่างไรกับข้อมูลของฉัน (ฉันจะได้รับข้อมูลเชิงลึกอะไรบ้าง)

การวิจัยการดำเนินงานเป็นศาสตร์แห่งการเพิ่มประสิทธิภาพทางคณิตศาสตร์: คุณจำลองปัญหาเป็น“ สมการ” แก้ปัญหาแบบจำลองทางคณิตศาสตร์นี้และแปลการแก้ปัญหากลับสู่การตั้งค่าปัญหาเริ่มต้นของคุณ มันเป็นเครื่องมือในการช่วยในการตัดสินใจ: ฉันควรทำอย่างไร / จะได้รับสิ่งนี้หรือสิ่งนั้น

ปัญหาทางธุรกิจจำนวนมากสามารถดูได้ว่าเป็นปัญหาการเพิ่มประสิทธิภาพ เนื่องจากฉันพยายามเพิ่มรายได้ให้มากที่สุดเนื่องจากข้อ จำกัด ด้านทรัพยากรฉันจะดำเนินธุรกิจของฉันอย่างไรฉันควรตั้งค่าสำหรับตัวแปรการตัดสินใจอย่างไร ปัญหาเช่นการตั้งเวลาการวางแผนสิ่งอำนวยความสะดวกการจัดการห่วงโซ่อุปทาน ... และอื่น ๆ ทั้งหมดเทคนิคการเพิ่มประสิทธิภาพการใช้ประโยชน์

การเพิ่มประสิทธิภาพพอร์ตเป็นตัวอย่างคลาสสิกที่ใช้การเพิ่มประสิทธิภาพ สมมติว่าฉันสามารถลงทุนในสินทรัพย์ต่าง ๆ ในพอร์ตโฟลิโอของฉันแต่ละอันมีผลตอบแทนที่ไม่ได้กำหนดไว้ฉันจะสร้างความสมดุลให้พอร์ตโฟลิโอของฉันอย่างไรเพื่อลดความเสี่ยงของพอร์ตการลงทุนโดยรวม ในการตั้งค่านี้ฟังก์ชันวัตถุประสงค์มักจะกลายเป็นความเสี่ยง / ความแปรปรวนของพอร์ตโฟลิโอและข้อ จำกัด คืออัตราผลตอบแทนที่ต้องการจากการลงทุนเช่นเดียวกับจำนวนเงินที่คุณมี


3
คุณแสดงรายการสรุปย่อของทั้งสองฟิลด์ คำตอบนี้ไม่ได้ระบุความแตกต่างและ / หรือความคล้ายคลึงกันระหว่าง DS และ OR ซึ่งเป็นคำถามที่ถามโดยเฉพาะ คุณสามารถปรับปรุงคำตอบของคุณโดยการเพ่งความสนใจไปที่ส่วนนั้น
จิ้งจกไม่ต่อเนื่อง

-1

ถ้าคุณนับ ML และ AI ที่ขับเคลื่อนโดย ML เป็นส่วนหนึ่งของ Data Science (ซึ่งบางคนทำและบางคนไม่ได้ตามประสบการณ์ของฉันตัวอย่างเช่นโปรแกรมมืออาชีพของ Microsoft ใน AI ประกอบด้วยประเด็นสำคัญของการเรียนรู้วิทยาศาสตร์ข้อมูล + เครื่องจักร (ทั้ง DL และ RL ) ในขณะที่ High School of Economics นำเสนอชิ้นส่วนขั้นสูงที่เหมือนกันกับ Microsoft cuuriculum เหมือนกับ Advanced Machine Learning) จากนั้นก็มีความคล้ายคลึงกันมากมายในคณิตศาสตร์ที่ใช้ในทั้งสองสาขา ตัวอย่างเช่น: การเขียนโปรแกรมแบบไม่เชิงเส้น (ตัวคูณลากรองจ์, เงื่อนไข KKT ... ) -> ใช้สำหรับการสืบทอดของ Vector Vector Machines ... เศรษฐมิติซึ่งขึ้นอยู่กับ Regressions ---> Regressions เป็นส่วนสำคัญของ Data Scinece ทั้งโดยทั่วไปและ การเรียนรู้แบบมีผู้ควบคุมมากขึ้น ... สถิติ (โดยปกติจะอยู่ใน OR หลักสูตร) ​​---> กุญแจสำหรับวิทยาศาสตร์ข้อมูลและการเรียนรู้ของเครื่องเช่นกัน ... Stochastic Processes ---> สำคัญมากในการเรียนรู้การเสริมกำลัง ... การเขียนโปรแกรมแบบไดนามิก ---> พบอีกครั้งในการเรียนรู้การเสริมแรง ... ดังนั้นฉันจะบอกว่ามีความคล้ายคลึงกันบางอย่างกับ Data Science โดยทั่วไปและคล้ายคลึงกันมากกับ ML แน่นอนว่าเป้าหมายของสาขาวิชาเหล่านี้แตกต่างกันไป แต่มีความคล้ายคลึงกันในวิชาคณิตศาสตร์ที่ใช้กันในสาขาวิชาเหล่านี้


มันตอบคำถามได้อย่างไร
Evil
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.