Ngôn ngữ lập trình nào đang trở thành xu hướng của khoa học dữ liệu 2020?

Share:


Idea của bài viết: Bằng cách viết 1 bộ scrape dữ liệu qua nhiều năm ( trước mắt là 2018 - 2019), tất cả các bài viết có chứa cụm từ "tuyển dụng", "Data Science" trên các kho tuyển dụng như Linkedin, Indeed, SimplyHired, Monster, Angelist. 

Sau đó so sánh tăng / giảm 2019 so với 2018 trong các yêu cầu tuyển dụng ngành này, từ đó đánh giá được các skill công nghệ nào đang có xu hướng tăng / giảm.


Bài viết lược dịch từ blog của Jeff Hale - CoFounder Rebel Desk. Và có chứa nhiều ý kiến chủ quan của người dịch. Hình ảnh tiêu đề do mình làm ngành chứng khoán nên tải đại lên project hiện tại, chớ ko có nghĩa gì cả

Kết quả data xử lí sau khi Scrape: https://docs.google.com/spreadsheets/d/1df7QTgdAOItQJadLoMHlIZH3AsQ2j2_yoyvHOpsy9qU/edit#gid=1734773261

Thu về trên 21000 kết quả tuyển dụng việc làm Data Science. Trong đó hơn 8000 là từ Linkedin, hơn 5000 từ Indeed. Chi tiết như hình bên dưới:


Kết quả tổng kết các yêu cầu kĩ năng cơ bản 11/2018


Từ dữ liệu 2018 cho thấy: phân tích và machine learning là trung tâm của công việc khoa học dữ liệu. Tìm kiếm thông tin từ mớ dữ liệu hỗn độn là yêu cầu chính của khoa học dữ liệu, bên cạnh với việc dùng các model machine learning phù hợp sau đó.

Khoa học dữ liệu đòi hỏi số liệu thống kê và kỹ năng khoa học máy tính. Nên không có gì ngạc nhiên khi toán học (đặc biệt xác suất thống kê và đại số tuyến tính) cũng nằm trong top các yêu cầu.

Điều thú vị là kĩ năng giao tiếp lại được đề cập trong gần một nửa kết quả. Các nhà khoa học dữ liệu cần có khả năng giao tiếp hiểu biết và làm việc với những người khác.

Những yêu cầu ngôn ngữ lập trình từ cao xuống thấp


Python: là ngôn ngữ có nhu cầu cao nhất, nằm top nhiều năm. Có lẽ do ngôn ngữ dễ sử dụng và có nhiều tài nguyên hỗ trợ. Phần lớn các công cụ khoa học dữ liệu mới tương thích với nó. Xếp hạng quán quân cho Python.

R: cũng không thua xa Python. Nó từng là ngôn ngữ chính cho khoa học dữ liệu. Khá ngạc nhiên là nhu cầu về R vẫn cao. Python hoặc R là bắt buộc cho hầu hết mọi vị trí nhà khoa học dữ liệu.

Xếp thứ 3, SQL cũng có nhu cầu cao. SQL là ngôn ngữ chung để truy cập vào các hệ thống quản lý cơ sở dữ liệu (RDBMS). 

Tiếp theo là Hadoop và Spark , cả hai công cụ mã nguồn mở từ Apache cho Big Data.
Hadoop là một Apache framework mã nguồn mở được viết bằng java, cho phép xử lý phân tán (distributed processing) các tập dữ liệu lớn trên các cụm máy tính (clusters of computers) thông qua mô hình lập trình đơn giản. 

Hadoop được thiết kế để mở rộng quy mô từ một máy chủ đơn sang hàng ngàn máy tính khác có tính toán và lưu trữ cục bộ (local computation and storage). (nguồn)

Sau đó đến Java và SAS . Đáng ngạc nhiên khi thấy những ngôn ngữ này cũng có nhu cầu khá cao. Cả hai đều thấy các công ty lớn ghi trong yêu cầu tuyển dụng.

Tiếp là Tableau, công cụ thực hiện các nghiệp vụ trực quan và phân tích dữ liệu một cách nhanh chóng (cá nhân mình thì thấy dùng để trực quan là chính).


So sánh những thay đổi trong 2017 và 2018



2019 Python xuất hiện trong gần 75% kết quả.

 
Đây là biểu đồ cho thấy mức tăng và giảm về tỷ lệ phần trăm trung bình của danh sách giữa năm 2018 và 2019. AWS và PyTorch đứng đầu danh sách.

Amazon Web Services (AWS) là nền tảng đám mây toàn diện và được sử dụng rộng rãi nhất, cung cấp trên 175 dịch vụ đầy đủ tính năng từ các trung tâm dữ liệu trên toàn thế giới. 
PyTorch là một framework được xây dựng dựa trên python cung cấp nền tảng tính toán khoa học phục vụ lĩnh vực Deep learning.

Kết luận


2 kĩ năng quan trọng là phân tích và machine learning.

Đầu tư vào kỹ năng giao tiếp của bạn, nghe khá buồn cười nhưng đây là một trong các yêu cầu quan trọng.

Nếu bạn đang phân vân giữa Python và R, hãy chọn Python. Nếu học Python ngon lành rồi, hãy cân nhắc việc học R. Độ bao phủ của bạn sẽ tốt hơn...

Kết nối với mình:

Linkedin: http://bit.ly/3aYazxr
Facebook: http://bit.ly/2u9pvIl
Githut: http://bit.ly/3b1qBXd

Không có nhận xét nào