Làm sao để trở thành một nhà khoa học dữ liệu - Data Scientist

Làm sao để trở thành một nhà khoa học dữ liệu - Data Scientist

Nhà khoa học dữ liệu (Data Scientist) được Harvard Business Review đánh giá là “công việc hấp dẫn nhất thế kỷ 21”. Glassdoor báo cáo rằng mức lương trung bình của một nhà khoa học dữ liệu năm 2014 là 118.709 $ so với 64,537 $ của một lập trình viên. Theo dự báo của học viện toàn cầu McKinsey: vào năm 2018, riêng nước Mỹ có thể đối mặt với tình trạng thiếu hụt từ 140 000 tới 190 000 chuyên gia phân tích dữ liệu, thiếu 1.5 triệu nhà quản lý biết sử dụng các công cụ của Dữ liệu lớn để thực hiện việc ra quyết định hiệu quả hơn. Những người có kỹ năng về khoa học dữ liệu (Data Science) đang được chào đón hơn bao giờ hết.

Nhà khoa học dữ liệu là gì?

“Một nhà khoa học dữ liệu là người giỏi hơn về thống kê so với những kỹ sư phát triển phần mềm và giỏi hơn về lập trình so với những nhà thống kê học.”

Vậy làm sao để có thể trở thành nhà khoa học dữ liệu? Bài viết này cung cấp cho các bạn một số bước cơ bản cần thực hiện.

1. Có nền tảng tốt về toán học, thống kê và học máy

Đây là điều rất quan trọng. Tuy nhiên những kiến thức này sẽ sử dụng trong các ứng dụng thực tế nên chỉ cần dừng lại ở việc hiểu khái niệm, mô hình của thuật toán để có thể áp dụng được.

Một số khóa học online các bạn có thể tham khảo:

Ngoài ra còn rất nhiều khóa học, ebook khác các bạn có thể tìm kiếm thông qua các từ khóa bên trên. Ở đây chỉ có một lời khuyên là các bạn nên đọc và học các tài liệu tiếng Anh vì có rất nhiều các thuật ngữ chuyên ngành toán, thống kê, học máy không có từ tiếng Việt tương ứng, việc các tài liệu tiếng Việt cố gắng dịch các thuật ngữ này sẽ khiến người đọc gặp nhiều khó khăn để nắm bắt bản chất vấn đề khi tiếp xúc với tài liệu nước ngoài.

2. Học lập trình

Các ngôn ngữ lập trình là công cụ quan trọng để các nhà khoa học dữ liệu xử lý các vấn đề. Các bạn nên chọn bắt đầu với một vài ngôn ngữ như sau:

  • R, đây là một ngôn ngữ rất mạnh về xử lý tính toán thống kê. R cũng cấp một kho thư viện rất lớn các mô hình toán học, thống kê, học máy và được sử dụng ngày càng nhiều bởi các nhà khoa học dữ liệu.
  • Python là ngôn ngữ dễ học cho người bắt đầu lập trình, python cũng có rất nhiều thư viện về thống kê và học máy.
  • SAS và SPSS là 2 phần mềm nổi tiếng nhất về thống kê, trong đó SPSS được đưa vào giảng dạy trong trường học ở Mỹ. Tuy nhiên đây là 2 phần mềm thương mại phải trả tiền, vì vậy nếu có cơ hội được sử dụng thì các bạn nên học.

3. Hiểu về cơ sở dữ liệu

Khi bắt đầu tìm hiểu ta thường làm việc với dữ liệu dạng text. Tuy nhiên trong thực tế thường sử dụng cơ sở dữ liệu để lưu trữ và xử lý dữ liệu. Các cơ sở dữ liệu thường được sử dụng là: MySQL, MongoDB, Postgress, Cassandra, …

Các hệ cơ sở dữ liệu thường được sử dụng

4. Thành thạo về xử lý, biểu diễn trực quan và báo cáo dữ liệu

Việc thành thạo về xử lý, biểu diễn và báo cáo dữ liệu là kỹ năng vô cùng quan trọng đối với một nhà khoa học dữ liệu:

  • Dữ liệu mà ta tiếp nhận để phân tích thường ở dạng thô, cần tiến hành chuyển đổi thì mới có thể phân tích được. Các bạn có thể tham khảo khóa học Getting and Cleaning data giảng dạy bởi Johns Hopkins trên Coursera.
  • Biểu diễn dữ liệu bằng các biểu đồ giúp ta có cái nhìn trực quan hơn, dựa vào đó có thể đưa ra các đánh giá và lựa chọn mô hình phân tích phù hợp. Một số công cụ hữu ích hay được sử dụng: ggvis, vega, …
  • Bất kỳ việc phân tích dữ liệu nào thì kết quả cuối cùng cũng là đưa ra được các báo cáo. Kỹ năng báo cáo là rất quan trọng, các bạn có thể học và sử dụng các công cụ sau: Tableau, Spotfire, R Markdown.

5. Làm quen với công nghệ dữ liệu lớn

Khi tiến hành phân tích dữ liệu trên quy mô lớn, quy trình phân tích phải thay đổi, không thể xử lý trên một máy được nữa mà phải xử lý phân tán trên rất nhiều máy. Hệ sinh thái Hadoop giúp ta giải quyết được vấn đề này. Để có cái nhìn tổng quan và những khái niệm cơ bản về Hadoop, các bạn nên đọc bài Làm quen với Hadoop.

Hadoop Ecosystem

6. Tích lũy kinh nghiệm

Để có thể trở thành một nhà khoa học dữ liệu, các bạn cần học tập, tích lũy kiến thức liên tục. Có rất nhiều kênh thông tin bổ ích, cũng như môi trường cho các bạn thực hành:

  • Tham gia các cuộc thi do Kaggle tổ chức: có nhiều cuộc thi được tổ chức liên tục, bạn có thể tham gia và thậm trí có cơ hội giành những giải thưởng lớn.
  • Tham gia cộng động mạng, theo dõi những chuyên gia trong lĩnh vực này: Các bạn có thể theo dõi các trang r-bloggersdatascience101quorakdnuggets, …. . Hoặc theo dõi bài viết từ các nhà khoa học dữ liệu Hilary Mason, David Smith, Nate Silver, ….
  • Hãy thử nghiệm với các dự án nhỏ, ý tưởng của bản thân. Hoặc nếu có cơ hội hãy tham gia các công ty start-up ngày càng nhiều trong lĩnh vực này (Asilla là một start-up như vậy !).

Trên đây là những nhận định chủ quan dựa trên hiểu biết của người viết, rất mong nhận được sự đóng góp, phản hồi của các bạn. Sau bài viết này, sẽ là một loạt bài giới thiệu về R, các kỹ thuật phân tích xử lý dữ liệu, .... Theo dõi blog nếu các bạn quan tâm nhé.

Bạn thấy bài viết này như thế nào?: 
No votes yet
Ảnh của Tommy Tran

Tommy owner Express Magazine

Drupal Developer having 9+ year experience, implementation and having strong knowledge of technical specifications, workflow development. Ability to perform effectively and efficiently in team and individually. Always enthusiastic and interseted to study new technologies

  • Skype ID: tthanhthuy

Tìm kiếm bất động sản

 

Advertisement

 

jobsora

Dich vu khu trung tphcm

Dich vu diet chuot tphcm

Dich vu diet con trung

Quảng Cáo Bài Viết

 
cham soc nguoi cao tuoi

Sức khỏe của người cao tuổi: chăm sóc thế nào đúng cách

Chăm sóc sức khỏe người cao tuổi không phải là một việc đơn giản. Để chăm sóc tốt cho sức khoẻ người cao tuổi bạn phải cần hiểu được những nhu cầu dinh dưỡng cũng như cách phòng ngừa bệnh tật, bảo vệ sức khoẻ cho người cao tuổi.

Theo dõi eCommerce metrics với Google Analytics

Theo dõi eCommerce metrics với Google Analytics

Knowing how your email communication performs in terms of ROI can say a lot about whether or not your message resonates with your target audience.

Bạn đã từng biết Drupal’s Community Working Group chưa?

Bạn đã từng biết Drupal’s Community Working Group chưa?

In early 2013 our fearless and benevolent leader, Dries Buytaert, formalised a governance structure and started a number of working groups for the Drupal project as a whole, and for our home on the Web

Công ty diệt chuột T&C

 

Diet con trung