Những kỹ năng cần thiết trong khoa học dữ liệu

Gần đây, mình thấy nhiều bạn muốn bắt đầu hoặc chuyển hướng sang làm việc trong ngành khoa học dữ liệu mà chưa biết nên chuẩn bị những kỹ năng gì. Hồi mới ra trường mình cũng từng như vậy. Mình đã thực sự bị ngợp khi có quá nhiều thứ mình chưa biết và mình cũng không biết nên bắt đầu từ đâu. Vì vậy, mình viết bài này với mong muốn chia sẻ một chút hiểu biết của mình về những kỹ năng cần thiết trong ngành khoa học dữ liệu, hy vọng có thể giúp các bạn chuẩn bị bước chân vào ngành này có một định hướng tốt hơn.

Kỹ năng công nghệ

Trong khoa học dữ liệu, mỗi công việc sẽ tập trung vào xây dựng và phát triển một sản phẩm nhất định và đòi hỏi những kỹ năng khác nhau. Dưới đây là bảng tổng hợp những kỹ năng công nghệ (technical skills) cần thiết và mức độ quan trọng của nó cho một số công việc phổ biến để các bạn tham khảo:

Lập trình xử lý dữ liệu (Data programing) là khả năng làm việc với dữ liệu như trích xuất, lọc bớt, chuyển đổi dữ liệu,… Công việc nào trong khoa học dữ liệu cũng cần kỹ năng này vì trước khi nghĩ đến chuyện phân tích hay phát triển sản phẩm, bạn phải có dữ liệu đã.

Một số công cụ phổ biến được sử dụng: SQL, Excel, Spark, Python,…

Mô tả dữ liệu bằng hình ảnh (Visualization) khả năng biểu diễn số liệu bằng đồ thị trực quan, tạo ra báo cáo và bảng giao diện số. Mình thấy kỹ năng này hay bị đánh giá thấp vì nó không quá phức tạp. Nhưng thực ra nó rất quan trọng trong việc làm báo cáo, phân tích dữ liệu của Data Analyst hay Data Scientist.

Một số công cụ phổ biến được sử dụng: Excel, Python, R, Tableau, Microsoft Power BI,…

Xác suất thống kê (Probability & Statistics) là khả năng phân tích các mối liên hệ giữa các yếu tố với nhau rồi từ đó đánh giá và tối ưu chiến lược kinh doanh. Ví dụ như ước tính việc giảm giá bán 10% thì doanh thu tăng hay giảm bao nhiêu %? Độ tin cậy như thế nào?

Một số công cụ phổ biến được sử dụng: R, Python,…

Học máy (Machine Learning) là sự hiểu biết về ưu nhược điểm của các thuật toán khác nhau và khả năng xây dựng các mô hình học máy dựa trên các thuật toán đó. Hiện nay thì có rất nhiều thư viện hỗ trợ việc xây dựng mô hình học máy rồi nên sẽ tốt hơn nếu bạn hiểu thuật toán bạn đang dùng và biết khi nào thì dùng thuật toán đó cho phù hợp.

Một số công cụ phổ biến được sử dụng: R, Python,…

Lập trình phần mềm (Software Engineering) là khả năng phát triển các phần mềm và ứng dụng. Đây là một kỹ năng rất cần thiết cho Data Engineer và Machine Learning Engineer khi mà họ thường xuyên phải tham gia vào việc triển khai phần mềm trong doanh nghiệp.

Một số công cụ phổ biến được sử dụng: Java, Python,…

Kỹ năng mềm

Bên cạnh kỹ năng công nghệ thì kỹ năng mềm cũng rất quan trọng để làm tốt các công việc trong khoa học dữ liệu. Kỹ năng mềm thường ít được nhắc đến hơn nhưng chắc chắn là một điểm cộng trong mắt các nhà tuyển dụng. Dưới đây là một số kỹ năng mềm mình cho là cần thiết:

Cảm nhận tốt về dữ liệu (Data Intuition): khả năng đánh giá chất lượng của dữ liệu và đánh giá xem bạn đã có đủ dữ liệu cho vấn đề đang cần được giải quyết hay chưa. 

Sự nhạy bén trong kinh doanh (Business Acumen): khả năng nắm bắt cách vận hành của doanh nghiệp và đánh giá được tầm ảnh hưởng của các giải pháp/ chiến lược khác nhau đối với công việc kinh doanh.

Khả năng giao tiếp (Communication Skill): khả năng truyền đạt và giải thích mạch lạc kết quả của việc phân tích dữ liệu. Điều này đặc biệt quan trọng khi bạn cần phải trình bày kết quả của những thuật toán phức tạp cho đồng nghiệp, sếp hoặc đối tác. 

Bạn nên bắt đầu từ đâu?

Trước hết bạn nên tìm hiểu thêm thông tin để xác định công việc trong khoa học dữ liệu mà bạn thấy hứng thú nhất. Tốt nhất là bạn hỏi trực tiếp những người đã có kinh nghiệm trong mảng này để có cơ hội hỏi sâu hơn. Còn mấy thông tin trên mạng (kể cả blog này) chỉ mang tính tham khảo thôi nhé.

Sau khi xác định được mục tiêu rồi thì dễ thôi, bạn thiếu kỹ năng gì thì học kỹ năng đấy. Bạn có thể lựa chọn các nguồn tài liệu như sách, forum, blog hay các khóa học online và offline. Khi mới bắt đầu tự học sâu hơn về khoa học dữ liệu, mình học được nhiều nhất từ cuốn sách The element of statistical learning, khóa học online Machine LearningCoursera và forum Kaggle.

Bên cạnh đó, bạn nên làm một vài dự án cá nhân (side project) để luyện tập và áp dụng kiến thức mình đã học (học đi đôi với hành mà). Bạn có thể chọn một chủ đề nào đấy mà bạn thấy hứng thú, hoặc tham khảo một số ý tưởng dưới đây:

  • Lấy dữ liệu và làm báo cáo về những kỹ năng cần thiết cho vị trí Data Scientist
  • Xây dựng mô hình tính độ phù hợp giữa tin tuyển dụng (job description) và hồ sơ ứng viên (resume)
  • Tạo trợ lý ảo có khả năng nhận diện khuôn mặt và giọng nói cơ bản (cơ bản thôi chứ không cần phức tạp như Jarvis trong Iron Man đâu nhé)

Dù làm dự án nào, bạn cũng nên tóm tắt lại quá trình xây dựng, tìm tòi và kết quả của dự án để phần nào rèn luyện khả năng tổng hợp và diễn đạt. Sau đó, bạn có thể lưu lại trên một dịch vụ lưu trữ trên web nào đó (ví dụ như GitHub) nhằm dễ dàng chia sẻ hoặc tham khảo lại trong tương lai.

Viết đến đây thì mình nhận ra có một kỹ năng khác rất quan trọng là khả năng sử dụng ngoại ngữ. Dù sao thì khoa học dữ liệu là một ngành mới, các nguồn tài liệu tiếng Việt đã bắt đầu xuất hiện nhưng vẫn còn khá ít. Việc biết ngoại ngữ, đặc biệt là tiếng Anh, sẽ giúp bạn tiếp cận với nguồn kiến thức rộng lớn hơn rất nhiều. Không những thế, thành thạo ngoại ngữ còn có thể mở ra cho bạn rất nhiều cơ hội nghề nghiệp trong tương lai, không chỉ tại Việt Nam mà còn ở nhiều nước khác.

Về cơ bản, các kỹ năng mình kể trên đều có tầm quan trọng nhất định. Tuy nhiên, tùy vào định hướng của mình mà bạn nên tự sắp xếp để dành ra thời gian, công sức cho phù hợp với từng kỹ năng khác nhau. Nếu bạn mới bắt đầu chuyển sang ngành khoa học dữ liệu, hãy chọn một vị trí gần với kinh nghiệm và kỹ năng của bạn nhất. Ví dụ nếu bạn được đào tạo về công nghệ thông tin hay lập trình thì bạn có thể chọn Data Engineer hoặc Machine Learning Engineer. Còn nếu bạn bắt đầu từ con số không, thì hãy hướng tới Data Analyst đầu tiên, tích lũy thêm kiến thức, kinh nghiệm rồi thử sức với Data Scientist.

Nếu bạn thấy khoa học dữ liệu thú vị thì còn chờ gì nữa, bắt đầu thôi!

About the author

Harry D.

Harry D.

View all posts

4 Comments

  • Hi Harry, cảm ơn bài viết rất hay của bạn. Mình học quantitative cũng muốn tìm hiểu thêm về ngành dữ liệu rất mong được nói chuyện sâu thêm với bạn để hiểu hơn về ngành này. Đúng là cùng 1 title job, mỗi công ty lại miêu tả công việc khác nhau, đòi hỏi ứng viên cũng khác nhau luôn. Mình đang tìm career path để phát triển theo ngành, đang khá bối rối nên rất mong được bạn chia sẻ thêm về 1 định hướng để phát triển dài hơi hơn. Cảm ơn bạn nhiều.

    • Mình rất vui nếu bài viết giúp ích được cho bạn.
      Bạn có thể đặt câu hỏi cụ thể hơn một chút được không? Mình chưa rõ mục tiêu của bạn là gì?

  • Cám ơn vì bài viết của Anh .
    Em học Điẹne tử -Viễn thông tại Khtn hcm, hiện tại em bắt đầu năm 3 . Nếu em bắt đầu theo data thì được kh ạ. Em khá hứng thú với những con số
    Em cám ơn ạ

    • Bắt đầu năm 3 thì chắc chắn là còn nhiều thời gian để bổ sung kiến thức và kỹ năng mà em chưa có.

      Quan trọng là em cần tìm hiểu rõ hơn về ngành này và xác định rõ mục tiêu của mình. Có mục tiêu rồi thì có sự quyết tâm thì anh nghĩ không gì là không làm được!

      Hơn nữa em còn đang học kỹ thuật, chắc chắn là có lợi thế nhỏ nào đó khi muốn học thêm về khoa học dữ liệu.

      Em cần tư vấn thêm thì cứ qua facebook page rồi nhắn tin cho anh nhé 🙂

Leave a Reply to Harry D. Cancel reply

Your email address will not be published. Required fields are marked *