Một số nguồn tài liệu để tự học khoa học dữ liệu

Khoa học công nghệ thường xuyên thay đổi và phát triển không ngừng, bạn càng làm nhiều, càng phải tự tìm tòi nạp thêm kiến thức, kỹ năng phù hợp với công việc và định hướng của bản thân. Vì vậy, đối với ngành khoa học dữ liệu, cũng như nhiều ngành khoa học công nghệ khác, việc tự học là vô cùng cần thiết.

Sau đây, mình xin được chia sẻ một số nguồn tự học tiêu biểu mình đã từng sử dụng và cảm thấy hữu ích để các bạn tham khảo. Bài viết được chia làm 3 phần Học – Hỏi – Luyện & Thi: Các khóa học online, Forum & Blog, Các cuộc thi học máy & khoa học dữ liệu. Phần lớn các nguồn tự học này đều dùng tiếng Anh, đòi hỏi các bạn cần có vốn ngoại ngữ nhất định, ít nhất là về khả năng đọc hiểu. Những nguồn nào có thể tham khảo bằng tiếng Việt mình sẽ chú thích rõ hơn trong bài. 

Khóa học online

DataCamp

Đây là một website chuyên cung cấp các khóa học online về khoa học dữ liệu. Các giảng viên (online) đều là những người có kinh nghiệm trong mảng này, giảng giải khá dễ hiểu và gần gũi với công việc thực tế.

Khác với nhiều khóa học online chỉ cung cấp video giảng và tài liệu học, website này còn cho phép người dùng code trực tiếp và kiểm tra code của các bạn. Ngoài ra, các bạn có thể chọn lựa các khóa học dựa theo kỹ năng (Skill Tracks) hoặc theo mục tiêu nghề nghiệp (Career Tracks). Vì vậy, mình thấy Datacamp rất phù hợp với những bạn mới học về khoa học dữ liệu và đang băn khoăn chưa biết nên học cái gì trước, cái gì sau.

Chi phí để học trên website này rơi vào khoảng 25 – 33 USD (~600.000 – 800.000 VNĐ) mỗi tháng. Tuy nhiên, thỉnh thoảng sẽ có khuyến mãi nên các bạn có thể mua với giá ưu đãi hơn.

Coursera

Coursera được biết đến là một website giáo dục trực tuyến uy tín, tập hợp các khóa học của các giáo sư từ những trường đại học tốt nhất trên thế giới, và tất nhiên trong đó có các khóa học về khoa học dữ liệu. 

Đặc biệt, nếu bạn muốn tìm hiểu về học máy, mình xin giới thiệu khóa học Machine Learning của đại học Stanford. Khóa học này bao gồm nhiều lý thuyết căn bản để giúp học viên hiểu sâu hơn về bản chất của học máy. Tuy nhiên, các bạn nên lưu ý ngôn ngữ lập trình được dùng ở đây là Octave – một ngôn ngữ không được phổ biến cho lắm. Cá nhân mình thì bỏ qua các bài tập lập trình để tập trung vào phần lý thuyết căn bản mà thôi.

Ưu điểm của Coursera là có nhiều khóa học miễn phí mà vẫn rất chất lượng. Chi phí để truy cập vào các khóa học tính phí khoảng 50 USD (~1.100.000 VNĐ) mỗi tháng.

Một số khóa học khác

Ngoài DataCamp và Coursera còn có rất nhiều websites dạy học trực tuyến khác mà các bạn có thể tham khảo, mình không sử dụng nhiều nên chỉ giới thiệu ngắn gọn thôi nha:

DataQuest.io cũng chia khóa học cho từng mục tiêu nghề nghiệp khác nhau tương tự như DataCamp, nhưng ít chủ đề nhỏ hơn.

Edx.org có nhiều khóa học miễn phí từ các trường đại học nổi tiếng, tương tự như Coursera.

Udacity.com cũng có nhiều khóa học miễn phí khá hay còn khóa học tính phí thì khoảng 400 USD (~9.200.000 VNĐ) mỗi tháng, giá này khá chát nên mình chưa học các khóa tính phí bao giờ.

fast.ai có mục tiêu giúp tất cả mọi người, đặc biệt là những ai có nền tảng lập trình, có thể xây dựng mô hình học máy và học sâu (deep learning) dễ dàng hơn. Mặc dù không nhiều khóa học như các website khác nhưng fast.ai có ưu điểm lớn là hoàn toàn miễn phí.

Forum & Blog

Blog Machine Learning cơ bản

Blog Machine Learning cơ bản là một trong số rất ít nguồn tài liệu chất lượng bằng tiếng Việt về học máy. Song song với đó, Forum Machine Learning cơ bản cũng có rất nhiều thành viên tích cực tham gia thảo luận về học máy và khoa học dữ liệu.

DATA SCIENCE & BIG DATA VIETNAM

Đây là một facebook group cũng nhận được nhiều sự quan tâm của cộng đồng khoa học dữ liệu tại Việt Nam. Ngoài trao đổi về kiến thức, kỹ năng, group này còn thường xuyên chia sẻ những khóa học cả online và offline.

Machine Learning Mastery

Đây là một Blog chia sẻ về nhiều chủ đề trong học máy như các bước chuẩn bị dữ liệu (data preparation), thị giác máy tính (computer vision), xử lý ngôn ngữ tự nhiên (natural language processing),… Tác giả tập trung nhiều vào phần ứng dụng nên sẽ phù hợp những bạn muốn học cách áp dụng thay vì đi sâu vào lý thuyết.

PyImageSearch

Đây là Blog chuyên về thị giác máy tính (computer vision), rất phù hợp cho những bạn muốn tìm hiểu và phát triển ứng dụng liên quan mảng này. Cá nhân mình đã học được rất nhiều từ blog này và triển khai một vài dự án về camera thông minh trong công ty.

Các cuộc thi học máy & khoa học dữ liệu

Tham gia các cuộc thi cũng là một cách rất tốt để tích lũy thêm kinh nghiệm về xây dựng mô hình học máy. Đến với những cuộc thi này, các bạn sẽ có cơ hội thực hành với dữ liệu thật, điều này sẽ giúp bạn hiểu hơn một chút về dữ liệu thực tế như thế nào. Có ý kiến cho rằng những dữ liệu này còn khác xa thực tế, nhưng mình nghĩ nó đã thật hơn nhiều những ví dụ từ trong sách vở. Hơn nữa, điều hay nhất là bạn còn có thể học hỏi thêm các kỹ thuật mới từ những bài chia sẻ từ các “cao nhân” khác. Nếu bạn mới tham gia thì có thể tìm thêm đồng đội, lập team để dự thi, cùng trao đổi và luyện tập sẽ học nhanh và  hiệu quả hơn.

AIviVN

Đây là một trong số ít các nền tảng tổ chức những cuộc thi học máy cho cộng đồng tại Việt Nam. Tuy mới được thành lập hơn 1 năm, AIviVN đã tổ chức được khoảng 10 cuộc thi với rất nhiều dạng dữ liệu khác nhau (dữ liệu dạng bảng, ảnh, ngôn ngữ). Mình thấy đây là một sân chơi rất bổ ích về học máy tại Việt Nam. Đôi khi các cuộc thi này còn có giải thưởng rất hấp dẫn nữa, các bạn nên tham gia nhé!

Analytic Vidhya

Đây là một nền tảng khá phổ biến trong cộng đồng Ấn Độ và có nhiều cuộc thi trong phần luyện tập (Practice) với dữ liệu cỡ nhỏ, rất phù hợp cho các bạn mới tìm hiểu về các cuộc thi học máy. Ngoài ra, các cuộc thi nhỏ (Hackathons) được diễn ra khá thường xuyên nhằm giúp cộng đồng rèn luyện kiến thức và kỹ năng.

Kaggle

Kaggle được biết đến là nền tảng phổ biến nhất về tổ chức các cuộc thi học máy và khoa học dữ liệu trên thế giới. Có kinh nghiệm từ các cuộc thi trên Kaggle chắc chắn là điểm cộng trong mắt các nhà tuyển dụng, đặc biệt là khi bạn đạt được thứ hạng cao. Tuy nhiên, chính vì Kaggle nổi tiếng và nhận được nhiều sự tham gia nên cạnh tranh về thứ hạng khá dữ dội. Các bạn cần có một nền tảng kiến thức, kỹ năng nhất định và sự đầu tư về thời gian, công sức mới có thể “cày rank” được.

Tạm kết

Nhìn chung, có rất nhiều nguồn tài liệu để các bạn tự học và tham khảo, nhưng hãy nhớ là học đi đôi với hành. Nếu chưa có kinh nghiệm làm việc trong lĩnh vực này, bạn nên chọn cho mình một dự án cá nhân nào đó để áp dụng những kiến thức đã học. Học lý thuyết mà không thực hành thì “chữ thầy trả thầy” nhanh lắm 😀

P/S: Nếu các bạn biết nguồn tự học hay và hiệu quả nào khác, hãy giới thiệu cho mình tham khảo với nhé!

About the author

Harry D.

Harry D.

View all posts

1 Comment

  • Đọc bài của e mới nhớ ra datacamp. Công nhận là c rất thích kiểu dạy của họ. Đội ngũ chăm sóc khách hàng thì nhiệt tình, feedback nhanh. Mai c fải tìm khóa gì hay hay học mới đc. Đang rảnh :). Cảm ơn chú Hưng!

Leave a Reply

Your email address will not be published. Required fields are marked *