Sử dụng R trong doanh nghiệp

Trong giới thống kê, R là ngôn ngữ chính thống của phân tích dữ liệu. Với sự phát triển bùng nổ của khoa học dữ liệu – data science trên thế giới – R dần bước ra khỏi phạm vi trường đại học và bắt đầu xâm nhập vào các hoạt động thực tiễn của doanh nghiệp. Đây là phần mềm mã nguồn mở (miễn phí). Nó mang đầy đủ những tính năng của các phần mềm thương mại khác hiện có như SPSS, AMOS, STATA hay EViews.

Tại Việt Nam trong khoảng 4 năm trở lại đây, R đã bắt đầu được sử dụng và đang phát triển rộng rãi trong trường học và giới nghiên cứu. Trong tương lai, R hứa hẹn sẽ trở thành phần mềm được sử dụng phổ biến trong các lĩnh vực nghiên cứu do tính chất bản quyền đang ngày càng được tôn trọng.

Tuy nhiên, ở Việt Nam, việc sử dụng R trong giảng dạy và nghiên cứu khoa học vẫn còn chưa phổ biến và gần như vắng bóng trong các doanh nghiệp. Người viết trình bày 1 số hướng ứng dụng R vào thực tiễn ở góc độ phát triển ứng dụng dữ liệu (data product).

 


PHẦN MỀM PHÂN TÍCH DỮ LIỆU


  • Excel: là công cụ phổ biến của dân văn phòng. Tuy nhiên nếu phải làm những tác vụ thống kê hay phân tích “nghiêm túc”, đây không phải là lựa chọn tốt lắm.
  • Stata, Eview, SPSS, các phần mềm phân tích dữ liệu thương mại khác: các viện nghiên cứu hay các công ty nghiên cứu thị trường, chứng khoán hay sử dụng giải pháp này. Sau khi có kết quả xứ lí, người phân tích thường dùng Excel để vẽ đồ thị và Word để soạn thảo báo cáo.
  • Tích hợp trong các hệ thống ERP: ERP – Enterprise resource planning – là hệ thống phần mềm quản lý hoạt động kinh doanh của doanh nghiệp. Thông thường các hệ thống này có các module hỗ trợ kết xuất các báo cáo, hiển thị các chỉ số, tình hình kinh doanh, các thống kê tổng hợp.
  • Các phần mềm Business Intelligence – BI – hiện đại như Tableau, Qlik,…: đây là những công cụ mới xuất hiện trong những năm gần đây. Sử dụng trình diễn dữ liệu – data visualization – để khám phá (data explration), tìm kiếm những khuôn mẫu (pattern), xu thế (trending) …

 


HẠN CHẾ CỦA PHẦN MỀM THƯƠNG MẠI


  • Chi phí bản quyền.
  • Các phần mềm kể trên thường chỉ mạnh trong 1 lĩnh vực phân tích nhất định. Việc cập nhật các phương pháp phân tích mới thường có độ trễ nhất định.
  • Tính tuỳ biến hạn chế.

 


THẾ MẠNH CỦA R


  • Hệ sinh thái các thư viện thống kê, phân tích dữ liệu, trình diễn dữ liệu lớn và phong phú nhất và không ngừng được mở rộng sang những lĩnh vực như web, trình diễn dữ liệu tương tác – interactive data visualizatio.
  • Đang được đầu tư phát triển cả từ cộng đồng mã nguồn mở và các ông lớn Microsoft, Oracle, IBM, SAS, SPSS,… đều đã tích hợp R vào các sản phẩm thương mại.
  • Sức mạnh của R ngày nay không chỉ gói gọn trong việc nghiên cứu khoa học mà đã bắt đầu được hỗ trợ quy mô công nghiệp, Big Data…

 


DỮ LIỆU TRONG DOANH NGHIỆP


  • Dữ liệu có quy mô lớn, được lưu trữ trong các database server như SQL Server, Oracle, MySQL, PostgreSQL, MongoDB,… Do đó người phân tích dữ liệu cần trang bị thêm kiến thức về ngôn ngữ truy vấn SQL và kỹ thuật sử dụng R với các database server.
  • Trong nhiều trường hợp, dữ liệu không có sẵn và phải “cào” – crawling – hoặc xử lý, rút trích từ các nguồn khác, không phải là file dữ liệu của Excel, Eview, Stata, đòi hỏi phải parse.
  • Dữ liệu thường cần được tiền xử lý, làm sạch và chuyển đổi thành định dạng phù hợp trước khi tiến hành phân tích nghiên cứu.

 


SỬ DỤNG R TRONG DOANH NGHIỆP


  • Dùng R để phân tích dữ liệu thay thế các phần mềm thương mại.
  • Sử dụng R như công cụ soạn thảo báo cáo thống kê: R, kết hợp với rmarkdown, knitr xây dựng template cho các báo cáo, kết hợp với việc tham số hoá báo cáo sẽ giải phóng người làm báo cáo khỏi công việc lặp đi lặp lại định kì. Mỗi khi cần report, chỉ cần điều chỉnh tham số, re-compile file markdown và chờ chương trình thực thi. Đây là ứng dụng rất thực tế của nghiên cứu khả lặp – reproducible research.
  • Sử dụng R soạn thảo các presentation: dùng rmarkdown với slidify hoặc R Presentation. Output của các presentation này có HTML5 và có thể chạy trên trình duyệt bất kì và người sử dụng có thể tuỳ biến thêm với CSS.
  • Phát triển data product phức tạp có thể bao gồm công cụ soạn thảo báo cáo tổng hợp hoặc các phân tích chuyên sâu, sử dụng các package thống kê, máy học hoặc khai mỏ dữ liệu.
  • Ứng dụng R trong thực tiễn kinh doanh, các bạn đọc thêm trong sách: R for Marketing Research and Analytics

 


PHÁT TRIỂN DATA PRODUCT VỚI SHINY


Có nhiều cách để sử dụng hoặc tích hợp R vào các hệ thống phần mềm tuy nhiên đòi hỏi cấu hình nhiều, kiến thức sâu rộng về hệ thống và các công nghệ phần mềm. Ở đây chỉ giới thiệu shiny là công nghệ phù hợp với chuyên gia phân tích dữ liệu.

Shiny là gì?

Shiny là công nghệ phát triển ứng dụng web do Rstudio xây dựng, cho phép người phân tích dữ liệu có thể phát triển data product bằng R, triển khai trên môi trường cloud hoặc trên Shiny Server.

Thế mạnh của shiny?

  • Phát triển ứng dụng dữ liệu nhanh chóng hoàn toàn bằng R, không cần các kiến thức HTML, CSS, Java Script. Tận dụng được nguồn tài nguyên từ hệ sinh thái lớn của R.
  • Phần mềm ứng dụng trên nền web, triển khai trên shiny server, người dùng không phải cài đặt các phần mềm khác để sử dụng.
  • Với nhu cầu thông thường, phiên bản shiny server Community Edition (free) là đủ.
  • Người dùng shiny application không cần có kiến thức về R để khai thác sức mạnh của R
  • Quản lý chặt chẽ dữ liệu trong công ty.

Dùng shiny thế nào?

R & Shiny thích hợp nhất cho việc phát triển data product: Người dùng có thể imput các thông tin tham số đầu vào như data set, các tuỳ biến tham số. Chương trình phân tích, tính toán, hiển thị và trình bày kết quả của phân tích.

Trong doanh nghiệp, có 2 đối tượng sử dụng ứng dụng shiny:

  • Các quản lý cần các con số thống kê tổng hợp, data visualization nhanh chóng để có cái nhìn tổng quát về hiện trạng doanh nghiệp. Với đối tượng này thì có thể dùng shiny application thay thế cho các giải pháp Business Intelligence đắt tiền.
  • Người phân tích dữ liệu: khi đó shiny application có thể được phát triển theo hướng thay thế các công cụ như Stata, Eview, SPSS và được tuỳ biến lại cho phù hợp với quy trình của doanh nghiệp nhằm nâng cao hiệu quả.

Mô hình triển khai shiny server

NGUỒN: Sử dụng R trong doanh nghiệp, theo RStudio


THÔNG TIN LIÊN HỆ

Học viện Doanh nghiệp ABIZ- ĐH Đà Nẵng

Trung tâm phát triển phần mềm ĐH Đà Nẵng (SDC)

———————————————————————————————————-

Học viện doanh nghiệp ABIZ- ĐH Đà Nẵng là đơn vị đối tác của Học viện chiến lược, một đơn vị thành viên của VMCG do ôngTrịnh Minh Giang (MBA) làm Chủ tịch và là người sáng lập Học viện Chiến lược, đồng sáng lập Học viện Dữ liệu, tư vấn trưởng, giảng viên về các mô hình phân tích chiến lược, về chiến lược chuyển đổi số, nền tảng số và phát triển chương trình thành viên. Bên cạnh đó, ABIZ còn là đối tác của nhiều đơn vị giáo dục lớn uy tín ở Việt Nam và trên thế giới. Chương trinh đào tạo chất lượng, đa dạng, đón đầu xu hướng tại ABIZ sẽ trang bị cho người học những kiến thức mới giúp tối ưu hóa giá trị kinh doanh.

———————————————————————————————————-

>>> Xem thêm

Academy Of Business (ABIZ)