-
Lịch sử hình thành của Big Data
Thuật ngữ Big Data được nhắc đến chính thức bởi O’Reilly Media vào năm 2005. Tuy nhiên, việc sử dụng Big Data đã tồn tại từ rất lâu.
Trong thực tế, các tài liệu về việc sử dụng dữ liệu đã xuất hiện từ 7.000 năm trước, khi kế toán được sử dụng ở Mesopotamia (nền văn minh lưỡng hà) để ghi lại sự phát triển của cây trồng và vật nuôi. Các nguyên tắc kế toán tiếp tục được cải thiện, vào năm 1663, John Graunt ghi lại và kiểm tra tất cả thông tin về tình trạng tử vong ở London. Ông muốn tìm hiểu và xây dựng một hệ thống cảnh báo cho người dân London khi dịch hạch đang hoành hành tại đây. Trong tài liệu đầu tiên về phân tích dữ liệu thống kê, ông đã thu thập các phát hiện của mình trong cuốn sách Quan sát tự nhiên và chính trị được thực hiện dựa trên các tỷ suất tử vong, cung cấp những thông tin chi tiết về nguyên nhân cái chết trong thế kỷ XVII. Từ đó, các nguyên tắc kế toán được cải thiện nhưng không có bước đột phá nào xảy ra. Cho tận đến thế kỷ 20, khi thời đại thông tin bắt đầu chuyển biến mạnh.
Thế kỉ 20
Dự án dữ liệu lớn đầu tiên được tạo ra vào năm 1937 và được chính quyền Franklin D. Roosevelt ‘đặt hàng’ tại Hoa Kỳ. Sau khi Đạo Luật An Sinh Xã Hội trở thành luật vào năm 1937, chính phủ phải theo dõi việc thực thi đạo luật này của 26 triệu người Mỹ và hơn 3 triệu người sử dụng lao động. IBM đã ký hợp đồng phát triển máy đọc thẻ phục vụ cho dự án kế toán khổng lồ này. Máy xử lý dữ liệu đầu tiên xuất hiện vào năm 1943 và được phát triển bởi người Anh để giải mã các mã quốc xã trong Thế chiến II. Thiết bị này, có tên là Colossus. Qua đó giảm nhiệm vụ giải mã các kí tự trong tin nhắn từ vài tuần xuống còn vài giờ.
Năm 1952, Cơ quan an ninh quốc gia (NSA) được thành lập và trong vòng 10 năm đã kí hợp đồng với hơn 12.000 nhà mật mã học . Việc thu thập và xử lý tín hiệu thông minh một cách tự động buộc cơ quan này đối mặt với tình trạng quá tải lưu trữ thông tin trong Chiến tranh Lạnh.
Năm 1965, Chính phủ Thống nhất Hoa Kỳ quyết định xây dựng trung tâm dữ liệu đầu tiên để lưu trữ hơn 742 triệu tờ khai thuế và 175 triệu bộ dấu vân tay bằng cách chuyển những hồ sơ đó lên Magnetic computer tape (băng từ là một phương tiện ghi âm bằng từ tính) phải được lưu trữ tại một địa điểm duy nhất. Dự án sau đó đã không thành công nhưng đó là sự khởi đầu cho kỷ nguyên lưu trữ dữ liệu điện tử.
Năm 1989, nhà khoa học máy tính người Anh Tim Berners-Lee cuối cùng đã phát minh ra World Wide Web. Ông muốn tạo điều kiện chia sẻ thông tin thông qua hệ thống ‘siêu văn bản’.
Tính đến thập niên 90, việc tạo dữ liệu được thúc đẩy khi ngày càng nhiều thiết bị được kết nối với internet. Vào năm 1995, siêu máy tính đầu tiên được chế tạo , có thể làm nhiều công việc trong một giây so với máy tính do một người điều hành hoạt động trong 30.000 năm.
Thế kỷ 21
Năm 2005, Roger Mougalas từ O’Reilly Media đã đặt ra thuật ngữ Big Data lần đầu tiên, chỉ một năm sau khi họ tạo thuật ngữ Web 2.0. Big Data đề cập đến một tập hợp lớn dữ liệu gần như không thể quản lý và xử lý bằng cách sử dụng các công cụ truyền thống.
2005 cũng là năm mà Hadoop được tạo ra bởi Yahoo! được xây dựng trên MapReduce của Google. Ngày nay mã nguồn mở Hadoop được sử dụng bởi nhiều tổ chức làm bước đi trong việc phân tích Big Data.
Khi ngày càng nhiều mạng xã hội bắt đầu xuất hiện thì một lượng lớn các dữ liệu được tạo ra hằng ngày. Khởi nghiệp sáng bắt đầu đào sâu vào lượng dữ liệu khổng lồ này và các chính phủ cũng bắt đầu các dự án với Big Data. Năm 2009, chính phủ Ấn Độ quyết định chụp quét mống mắt, lấy dấu vân tay và chụp ảnh tất cả 1,2 tỷ người. Tất cả các dữ liệu này được lưu trữ trong cơ sở dữ liệu sinh trắc học lớn nhất trên thế giới.
Vào năm 2010, Eric Schmidt (một kỹ sư, một thành viên cũ trong hội đồng quản trị của công ty Apple, và hiện tại đang là chủ tịch điều hành của Google) phát biểu tại hội nghị Techonomy, Lake Tahoe ở California và nói rằng “có 5 exabyte thông tin được tạo ra bởi toàn bộ thế giới từ khi bắt đầu nền văn minh nhân loại đến năm 2003. Năm 2010, lượng dữ liệu đó được tạo ra cứ hai ngày một lần”.
Năm 2011, báo cáo của McKinsey về Big Data: Các biên giới tiếp theo cho sự đổi mới, cạnh tranh và năng suất, nói rằng trong năm 2018, Hoa Kỳ sẽ phải đối mặt với tình trạng thiếu 140.000 – 190.000 nhà khoa học dữ liệu cũng như 1,5 triệu người quản lý dữ liệu.
Xem video để tìm hiểu thêm về Big data của Tim Smith: https://www.youtube.com/watch?v=j-0cUmUyb-Y
2. Big Data là gì?
- Big Data là thuật ngữ dùng để chỉ một tập hợp dữ liệu rất lớn và rất phức tạp đến nỗi những công cụ, ứng dụng xử lí dữ liệu truyền thống không thể nào đảm đương được. Tuy nhiên, Big Data lại chứa trong mình rất nhiều thông tin quý giá mà nếu trích xuất thành công, nó sẽ giúp rất nhiều cho việc kinh doanh, nghiên cứu khoa học, dự đoán các dịch bệnh sắp phát sinh và thậm chí là cả việc xác định điều kiện giao thông theo thời gian thực. Chính vì thế, những dữ liệu này phải được thu thập, tổ chức, lưu trữ, tìm kiếm, chia sẻ theo một cách khác so với bình thường. [1]
Dữ liệu có số lượng lớn cần được lưu trữ như:
- Truyền thống: thông tin khách hàng, giao dịch…
- Thu thập tự động qua cảm biến: thời tiết, nhật ký…
- Mạng xã hội: comment trên facebook, twitter…

Hình 1: Big Data đặc trựng bởi số lượng, tốc độ, sự đa dạng
Vào năm 2001, nhà phân tích Doug Laney của hãng META Group (bây giờ chính là công ty nghiên cứu Gartner) đã nói rằng những thách thức và cơ hội nằm trong việc tăng trưởng dữ liệu có thể được mô tả bằng ba chiều: tăng về lượng (volume), tăng về vận tốc (velocity) và tăng về chủng loại (variety).
Giờ đây, Gartner cùng với nhiều công ty và tổ chức khác trong lĩnh vực công nghệ thông tin tiếp tục sử dụng mô hình “3V” này để định nghĩa nên Big Data. Đến năm 2012, Gartner bổ sung thêm rằng Big Data ngoài ba tính chất trên thì còn phải “cần đến các dạng xử lí mới để giúp đỡ việc đưa ra quyết định, khám phá sâu vào sự vật/sự việc và tối ưu hóa các quy trình làm việc”.
Các thành phần của Big Data

Hình 2: Kiến trúc của Big Data
- Quản lý dữ liệu: cơ sở hạ tầng lưu trữ dữ liệu, và nguồn để thao tác với Big Data.
- Phân tích dữ liệu: công nghệ và các công cụ để phân tích các dữ liệu và thu thập hiểu biết sâu sắc từ Big Data. Là nơi mà các công ty bắt đầu trích xuất giá trị dữ liệu lớn liên quan tới việc phát triển các ứng dụng và sử dụng các ứng dụng để đạt được cái nhìn sâu sắc vào dữ liệu lớn. Đồng thời xây dựng các tool phân tích dữ liệu
- Sử dụng dữ liệu: đưa dữ liệu lớn đã phân tích để phục vụ trong Kinh doanh thông minh và các ứng dụng của người dùng cuối cùng.
[1] https://tinhte.vn/threads/big-data-la-gi-va-nguoi-ta-khai-thac-ung-dung-no-vao-cuoc-song-nhu-the-nao.2210939/