Giải Nhất Nhân tài Đất Việt 2016 · Bồi đắp liên tục từ 2012

Hồ dữ liệu lớn ứng dụng AI cho mọi dòng dữ liệu của tổ chức

SMCC tiếp nhận văn bản · hình ảnh chứa chữ · giọng nói, chuyển toàn bộ về dạng văn bản, dán nhãn tự động 24/7 bằng AI, lập chỉ mục trên Elasticsearch và hỗ trợ phân tích insight tốc độ cao.

Khám phá nền tảng Xem proposal

Tiếp nhận đa nguồn
Văn bản hoá thống nhất
Dán nhãn tự động 24/7
Elasticsearch tốc độ cao

Tin cậy bởi

Doanh nghiệp Cơ quan nhà nước Cơ quan báo chí

Văn bản

Hình ảnh

Giọng nói

Văn bản chuẩn hoá

Nhãn nghiệp vụ

Chỉ mục tìm kiếm

Insight & quyết định

3lớp đầu vào

6lớp xử lý

24/7AI vận hành

2012Khởi dựng nền tảng

2016Giải Nhất Nhân tài Đất Việt

3Nhóm dữ liệu lõi: chữ · ảnh · tiếng

24/7AI dán nhãn liên tục

6Lớp kiến trúc xử lý

Triết lý nền tảng

Hồ dữ liệu, như một hồ nước

Một hồ nước đón nhận dòng chảy từ muôn nguồn - mang theo bùn đất, cát sỏi, rác nổi. Dưới tác động của trọng lực và thời gian, hồ tự phân tầng: phần nặng lắng xuống đáy, phần nhẹ nổi lên mặt, phần nước trong dần hiện ra giữa các tầng. Từ hỗn độn, trật tự tự nhiên được sinh thành.

Dữ liệu - khối hỗn độn

Nhiều định dạng, nhiều nguồn, nhiều mức chất lượng, nhiều trùng lặp, nhiều lớp nhiễu và nhiều tầng ý nghĩa ẩn.

Tri thức - có cấu trúc

Dữ liệu được dán nhãn, gom nhóm, phân tầng, tinh lọc và chuyển hoá thành thông tin có thể truy vấn, thống kê, phân tích.

“ SMCC không phải là một kho lưu trữ. Đó là một cơ chế làm cho dữ liệu trở nên có nghĩa. Giá trị không nằm ở dung lượng tiếp nhận - mà ở khả năng biến hỗn độn thành cấu trúc, biến cấu trúc thành insight.

Phạm vi dữ liệu đầu vào

Ba dòng dữ liệu · Một trục văn bản

Mọi dữ liệu đi qua một pipeline phù hợp rồi hội tụ về hồ dữ liệu trung tâm. Lựa chọn kiến trúc mang tính quyết định: quy tất cả về văn bản - mặt bằng xử lý chung duy nhất đủ mạnh để vận dụng NLP, LLM và công cụ tìm kiếm tốc độ cao.

Văn bản

Tài liệu số, bài viết, báo cáo, biểu mẫu, email, dữ liệu nghiệp vụ có trường thời gian.

Làm sạch · Chuẩn hoá · Tách metadata NLP / LLM pipeline

→ Văn bản chuẩn hoá có nhãn, có chỉ mục

Hình ảnh tĩnh

Ảnh scan, ảnh chụp tài liệu, hình chứa chữ.

OCR · AI trích xuất vùng chữ Chuẩn hoá chuỗi ký tự

→ Nội dung chữ đưa về văn bản

Âm thanh - giọng nói

Ghi âm giọng nói, cuộc gọi, phỏng vấn, cuộc họp, phản hồi bằng tiếng nói.

Speech-to-Text · Phân đoạn hội thoại Chuẩn hoá văn bản sau nhận dạng

→ Bản ghi có thể tìm kiếm & thống kê

Phiên bản hiện tại tập trung 3 nhóm dữ liệu cốt lõi để bảo đảm độ ổn định và hiệu quả thực chiến. Hình ảnh động & video là định hướng mở rộng tương lai.

Kiến trúc xử lý tổng thể

Dây chuyền chuyển hoá dữ liệu · sáu lớp nối tiếp

Mỗi lớp giải quyết một vấn đề cụ thể trong hành trình biến dữ liệu thô thành thông tin và insight. Kiến trúc theo lớp giúp SMCC không bị trói vào một bài toán cố định: khi nhu cầu thay đổi, khách hàng có thể thay taxonomy, thay cách gắn nhãn mà không phải thay cả nền tảng.

01

Lớp tiếp nhận

Cổng kết nối, luồng đẩy dữ liệu từ người dùng, nguồn Internet công khai và hệ thống nghiệp vụ nội bộ.
02

Lớp chuẩn hoá

Xác định loại dữ liệu, thời gian, nguồn gốc, cấu trúc cơ bản; chuẩn hoá định dạng để loại bỏ sai lệch đầu vào.
03

Lớp văn bản hoá

Chuyển toàn bộ về dạng văn bản qua OCR, speech-to-text và quy trình làm sạch nội dung.
04

Lớp AI dán nhãn

LLM mở, NLP và luật nghiệp vụ phân loại theo chủ đề, đối tượng, mức độ ưu tiên/rủi ro hoặc bộ nhãn riêng do khách hàng thiết kế.
05

Lớp chỉ mục tìm kiếm

Đưa dữ liệu đã chuẩn hoá vào Elasticsearch để truy vấn, lọc, đếm, so sánh và thống kê với tốc độ rất cao.
06

Lớp phân tích & insight

Nhận diện xu hướng, bất thường, quan hệ giữa các chủ đề; sinh ra nhận định phục vụ quyết định.

Năng lực AI ở mức production

Không áp đặt bộ nhãn cố định · tuỳ biến theo nghiệp vụ

Lõi công nghệ là các mô hình ngôn ngữ lớn mở, kết hợp với NLP, chỉ mục tìm kiếm và quy trình nghiệp vụ để thành một hệ thống thực chiến. Cùng một hạ tầng phục vụ social data, dữ liệu khách hàng, tài liệu nội bộ, dữ liệu chuyên đề hay hồ sơ nghiệp vụ.

OCR

Trích xuất văn bản từ ảnh

Ảnh scan, ảnh tài liệu, hình ảnh tĩnh chứa chữ - bóc tách vùng chữ, chuẩn hoá chuỗi ký tự.

STT

Speech-to-Text tiếng Việt

Tổng hợp cuộc gọi, cuộc họp, phỏng vấn, nội dung âm thanh chuyên môn.

CLS

Phân loại chủ đề & thực thể

Nhận diện thực thể, gán nhãn theo taxonomy chuyên ngành hoặc taxonomy riêng của tổ chức.

SENT

Phân tích cảm xúc

Nhận diện tích cực · tiêu cực · trung tính; đọc xu hướng dư luận và phản ứng người dùng.

SUM

Tóm tắt & khử trùng lặp

Nhận diện nội dung nổi bật, gợi ý cấu trúc vấn đề, tạo lớp dữ liệu dễ đọc cho người phân tích.

TAX

Taxonomy theo yêu cầu

Bộ nhãn có thể thiết kế riêng cho từng tổ chức - nghiệp vụ thay đổi, nhãn theo sát.

Máy tìm kiếm tốc độ cao

Từ câu hỏi nghiệp vụ · đến đơn vị dữ liệu gốc

Khi dữ liệu đã được văn bản hoá và gắn nhãn, SMCC đưa vào Elasticsearch. Người dùng không còn lần mò qua từng thư mục - họ đặt câu hỏi theo logic nghiệp vụ rồi dùng bộ lọc phù hợp, đi từ tín hiệu tổng quát xuống từng dòng dữ liệu trong thời gian rất ngắn.

Tìm kiếm toàn văn trên tập dữ liệu lớn
Lọc theo thời gian · nguồn · chủ đề · nhãn · mức độ quan trọng
Thống kê · so sánh theo giai đoạn, nhóm nguồn, lớp nhãn
Dashboard · báo cáo tổng hợp · truy vấn chuyên đề
Khoanh vùng dữ liệu phục vụ phân tích sâu

POST /smcc-lake/_search
{
  "query": { "bool": {
    "must": [ { "match": { "text": "chuyển đổi số báo chí" } } ],
    "filter": [
      { "term": { "label": "chuyên đề" } },
      { "range": { "published_at": { "gte": "now-30d" } } }
    ]
  } },
  "aggs": { "by_source": { "terms": { "field": "source.keyword" } } }
}

took38 ms

nguồn37

Tập trung dữ liệu

Hội tụ dữ liệu rời rạc từ nhiều nguồn vào một hồ chung.

Giảm phân mảnh hệ thống, giảm phụ thuộc vào trí nhớ phân tán của từng bộ phận.

Tự động hoá sơ bộ

AI thay con người đọc, lọc, phân loại và dán nhãn ban đầu.

Rút ngắn mạnh thời gian tiền xử lý trước khi phân tích.

Khai thác tốc độ cao

Tìm kiếm · đếm · thống kê · đối chiếu bằng Elasticsearch.

Tăng tốc trả lời câu hỏi quản trị, giảm chi phí tổng hợp báo cáo.

Nâng chất lượng insight

Dữ liệu đặt trong ngữ cảnh thời gian, chủ đề, đối tượng, mức độ ưu tiên.

Nhìn ra xu hướng, rủi ro và cơ hội sớm hơn.

Mở đường cho AI nội bộ

Hồ dữ liệu là lớp nền triển khai ứng dụng AI cao hơn.

Hạ tầng dùng chung thay vì làm từng công cụ rời rạc.

Chuyên biệt · Cơ quan báo chí & toà soạn

Hạ tầng dữ liệu chiến lược · hai hướng đồng thời

Một toà soạn mạnh không chỉ là nơi sản xuất bài viết nhanh, mà còn là nơi biết tổ chức lại trí nhớ của chính mình, quan sát dòng thông tin bên ngoài hiệu quả hơn và dùng AI để tăng chiều sâu cho lao động biên tập – phân tích – điều hành.

Hướng 1

Theo dõi Internet

Quan sát báo chí điện tử, website xuất bản công khai và nguồn dữ liệu số liên quan - nhận diện tín hiệu nóng, chủ đề nổi bật, những điểm giao cắt giữa nhiều nguồn tin, những xu hướng đang chuyển động.

Rút ngắn thời gian thăm dò mặt bằng thông tin
Phát hiện đề tài · xác định nhịp độ sự kiện
Đo độ dày của tín hiệu

Hướng 2

Tổ chức kho tư liệu nội bộ

Đưa bản thảo, bài đã xuất bản, ghi âm phỏng vấn, tài liệu scan, tư liệu chuyên đề, hồ sơ vụ việc, dữ liệu phóng viên gửi về và lưu trữ lâu năm vào cùng một hồ dữ liệu có thể truy vấn.

Truy vết hồ sơ theo chủ đề · nhân vật · thời gian · địa bàn · tuyến bài
Biến kho lưu trữ phân tán thành tài sản tri thức
Làm nền cho trợ lý biên tập bằng AI

Mục tiêuSMCC hỗ trợ như thế nàoLợi ích cho toà soạn

Theo dõi Internet Tự động thu nhận từ báo chí và nguồn xuất bản công khai, chuẩn hoá và dán nhãn theo chủ đề. Rút ngắn tổng hợp thông tin đầu vào cho phóng viên, biên tập viên.

Tổ chức kho tư liệu Tư liệu nội bộ, hồ sơ, bản thảo, scan, audio vào cùng một hồ dữ liệu truy vấn được. Biến kho lưu trữ phân tán thành tài sản tri thức có thể khai thác lại.

Phân tích chuyên đề Tìm kiếm toàn văn · lọc theo nhãn · thống kê theo thời gian trên tập dữ liệu lớn. Tăng chất lượng tuyến bài, báo cáo chuyên đề, điều tra dữ liệu, phân tích bối cảnh.

Tăng năng lực toà soạn số Nền cho các ứng dụng AI bước sau: tóm tắt, gợi ý chủ đề, hỗ trợ tra cứu, trợ lý biên tập. Vận hành dữ liệu – AI bài bản hơn.

Nguồn dữ liệu Internet & nguyên tắc pháp lý

An toàn · Chủ động · Có trách nhiệm

SMCC phát huy mạnh năng lực trên dữ liệu báo chí và nguồn xuất bản công khai tại Việt Nam - rất có giá trị cho bài toán theo dõi thông tin, phân tích truyền thông, phát hiện biến động theo thời gian.

Đối với dữ liệu mạng xã hội, hệ thống chỉ sử dụng nội bộ cho học tập và nghiên cứu khả năng công nghệ. Mọi dữ liệu mạng xã hội khi xử lý mẫu đều có mã hoá toàn bộ định danh người dùng - nguyên tắc giúp giữ được cả năng lực R&D lẫn trách nhiệm pháp lý.

Trọng tâm dài hạn của SMCC không nằm ở khai thác mạng xã hội đại trà - mà ở việc giúp mỗi tổ chức khai thác dữ liệu của chính mình, một cách an toàn, chủ động và có giá trị hơn.

Mô hình triển khai

Khách hàng nhìn thấy giá trị sớm

Hồ dữ liệu không phải một công trình khép kín - làm xong mới dùng. Đó là cơ chế lớn dần theo chính giá trị mà nó tạo ra. Cách hiệu quả nhất là chọn một dòng dữ liệu có giá trị rõ ràng để khởi động, rồi mở rộng dần thành hồ dữ liệu dùng chung.

Giai đoạn 1
Khảo sát

Xác định nguồn dữ liệu, nhu cầu phân loại, bộ câu hỏi quản trị và mục tiêu insight.
Giai đoạn 2
Kết nối

Cấu hình cổng đưa dữ liệu vào, chuẩn hoá luồng tiếp nhận và thiết lập nhịp thời gian.
Giai đoạn 3
Thiết kế taxonomy

Định nghĩa hệ nhãn và cấu trúc phân loại phù hợp với khách hàng.
Giai đoạn 4
Vận hành thử

Chạy mô hình AI trên tập dữ liệu mẫu, hiệu chỉnh nhãn, tối ưu chất lượng tìm kiếm.
Giai đoạn 5
Mở rộng

Nhân rộng sang nhiều nguồn dữ liệu, đơn vị sử dụng và bài toán phân tích hơn.

“SMCC không chỉ lưu trữ dữ liệu.
SMCC làm cho dữ liệu trở nên có nghĩa.

Một hạ tầng duy nhất

tiếp nhận văn bản, hình ảnh chứa chữ và giọng nói con người - rồi chuyển toàn bộ về văn bản để AI xử lý thống nhất.

Một hồ dữ liệu lớn

cho phép tổ chức dán nhãn, tìm kiếm, thống kê và khai thác insight trên chính dữ liệu của mình.

Một giải pháp đặc biệt phù hợp

với toà soạn muốn vừa quan sát dòng thông tin bên ngoài, vừa tổ chức lại kho tri thức nội bộ.

Sẵn sàng chuyển từ lưu trữ dữ liệu sang khai thác tri thức?

Đặt lịch tư vấn để cùng khảo sát nguồn dữ liệu, thiết kế taxonomy và vẽ lộ trình triển khai phù hợp với tổ chức của bạn.

Liên hệ qua Messenger contact@smcc.vn

Hồ dữ liệu lớn ứng dụng AI cho mọi dòng dữ liệu của tổ chức

Hồ dữ liệu, như một hồ nước

Dữ liệu - khối hỗn độn

Tri thức - có cấu trúc

Ba dòng dữ liệu · Một trục văn bản

Văn bản

Hình ảnh tĩnh

Âm thanh - giọng nói

Dây chuyền chuyển hoá dữ liệu · sáu lớp nối tiếp

Lớp tiếp nhận

Lớp chuẩn hoá

Lớp văn bản hoá

Lớp AI dán nhãn

Lớp chỉ mục tìm kiếm

Lớp phân tích & insight

Không áp đặt bộ nhãn cố định · tuỳ biến theo nghiệp vụ

Trích xuất văn bản từ ảnh

Speech-to-Text tiếng Việt

Phân loại chủ đề & thực thể

Phân tích cảm xúc

Tóm tắt & khử trùng lặp

Taxonomy theo yêu cầu

Từ câu hỏi nghiệp vụ · đến đơn vị dữ liệu gốc

Không thiếu dữ liệu - thiếu cách biến dữ liệu thành tri thức

Tập trung dữ liệu

Tự động hoá sơ bộ

Khai thác tốc độ cao

Nâng chất lượng insight

Mở đường cho AI nội bộ

Hạ tầng dữ liệu chiến lược · hai hướng đồng thời

Theo dõi Internet

Tổ chức kho tư liệu nội bộ

An toàn · Chủ động · Có trách nhiệm

Khách hàng nhìn thấy giá trị sớm

Khảo sát

Kết nối

Thiết kế taxonomy

Vận hành thử

Mở rộng

Sẵn sàng chuyển từ lưu trữ dữ liệu sang khai thác tri thức?