Tại sao máy tính mất tới cả phút để tìm một file có trong máy mà một trình duyệt lại có thể tìm kiếm trên cả triệu trang trong chưa đầy một giây vậy?

Điều thần kỳ nằm ở việc đánh chỉ số.

Thay vì việc tìm kiếm tất cả các trang web khi bạn nhấn Enter câu truy vấn, nó tìm kiếm trên bộ dữ liệu đã được đánh số sẵn. Họ có sẵn danh sách các trang web có thể cho bạn câu trả lời và gần như được sắp xếp theo từ khoá rồi.

Nó giống như việc tìm kiếm một cuốn sách trong thư viện thay vì việc ra quầy và kiếm tra xem sách bạn có trong bộ dữ liệu hay không á.

_____________________

u/boring_pants (12.7k points – x8 silvers – x6 helpful – x1 all-seeing upvote)

Trình duyệt không thể làm được như thế. Nó chỉ có thể gửi một yêu cầu (request) đến một trung tâm dữ liệu khổng lồ đã đọc qua hàng triệu trang, và tạo ra chỉ số (index) cho nội dung mỗi trang. Vì vậy, khi nhận được yêu cầu tìm kiếm một từ, nó chỉ cần tìm từ đó trong bảng đã được đánh chỉ số, và trả về “yep, xuất hiện ở mấy trang này nè”.

Vậy có hai điều cần phải lưu ý ở đây. Đầu tiên là phần khó đã được làm trước rồi, đánh chỉ số hàng triệu triệu trang web trước khi nhận được yêu cầu của bạn. Hai là yêu cầu của bạn không phải do máy tính xử lý đâu, do một vài trung tâm dữ liệu lớn nhất thế giới xử lý đó. Về cơ bản thì có thể có vài trăm máy tính tham gia trả lời câu truy vấn bạn tra trên Google đó.

>u/Carighan (3.3k points – x3 silvers – x4 helpful – x3 wholesome)

Nói rộng ra một chút, nếu bạn để máy tính đánh chỉ số những phần mà bạn muốn tìm kiếm thì kết quả trả về sẽ khá là nhanh đấy.

Nhưng nó lại phụ thuộc vào rất nhiều yếu tố. Máy tính của bạn không phải một trung tâm dữ liệu đủ lớn. Ổ cứng của bạn có thể chậm. Bộ nhớ của bạn có thể bị giới hạn. Việc đánh chỉ số sẽ không được cập nhật mỗi khi ghi thêm một file mới vào ổ.

Dù sao thì, nếu bạn dùng máy bạn để tìm kiếm đi, bạn nên dành chút thời gian để cài đặt cách đánh số phù hợp cho thứ bạn đang cần. Với Windows 10, vào Control Panel → Indexing Options (có thể khác tuỳ ngôn ngữ nhé). Bạn có thể chọn thư mục nào bạn muốn tìm kiếm và đánh số. Đừng có mù quáng thêm tất cả vào nhé, hãy suy nghĩ xem mình hay tìm cái gì. Thêm tất cả những thứ liên quan vào nhé. Xong. Sẽ giúp ích cho bạn nhiều đó.

>>u/SunshineOneDay (864 points)

À cái này nữa bạn ơi, tại sao những công cụ quản lý tài liệu/nội dung lại đáng giá như vàng vậy?

>>>u/Sea_Walrus6480 (981 points – x2 silvers – x1 helpful – x1 wholesome)

Lời lắm đấy nhá! Theo tính toán của tôi

729 (femtogram / gb) * 0.000000000000001 (kg/femtogram) = 0.000000000000729 kg/gb

Giá vàng hôm nay $58,738.05 (/kg) * 0.000000000000729 kg/gb = $0.000000042820038 / gb

Giả sử một công cụ khoảng chừng terabyte đi:

Cộng cụ này = 1000gb * $0.000000042820038/kb = $0.00004282003845

Hoặc khoảng bốn phàn vạn của 1 đô cho một công cụ quản lý dữ liệu khoa học. Giờ còn rẻ hơn nữa ấy chứ.

Nguồn:

https://langa.com/…/yes-your-hdds-and-ssds-really-do…/

>>u/TheJunkyard (495 points – x1 silver)

Đừng bắt Windows 10 đánh số bất cứ thứ gì cả. Tải app “Everything” về mà xài. Làm thế vừa không làm chậm máy, mà tìm kiếm chỉ nháy mắt cái là xong, dù tìm bất cứ file nào trong ổ luôn.

Tôi chả biết tại sao mà Windows làm cái trò này tệ thế, nhưng ứng dụng này đỉnh thật sự, không thể làm việc thiếu nó được.

>u/ErikTheAngry (770 points)

Trung tâm dữ liệu của Google rộng khủng khiếp luôn, nếu bạn nghĩ đến tất cả những gì họ đang làm (và đương nhiên tôi đang giả sử thôi nhé) có khi chứa cả tấn chỉ số rồi ấy chứ.

Quy mô cứ phải gọi là sốc tận óc. theo đó là chiến lược bảo trì phần cứng trong các trung tâm dữ liệu đó.

Theo XKCD: https://xkcd.com/2033/

_____________________

Ảnh: Trung tâm dữ liệu của Google tại Singapore. Hiện nay, Google có 23 trung tâm dữ liệu trên khắp thế giới, tập trung chủ yếu ở Mỹ.

Các bạn có thể tìm hiểu thêm về các trung tâm dữ liệu của Google tại đây: https://www.google.com/about/datacenters

Leave a Reply

Your email address will not be published. Required fields are marked *