Giới thiệu Solr và chạy thử Solr

Giới thiệu Solr

Solr là một ứng dụng mã nguồn mở cung cấp chức năng tìm kiếm, cung cấp các API để làm việc. Solr nhập dữ liệu dưới dạng XML thông qua HTTP,và/hoặc sử dụng thư viện để nhập khối lượng lớn dữ liệu. Người dùng có thể truy vấn dữ liệu này thông qua HTTP GET và nhận về một kết quả dạng XML. Solr sử dụng Lucene Java làm thư viện cho việc index( đánh chỉ số) và search( tìm kiếm).

Tham khảo thông tin:
http://lucene.apache.org/solr/index.html
http://lucene.apache.org/java/docs/index.html

Các chức năng cơ bản của Solr

– Khả năng tìm kiếm văn bản toàn diện(Full-Text Search) giống kiểu Google.
– Chỉnh sửa để hiệu năng tốt hơn.
– Dựa trên các chuẩn mở trong giao tiếp với các hệ thống khác – XML, JSON và HTTP
– Quản trị dưới dạng giao diện HTML đơn giản
– Thống kê dưới dạng JMX
– Khả năng mở rộng ra nhiều server Solr
– Cấu hình đơn giản dễ dàng với định dạng XML
– Có khả năng bổ sung các phần mở rộng(plugin) mới. Ví dụ như phân tích mở rộng tiếng Việt: Bắt lỗi chính tả, bỏ dấu,…

Chạy thử Solr.

– Đầu tiên download về bản mới nhất của Solr, giải nén và chuyển thư mục làm việc vào thư mục example của Solr

ls
cd solr-my-directory/example/

– Solr có thể chạy trên mọi server Java Servlet Container kiểu như ( Tomcat, JBoss, Jetty), trong ví dụ này chúng ta chạy ứng dụng với Jetty, một server cực đơn giản và đã được tích hợp sẵn vào thư mục example. Để khởi động Jetty với ứng dụng Solr chỉ cần chạy file start.jar

solr-my-directory/example$ java -jar start.jar
2009-10-23 16:42:53.816::INFO: Logging to STDERR via org.mortbay.log.StdErrLog
2009-10-23 16:42:53.907::INFO: jetty-6.1.3

– Kết quả là server Jetty được khởi động và lắng nghe tại port( cổng) 8983 trên máy tính của bạn. Bạn có thể chạy Solr bằng cách nhập vào địa chỉ http://localhost:8983/solr/admin/ trong trình duyệt web(khuyến cáo sử dụng FireFox vì nó có khả năng hiểu ký hiệu XML khá tốt). Kết quả sẽ như hình vẽ bên đây.

Giao diện trang admin

Giao diện trang admin


– Bạn thử tìm kiếm với từ khóa “*:*” không có dấu ngoặc kép nhé. Kết quả sẽ ra dạng XML sau.

Không kết quả trả về

Không kết quả trả về


– Nhập dữ liệu: Vì bạn chưa cung cấp dữ liệu cho Solr nên việc tìm kiếm trên trả ra không kết quả. Trong bài viết này chúng ta sử dụng một công cụ Java để nhập dữ liệu dạng XML lên hệ thống Solr. Mở cửa sổ terminal mới( nhớ rằng phải để Jetty chạy ở cửa sổ cũ). Vào thư mục làm việc /example/exampledocs


solr-my-directory/example/exampledocs$ java -jar post.jar *.xml
SimplePostTool: version 1.2
SimplePostTool: WARNING: Make sure your XML documents are encoded in UTF-8, other encodings are not currently supported
SimplePostTool: POSTing files to http://localhost:8983/solr/update..
SimplePostTool: POSTing file solr.xml
SimplePostTool: POSTing file monitor.xml
SimplePostTool: COMMITting Solr index changes..

– Thực hiện lại quá trình tìm kiếm với từ khóa “*:*” bạn sẽ có kết quả khác biệt(Nhớ nhấn tổ hợp phím Ctrl+F5 để FireFox làm tươi lại bộ nhớ cache, trong trường hợp bạn vẫn thấy không kết quả).

Kết quả tìm kiếm thành công

Kết quả tìm kiếm thành công

Nguồn : aladeck.wordpress.com

This entry was posted in Lập trình, Phần mềm nguồn mở, Search Engine, Tiện ích and tagged , , , , . Bookmark the permalink.

Có 3 phản hồi tại Giới thiệu Solr và chạy thử Solr

  1. vietnux nói:

    làm sao để nó tương tác với website?

    • aladeck nói:

      Sử dụng tính năng dataimport handler để nhập dữ liệu từ cơ sở dữ liệu hệ thống web sang.
      Nếu bạn muốn bổ sung một cơ chế crawl nội dung trang web sang hệ thống Solr server bạn có thể dùng Nutch để thu thập nội dung website rồi gửi index sang Solr server.

  2. Bé Tập Code nói:

    bạn có thể nói rõ hơn về việc sử dụng solr trên localhost , và insert, update, delete dữ liệu từ 1 site vào solr được không
    thanks

Gửi phản hồi

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Log Out / Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Log Out / Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Log Out / Thay đổi )

Google+ photo

Bạn đang bình luận bằng tài khoản Google+ Log Out / Thay đổi )

Connecting to %s