`
isiqi
  • 浏览: 16029534 次
  • 性别: Icon_minigender_1
  • 来自: 济南
社区版块
存档分类
最新评论

基于Sphinx的中文全文检索引擎Coreseek的安装

阅读更多

按照Sphinx来进行全文检索,默认只支持按字拆分,如果要实现比较好的中文分词,可以使用基于libmmseg的引擎Coreseek。

yum install g++

yum install gcc

yum install make

yum install mysql mysql-devel php-mysql qt4-mysql

wget http://www.coreseek.cn/uploads/sources/mmseg3_0b3.tar.gz

wget http://www.coreseek.cn/uploads/sources/csft3_0b4.tar.gz

tar -xzvf mmseg3_0b3.tar.gz

tar -xzvf csft3_0b4.tar.gz

cd mmseg.3.0b3/

./configure --prefix=/var/mmseg

make

make install

cd ..

cd csft3_0b4

./configure --prefix=/var/coreseek --with-mysql --with-mmseg-includes=/var/mmseg/include/mmseg --with-mmseg-libs=/var/mmseg/lib/

make

make install

cd /var/coreseek/

mkdir dict

cd /home/hfahe/mmseg.3.0b3/data

/var/mmseg/bin/mmseg -u unigram.txt

cp unigram.txt.uni /var/coreseek/dict/uni.lib

cd /var/coreseek/dict/

vi mmseg.ini

输入

cd /var/coreseek/etc/

cp sphinx.conf.dist sphinx.conf

mysql -h 192.168.1.xxx -u root -pxxx test < example.sql

vi sphinx.conf

修改配置里的数据库ip、用户名、密码、数据库

/var/coreseek/bin/indexer --config /var/coreseek/etc/sphinx.conf

这时可能会出现关于libmysqlclient的错误,解决办法如下:

locate libmysqlclient.so

ln -s /usr/local/lib/mysql/libmysqlclient.so.16 /lib/libmysqlclient.so.16

/var/coreseek/bin/indexer --config /var/coreseek/etc/sphinx.conf --all

/var/coreseek/bin/search --config /var/coreseek/etc/sphinx.conf doc

要支持中文,需要将配置里的charset_type值修改为zh_cn.utf-8,并添加charset_dictpath = /var/coreseek/dict。

还需要将sql_query_pre = SET NAMES utf8这一行配置打开。

/var/coreseek/bin/indexer --config /var/coreseek/etc/sphinx.conf --all

/var/coreseek/bin/search --config /var/coreseek/etc/sphinx.conf 中文

试试是否已经可以正常检索中文了。

coreseek默认的配置文件是etc下的csft.conf,使用此文件时可以不需要加入config的配置。

此时应该已经可以显示正确结果了。

分享到:
评论

相关推荐

    sphinx全文搜索引擎

    sphinx全文搜索引擎,支持中文分词。内置sphinx安装包及coreseek安装包

    Sphinx 0.9.9-Coreseek 3.2 参考手册.chm

    Sphinx 0.9.9/Coreseek 3.2 参考手册 离线版 Sphinx--强大的开源全文检索引擎,Coreseek--免费开源的中文全文检索引擎 在线地址: http://www.coreseek.cn/docs/coreseek_3.2-sphinx_0.9.9.html

    coreseek(sphinx + 中文分词)

    Coreseek 是一款中文全文检索/搜索软件,以GPLv2许可协议开源发布,基于Sphinx研发并独立发布,专攻中文搜索和信息处理领域,适用于行业/垂直搜索、论坛/站内搜索、数据库搜索、文档/文献检索、信息检索、数据挖掘等...

    Coreseek 全文检索服务器 2.0 (Sphinx 0.9.8)参考手册

    Coreseek 全文检索服务器 2.0 (Sphinx 0.9.8)参考手册

    coreseek-4.1中文全文检索/搜索软件

    Coreseek 是一款中文全文检索/搜索软件,以GPLv2许可协议开源发布,基于Sphinx研发并独立发布,专攻中文搜索和信息处理领域,适用于行业/垂直搜索、论坛/站内搜索、数据库搜索、文档/文献检索、信息检索、数据挖掘等...

    关于Sphinx创建全文检索的索引介绍

    全文检索的索引创建过程一般有以下几步:1、... 您可能感兴趣的文章:浅谈Coreseek、Sphinx-for-chinaese、Sphinx+Scws的区别centos+php+coreseek+sphinx+mysql之一coreseek安装篇使用rst2pdf实现将sphinx生成PDF在MySQL

    wordpress使用coreseek(sphinx)全文索引

    wordpress的默认搜索是采用mysql的like,但是当我们整个网站的数据非常大的时候...Coreseek开源中文检索引擎,可以说是Sphinx中文版,因为coreseek加入了中文分词库,大家可以到官网去查看具体介绍:http://www.corese

    coreseek安装

    Coreseek 是一款可供企业使用的、基于Sphinx(可独立于Sphinx原始版本运行)中文全文检索/搜索软件,以GPLv2许可协议开源发布,专攻中文搜索和信息处理领域,适用于行业/垂直搜索、论坛/站内搜索、数据库搜索、文档/...

    coreseek-3.2.14-win32

    基于sphinx的中文检索Sphinx如果需要对中文进行全文 检索,也得需要一些插件来补充。其中我知道的插件有 coreseek

    coreseek4.1.zip

    Coreseek 是一款中文全文检索/搜索软件,以GPLv2许可协议开源发布,基于Sphinx研发并独立发布,专攻中文搜索和信息处理领域,适用于行业/垂直搜索、论坛/站内搜索、数据库搜索、文档/文献检索、信息检索、数据挖掘等...

    Coreseek 全文搜索服务器2.5

    Coreseek 全文搜索服务器2.5 是在开源的全文搜索引擎Sphinx上修改增强而来的;并在GPL协议下重新发行。

    coreseek4.1 for window

    coreseek4.1 window版本,sphinx 中文检索搜索引擎!

    coreseek-4.1-win64支持多拼音全文搜索索引

    全文搜索coreseek+sphinx支持拼音搜索,Coreseek 是一款中文全文检索/搜索软件,以GPLv2许可协议开源发布,基于Sphinx研发并独立发布,专攻中文搜索和信息处理领域,适用于行业/垂直搜索、论坛/站内搜索、数据库搜索...

    CoreseekDocker:Coreseek 中文全文检索服务的 Dockerfile

    Coreseek DockerfileCoreseek 是一款中文全文检索/搜索软件,以 GPLv2 许可协议开源发布,基于 Sphinx 研发并独立发布,专攻中文搜索和信息处理领域,适用于行业/垂直搜索、论坛/站内搜索、数据库搜索、文档/文献...

    coreseek-3.2.14稳定版,,站内中文检索

    sphinx coreseek-3.2.14.tar.gz稳定版,中文检索利器。

    sphinx中文文档

    Sphinx是一个基于SQL的全文检索引擎,可以结合MySQL,PostgreSQL做全文搜索,它可以提供比数据库本身更专业的搜索功能,使得应用程序更容易实现专业化的全文检索。Sphinx特别为一些脚本语言设计搜索API接口,如PHP,...

    coreseek4.1 支持拼音索引 win32

    Coreseek 是一款中文全文检索/搜索软件,以GPLv2许可协议开源发布,基于Sphinx研发并独立发布,专攻中文搜索和信息处理领域,适用于行业/垂直搜索、论坛/站内搜索、数据库搜索、文档/文献检索、信息检索、数据挖掘等...

    coreseek4.1 支持多音字拼音索引第三版

    Coreseek 是一款中文全文检索/搜索软件,以GPLv2许可协议开源发布,基于Sphinx研发并独立发布,专攻中文搜索和信息处理领域,适用于行业/垂直搜索、论坛/站内搜索、数据库搜索、文档/文献检索、信息检索、数据挖掘等...

    coreseek4.1 支持多音字拼音索引 win64

    Coreseek 是一款中文全文检索/搜索软件,以GPLv2许可协议开源发布,基于Sphinx研发并独立发布,专攻中文搜索和信息处理领域,适用于行业/垂直搜索、论坛/站内搜索、数据库搜索、文档/文献检索、信息检索、数据挖掘等...

Global site tag (gtag.js) - Google Analytics