您现在的位置: 主页 > 嵌入式操作系统 > Linux > 基于DHT 网络的磁力链接和BT种子的搜索引擎架构
本文所属标签:
为本文创立个标签吧:

基于DHT 网络的磁力链接和BT种子的搜索引擎架构

来源:fromnet 网络用户发布,如有版权联系网管删除 2018-08-08 

使用Python 的 Scrapy 框架开发的网络爬虫,用来爬取磁力链接和种子;

使用PHP CI 框架开发的简易网站;

搜索引擎目前直接使用的 MySQL,将来可以考虑使用 sphinx;

中文分词。

用PHP 写了一个简陋版的基于逆向最大匹配算法的小类,词库呢,哈哈,直接使用了 Chrome 的分词表 ,分词表可以在这个地址下载: http://www.mdbg.net/chindict/chindict.php?page=cedict。

新词发现机制

基于搜索关键词的新词发现机制。

目前词库方面还有一个很大的问题,比如最新的电影无法分词,例如 星际穿越 会被分词为“星际”和“穿越”,因此“被偷走的那五年, 穿越 火线,极速蜗牛,了不起的盖茨比,摩登年代, 星际 迷航,乔布斯传。”也出现在了搜索结果中。

当然这也不算事大问题,但是 霍比特人 却被分词为了“霍”、“比特”、“人”了,好在搜索结果里面没有啥东西乱入。这些属于过度分词,通过增加词库内容可以解决,因此准备些一个豆瓣爬虫,将豆瓣的所有电影都加入词库,用来辅助分词。



              查看评论 回复



嵌入式交流网主页 > 嵌入式操作系统 > Linux > 基于DHT 网络的磁力链接和BT种子的搜索引擎架构
 使用 分词 词库

"基于DHT 网络的磁力链接和BT种子的搜索引擎架构"的相关文章

网站地图

围观()