基于DHT 网络的磁力链接和BT种子的搜索引擎架构

来源：fromnet 网络用户发布，如有版权联系网管删除　2018-08-08　

使用Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；

使用PHP CI 框架开发的简易网站；

搜索引擎目前直接使用的 MySQL，将来可以考虑使用 sphinx；

中文分词。

用PHP 写了一个简陋版的基于逆向最大匹配算法的小类，词库呢，哈哈，直接使用了 Chrome 的分词表，分词表可以在这个地址下载： http://www.mdbg.net/chindict/chindict.php?page=cedict。

新词发现机制

基于搜索关键词的新词发现机制。

目前词库方面还有一个很大的问题，比如最新的电影无法分词，例如星际穿越会被分词为“星际”和“穿越”，因此“被偷走的那五年，穿越火线，极速蜗牛，了不起的盖茨比，摩登年代，星际迷航，乔布斯传。”也出现在了搜索结果中。

当然这也不算事大问题，但是霍比特人却被分词为了“霍”、“比特”、“人”了，好在搜索结果里面没有啥东西乱入。这些属于过度分词，通过增加词库内容可以解决，因此准备些一个豆瓣爬虫，将豆瓣的所有电影都加入词库，用来辅助分词。

　　　　　　　　　　　　　查看评论回复

嵌入式交流网主页 > 嵌入式操作系统 > Linux > 基于DHT 网络的磁力链接和BT种子的搜索引擎架构

使用分词词库

热门文章

相关文章