基于DHT 网络的磁力链接和BT种子的搜索引擎架构
来源:fromnet 网络用户发布,如有版权联系网管删除 2018-08-08
使用Python 的 Scrapy 框架开发的网络爬虫,用来爬取磁力链接和种子;
使用PHP CI 框架开发的简易网站;
搜索引擎目前直接使用的 MySQL,将来可以考虑使用 sphinx;
中文分词。
用PHP 写了一个简陋版的基于逆向最大匹配算法的小类,词库呢,哈哈,直接使用了 Chrome 的分词表 ,分词表可以在这个地址下载: http://www.mdbg.net/chindict/chindict.php?page=cedict。
新词发现机制
基于搜索关键词的新词发现机制。
目前词库方面还有一个很大的问题,比如最新的电影无法分词,例如 星际穿越 会被分词为“星际”和“穿越”,因此“被偷走的那五年, 穿越 火线,极速蜗牛,了不起的盖茨比,摩登年代, 星际 迷航,乔布斯传。”也出现在了搜索结果中。
当然这也不算事大问题,但是 霍比特人 却被分词为了“霍”、“比特”、“人”了,好在搜索结果里面没有啥东西乱入。这些属于过度分词,通过增加词库内容可以解决,因此准备些一个豆瓣爬虫,将豆瓣的所有电影都加入词库,用来辅助分词。
查看评论 回复
"基于DHT 网络的磁力链接和BT种子的搜索引擎架构"的相关文章
- 上一篇:linux服务之OpenSSH服务
- 下一篇:Linux中errno使用