做 AI LLM 应用的同学请进

这个方向有没有人想过:用 AI 做一个爬虫,替人上网寻找感兴趣的内容。

不同于搜索,不是针对临时确定的关键词,而是基于对主人的长期了解,将相关内容快速选取出来,减少人工上网的时间浪费。

人们用上这个工具,可以大大提高接收信息的能力。从宏观上看,是自互联网之后再次显著增进信息流通的效率。

谁感兴趣快去做吧。我急用。

请问这是一个AI搜索引擎,而且还要定制是吗?

但是我有一个问题就是刚开始“长期了解”是很难的,所以你的意思是开始先用大家的平均喜好来提供搜寻结果,然后在根据你的喜好来推荐搜索结果?

还有这个项目很难私有部署,需要大量的服务器,硬盘资源,及各种杂七杂八的硬件,基本是一个大公司才能干出的事情。

这个项目的基本结构应该是这样的:

  1. 跟谷歌,微软等传统搜索引擎一样的爬虫和数据库。

  2. 由AI和传统方法驱动的筛选器,筛选爬取的结果来提高数据质量,防止被灌水和文不答题,大幅提高搜索结果。(要是这么做就会大幅提高你的搜索效率,接下来就只是锦上添花)。

  3. AI回答,总结,并筛选结果,进一步提高效率。(这里会出现一个问题,第一你介不介意被AI“追踪”,第二人会很容易改变,可能你之前搜索某词是为了X目的,明天,你由于某些情况直接改变了你搜索某词的目的,那么是不是降低了效率,万一事关紧急,那很有可能造成严重后果。)

所以想私有或是小团体开发,你只能用别人的数据库,然后实现2和3。

而且好像AI搜索引擎有很多,上网一搜很多,请问您是不是对市面产品不满意。

我不是AI专业人员,无法实现这样一个项目,若无意冒犯,请见谅。

前面说了, 不是搜索引擎。初始形态是一个新闻过滤器。

是针对新闻的。就是让一个 AI 去阅读每天的新闻,选出我感兴趣的内容,拿给我看。选择的标准我可以设置。

Gemini 开放了免费 API 之后,我自己做了一个猴版,专用于读 36Kr 的新闻。效果不算太好,因为 Gemini 的发挥不太稳定。

后面可以更智能一点,比如把选出的新闻的相关内容都挖掘出来。这部分就是结合搜索引擎了。

很抱歉,请问你的意思是新闻过滤器(找兴趣)+新闻内容挖掘器(譬如名词定义,其他相关报道,来龙去脉等,先使用AI阅读全文,然后找出兴趣点,然后再调用搜索引擎搜索相关结果并过滤)吗?

通过重新训练一个模型(超级不靠谱,但是玩的好结果会好不少),抑或是微调一个模型(靠谱,效果不错,但是对技术要求高),还是写一个prompt生成器,反正就是叫AI阅读网页,找到新闻(过滤)生成搜索词,根据返回结果搜索,AI提取并过滤(挖掘),然后生成看板(最方便(起码不用微调或重训),但是可能不可控),对吗?

后一种。。

你希望是后一种对吗?