3P机器人制作小结
前两天,一时兴起,做了个发布3P(PPPerson板)的帖子到Twitter帐号的应用,下面讲讲其中的一些细节。
另外:目前这个帐号是 @PPPerson ,经过几天的测试,目前调整为只读取PPPerson板的帖子,每贴发两图到twitpic。
1.使用feedparser读取水源的3P板feed,将feedparser的encoding自动设为gb2312,这个很重要,否则title读出来乱码
2.判断文章是否读取过,检查数据库即可
3.对于新的文章,去掉文章中的签名档
4.使用从SGMLParser继承下来的自己写的类,读取文章中的img
5.使用Google App Engine新出来的task queue功能,将单个图片的处理添加到队列中。注意,千万不能在一个地址里处理很多图片,现有要遇到quota。
6.使用twitpic的Python类库,将下载下来的Pic传到twitpic.com上面
7.使用App Engine的cron,定期检查水源3P板的新文章