Instapaper的网页内容文本自动抓取技术是什么原理,我看着好神奇。我试了好多网页,对于网页中对文本内容识别的都是惊人的准确。我问身边专门做数据采集的同事都不知道如何实现。

2011 年 4 月 3 日
 iiduce
15266 次点击
所在节点    问与答
19 条回复
zhendi
2011 年 4 月 3 日
xinzhi
2011 年 4 月 3 日
各种Readability实现都是获取页面容器包含内容长度最大的部分。
disinfeqt
2011 年 4 月 3 日
其实是 Marco 手动复制粘贴的。
lianghai
2011 年 4 月 3 日
其实是 Marco 高薪吸引全球点击工跳槽。
iiduce
2011 年 4 月 3 日
@disinfeqt @xinzhi
谢谢两位,了解了不少知识。
@disinfeqt @lianghai
Marco是啥东东
lianghai
2011 年 4 月 3 日
@iiduce Marco Arment 是 Instapaper 的开发者。
xds2000
2011 年 4 月 3 日
贴点硬头货
/*
* Readability. An Arc90 Lab Experiment.
* Website: http://lab.arc90.com/experiments/readability
* Source: http://code.google.com/p/arc90labs-readability
*
* "Readability" is a trademark of Arc90 Inc and may not be used without explicit permission.
*
* Copyright (c) 2010 Arc90 Inc
* Readability is licensed under the Apache License, Version 2.0.
*
* This version has been modified by Instapaper, LLC.
* Uncompressed source of the modified version is available at:
* http://www.instapaper.com/javascript/ipreadability-1.7.1.js
**/

// DEFLATE, base64 by Dan Kogai http://github.com/dankogai/

还是有点意思的。
claliu
2011 年 4 月 13 日
http://www.keyvan.net/2010/08/php-readability/
这里有Readability PHP移植 并公布了源代码


Keyvan是 http://fivefilters.org/ 的作者
mywaiting
2011 年 4 月 13 日
Mark 一下,马上就要用到这个。。。
sogood
2011 年 4 月 14 日
哇,居然有开源代码,不错。
不知道跟神经网络的联系在哪里,回头看下源码。
感谢各位的分享。
xatest
2011 年 10 月 16 日
Instapaper对于豆瓣条目的评论识别正文经常出错~
ywjno
2011 年 10 月 16 日
也有可能是通过正则来取得正文的,请看这个项目,http://github.com/plukevdh/readability
XnEnokq9vkvVq4
2011 年 10 月 16 日
根据我的使用经验,Readability比Instapaper Text的准确率高一些。后者可能是一种秘而不宣的技术。。
Numbcoder
2011 年 10 月 16 日
以前还以为是通过RSS识别的。
xohen
2011 年 10 月 16 日
一直用read it later http://readitlaterlist.com/ 浏览器插件抓取,android上通过app阅读。
感觉Instapaper在V2EX受众更多一些?
xohen
2011 年 10 月 16 日
在我记忆中,readitlaterlist不能抓取的页面包括豆瓣日记和新浪博客的文章
acdea4effdbb420d
2011 年 10 月 16 日
@xohen 我之前也一直用的readitlater,instapaper出来之后我发现它能导出到epub,这对eink用户来说是福音,就换到instapaper了
leojoy710
2011 年 10 月 16 日
ywjno
2011 年 10 月 17 日
抱歉之前写的那个是错的项目,这个才是我说的通过正则查询正文的东东,

https://github.com/scyclops/Readable-Feeds/blob/master/readability/hn.py

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://study.congcong.us/t/10934

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX