梦奇 Lab 梦奇 Lab: 互联网数据采集与抽取

“不少从事IS方面的学术研究者虽然有很好的idea, 但在数据处理方面,尤其面对如今互联网庞大的数据如何进行采集、抽取、清洗、格式化、组织往往力不从心。 人工采集处理数据费时费力,市面购买往往价格高昂。很多研究尚未开始变石沉大海。”
“梦奇 Lab 为个人学术研究者或大学、研究所等学术研究机构"无偿"提供来自数据支方面的技术支持。”

title Ma Kai, Allen

工学硕士(研究型)
新加坡南洋理工大学

allen@menggy.com


索取数据集

数据驱动

“未来的世界,我们将不再由石油驱动,而是由数据驱动。 ” - 马云

互联网数据有多少

据估计,它们之间的四大店里至少有1200 PB级。也就是说120万太字节 。

数据的价值

“我们能够根据个体之前的行为轨迹预测他或者她未来行踪的可能性,即93%的人类行为可预测。” - 《Science》

他们收录的数据

谷歌

5,000 PB

百度

2,000 PB

Facebook

300 PB

eBay

90 PB

梦奇 Lab 收录的数据

总个数

53

总行数

15,937,398

总大小

4.75 GB

总网页

10,501,902

数据集探索


Bloomberg.com

Bloomberg 1500 companies ticker list - bloomberg.com
更新:2016/05/14 - 创建:2016/05/14

行数:1,500 | 变量数:4 | 数据大小:49.96 KB | 下载量:0 | 浏览量:63
白日做梦的我 - 13天前
LinkedIn领英

全部用户个人链接数据 - 新加坡领英 - SG linkedIn - sg.linkedin.com
更新:2016/05/15 - 创建:2016/05/14

行数:1,033,967 | 变量数:2 | 数据大小:97.82 MB | 下载量:0 | 浏览量:45
白日做梦的我 - 13天前
淘宝论坛

2014年淘宝论坛数据 - 淘宝网 - bbs.taobao.com
更新:2016/05/15 - 创建:2016/05/14

行数:1,226,778 | 变量数:17 | 数据大小:1.07 GB | 下载量:0 | 浏览量:77
白日做梦的我 - 14天前
IT 桔子

新闻数据 - IT桔子 - www.itjuzi.com
更新:2016/05/15 - 创建:2016/05/14

行数:38,610 | 变量数:12 | 数据大小:12.5 MB | 下载量:0 | 浏览量:100
白日做梦的我 - 14天前
IT 桔子

创业者数据 - IT桔子 - www.itjuzi.com
更新:2016/05/13 - 创建:2016/05/10

行数:20,789 | 变量数:19 | 数据大小:14.17 MB | 下载量:0 | 浏览量:147
白日做梦的我 - 17天前
IT 桔子

公司投资关系数据 - IT桔子 - www.itjuzi.com
更新:2016/05/10 - 创建:2016/05/10

行数:12,129 | 变量数:10 | 数据大小:2.88 MB | 下载量:0 | 浏览量:129
白日做梦的我 - 17天前
IT 桔子

公司信息 - IT桔子 - www.itjuzi.com
更新:2016/05/07 - 创建:2016/05/06

行数:24,086 | 变量数:30 | 数据大小:24.27 MB | 下载量:0 | 浏览量:60
白日做梦的我 - 21天前
淘宝论坛

淘宝论坛用户数据 - 淘宝网 - bbs.taobao.com
更新:2016/05/06 - 创建:2016/05/06

行数:3,126,107 | 变量数:4 | 数据大小:800.61 MB | 下载量:0 | 浏览量:106
白日做梦的我 - 22天前
淘宝论坛

淘宝论坛,淘宝公告栏,卖家之声,创业先锋,淘宝杂谈等13个板块回复数据 - 淘宝论坛 - bbs.taobao.com
更新:2016/05/06 - 创建:2016/05/04

行数:3,142,747 | 变量数:14 | 数据大小:863.05 MB | 下载量:0 | 浏览量:162
白日做梦的我 - 23天前
LinkedIn领英

全部用户个人链接数据 - 中国领英 - CN linkedIn - cn.linkedin.com
更新:2016/05/12 - 创建:2016/05/02

行数:5,452,073 | 变量数:2 | 数据大小:511.47 MB | 下载量:0 | 浏览量:117
白日做梦的我 - 26天前