梦奇 Lab

“部分学术研究者即使有很好的idea,但对于互联网庞大的数据如何进行采集、抽取、清洗、格式化、组织往往感到力不从心。人工采集数据费时费力,市面购买往往价格高昂。很多很好的idea由此石沉大海。”
“梦奇 Lab 为大学、研究所等学术研究机构或个人无偿提供数据支持,为学术研究尽一份微薄之力。”

梦奇 Lab Allen - Lab主管

工学硕士(研究型),新加坡南洋理工大学

计算机工学学士,北京工业大学

个人Email: allen@menggy.com

数据需求Email: request@menggy.com
(需求请写的尽量详细,便于采集。无偿服务)

数据驱动

“未来的世界,我们将不再由石油驱动,而是由数据驱动。 ” - 马云

互联网数据有多少

据估计,它们之间的四大店里至少有1200 PB级。也就是说120万太字节 。

数据的价值

“我们能够根据个体之前的行为轨迹预测他或者她未来行踪的可能性,即93%的人类行为可预测。” - 《Science》

他们收录的数据

谷歌

5,000 PB

百度

2,000 PB

Facebook

300 PB

eBay

90 PB

梦奇 Lab 收录的数据

数据集个数

27

行数

425,493

大小

355.22 MB

抓取网页个数

284,438

数据集探索

梦奇 Lab

雪球用户粉丝等信息(按时间点采集) - 提取自上证100指数成分股帖子 - 雪球xueqiu.com 2016年01月28日收录

行数:81,484 | 变量数:7 | 数据大小:3.21 MB | 下载量:0 | 浏览量:84
白日做梦的我 - 11天前
梦奇 Lab

北京新房数据 - 58安居客 2015年11月14日收录

行数:5,735 | 变量数:15 | 数据大小:1.81 MB | 下载量:0 | 浏览量:93
白日做梦的我 - 2月前
梦奇 Lab

雪球用户详细信息 - 提取自上证100指数成分股帖子 - 雪球xueqiu.com 2015年11月08日收录

行数:105,219 | 变量数:16 | 数据大小:51.47 MB | 下载量:1 | 浏览量:152
白日做梦的我 - 3月前
梦奇 Lab

小说书目 (豆瓣) - 豆瓣douban.com 2015年11月05日收录

行数:74,247 | 变量数:29 | 数据大小:130.25 MB | 下载量:0 | 浏览量:123
白日做梦的我 - 3月前
梦奇 Lab

雪球- 上证100指数成分股个股讨论贴(前100页) - 雪球xueqiu.com 2015年11月04日收录

行数:135,180 | 变量数:17 | 数据大小:135.47 MB | 下载量:0 | 浏览量:60
白日做梦的我 - 3月前
梦奇 Lab

雪球- 沪深股市个股首页数据链接 - 雪球xueqiu.com 2015年11月03日收录

行数:4,725 | 变量数:42 | 数据大小:11.05 MB | 下载量:0 | 浏览量:64
白日做梦的我 - 3月前
梦奇 Lab

IMDb.com 2000年全部流行电影数据 - IMDb 互联网电影数据库 2015年10月28日收录

行数:3,794 | 变量数:22 | 数据大小:3.3 MB | 下载量:0 | 浏览量:64
白日做梦的我 - 3月前
梦奇 Lab

IMDb.com 2001年全部流行电影数据 - IMDb 互联网电影数据库 2015年10月28日收录

行数:3,670 | 变量数:22 | 数据大小:3.29 MB | 下载量:0 | 浏览量:94
白日做梦的我 - 3月前
梦奇 Lab

IMDb.com 2002年全部流行电影数据 - IMDb 互联网电影数据库 2015年10月28日收录

行数:3,701 | 变量数:22 | 数据大小:3.38 MB | 下载量:0 | 浏览量:68
白日做梦的我 - 3月前
梦奇 Lab

IMDb.com 2003年全部流行电影数据 - IMDb 互联网电影数据库 2015年10月28日收录

行数:3,754 | 变量数:22 | 数据大小:3.66 MB | 下载量:0 | 浏览量:116
白日做梦的我 - 3月前