• 注册
  • 查看作者
  • 学术数据挖掘引擎General Index 合法的sci-hub

    学术数据挖掘引擎General Index 合法的sci-hub插图

    研究,论文,大量的论文,其数量还随着时间迅速增长。但是有一个问题。

    很多现有文献不仅藏在付费墙后面,而且也很难以一种全面的、合乎逻辑的方式进行归纳和检索。真正需要的是一个超级智能版的谷歌,只针对学术论文。

    General Index,一个包含约1.072亿篇期刊文章的新数据库,未经压缩的数据总量为38兆兆T字节。它覆盖了超3550亿行的文本,每行都有一个从发表的论文中摘取的关键词或短语。

    “这是一个查询工具,一个知识词典,一个知识地图。”索引的创建者,档案管理员卡尔·马拉姆德说。”一个我们认为是我们现代科学实践的基本设施的工具。

    虽然我们提到了谷歌,但这并不完全是一个搜索引擎–使用General Index的科学家们将不得不为他们自己的搜索引擎编码以与之配合。相反,它是一个精心编排的、结构化的目录,可以用来探究几十年的科学研究。

    它的主要目的是帮助文本挖掘:利用计算机快速扫描数以百万计的数据点,找到并交叉连接到特定的东西。人类不可能从数以百万计的期刊文章中阅读并挑选出关键的数据点,但与总索引相连的计算机程序可以做到。

    其他科学家的反应也很积极。一位专家,来自英国剑桥大学的计算生物学家Gitanjali Yadav说,新的数据库在一定程度上解决了对以前发表的材料的访问受限问题。

    他告诉Nature说:”我–或其他任何人–都没有办法通过实验分析或测量地球上每一种植物物种的化学指纹。我们所寻求的大部分信息已经存在,在已发表的文献中。”

    我们的想法是,General Index可以用来搜索植物、化学品、基因、蛋白质、材料、地名和更多的东西,它仍然需要一些整理和扩展,而且是一项正在进行的事业(它可能永远处于进行中)。

    所有这些信息都可以从General Index上免费下载和使用,没有任何版权和限制——索引只是论文的片段,而不是论文本身。正如我们所提到的,你需要一些编码技能,以便真正从中获得意义。

    与有争议的Sci-Hub不同的是,该索引并不托管论文的全部内容,尽管有人对该项目的合法性提出质疑。对于Malamud来说,该项目完全在法律范围内。

    “Malamud告诉Nature说:”我非常确信我所做的是合法的。我们这样做不是为了挑起一场诉讼,我们这样做是为了推动科学的发展。”

    广东·东莞
  • 0
  • 0
  • 0
  • 458
  • 请登录之后再进行评论

    登录
  • 换皮肤
  • 单栏布局 侧栏位置: