万一这里有人遇到这个问题,我想记录一下自己和同事能够解决的问题,以提高速度。首先要注意一两个关于数据的注释:
- 有大量用户,他们大约占节点的30%
- 由于人们倾向于对几乎所有内容进行哈希处理,因此还有大量的标签
- 这两个必须保证唯一
现在,这已不至于进行优化。首先,最重要的是,您需要确保每次插入节点时插入循环完成。没有真正的例子可供我们看,因此最初的代码看起来像这样(伪代码)
Transaction beginWhile(record.next()){ parse record create unique user create unique hashtag create comment insert into graph}Transaction successTransaction finish
虽然这行之有效,并且对于小型数据集而言相对较快完成,但扩展性不好。因此,我们研究了每个函数的用途,并将代码重构为如下所示:
While(record.next()){ Transaction begin parse record create unique user create unique hashtag create comment insert into graph Transaction success Transaction finish}
这大大加快了速度,但对我的同事来说还远远不够。因此,他发现可以在节点属性上创建Lucene索引,并且我们可以在唯一节点工厂中引用这些索引。这给了我们另一个明显的提速。如此之多,以至于我们可以在10秒钟之内插入1,000,000个节点,而无需使用批处理加载器。感谢大家的帮助。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)