1读取word
2003及word
2007需要的jar包
读取
2003
版本(doc)的word文件相对来说比较简单,只需要
poi-35-beta6-20090622jar
和
poi-scratchpad-35-beta6-20090622jar
两个
jar
包即可,
而
2007
版本(docx)就麻烦多,我说的这个麻烦不是我们写代码的时候麻烦,是要导入的
jar
包比较的多,有如下
7
个之多:
1
openxml4j-bin-betajar
2
poi-35-beta6-20090622jar
3
poi-ooxml-35-beta6-20090622jar
4
dom4j-161jar
5
geronimo-stax-api_10_spec-10jar
6
ooxml-schemas-10jar
7
xmlbeans-230jar
其中
4-7
是
poi-ooxml-35-beta6-20090622jar
所依赖的
jar
包(在
poi-bin-35-beta6-20090622targz
中的
ooxml-lib
目录下可以找到)。
2换行符号
硬换行:文件中换行,如果是键盘中使用了"enter"的换行。
软换行:文件中一行的字符数容量有限,当字符数量超过一定值时,会自动切到下行显示。
对程序来说,硬换行才是可以识别的、确定的换行,软换行与字体大小、缩进有关。
3读取的注意事项
值得注意的是:
POI
在读取不会读取
word
文件中的信息;
还有就是对于
2007
版的
word(docx),
如果
word
文件中有表格,所有表格中的数据都会在读取出来的字符串的最后。
4读取word文本内容代码
1
import
javaioFile;
2
import
javaioFileInputStream;
3
import
javaioInputStream;
4
5
import
orgapachepoiPOIXMLDocument;
6
import
orgapachepoiPOIXMLTextExtractor;
7
import
orgapachepoihwpfextractorWordExtractor;
8
import
orgapachepoiopenxml4jopcOPCPackage;
9
import
orgapachepoixwpfextractorXWPFWordExtractor;
10
11
public
class
Test
{
12
public
static
void
main(String[]
args)
{
13
try
{
14
InputStream
is
=
new
FileInputStream(new
File("2003doc"));
15
WordExtractor
ex
=
new
WordExtractor(is);
16
String
text2003
=
exgetText();
17
Systemoutprintln(text2003);
18
19
OPCPackage
opcPackage
=
POIXMLDocumentopenPackage("2007docx");
20
POIXMLTextExtractor
extractor
=
new
XWPFWordExtractor(opcPackage);
21
String
text2007
=
extractorgetText();
22
Systemoutprintln(text2007);
23
24
}
catch
(Exception
e)
{
25
eprintStackTrace();
26
}
27
}
28
}
1、环境支持
11 添加poi支持:包下载地址>
以上就是关于Java 利用poi 可以直接读取word中的表格保持样式生成新的word么全部的内容,包括:Java 利用poi 可以直接读取word中的表格保持样式生成新的word么、Java POI 如何 *** 作word 格式、等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)