» 网友学堂 » JAVA教程 » Java抽取Office、PDF的四件兵器
Java抽取Office、PDF的四件兵器
作者:ljjk5 发表时间:2008-1-4 16:26 阅读:139次 在百度搜索相关内容

 很多人问到如何抽取word、excel、pdf等文件,在这里我总结一下抽取word、pdf的几种方法。  1、用jacob.
  其实jacob是一个bridage,连接java和com或者win32函数的一个中间件,jacob并不能直接抽取word,excel等文件,需要自己写dll哦,不过已经有为你写好的了,就是jacob的作者一并提供了。
  jacob下载:http://www.matrix.org.cn/down_view.asp?id=13
  下载了jacob并放到指定的路径之后(dll放到path,jar文件放到classpath),就可以写你自己的抽取程序了,下面是一个例子:
import java.io.File;
import com.jacob.com.*;
import com.jacob.activeX.*;
public class FileExtracter{
public static void main(String[] args) {
ActiveXComponent app = new ActiveXComponent("Word.Application");
String inFile = "c:\test.doc";
String tpFile = "c:\temp.htm";
String otFile = "c:\temp.xml";
boolean flag = false;
try {
app.setProperty("Visible", new Variant(false));
Object docs = app.getProperty("document.").toDispatch();
Object doc = Dispatch.invoke(docs,"Open", Dispatch.Method, new Object[]{inFile,new Variant(false), new Variant(true)}, new int[1]).toDispatch();
Dispatch.invoke(doc,"SaveAs", Dispatch.Method, new Object[]{tpFile,new Variant(8)}, new int[1]);
Variant f = new Variant(false);
Dispatch.call(doc, "Close", f);
flag = true;
} catch (Exception e) {
e.printStackTrace();
} finally {
app.invoke("Quit", new Variant[] {});
}
}
}
  2、用apache的poi来抽取word,excel 在从weblogic系统迁移到jboss系统的时候,中文存储到数据库和XML文件出现乱码。
  我使用的是jboss3.0.8jetty版。
  这是由于JBOSS中传递变量默认的ISO-8859-1的西文字符集。
  我的解决办法是直接修改org.mortbay.jetty.jar。这样不用在程序中写很多转换过程。
  首先到http://sourceforge.net/project/showfiles.php?group_id=7322,凡是叫 xxxx-src.tar.gz 的,都是源代码。我下载的是jetty-4.2.20RC0-all。
  在../jboss-3.0.8/server/default/deploy/jbossweb.sar目录下,需要修改org.mortbay.jetty.jar中的orgmortbayhttp下的HttpRequest.java
  下面是代码修改部分:
private void extractParameters()
{
if (_param*tracted)
return;
_param*tracted=true;
if (_parameters==null)
_parameters=new MultiMap(16);
// Handle query string
String encoding=getCharacterEncoding();
if (encoding==null)
{
// No encoding, so use the existing characters.
//anita modify
//encoding=StringUtil.__ISO_8859_1;
encoding=StringUtil.__GBK;
_uri.putParametersTo(_parameters);
}
else
{
// An encoding has been set, so reencode query string.
String query=_uri.getQuery();
if (query!=null)
{
try
{
//anita modify
//byte[]qbytes=query.getBytes(StringUtil.__ISO_8859_1);
byte[]qbytes=query.getBytes(StringUtil.__GBK);
UrlEncoded.decodeTo(qbytes,0,qbytes.length,_parameters,encoding);
}
catch(Exception e)
{
_uri.putParametersTo(_parameters);
}
}
}

  在注释了“//anita modify”的部分下,是关键的替换部分。
  现在才做了一小部分工作哦,还要继续。在StringUtil下并没有__GBK方法,那我们就添加自己需要的这段代码。
  到orgmortbayutil下,打开StringUtil.java
  我们需要做的是在源程序中添加如下代码:
//anita add for GBK
public static String __GBK;
static
{
String GBK=System.getProperty("GBK");
if (GBK!=null)
__GBK=GBK;
else
{
try{
new String(new byte[]{(byte)20},"GBK");
__GBK="GBK";
}
catch(java.io.UnsupportedEncodingException e)
{
__GBK="GBK";
}
}
}

  修改完,使用ant来执行编译打包,并替换掉JBOSS自带的org.mortbay.jetty.jar。
  这样,中文存储问题就解决了。如果某位老大非要在地址中使用中文URL怎么办?让我继续……
  到orgmortbayutil下,打开URI.java找到大约200行。
public void setURI(String uri)
{
………………
………………
// complete last state
switch(state)
{
case 1:
………………
case 2:
………………
case 3:
_dirty=(mark==maxi);
_encodedPath=uri.substring(mark);
_path = java.net.URLDecoder.decode(_encodedPath, "UTF8");
// 我用上面这句替换了下面这句,就可以了 :)
//_path=decodePath(_encodedPath);
break;
case 4:
………………
case 5:
………………
}
}

  同样编译打包,替换org.mortbay.jetty.jar。
  这样如果你的路径中出现中文字符也可以顺利解决了。
  上述解决方法在WIN2000和REDHAT LINUX上均运行成功。
  别忘了,LINUX上要设置你的字符集。
  locate一下,如果还不是GBK字符集,那需要:
  export LANG=zh_CN.GBK
  export LC_ALL=zh_CN.GBKxpdf是一个开源项目,我们可以调用他的本地方法来实现抽取中文pdf文件。
  下载xpdf函数包:http://www.matrix.org.cn/down_view.asp?id=15
  同时需要下载支持中文的补丁包:http://www.matrix.org.cn/down_view.asp?id=16
  按照readme放好中文的patch,就可以开始写调用本地方法的java程序了
  下面是一个如何调用的例子:
import java.io.*;
/**
* <p>Title: pdf extraction</p>
* <p>Description: email:chris@matrix.org.cn</p>
* <p>Copyright: Matrix Copyright (c) 2003</p>
* <p>Company: Matrix.org.cn</p>
* @author chris
* @version 1.0,who use this example pls remain the declare
*/
public class PdfWin {
public PdfWin() {
}
public static void main(String args[]) throws Exception
{
String PATH_TO_XPDF="C:\Program Files\xpdf\pdftotext.exe";
String filename="c:\a.pdf";
String[] cmd = new String[] { PATH_TO_XPDF, "-enc", "UTF-8", "-q", filename, "-"};
Process p = Runtime.getRuntime().exec(cmd);
BufferedInputStream bis = new BufferedInputStream(p.getInputStream());
InputStreamReader reader = new InputStreamReader(bis, "UTF-8");
StringWriter out = new StringWriter();
char [] buf = new char[10000];
int len;
while((len = reader.read(buf))>= 0) {
//out.write(buf, 0, len);
System.out.println("the length is"+len);
}
reader.close();
String ts=new String(buf);
System.out.println("the str is"+ts);
}
}

#Advertisement