关于TomCat上传文件中文名乱码的问题

最近在学习TomCat文件上传这一部分,由于文件上传必须要三个条件:  

  1.表单提交方式必须为Post

  2.表单中需要有<input type=”file”>元素,还需要有name属性和值(name的值)。

  3.表单enctype=”multipart/form-data”

  而且,这种方式提交后对浏览器进行抓包分析如下:

 POST /web06/jsp/upload.jsp HTTP/1.1
Accept: text/html, application/xhtml+xml, */*
X-HttpWatch-RID: 22006-10026
Referer: http://localhost:8080/web06/jsp/upload.jsp
Accept-Language: zh-CN
User-Agent: Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko
Content-Type: multipart/form-data; boundary=-------------------------7e139d10110a64(分割线,将请求体的内容分成几块,后面带两个横杠表示内容结束)
Accept-Encoding: gzip, deflate
Host: localhost:8080
Content-Length: 322
DNT: 1
Connection: Keep-Alive
Cache-Control: no-cache
Cookie: JSESSIONID=D51DCB996556C94861B2C72C4D978010 -----------------------------7e139d10110a64
Content-Disposition: form-data; name="info" aaa
-----------------------------7e139d10110a64
Content-Disposition: form-data; name="upload"; filename="C:\Users\jt\Desktop\aa.txt"
Content-Type: text/plain hello world!!!
-----------------------------7e139d10110a64—-(有两个横杠表示结束)

  要想获得普通项的参数,不能像以前那样通过request.getParameter()来得到了.因此,借住第三方工具包,本文采用的是Apache公司的FileUpload工具包.代码如下:

 public class UploadServlet extends HttpServlet {
protected void doPost(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException {
try {
DiskFileItemFactory diskFileItemFactory = new DiskFileItemFactory();
ServletFileUpload servletFileUpload = new ServletFileUpload(diskFileItemFactory);
6 request.setCharacterEncoding("utf-8");
List<FileItem> fileitems = servletFileUpload.parseRequest(request);
8 //System.setProperty("sun.jnu.encoding","utf-8");//设置系统对文件名编码的字符集
for (FileItem itme : fileitems) {
if (itme.isFormField()) {//是普通项
String name = itme.getFieldName();
String value = itme.getString("utf-8");
13 //String value = itme.getString();
14 //value = new String(value.getBytes("iso-8859-1"),"utf-8");
System.out.println(name+"---"+value);
} else {//文件上传项
String realPath = this.getServletContext().getRealPath("/upload");
File file = new File(realPath);
if (!file.exists()) {
file.mkdirs();//不存在就创建文件夹
}
//获得文件输入流
InputStream is = itme.getInputStream();
//获得输出流
String filename =itme.getName();
System.out.println(filename);
27 //System.out.println(System.getProperty("file.encoding"));
28 //System.out.println(System.getProperty("sun.jnu.encoding"));
int index = filename.lastIndexOf("\\");//兼容IE浏览器,如果是IE浏览器,则获得filename为全路径
if (index != -1) {
filename = filename.substring(index + 1);
}
System.out.println(filename);
String newFilename = Utils.getName(filename);//工具类,防止文件名重名,调用UUID
String path = Utils.getFilename(newFilename);//工具类,将文件进行分类存放
File newFile = new File(realPath +"/"+ path);
if (!newFile.exists()) {
newFile.mkdirs();
}
FileOutputStream os = new FileOutputStream(realPath +"/"+ path+ newFilename);
IOUtils.copy(is,os);
is.close();
os.close();
}
}
} catch (FileUploadException e) {
e.printStackTrace();
}
}

  上面代码中标红部分是比较关键的地方.下面对普通项和文件项乱码问题分别进行解释:

1.普通项

  获得普通项的值得代码为:

String value = itme.getString("utf-8");

  和这个方法有个重载的如下:

String value = itme.getString();

  很显然大家也知道结果,上面那个采用字符集"utf-8"进行编码,如果value含有中文,那么结果不会乱码,而采用下面一种则会乱码.我当时就在想,我在程序开始已经设置了请求缓冲流的字符集如下:

 request.setCharacterEncoding("utf-8");

  为什么我调用下面getString()还会出现乱码呢?去查看源码才发现自己对这几个方法根本没有理解,只是套模板用而已.下面先看一下setCharacterEncoding()方法的作用,API中的解释如下:

public void setCharacterEncoding(String env) throws java.io.UnsupportedEncodingException
重写此请求正文中使用的字符编码的名称。必须在使用 getReader() 读取请求参数或读取输入之前调用此方法。否则,此方法没有任何效果。

   当你提交不含文件的表单,调用getParameter方法从请求缓冲流获得数据时,设置该方法可以解决乱码问题,(只限Post请求和Tomcat8.0的get请求).查看getParameter源码如下:

 6 private void mergeParameters(){
7 if ((queryParamString == null) || (queryParamString.length() < 1))
8 return;
9 HashMap queryParameters = new HashMap();
10 String encoding = getCharacterEncoding();
11 if (encoding == null)
12 encoding = "ISO-8859-1";

13 try{
14 RequestUtil.parseParameters(queryParameters, queryParamString, encoding);
15 }catch (Exception e){
16 ;
17 }
18 Iterator keys = parameters.keySet().iterator();
19 while (keys.hasNext()){
20   String key = (String) keys.next();
21   Object value = queryParameters.get(key);
22   if (value == null){
23     queryParameters.put(key, parameters.get(key));
24     continue;
25     }
26     queryParameters.put(key, mergeValues(value, parameters.get(key)));
27   }
28   parameters = queryParameters;
29 }
 主要在10 11 12三行代码,10行调用了getCharacterEncoding()方法获得字符集,如果没设置的话就默认设置字符集为iso-8859-1.
    而在提交含有文件(即设置了enctype属性)的请求中就不一样了,下面看一下getString()方法的源码:
1  public String getString() {
2 byte[] rawdata = get();//通过缓冲流获得字节数组
3 String charset = getCharSet();//获得字符集,并没有看到setCharSet方法,因此,调用该方法,只能得到charset=null
4 if (charset == null) {//如果字符集是空
5 charset = DEFAULT_CHARSET;//这是个自定义常量为ISO-8859-1
6 }
7 try {
8 return new String(rawdata, charset);//通过iso-8859-1进行编码得到了结果,肯定会乱码
9 } catch (UnsupportedEncodingException e) {
10 return new String(rawdata);
11 }
12 }  

public String getString(final String charset) throws UnsupportedEncodingException { return new String(get(), charset); }     

    这是重载的getString(String )方法,可以看到get()获得字符数组之后,直接调用new String方法得到参数.

    那么如果用 String value = itme.getString();则可以先用iso-8859-1解码,然后再用utf-8编码,也能获得正确的结果.

String value = new String((value.getbytes("iso-8859-1"),"utf-8");
2.文件项上传(文件名乱码和文件内容乱码)
请参考:
https://blog.csdn.net/QQ578473688/article/details/77265815?locationNum=7&fps=1
上一篇:让textbox紧贴IME


下一篇:(二)深入梯度下降(Gradient Descent)算法