IHtmlViewer元素处理三函数分析 编写:陈希(Alan Chen) 电邮:[email protected] 时间:2004年5月13日 平台:BREW 2.0
IHtmlViewer接口可以处理HTML页面,它所能支持的HTML特性如下: 超文本链接 简单表单:文本输入、列表、提交按钮、多项选择框、单选按钮 嵌入的图像(BMP) 水平排列:居左、居中、居右 粗体文本 大字体文本 文本颜色
不支持的特性如下: Java小程序 框架 脚本 背景颜色 CSS Unicode编码
HTML页面元素 先分析一下一个HTML页面: <html> <HEAD> <META http-equiv=Content-Type content="text/html; charset=utf-8"> </HEAD> <body> <form method="GET" action="submit" name="test"> <input name="fid" type="hidden" id="fid" value="5">number <input type="text" name="number" size="15" id="number" value="12345678" ><p> <input type="submit" name="submit" value="send"> </form><p> <a HREF="index.htm">mainmenu</a><p> </body> </html> 其中像html, body, meta, form, input等都是一个元素,同时每个元素都可能含有字符串文本,每一个元素都或多或少的含有属性。
元素处理函数 IHtmlViewer接口有三个处理元素的函数,分别如下: IHTMLVIEWER_FindElem : 根据给定的元素名称和排列顺序查找元素 IHTMLVIEWER_GetElemText : 获取指定元素的文本内容 IHTMLVIEWER_GetAttrValue : 获得指定元素的某个属性值
原型如下: int32 IHTMLVIEWER_FindElem(IHtmlViewer * pIHtmlViewer,const char * pszElem,int nIndex) 参数: pIHtmlViewer指向IHtmlViewer接口对象 pszElem存储要查找的元素名称,是一个零结束符的ASCII字符串,大小写不敏感,如"input" nIndex指出该元素的排列顺序,(0 => first element, 1=> second element, and so on),比如同样的"input"元素就有三个,那么当
nIndex=0,表示第一个,nIndex=1,表示第二个,依次类推 返回值: 返回一个非负整数,表示该元素在文档中的位置 返回IHTMLVIEWER_NOTFOUND,表示指定的元素未发现 返回IHTMLVIEWER_BADELEMENT,表示pszElem是一个不满足标准规范的元素名,只有经过标准规范认证的元素才能被识别
int32 IHTMLVIEWER_GetElemText(IHtmlViewer * pIHTMLViewer,int32 nElemPos,char * pchBuf,int32 cbBuf) 参数: pIHtmlViewer指向IHtmlViewer接口对象 nElemPos为文档中元素的位置。该值可由IHTMLVIEWER_FindElem()返回值得到 pchBuf指向buffer的首地址,用来保存元素文本字符串(零结束符) cbBufbuffer的字节大小 返回值: 返回IHTMLVIEWER_BADELEMENT为失败,表示nElemPos值无效 返回非零非负的整数值,表示结果字符串的字节长度 返回0,表示是一个空元素,或者该元素不包含文本 返回一个比cbBuf大的值,但只有cbBuf个字节写入buffer中
int32 IHTMLVIEWER_GetAttrValue(IHtmlViewer * pIHTMLViewer,int32 monopoles,const char * pszAttr,char * pchBuf,int32 cbBuf) 参数: pIHtmlViewer指向IHtmlViewer接口对象 nElemPos为文档中元素的位置。该值可由IHTMLVIEWER_FindElem()返回值得到 pszAttr存储要查找的属性名称,是一个零结束符的ASCII字符串,大小写不敏感,如"value" pchBuf指向buffer的首地址,用来保存元素文本字符串(零结束符) cbBufbuffer的字节大小 返回值: 返回IHTMLVIEWER_NOTFOUND,表示指定的元素未发现 返回IHTMLVIEWER_BADELEMENT,表示pszElem是一个不满足标准规范的元素名,只有经过标准规范认证的元素才能被识别 返回IHTMLVIEWER_BADATTR,表示pszAttr不是一个规范的属性名称,只有经过标准规范认证的属性才能被识别 返回IHTMLVIEWER_NOVALUE,表示属性是标准规范的,但是确没有赋值 返回一个非负整数,表示拷贝到pchBuf中的字符串字节长度 返回一个比cbBuf大的值,但只有cbBuf个字节写入buffer中
应用例子 比如以上面的HTML页面为例,那么下面的代码的含义如下: int n = IHTMLVIEWER_FindElem(pApp->m_pHTMLViewer, "INPUT", 1); 代码的含义是:查找当前的HTML页面中是否有"input"元素,并且排在第二个?返回的结果表示有这样的元素。 char chBuf[100]; int n1 = IHTMLVIEWER_GetElemText(pApp->m_pHTMLViewer, n, chBuf, 100); 代码的含义是:查找上述的"input"元素的文本内容。返回的结果为0,表示没有任何文本内容。 int n2 = IHTMLVIEWER_GetAttrValue(pApp->m_pHTMLViewer, n, "VALUE", chBuf, 100); 代码的含义是:查找上述的"input"元素中的"value"属性的值。返回的结果保存在chBuf中,是"12345678",n2的值是字符串的长度。
总结 我所研究的这三个函数的作用,主要是为了根据程序的需要分析HTML页面,比方对于表单的深入分析、对于链接的分析等等,这三个函数将有
利于编写灵活的分析HTML页面的程序,可以更好的利用IHtmlViewer接口的功能。

|