数据内容关于,国家图书馆OPACMARC页面数据编程思路写作策略
:讨论图书馆O(简称:国图)PAC检索结果的页面 MARC数据的的程序思路,文代码使用C#语言,基于.net框架。
词:下载国图CNMARCC#编程
在日常的编目工作中,经常会使用国图的OPAC,国图的CNMARC数据权威,的图书种类很齐全,更的是任何人都免费使用它的检索服务。图书馆采编室时候为一批数量可观的图书提前准备MARC数据,以为后续的编目工作做好准备,在经费而购买收费MARC数据源的情况下,国图OPAC的检索服务数据的并重新组织成标准MARC数据也许是最佳的数据准备方式。在国图OPAC检索结果的CNMARC数据的重新组装一文中讨论了CNMARC的重新组装的思路,将讨论以国图检索结果中下载MARC数据的思路。这里考虑解决三个的技术理由。一是如何最简化操作方式,也说在实际操作中不必频繁地鼠标或键盘操作。就算是简单的复制粘贴操作,数百上千次将是非常繁琐的事情。二是怎样的逻辑的结果数据的访问,也说以用户的角度来看是怎样才能省略中间的页面结果中不的内容。三是对的结果数据如何处理存储。下面讨论。
public static string FindOneMatch(string pageContent, string pat, string groupName){
string res = "";
Match m = Regex.Match(pageContent, pat, RegexOptions.IgnoreCase);
if (m.Success){
res = m.Groups[groupName].ToString();
}
return res;
}
GetPageContent策略教学论文的签名为:string GetPage Content(string url, Encoding e),该策略教学论文接受URL和Encoding,访问指定的URL,以指定的编码返回页面内容。FindOneMatch策略教学论文接受页面内容,方式和分组名参数,对内容执行一次正则查找,返回匹配的捕获内容。为了上述的加密串前缀,只需对 “opac.nlc.gov.cn/F/”的页面内容执行一次查找即可。其代码如下:
string pageContent = GetPageContent("opac.nlc.gov.cn/F", Encoding.UTF8);
string pat = "
词:下载国图CNMARCC#编程
在日常的编目工作中,经常会使用国图的OPAC,国图的CNMARC数据权威,的图书种类很齐全,更的是任何人都免费使用它的检索服务。图书馆采编室时候为一批数量可观的图书提前准备MARC数据,以为后续的编目工作做好准备,在经费而购买收费MARC数据源的情况下,国图OPAC的检索服务数据的并重新组织成标准MARC数据也许是最佳的数据准备方式。在国图OPAC检索结果的CNMARC数据的重新组装一文中讨论了CNMARC的重新组装的思路,将讨论以国图检索结果中下载MARC数据的思路。这里考虑解决三个的技术理由。一是如何最简化操作方式,也说在实际操作中不必频繁地鼠标或键盘操作。就算是简单的复制粘贴操作,数百上千次将是非常繁琐的事情。二是怎样的逻辑的结果数据的访问,也说以用户的角度来看是怎样才能省略中间的页面结果中不的内容。三是对的结果数据如何处理存储。下面讨论。
一、最简化操作
这也许是最解决的技术理由。为了简化程序的设计,选择ISBN为的检索字,在下,构思并设计出ISBN列表文件的导入功能,图书ISBN的一次性导入,每次检索前点击某个按钮让程序读入并下ISBN,直到ISBN都处理完毕。ISBN列表文件是简单的txt文件,文件里每一ISBN占据一行。这样的方式可使效率提高,省去了每次都要的ISBN输入操作。,程序也单个ISBN输入的方式,这样就能保证输入的灵活性。二、结果数据的访问
实际的浏览器操作,比如检索ISBN “9787111338017”,选择“中文文献”,选择ISBN字段,确定后浏览器导航到结果页面。观察结果页面的URL,两个串:“2R4Q2UBHG9HPDYS2NEL21626DS9AT67SBQ13JGSIFTA3YAMEIE-04983”和“request=9787111338017”。只需确定这两个串就确定整个URL,其他固定的。更地说,对于前面的加密串,的是要确定“-”字符前面的前缀。,只需保证的加密串的前缀正确就构造出整个结果页面的URL了。为了html页面的特定内容,定义GetPageContent和FindOneMatch两个静态策略教学论文。基于篇幅考虑,下面仅列出FindOneMatch的代码:public static string FindOneMatch(string pageContent, string pat, string groupName){
string res = "";
Match m = Regex.Match(pageContent, pat, RegexOptions.IgnoreCase);
if (m.Success){
res = m.Groups[groupName].ToString();
}
return res;
}
GetPageContent策略教学论文的签名为:string GetPage Content(string url, Encoding e),该策略教学论文接受URL和Encoding,访问指定的URL,以指定的编码返回页面内容。FindOneMatch策略教学论文接受页面内容,方式和分组名参数,对内容执行一次正则查找,返回匹配的捕获内容。为了上述的加密串前缀,只需对 “opac.nlc.gov.cn/F/”的页面内容执行一次查找即可。其代码如下:
string pageContent = GetPageContent("opac.nlc.gov.cn/F", Encoding.UTF8);
string pat = "
发表评论
共有3000条评论 快来参与吧~