文档库 最新最全的文档下载
当前位置:文档库 › Abstract The Leipzig Corpora Collection Monolingual corpora of standard size

Abstract The Leipzig Corpora Collection Monolingual corpora of standard size

Abstract The Leipzig Corpora Collection Monolingual corpora of standard size
Abstract The Leipzig Corpora Collection Monolingual corpora of standard size

The Leipzig Corpora Collection

Monolingual corpora of standard size

Chris Biemann, Gerhard Heyer, Uwe Quasthoff and Matthias Richter

Department of Natural Language Processing

Faculty of Mathematics and Computer Science

University of Leipzig

{biem, quasthoff, heyer, richter}@informatik.uni-leipzig.de

Abstract

We describe the Leipzig Corpora collection (LCC), a freely available resource for corpora and corpus statistics covering more than 20 languages at the time being. Unified format and easy accessibility encourage incorporation of the data into many projects and render the collection a useful resource especially in multilingual settings and for small languages. The preparation of monolingual corpora of standard sizes from different sources (web, newspaper, Wikipedia) is described in detail.

1 The Leipzig Corpora Collection

1.1 Purpose of the Collection

Open access to basic language resources is a crucial requirement for the development of language technology, especially for languages with few speakers and scarce resources. With our corpora, we aim at providing a data basis for the development and testing of (mainly language-independent) algorithms for various NLP applications, mainly to build language models from unlabeled data. For comparative language studies, corpora of standard size are ideal for measuring and systematically comparing non-linear corpus parameters such as vocabulary growth rates, large-scale distributions and other typological characteristics.

1.2 Corpus in German and standard size corpora for 15 languages

Collecting German wordlists and texts by the Natural Language Processing group at the University of Leipzig since the 1990s has lead to the production and publication of constantly growing corpora of German in 1998, 2000 and 2003, 2005 and 2007, available via our website1. The methods for corpus compiling, cleaning and processing have evolved since then, recent versions of these have been published in (Biemann et al., 2004). (Quasthoff et al., 2006) introduces an application of this language-independent technology and the notion of standard sized corpora for 15 languages, namely Catalan, Danish, Dutch, English, Estonian, Finnish, French, German, Italian, Japanese, Korean, Norwegian, Sorbian, Swedish and Turkish. For the international version of the Website2, see Table 3 in the appendix for a list of sizes and sources.

1.3 Comparable resources for 50+ languages

For a corpus project covering 50 or more languages, we now propose and implement the following guidelines. All text for different languages should

1 http://wortschatz.uni-leipzig.de

2 https://www.wendangku.net/doc/df18003797.html,rmatik.uni-leipzig.de/

1.have comparable origin (for instance newspaper texts),

2.be processed in a similar way, and hence

3.offer equivalent possibilities for the application of statistical parameters.

The processing steps are described below in more detail.

The available electronic material for different languages varies in size. In contrast to that, many numeric features (like the number of significant word co-occurrences) depend on the size of the corpus in a non-linear way. Thus, for exact numerical language comparison and to detect these dependencies, corpora of similar size are required. Hence, we defined standard sizes with reference to a certain number of sentences. Measuring corpus size in number of sentences rather than in number of words is motivated by the amount of information: While isolating languages like English tend to exhibit sentences with more words than e.g. polysynthetic languages like Greenlandic (resulting in the fact that the average English sentence length is higher), we assume that by average the amount of information per sentence is comparable.

For each language, we produce corpora of fixed sizes up to the limit given by the availability of resources. These standard sizes are defined by 10,000, 30,000, 100,000, 300,000, 1 million, 3 million sentences and so on. The difference between size steps is a factor of roughly 3. This allows a comparison of parameters for different sizes for corpora of each language.

For comparison of different kinds of text, we collect three types of corpora for a language: Newspaper texts, randomly selected web text and Wikipedia articles. There are several reasons for collecting these three kinds of text separately: First, they differ in availability. Second, before one compares different languages using statistical parameters the different kinds of text in one language give a good indication of the variance of that parameter within one language. Moreover, corpora of various genres can be relevant for different applications such as terminology extraction. Also, quality and topic coverage of the material varies.

1.3 Release Plan for 2007

In the first half of 2007, a web corpus comprising 14 million Icelandic sentences has been launched3. The corpus, named íslenskur Oreasjóeur, was collected by the National and University Library of Iceland. For the second half of 2007, a number of corpora is due for release: Basque, Chinese, Hungarian4, Russian, Mexican Spanish and a freely available alternative to LDC’s English Gigaword corpus.

2 Collecting Data

The process of corpus production uses only very limited language-specific knowledge. For collecting different kinds of text, different collection methods are employed. Later, these different kinds of text will not be merged into one corpus per language, but different corpora will be produced instead.

2.1 Crawling newspapers

Getting hand at newspaper texts can be done in several ways: One can:

1. ask the publishers to supply material,

2. use releases of newspaper collections from CD/DVD,

3. or crawl newspaper content from the web.

3 http://wortschatz.uni-leipzig.de/ws_ice/

4 based on the web corpus from http://mokk.bme.hu/resources/webcorpus, see (Halácsy et al., 2004)

The latter approach allows the collection of large amounts of text with rather limited resources.

For obtaining large amounts of text in a specific language, stop word queries to news search engines can be used to cover virtually all material visible to the search engine. Alternatively, collections of RSS feeds5 provided by newspapers are a veritable source. In our approach we combine both options.

The use of crawling for a research project raises legal and ethical questions. While it is clear that storing whole texts and allowing retrieval on them would be an unacceptable violation of copyright, search engines do in fact crawl the web, store the obtained data and allow searches on this data, including text snippets in their output. To avoid copyright restrictions, we partition the collected text into sentences and scramble these up in order to destroy the original and coherent structure that would be needed to reproduce the copyrighted material. With respect to the German Urheberrecht, an equivalent of copyright, this approach has been considered safe.

2.2 Using Wikipedia

The Wikipedia community aims at compiling encyclopaedias in all major languages of the world. As of now, Wikipedias in 253 languages have been started, with 88 of these containing more than 5.000 articles6. Recent research has already exploited the structured and semantic portions of Wikipedia in several ways (see e.g. (Milne et al. 2006) and (Gabrilovich and Markovitch, 2007)). We take advantage from this huge collection of (un)structured textual data. When collecting corpora we take only the plain text portion of the article namespace and exclude the user‘s private pages, discussions on articles and also all kinds of meta data. Of course, meta data could be extracted and used to enrich the results easily, but exceeds the scope of the current work.

Wikipedia‘s content can be downloaded safely as a whole in at least two forms. There are XML-dumps made for setting up a fully working Wikipedia mirror. These dumps, however, contain very complex Wiki markup and the only complete parser for this markup known so far is deeply integrated in the MediaWiki engine. So it seems more feasible to start with the HTML dumps7 and to extract the article content of all files that are not in a special namespace.

The compressed dump files for the April 2007 static versions of all Wikipedias are approximately 20 Gigabytes in size and the extracted plain text files are in the same order of magnitude. An overview for smaller languages is given in Table 4 in the appendix. For most Wikipedias, only a fraction of this amount is text in the language supposed to be actually covered. Starting with word lists for 26 already known languages from the Leipzig Corpus Collection and the Acquis Communautaire corpus version 2.2 (Steinberger et al. 2006) we clean sources from undesired content by language identification and extract word lists for a substantial number of the remaining languages. This is a very important step when trying to separate closely related languages such as Afrikaans and Dutch, Sicilian and Italian, Bokm?l and Nynorsk. As a rule of thumb, derived from the ratios of already known languages, we can expect to obtain a pure language corpus sized between a quarter and half the number of sentences identified as “non foreign” in pass 1.

5 E.g. https://www.wendangku.net/doc/df18003797.html,

6 https://www.wendangku.net/doc/df18003797.html,/wiki/List_of_wikipedias (accessed: 30 July 2007)

7 available from https://www.wendangku.net/doc/df18003797.html,/

2.3 Crawling the web

The Findlinks project was started in 2003, see (Heyer and Quasthoff, 2004). The original purpose of the project was to discover the structure of the web and make this available as a web guide via the Nextlinks browser companion. Findlinks implements a distributed webcrawler in a client-server architecture. The client runs on standard PCs and utilizes a computer‘s spare bandwidth and processing resources. It is extensible by plug-ins to perform various tasks, among them language separation by specific trigrams and extending this text collection for specific or unknown languages. Even though most of the online material is in the major languages, a substantial amount of text gets retrieved by the crawler for less widespread languages. We encourage to download the crawler8 and to take part in the collection of corpora.

2.4 Data Cleaning

While there are different character encodings for different languages, all data is converted to UTF-8. Before doing so, one has to identify the character set of the source. In the case of Wikipedia, we already have UTF-8. In all other cases we trust the character set entry in the corresponding HTML tag. If this character set entry turns out to be wrong, the corresponding text will be eliminated during the cleaning process.

?Sentence splitting. For sentence boundary detection we use

o HTML tags for detecting the end of headlines and block level elements such as paragraphs,

o punctuation marks,

o special rules for numbers and dates, and

o a general abbreviation list for the detection of non-boundaries. The problem of varying abbreviations for different languages will be dealt with by a forthcoming abbreviation detector, inspired by (Kiss and Strunk, 2006).

?Word segmentation. For Chinese and Japanese, freely available word segmentation tools are applied. We use HLSegment9 for Chinese and MeCab10 for Japanese. ?Cleaning by foreign language identification. All corpora collected from the web contain undesired material. First, we want to remove foreign language sentences. For this we use

a language identifier based on the most frequent 5000 words for each of the known

languages. With the help of this list, we get a probability for the sentence to belong to a language. A sentence is assigned to the language of maximal probability, if the following conditions are fulfilled:

o The result is reliable, i.e. the probability for the first language is above some threshold and the probability for the second language is much less than for the first language.

o The sentence contains at least two words from the list of the chosen language.

On average, for a corpus in a language other than English, about 10% or more of different language material can be anticipated.

?Pattern based cleaning. Due to the collection methods, the sentence splitter usually returns non-sentences having different sources. With pattern based methods, most of the non-sentences can be removed. Among the rules we apply, the ones listed in Table 1 with Icelandic examples are the most productive ones.

8 http://wortschatz.uni-leipzig.de/nextlinks/index_en.html

9 https://www.wendangku.net/doc/df18003797.html,/cgi-bin/download/count.asp?id=8&url=1

10 https://www.wendangku.net/doc/df18003797.html,

?Removal of duplicate sentences. Copies of sentences need to be removed because many texts are available in parts or as a whole from more than one URL.

?Random selection for corpora of standard sizes. In the last step each sentence is assigned a random number thus introducing a new order for all sentences of the whole corpus. From this randomly numbered corpus, the desired number of sentences is taken in this new ordering. This method ensures that a corpus of standard size includes all corpora of smaller standard sizes.

Rule Description Examples Hits

too many periods unseparated sentences

gluing words together or

incomplete sentences

ending with “…” Upp í flugvél, burt úr kuldanum......

1,300,000

link artifacts or | navigation boilerplates Example: Forsíea > Túlkanir og

tyeingar > Tyeingar Heim | Hafa

samband | Veftré Leitarvél:

Altjóeahús Gagnlegar

upplysingar Algengar

220,000

begins with number dot blank enumeration items 1. innkaup hlutu: Gláma/Kím

arkitektar ehf., Laugavegi 164.

200,000

too many capital letters or digits in a row headlines glued together

with sentences or

enumerations

LEIDBEININGAR UM

NOTKUN Gríptu um boreana og

togaeu nieur og í sundur.

7.3.2005 Tilkynning frá H?gum

hf. 7.3.2005 Verslunarrekstur

Skeljungs komin til 10-11

25.10.2004 Tilkynning frá

H?gum hf. 22.6.2004 Tilkynning

(...)

198,000

contains too many “:”s Lists, e.g. of sports

results

steini :: Comment :: 10

hugmyndir af bloggi.

166,000

too many {/&:}s itemizations Ferea?nd - Svara - Vitna í -

Stelpie 31/10/05 - 0:25 Soffía

fr?nka - Svara - Vitna í - aulinn

31/10/05 - 8:39 Kona í bleikum

slopp mee rúllur í hárinu.

153,000

expression too short incomplete sentences 10. Valur ?

_\?v,c ?

100,000

too many “_”s in a row clozes a) ________________, b)

__________________ og c)

__________________ Hvae

myndast í kynhirslunum ae

lokum?

58,000

Table 1: Text cleaning rules used for dropping undesired sentences, their rationale and impact on an Icelandic corpus of 19,112,187 sentences, c.f. (Hallsteinsdóttir et al. 2007)

3 Data storage and access

3.1 Corpus Processing

The resulting sentences are processed with the tinyCC corpus production engine11. A full text index for words and their numeric position in sentences is built. The number of occurrences of each type is counted and two types of word co-occurrences are calculated with the log-likelihood ratio (Dunning, 1993): at sentence level (1% error threshold) and as immediate neighbours (5% error threshold).

3.2 Database structure

All data is produced in two formats, first a plain text format suitable for immediate access with the text editor of choice and the standard text oriented tools, then as a MySQL schema in cross platform binary compatible MYISAM format for access by database queries and with the corpus browser (see below). Both formats contain exactly the same data (except the table meta) listed in Table 2.

table name fields Content

meta attribute, value meta data about the corpus, needed by the corpus

browser, only in the database version

words w_id, word, freq words and their frequency counts

sentences s_id, sentence sentences full text

sources so_id, source names of sources

inv_w w_id, s_id, pos positions of words in sentences

inv_so s_id, so_id index for sentences in sources

co_n w1_id, w2_id, freq, sig left word, right word, neighbour frequency and

log-likelihood ratio

co_s w1_id, w2_id, freq, sig word1, word2, co-occurrence frequency and log-

likelihood ratio

Table 2: Structure of the database: table names, their fields and functionality

3.3 Web-based access

The corpora released on the LCC-DVD version 1.0 can also be browsed via our portal12. For any word in the corpus, the following information is displayed:

?The word and its frequency

?Three sample sentences

?co-occurring words

?within the same sentence and

?as immediate left and right neighbour

? a co-occurrence graph displaying co-occurrences at sentence level

All information, as well as further data available only for some languages like synonyms or base form reduction, is also accessible as SOAP-based web services13 for a seamless integration into customized applications.

11 Available at http://wortschatz.uni-leipzig.de/~cbiemann/software/TinyCC2.html

12 https://www.wendangku.net/doc/df18003797.html,rmatik.uni-leipzig.de/

13 List of web services at http://wortschatz.uni-leipzig.de/axis/servlet/ServiceOverviewServlet, ask for more

3.4 Using the Corpus Browser

There is a stand-alone corpus browser available for download. In the default configuration it shows all information as described in the previous section. But in contrast to the web interface, the browser can be tailored completely to the needs of a user. Both, the SQL statements for selecting the data to be shown, and the presentation style (for instance, one item per line or all items comma separated on one line) can be defined in a configuration file with a simple, XML-based language which is explained in the browser documentation14. This allows user-defined views on the database. As an example, the MySQL full text index can be used to turn the Corpus Browser into a search engine.

Figure 1: CorpusBrowser showing Iraagi (Iraq) in Estonian corpus ee300k.

14 http://corpora.uni-leipzig.de/download/LCCDoc.pdf

3.5 Inserting and browsing customised data

Because of the loose coupling of the Corpus Browser with the underlying database by externally kept database queries, it is straightforward to modify the underlying database. Especially, if additional information is available at word or at sentence level, it is possible to include it in the presentation. The database structure given in Table 2 can be easily adopted to include more relevant information, for instance:

?second-order co-occurrence: Here, words are similar if they share many (first-order) co-occurrences

?sentence similarity: Sentences are similar if they share many content words. ?sentences with POS-tagging or chunking

?sentences with any other annotation like proper names, disambiguation etc. ?subject areas for words or sentences

? a thesaurus structure for words and data like WordNet

4 Sample language statistics

Figure 2 below illustrates the number of distinct word forms, neighbour-based and sentence-based word co-occurrences for different corpus sizes and different languages. The values for Finnish (bold) are shown in comparison to the average of 12 European languages (thin lines).

Different properties are clearly perceivable:

?The growth shown in Figure 2 is linear for all parameters in the log-log-plot. This means we have exponential growth for the actual parameters.

?We have nearly linear growth for the number of distinct word forms and co-occurrences compared to the corpus size measured in sentences.

?Both neighbour and sentence co-occurrences exhibit a slope close to 1. The slope for the number of distinct word forms is smaller.

?For different languages, these lines differ slightly by slope and by some constant.

Different slopes in the log-log-plot correspond to exponential growth with different growth rates.

For Finnish we have:

?The number of word forms is slightly larger then average.

?The growth of the number of neighbour co-occurrences is slightly larger than average. Leaving these facts unexplained in this current paper, the emphasis here is to show the usability of the corpora of standard size for language comparison.

5 Conclusions

In this paper, we have described the production process of monolingual corpora in standard sizes from various sources. Our service to the community is to provide these corpora in a cleaned and uniform way in various formats and various modes of access. Especially for languages with scarce resources, we provide an open-access basis on which any language technology can build upon. Further the majority of tools needed to build and maintain self-compiled collections have been made available. We constantly extend the collection both in the number of languages covered and in the size of resources provided.

References

Biemann, C., S. Bordag, G. Heyer, U. Quasthoff and C. Wolff (2004) Language independent Methods for Compiling Monolingual Lexical Data. In Proceedings of CicLING 2004, Springer LNCS 2945. Seoul, South Korea

Dunning, T. (1993) Accurate methods for the statistics of surprise and coincidence. Computational Linguistics, 19(1)

Gabrilovich, E. and S. Markovitch (2007) Computing Semantic Relatedness using Wikipedia-based Explicit Semantic Analysis. In Proceedings of IJCAI 2007, Hyderabad, India.

http://www.cs.technion.ac.il/~shaulm/papers/abstracts/Gabrilovich-2007-CSR.html

Halácsy, P., A. Kornai, L. Németh, A. Rung, I. Szakadát, and V. Trón (2004) Creating open language resources for Hungarian. In: Proceedings of the LREC 2004, Lisbon, Portugal

Hallsteinsdóttir, E., T. Eckart, C. Biemann, U. Quasthoff and M. Richter, M. (2007) íslenskur Oreasjóeur - Building a Large Icelandic Corpus. In: Proceedings of NODALIDA-07, Tartu, Estonia

Heyer, G. and U. Quasthoff (2004) Calculating Communities by Link Analysis of URLs. Proceedings of IICS-04, Guadalajara, Mexico and Springer LNCS 3473

Kiss, T. and J. Strunk (2006) Unsupervised Multilingual Sentence Boundary Detection. Computational Linguistics, 32(4).

Milne, D., O. Medelyan and I.H. Witten (2006) Mining Domain-Specific Thesauri from Wikipedia: A Case Study. In: Proceedings of the 2006 IEEE/WIC/ACM International Conference on Web Intelligence. Washington, DC

Quasthoff, U, M. Richter and C. Biemann (2006) Corpus Portal for Search in Monolingual Corpora. In: Proceedings of the LREC 2006, Genova, Italy

Steinberger R., B. Pouliquen, A. Widiger, C. Ignat, T. Erjavec, D. Tufi? and D. Varga (2006) The JRC-Acquis: A multilingual aligned parallel corpus with 20+ languages. In: Proceedings of the LREC 2006, Genova, Italy

Appendix: Corpora and sizes

code Language Size Source Availability

cat Catalan 10 million WWW LCC 1.0

dan Danish 3 million WWW LCC 1.0

dut Dutch 1 million Newspaper LCC 1.0

eng English 10 million Newspaper LCC 1.0

est Estonian 1 million various LCC 1.0

fin Finnish 3 million WWW LCC 1.0

fre French 3 million Newspaper LCC 1.0

ger German 30 million Newspaper LCC 1.0

ger German 30 million WWW in preparation

hun Hungarian 10 million WWW in preparation

ice Icelandic 1 million Newspaper online

ice Icelandic 10 million WWW online

ita Italian 3 million Newspaper LCC 1.0

jap Japanese 0.3 million WWW LCC 1.0

kor Korean 1 million Newspaper LCC 1.0

nor Norwegian 3 million WWW LCC 1.0

ser Serbian 1 million various in preparation

sor Sorbian 0.3 million various LCC 1.0

spa Spanish 1 million Newspaper online

swe Swedish 3 million WWW LCC 1.0

tur Turkish 1 million WWW LCC 1.0

Table 3: Leipzig Corpora Collection: Sources and maximum standard size

Language lang. #articles #kb #unique sentences #non foreign sentences

(pass 1)

Swedish sv 235,231 314,120 3,111,124 2,997,385 Chinese zh 131,442 354,212 2,339,583 2,211,215 Finnish fi 119,908 219,540 2,542,700 2,471,782 Norwegian (Bokm?l) no 116,093 192,520 2,052,158 1,966,768 Esperanto eo 85,394 124,792 1,159,373 1,088,885 Turkish tr 83,154 159,844 1,078,935 1,052,695 Slovak sk 71,314 94,612 1,128,462 1,078,462 Czech cs 70,130 161,628 1,729,946 1,628,828 Romanian ro 67,157 101,652 813,742 692,679 Catalan ca 65,701 109,296 1,312,394 1,288,733 Danish da 64,558 99,944 997,886 949,555 Ukrainian uk 63,434 85,884 1,023,615 1,016,767 Hungarian hu 62,548 159,752 1,593,033 1,552,856 Indonesian id 62,387 83,644 896,062 828,777 Hebrew he 59,324 222,360 1,219,772 1,205,459 Lombard lmo 51,296 12,540 116,667 100,791 Slovenian sl 49,132 79,996 905,354 882,549 Lithuanian lt 47,776 67,604 717,234 708,970 Serbian sr 46,212 101,552 1,009,209 984,328 Bulgarian bg 40,764 83,964 811,975 802,502 Korean ko 38,389 68,228 529,777 518,685 Estonian et 36,410 53,464 616,565 606,932 Cebuano ceb 33,210 9,900 172,440 109,536 Arabic ar 32,918 63,180 442,514 437,496 Croatian hr 31,861 66,592 782,635 497,777 Telugu te 28,015 14,328 128,896 118,033 Galician gl 24,915 43,256 472,111 264,437 Greek el 24,306 54,896 536,541 523,973 Thai th 24,143 56,712 436,306 423,762 Norwegian (Nynorsk) nn 23,587 40,552 375,659 170,890 Persian fa 21,927 44,344 367,548 364,570 Malay ms 21,483 33,956 479,084 439,627 Newar / Nepal Bhasa new 21,410 7,660 50,894 45,165 Vietnamese vi 20,123 66,572 674,386 631,312 Bosnian bs 18,832 29,256 320,325 201,710 Basque eu 18,388 24,072 213,139 206,289 Bishnupriya Manipuri bpy 17,612 10,000 75,661 73,507 Volapük vo 16,997 3,108 14,376 13,427 Simple English simple 16,718 28,820 285,761 283,395 Albanian sq 16,492 20,216 163,534 151,445 Icelandic is 15,968 24,912 198,154 175,996 Bengali bn 15,835 18,384 97,354 90,770

Luxembourgish lb 15,,710 24,040 267,267 238,215 Georgian ka 15,428 24,072 116,738 114,986 Ido io 15,069 13,352 177,660 152,494 Breton br 14,274 17,936 181,495 159,640 Latin la 13,484 20,440 143,615 130,462 Neapolitan nap 12,514 12,024 55,953 49,187 Hindi hi 11,824 10,320 55,394 52,435 Serbo-Croatian sh 11,411 24,580 323,581 190,526 Tamil ta 10,871 17,860 115,449 110,638 Sundanese su 10,673 11,080 97,407 73,958 Marathi mr 10,254 8,992 49,300 47,997 Javanese jv 10,228 5,824 52,846 50,907 Macedonian mk 9,947 18,212 155,081 151,652 Welsh cy 9,939 12,752 110,134 102,272 Sicilian scn 9,924 9,896 78,536 68,014 Latvian lv 9,745 19,644 183,617 179,610 Low Saxon nds 9,597 11,824 166,022 134,918 Kurdish ku 9,371 9,612 89,189 69,470 Walloon wa 9,053 8,688 57,151 44,757 Asturian ast 8,517 12,420 195,382 173,789 Piedmontese pms 8,425 4,904 32,990 28,640 Occitan oc 8,255 14,892 97,849 74,286 Afrikaans af 7,714 15,084 150,299 78,308 Tajik tg 7,680 7,288 45,077 39,868 Siberian/North Russian ru-sib 7,205 4,328 48,417 47,651 Haitian ht 7,053 3,640 43,587 39,246 Azeri az 6,907 7,596 47,933 43,629 Ripuarian ksh 6,804 7,932 39,655 33,471 Tagalog tl 6,148 9,500 105,707 86,344 Aragonese an 6,135 8,844 172,556 163,901 Chuvash cv 5,876 5,220 42,448 42,054 Urdu ur 5,869 10,132 54,659 53,739 Uzbek uz 5,542 7,328 75,908 72,855 Corsican co 5,408 4,300 23,333 19,486 Belarusian be 5,309 3,068 20,927 20,756 Irish Gaelic ga 5,141 8,876 72,605 65,464 Table 4: Wikipedias with more than 5,000 articles: size in articles, compressed kilobytes, number of unique sentences and upper bound for number of candidates for inclusion in a corpus. The Top 10 clearly exceed 1 million usable sentences and are omitted here.

公文写作规范格式

商务公文写作目录 一、商务公文的基本知识 二、应把握的事项与原则 三、常用商务公文写作要点 四、常见错误与问题

一、商务公文的基本知识 1、商务公文的概念与意义 商务公文是商业事务中的公务文书,是企业在生产经营管理活动中产生的,按照严格的、既定的生效程序和规范的格式而制定的具有传递信息和记录作用的载体。规范严谨的商务文书,不仅是贯彻企业执行力的重要保障,而且已经成为现代企业管理的基础中不可或缺的内容。商务公文的水平也是反映企业形象的一个窗口,商务公文的写作能力常成为评价员工职业素质的重要尺度之一。 2、商务公文分类:(1)根据形成和作用的商务活动领域,可分为通用公文和专用公文两类(2)根据内容涉及秘密的程度,可分为对外公开、限国内公开、内部使用、秘密、机密、绝密六类(3)根据行文方向,可分为上行文、下行文、平行文三类(4)根据内容的性质,可分为规范性、指导性、公布性、陈述呈请性、商洽性、证明性公文(5)根据处理时限的要求,可分为平件、急件、特急件三类(6)根据来源,在一个部门内部可分为收文、发文两类。 3、常用商务公文: (1)公务信息:包括通知、通报、通告、会议纪要、会议记录等 (2)上下沟通:包括请示、报告、公函、批复、意见等 (3)建规立矩:包括企业各类管理规章制度、决定、命令、任命等; (4)包容大事小情:包括简报、调查报告、计划、总结、述职报告等; (5)对外宣传:礼仪类应用文、领导演讲稿、邀请函等; (6)财经类:经济合同、委托授权书等; (7)其他:电子邮件、便条、单据类(借条、欠条、领条、收条)等。 考虑到在座的主要岗位,本次讲座涉及请示、报告、函、计划、总结、规章制度的写作,重点谈述职报告的写作。 4、商务公文的特点: (1)制作者是商务组织。(2)具有特定效力,用于处理商务。 (3)具有规范的结构和格式,而不像私人文件靠“约定俗成”的格式。商务公文区别于其它文章的主要特点是具有法定效力与规范格式的文件。 5、商务公文的四个构成要素: (1)意图:主观上要达到的目标 (2)结构:有效划分层次和段落,巧设过渡和照应 (3)材料:组织材料要注意多、细、精、严 (4) 正确使用专业术语、熟语、流行语等词语,适当运用模糊语言、模态词语与古词语。 6、基本文体与结构 商务文体区别于其他文体的特殊属性主要有直接应用性、全面真实性、结构格式的规范性。其特征表现为:被强制性规定采用白话文形式,兼用议论、说明、叙述三种基本表达方法。商务公文的基本组成部分有:标题、正文、作者、日期、印章或签署、主题词。其它组成部分有文头、发文字号、签发人、保密等级、紧急程度、主送机关、附件及其标记、抄送机关、注释、印发说明等。印章或签署均为证实公文作者合法性、真实性及公文效力的标志。 7、稿本 (1)草稿。常有“讨论稿”“征求意见稿”“送审稿”“草稿”“初稿”“二稿”“三稿”等标记。(2)定稿。是制作公文正本的标准依据。有法定的生效标志(签发等)。(3)正本。格式正规并有印章或签署等表明真实性、权威性、有效性。(4)试行本。在试验期间具有正式公文的法定效力。(5)暂行本。在规定

关于会议纪要的规范格式和写作要求

关于会议纪要的规范格式和写作要求 一、会议纪要的概念 会议纪要是一种记载和传达会议基本情况或主要精神、议定事项等内容的规定性公文。是在会议记录的基础上,对会议的主要内容及议定的事项,经过摘要整理的、需要贯彻执行或公布于报刊的具有纪实性和指导性的文件。 会议纪要根据适用范围、内容和作用,分为三种类型: 1、办公会议纪要(也指日常行政工作类会议纪要),主要用于单位开会讨论研究问题,商定决议事项,安排布置工作,为开展工作提供指导和依据。如,xx学校工作会议纪要、部长办公会议纪要、市委常委会议纪要。 2、专项会议纪要(也指协商交流性会议纪要),主要用于各类交流会、研讨会、座谈会等会议纪要,目的是听取情况、传递信息、研讨问题、启发工作等。如,xx县脱贫致富工作座谈会议纪要。 3、代表会议纪要(也指程序类会议纪要)。它侧重于记录会议议程和通过的决议,以及今后工作的建议。如《××省第一次盲人聋哑人代表会议纪要》、《xx市第x次代表大会会议纪要》。 另外,还有工作汇报、交流会,部门之间的联席会等方面的纪要,但基本上都系日常工作类的会议纪要。 二、会议纪要的格式 会议纪要通常由标题、正文、结尾三部分构成。

1、标题有三种方式:一是会议名称加纪要,如《全国农村工作会议纪要》;二是召开会议的机关加内容加纪要,也可简化为机关加纪要,如《省经贸委关于企业扭亏会议纪要》、《xx组织部部长办公会议纪要》;三是正副标题相结合,如《维护财政制度加强经济管理——在xx部门xx座谈会上的发言纪要》。 会议纪要应在标题的下方标注成文日期,位置居中,并用括号括起。作为文件下发的会议纪要应在版头部分标注文号,行文单位和成文日期在文末落款(加盖印章)。 2、会议纪要正文一般由两部分组成。 (1)开头,主要指会议概况,包括会议时间、地点、名称、主持人,与会人员,基本议程。 (2)主体,主要指会议的精神和议定事项。常务会、办公会、日常工作例会的纪要,一般包括会议内容、议定事项,有的还可概述议定事项的意义。工作会议、专业会议和座谈会的纪要,往往还要写出经验、做法、今后工作的意见、措施和要求。 (3)结尾,主要是对会议的总结、发言评价和主持人的要求或发出的号召、提出的要求等。一般会议纪要不需要写结束语,主体部分写完就结束。 三、会议纪要的写法 根据会议性质、规模、议题等不同,正文部分大致可以有以下几种写法: 1、集中概述法(综合式)。这种写法是把会议的基本情况,讨

titlesec宏包使用手册

titlesec&titletoc中文文档 张海军编译 makeday1984@https://www.wendangku.net/doc/df18003797.html, 2009年10月 目录 1简介,1 2titlesec基本功能,2 2.1.格式,2.—2.2.间隔, 3.—2.3.工具,3. 3titlesec用法进阶,3 3.1.标题格式,3.—3.2.标题间距, 4.—3.3.与间隔相关的工具, 5.—3.4.标题 填充,5.—3.5.页面类型,6.—3.6.断行,6. 4titletoc部分,6 4.1.titletoc快速上手,6. 1简介 The titlesec and titletoc宏包是用来改变L A T E X中默认标题和目录样式的,可以提供当前L A T E X中没有的功能。Piet van Oostrum写的fancyhdr宏包、Rowland McDonnell的sectsty宏包以及Peter Wilson的tocloft宏包用法更容易些;如果希望用法简单的朋友,可以考虑使用它们。 要想正确使用titlesec宏包,首先要明白L A T E X中标题的构成,一个完整的标题是由标签+间隔+标题内容构成的。比如: 1.这是一个标题,此标题中 1.就是这个标题的标签,这是一个标签是此标题的内容,它们之间的间距就是间隔了。 1

2titlesec基本功能 改变标题样式最容易的方法就是用几向个命令和一系列选项。如果你感觉用这种方法已经能满足你的需求,就不要读除本节之外的其它章节了1。 2.1格式 格式里用三组选项来控制字体的簇、大小以及对齐方法。没有必要设置每一个选项,因为有些选项已经有默认值了。 rm s f t t md b f up i t s l s c 用来控制字体的族和形状2,默认是bf,详情见表1。 项目意义备注(相当于) rm roman字体\textrm{...} sf sans serif字体\textsf{...} tt typewriter字体\texttt{...} md mdseries(中等粗体)\textmd{...} bf bfseries(粗体)\textbf{...} up直立字体\textup{...} it italic字体\textit{...} sl slanted字体\textsl{...} sc小号大写字母\textsc{...} 表1:字体族、形状选项 bf和md属于控制字体形状,其余均是切换字体族的。 b i g medium s m a l l t i n y(大、中、小、很小) 用来标题字体的大小,默认是big。 1这句话是宏包作者说的,不过我感觉大多情况下,是不能满足需要的,特别是中文排版,英文 可能会好些! 2L A T E X中的字体有5种属性:编码、族、形状、系列和尺寸。 2

毕业论文写作要求与格式规范

毕业论文写作要求与格式规范 关于《毕业论文写作要求与格式规范》,是我们特意为大家整理的,希望对大家有所帮助。 (一)文体 毕业论文文体类型一般分为:试验论文、专题论文、调查报告、文献综述、个案评述、计算设计等。学生根据自己的实际情况,可以选择适合的文体写作。 (二)文风 符合科研论文写作的基本要求:科学性、创造性、逻辑性、

实用性、可读性、规范性等。写作态度要严肃认真,论证主题应有一定理论或应用价值;立论应科学正确,论据应充实可靠,结构层次应清晰合理,推理论证应逻辑严密。行文应简练,文笔应通顺,文字应朴实,撰写应规范,要求使用科研论文特有的科学语言。 (三)论文结构与排列顺序 毕业论文,一般由封面、独创性声明及版权授权书、摘要、目录、正文、后记、参考文献、附录等部分组成并按前后顺序排列。 1.封面:毕业论文(设计)封面具体要求如下: (1)论文题目应能概括论文的主要内容,切题、简洁,不超过30字,可分两行排列;

(2)层次:大学本科、大学专科 (3)专业名称:机电一体化技术、计算机应用技术、计算机网络技术、数控技术、模具设计与制造、电子信息、电脑艺术设计、会计电算化、商务英语、市场营销、电子商务、生物技术应用、设施农业技术、园林工程技术、中草药栽培技术和畜牧兽医等专业,应按照标准表述填写; (4)日期:毕业论文(设计)完成时间。 2.独创性声明和关于论文使用授权的说明:需要学生本人签字。 3.摘要:论文摘要的字数一般为300字左右。摘要是对论文的内容不加注释和评论的简短陈述,是文章内容的高度概括。主要内容包括:该项研究工作的内容、目的及其重要性;所使用的实验方法;总结研究成果,突出作者的新见解;研究结论及其意义。摘要中不列举例证,不描述研究过程,不做自我评价。

公文格式规范与常见公文写作

公文格式规范与常见公文写作 一、公文概述与公文格式规范 党政机关公文种类的区分、用途的确定及格式规范等,由中共中央办公厅、国务院办公厅于2012年4月16日印发,2012年7月1日施行的《党政机关公文处理工作条例》规定。之前相关条例、办法停止执行。 (一)公文的含义 公文,即公务文书的简称,属应用文。 广义的公文,指党政机关、社会团体、企事业单位,为处理公务按照一定程序而形成的体式完整的文字材料。 狭义的公文,是指在机关、单位之间,以规范体式运行的文字材料,俗称“红头文件”。 ?(二)公文的行文方向和原则 ?、上行文下级机关向上级机关行文。有“请示”、“报告”、和“意见”。 ?、平行文同级机关或不相隶属机关之间行文。主要有“函”、“议案”和“意见”。 ?、下行文上级机关向下级机关行文。主要有“决议”、“决定”、“命令”、“公报”、“公告”、“通告”、“意见”、“通知”、“通报”、“批复”和“会议纪要”等。 ?其中,“意见”、“会议纪要”可上行文、平行文、下行文。?“通报”可下行文和平行文。 ?原则: ?、根据本机关隶属关系和职权范围确定行文关系 ?、一般不得越级行文 ?、同级机关可以联合行文 ?、受双重领导的机关应分清主送机关和抄送机关 ?、党政机关的部门一般不得向下级党政机关行文 ?(三) 公文的种类及用途 ?、决议。适用于会议讨论通过的重大决策事项。 ?、决定。适用于对重要事项作出决策和部署、奖惩有关单位和人员、变更或撤销下级机关不适当的决定事项。

?、命令(令)。适用于公布行政法规和规章、宣布施行重大强制性措施、批准授予和晋升衔级、嘉奖有关单位和人员。 ?、公报。适用于公布重要决定或者重大事项。 ?、公告。适用于向国内外宣布重要事项或者法定事项。 ?、通告。适用于在一定范围内公布应当遵守或者周知的事项。?、意见。适用于对重要问题提出见解和处理办法。 ?、通知。适用于发布、传达要求下级机关执行和有关单位周知或者执行的事项,批转、转发公文。 ?、通报。适用于表彰先进、批评错误、传达重要精神和告知重要情况。 ?、报告。适用于向上级机关汇报工作、反映情况,回复上级机关的询问。 ?、请示。适用于向上级机关请求指示、批准。 ?、批复。适用于答复下级机关请示事项。 ?、议案。适用于各级人民政府按照法律程序向同级人民代表大会或者人民代表大会常务委员会提请审议事项。 ?、函。适用于不相隶属机关之间商洽工作、询问和答复问题、请求批准和答复审批事项。 ?、纪要。适用于记载会议主要情况和议定事项。?(四)、公文的格式规范 ?、眉首的规范 ?()、份号 ?也称编号,置于公文首页左上角第行,顶格标注。“秘密”以上等级的党政机关公文,应当标注份号。 ?()、密级和保密期限 ?分“绝密”、“机密”、“秘密”三个等级。标注在份号下方。?()、紧急程度 ?分为“特急”和“加急”。由公文签发人根据实际需要确定使用与否。标注在密级下方。 ?()、发文机关标志(或称版头) ?由发文机关全称或规范化简称加“文件”二字组成。套红醒目,位于公文首页正中居上位置(按《党政机关公文格式》标准排

ctex 宏包说明 ctex

ctex宏包说明 https://www.wendangku.net/doc/df18003797.html,? 版本号:v1.02c修改日期:2011/03/11 摘要 ctex宏包提供了一个统一的中文L A T E X文档框架,底层支持CCT、CJK和xeCJK 三种中文L A T E X系统。ctex宏包提供了编写中文L A T E X文档常用的一些宏定义和命令。 ctex宏包需要CCT系统或者CJK宏包或者xeCJK宏包的支持。主要文件包括ctexart.cls、ctexrep.cls、ctexbook.cls和ctex.sty、ctexcap.sty。 ctex宏包由https://www.wendangku.net/doc/df18003797.html,制作并负责维护。 目录 1简介2 2使用帮助3 2.1使用CJK或xeCJK (3) 2.2使用CCT (3) 2.3选项 (4) 2.3.1只能用于文档类的选项 (4) 2.3.2只能用于文档类和ctexcap.sty的选项 (4) 2.3.3中文编码选项 (4) 2.3.4中文字库选项 (5) 2.3.5CCT引擎选项 (5) 2.3.6排版风格选项 (5) 2.3.7宏包兼容选项 (6) 2.3.8缺省选项 (6) 2.4基本命令 (6) 2.4.1字体设置 (6) 2.4.2字号、字距、字宽和缩进 (7) ?https://www.wendangku.net/doc/df18003797.html, 1

1简介2 2.4.3中文数字转换 (7) 2.5高级设置 (8) 2.5.1章节标题设置 (9) 2.5.2部分修改标题格式 (12) 2.5.3附录标题设置 (12) 2.5.4其他标题设置 (13) 2.5.5其他设置 (13) 2.6配置文件 (14) 3版本更新15 4开发人员17 1简介 这个宏包的部分原始代码来自于由王磊编写cjkbook.cls文档类,还有一小部分原始代码来自于吴凌云编写的GB.cap文件。原来的这些工作都是零零碎碎编写的,没有认真、系统的设计,也没有用户文档,非常不利于维护和改进。2003年,吴凌云用doc和docstrip工具重新编写了整个文档,并增加了许多新的功能。2007年,oseen和王越在ctex宏包基础上增加了对UTF-8编码的支持,开发出了ctexutf8宏包。2009年5月,我们在Google Code建立了ctex-kit项目1,对ctex宏包及相关宏包和脚本进行了整合,并加入了对XeT E X的支持。该项目由https://www.wendangku.net/doc/df18003797.html,社区的开发者共同维护,新版本号为v0.9。在开发新版本时,考虑到合作开发和调试的方便,我们不再使用doc和docstrip工具,改为直接编写宏包文件。 最初Knuth设计开发T E X的时候没有考虑到支持多国语言,特别是多字节的中日韩语言。这使得T E X以至后来的L A T E X对中文的支持一直不是很好。即使在CJK解决了中文字符处理的问题以后,中文用户使用L A T E X仍然要面对许多困难。最常见的就是中文化的标题。由于中文习惯和西方语言的不同,使得很难直接使用原有的标题结构来表示中文标题。因此需要对标准L A T E X宏包做较大的修改。此外,还有诸如中文字号的对应关系等等。ctex宏包正是尝试着解决这些问题。中间很多地方用到了在https://www.wendangku.net/doc/df18003797.html,论坛上的讨论结果,在此对参与讨论的朋友们表示感谢。 ctex宏包由五个主要文件构成:ctexart.cls、ctexrep.cls、ctexbook.cls和ctex.sty、ctexcap.sty。ctex.sty主要是提供整合的中文环境,可以配合大多数文档类使用。而ctexcap.sty则是在ctex.sty的基础上对L A T E X的三个标准文档类的格式进行修改以符合中文习惯,该宏包只能配合这三个标准文档类使用。ctexart.cls、ctexrep.cls、ctexbook.cls则是ctex.sty、ctexcap.sty分别和三个标准文档类结合产生的新文档类,除了包含ctex.sty、ctexcap.sty的所有功能,还加入了一些修改文档类缺省设置的内容(如使用五号字体为缺省字体)。 1https://www.wendangku.net/doc/df18003797.html,/p/ctex-kit/

文档书写格式规范要求

学生会文档书写格式规范要求 目前各部门在日常文书编撰中大多按照个人习惯进行排版,文档中字体、文字大小、行间距、段落编号、页边距、落款等参数设置不规范,严重影响到文书的标准性和美观性,以下是文书标准格式要求及日常文档书写注意事项,请各部门在今后工作中严格实行: 一、文件要求 1.文字类采用Word格式排版 2.统计表、一览表等表格统一用Excel格式排版 3.打印材料用纸一般采用国际标准A4型(210mm×297mm),左侧装订。版面方向以纵向为主,横向为辅,可根据实际需要确定 4.各部门的职责、制度、申请、请示等应一事一报,禁止一份行文内同时表述两件工作。 5.各类材料标题应规范书写,明确文件主要内容。 二、文件格式 (一)标题 1.文件标题:标题应由发文机关、发文事由、公文种类三部分组成,黑体小二号字,不加粗,居中,段后空1行。 (二)正文格式 1. 正文字体:四号宋体,在文档中插入表格,单元格内字体用宋体,字号可根据内容自行设定。 2.页边距:上下边距为2.54厘米;左右边距为 3.18厘米。

3.页眉、页脚:页眉为1.5厘米;页脚为1.75厘米; 4.行间距:1.5倍行距。 5.每段前的空格请不要使用空格,应该设置首先缩进2字符 6.年月日表示:全部采用阿拉伯数字表示。 7.文字从左至右横写。 (三)层次序号 (1)一级标题:一、二、三、 (2)二级标题:(一)(二)(三) (3)三级标题:1. 2. 3. (4)四级标题:(1)(2)(3) 注:三个级别的标题所用分隔符号不同,一级标题用顿号“、”例如:一、二、等。二级标题用括号不加顿号,例如:(三)(四)等。三级标题用字符圆点“.”例如:5. 6.等。 (四)、关于落款: 1.对外行文必须落款“湖南环境生物专业技术学院学生会”“校学生会”各部门不得随意使用。 2.各部门文件落款需注明组织名称及部门“湖南环境生物专业技术学院学生会XX部”“校学生会XX部” 3.所有行文落款不得出现“环境生物学院”“湘环学院”“学生会”等表述不全的简称。 4.落款填写至文档末尾右对齐,与前一段间隔2行 5.时间落款:文档中落款时间应以“2016年5月12日”阿拉伯数字

政府公文写作格式规范

政府公文写作格式 一、眉首部分 (一)发文机关标识 平行文和下行文的文件头,发文机关标识上边缘至上页边为62mm,发文机关下边缘至红色反线为28mm。 上行文中,发文机关标识上边缘至版心上边缘为80mm,即与上页边距离为117mm,发文机关下边缘至红色反线为30mm。 发文机关标识使用字体为方正小标宋_GBK,字号不大于22mm×15mm。 (二)份数序号 用阿拉伯数字顶格标识在版心左上角第一行,不能少于2位数。标识为“编号000001” (三)秘密等级和保密期限 用3号黑体字顶格标识在版心右上角第一行,两字中间空一字。如需要加保密期限的,密级与期限间用“★”隔开,密级中则不空字。 (四)紧急程度 用3号黑体字顶格标识在版心右上角第一行,两字中间空一字。如同时标识密级,则标识在右上角第二行。 (五)发文字号 标识在发文机关标识下两行,用3号方正仿宋_GBK字体剧

中排布。年份、序号用阿拉伯数字标识,年份用全称,用六角括号“〔〕”括入。序号不用虚位,不用“第”。发文字号距离红色反线4mm。 (六)签发人 上行文需要标识签发人,平行排列于发文字号右侧,发文字号居左空一字,签发人居右空一字。“签发人”用3号方正仿宋_GBK,后标全角冒号,冒号后用3号方正楷体_GBK标识签发人姓名。多个签发人的,主办单位签发人置于第一行,其他从第二行起排在主办单位签发人下,下移红色反线,最后一个签发人与发文字号在同一行。 二、主体部分 (一)标题 由“发文机关+事由+文种”组成,标识在红色反线下空两行,用2号方正小标宋_GBK,可一行或多行居中排布。 (二)主送机关 在标题下空一行,用3号方正仿宋_GBK字体顶格标识。回行是顶格,最后一个主送机关后面用全角冒号。 (三)正文 主送机关后一行开始,每段段首空两字,回行顶格。公文中的数字、年份用阿拉伯数字,不能回行,阿拉伯数字:用3号Times New Roman。正文用3号方正仿宋_GBK,小标题按照如下排版要求进行排版:

tabularx宏包中改变弹性列的宽度

tabularx宏包中改变弹性列的宽度\hsize 分类:latex 2012-03-07 21:54 12人阅读评论(0) 收藏编辑删除 \documentclass{article} \usepackage{amsmath} \usepackage{amssymb} \usepackage{latexsym} \usepackage{CJK} \usepackage{tabularx} \usepackage{array} \newcommand{\PreserveBackslash}[1]{\let \temp =\\#1 \let \\ = \temp} \newcolumntype{C}[1]{>{\PreserveBackslash\centering}p{#1}} \newcolumntype{R}[1]{>{\PreserveBackslash\raggedleft}p{#1}} \newcolumntype{L}[1]{>{\PreserveBackslash\raggedright}p{#1}} \begin{document} \begin{CJK*}{GBK}{song} \CJKtilde \begin{tabularx}{10.5cm}{|p{3cm} |>{\setlength{\hsize}{.5\hsize}\centering}X |>{\setlength{\hsize}{1.5\hsize}}X|} %\hsize是自动计算的列宽度,上面{.5\hsize}与{1.5\hsize}中的\hsize前的数字加起来必须等于表格的弹性列数量。对于本例,弹性列有2列,所以“.5+1.5=2”正确。 %共3列,总列宽为10.5cm。第1列列宽为3cm,第3列的列宽是第2列列宽的3倍,其宽度自动计算。第2列文字左右居中对齐。注意:\multicolum命令不能跨越X列。 \hline 聪明的鱼儿在咬钩前常常排祠再三& 这是因为它们要荆断食物是否安全&知果它们认为有危险\\ \hline 它们枕不会吃& 如果它们判定没有危险& 它们就食吞钩\\ \hline 一眼识破诱饵的危险,却又不由自主地去吞钩的& 那才正是人的心理而不是鱼的心理& 是人的愚合而不是鱼的恳奋\\

2-1论文写作要求与格式规范(2009年修订)

广州中医药大学研究生学位论文基本要求与写作规范 为了进一步提高学位工作水平和学位论文质量,保证我校学位论文在结构和格式上的规范与统一,特做如下规定: 一、学位论文基本要求 (一)科学学位硕士论文要求 1.论文的基本科学论点、结论,应在中医药学术上和中医药科学技术上具有一定的理论意义和实践价值。 2.论文所涉及的内容,应反映出作者具有坚实的基础理论和系统的专门知识。 3.实验设计和方法比较先进,并能掌握本研究课题的研究方法和技能。 4.对所研究的课题有新的见解。 5.在导师指导下研究生独立完成。 6.论文字数一般不少于3万字,中、英文摘要1000字左右。 (二)临床专业学位硕士论文要求 临床医学硕士专业学位申请者在临床科研能力训练中学会文献检索、收集资料、数据处理等科学研究的基本方法,培养临床思维能力与分析能力,完成学位论文。 1.学位论文包括病例分析报告及文献综述。 2.学位论文应紧密结合中医临床或中西结合临床实际,以总结临床实践经验为主。 3.学位论文应表明申请人已经掌握临床科学研究的基本方法。 4.论文字数一般不少于15000字,中、英文摘要1000字左右。 (三)科学学位博士论文要求 1.研究的课题应在中医药学术上具有较大的理论意义和实践价值。 2.论文所涉及的内容应反映作者具有坚实宽广的理论基础和系统深入的专门知识,并表明作者具有独立从事科学研究工作的能力。 3.实验设计和方法在国内同类研究中属先进水平,并能独立掌握本研究课题的研究方法和技能。

4.对本研究课题有创造性见解,并取得显著的科研成果。 5.学位论文必须是作者本人独立完成,与他人合作的只能提出本人完成的部分。 6.论文字数不少于5万字,中、英摘要3000字;详细中文摘要(单行本)1万字左右。 (四)临床专业学位博士论文要求 1.要求论文课题紧密结合中医临床或中西结合临床实际,研究结果对临床工作具有一定的应用价值。 2.论文表明研究生具有运用所学知识解决临床实际问题和从事临床科学研究的能力。 3.论文字数一般不少于3万字,中、英文摘要2000字;详细中文摘要(单行本)5000字左右。 二、学位论文的格式要求 (一)学位论文的组成 博士、硕士学位论文一般应由以下几部分组成,依次为:1.论文封面;2. 原创性声明及关于学位论文使用授权的声明;3.中文摘要;4.英文摘要;5.目录; 6.引言; 7.论文正文; 8.结语; 9.参考文献;10.附录;11.致谢。 1.论文封面:采用研究生处统一设计的封面。论文题目应以恰当、简明、引人注目的词语概括论文中最主要的内容。避免使用不常见的缩略词、缩写字,题名一般不超过30个汉字。论文封面“指导教师”栏只写入学当年招生简章注明、经正式遴选的指导教师1人,协助导师名字不得出现在论文封面。 2.原创性声明及关于学位论文使用授权的声明(后附)。 3.中文摘要:要说明研究工作目的、方法、成果和结论。并写出论文关键词3~5个。 4.英文摘要:应有题目、专业名称、研究生姓名和指导教师姓名,内容与中文提要一致,语句要通顺,语法正确。并列出与中文对应的论文关键词3~5个。 5.目录:将论文各组成部分(1~3级)标题依次列出,标题应简明扼要,逐项标明页码,目录各级标题对齐排。 6.引言:在论文正文之前,简要说明研究工作的目的、范围、相关领域前人所做的工作和研究空白,本研究理论基础、研究方法、预期结果和意义。应言简

公文写作毕业论文写作要求和格式规范

(公文写作)毕业论文写作要求和格式规范

中国农业大学继续教育学院 毕业论文写作要求和格式规范 壹、写作要求 (壹)文体 毕业论文文体类型壹般分为:试验论文、专题论文、调查方案、文献综述、个案评述、计算设计等。学生根据自己的实际情况,能够选择适合的文体写作。 (二)文风 符合科研论文写作的基本要求:科学性、创造性、逻辑性、实用性、可读性、规范性等。写作态度要严肃认真,论证主题应有壹定理论或应用价值;立论应科学正确,论据应充实可靠,结构层次应清晰合理,推理论证应逻辑严密。行文应简练,文笔应通顺,文字应朴实,撰写应规范,要求使用科研论文特有的科学语言。 (三)论文结构和排列顺序 毕业论文,壹般由封面、独创性声明及版权授权书、摘要、目录、正文、后记、参考文献、附录等部分组成且按前后顺序排列。 1.封面:毕业论文(设计)封面(见文件5)具体要求如下: (1)论文题目应能概括论文的主要内容,切题、简洁,不超过30字,可分俩行排列; (2)层次:高起本,专升本,高起专; (3)专业名称:现开设园林、农林经济管理、会计学、工商管理等专业,应按照标准表述填写; (4)密级:涉密论文注明相应保密年限; (5)日期:毕业论文完成时间。 2.独创性声明和关于论文使用授权的说明:(略)。

3.摘要:论文摘要的字数壹般为300字左右。摘要是对论文的内容不加注释和评论的简短陈述,是文章内容的高度概括。主要内容包括:该项研究工作的内容、目的及其重要性;所使用的实验方法;总结研究成果,突出作者的新见解;研究结论及其意义。摘要中不列举例证,不描述研究过程,不做自我评价。 论文摘要后另起壹行注明本文的关键词,关键词是供检索用的主题词条,应采用能够覆盖论文内容的通用专业术语,符合学科分类,壹般为3~5个,按照词条的外延层次从大到小排列。 4.目录(目录示例见附件3):独立成页,包括论文中的壹级、二级标题、后记、参考文献、和附录以及各项所于的页码。 5.正文:包括前言、论文主体和结论 前言:为正文第壹部分内容,简单介绍本项研究的背景和国内外研究成果、研究现状,明确研究目的、意义以及要解决的问题。 论文主体:是全文的核心部分,于正文中应将调查、研究中所得的材料和数据加工整理和分析研究,提出论点,突出创新。内容可根据学科特点和研究内容的性质而不同。壹般包括:理论分析、计算方法、实验装置和测试方法、对实验结果或调研结果的分析和讨论,本研究方法和已有研究方法的比较等方面。内容要求论点正确,推理严谨,数据可靠,文字精炼,条理分明,重点突出。 结论:为正文最后壹部分,是对主要成果的归纳和总结,要突出创新点,且以简练的文字对所做的主要工作进行评价。 6.后记:对整个毕业论文工作进行简单的回顾总结,对给予毕业论文工作提供帮助的组织或个人表示感谢。内容应尽量简单明了,壹般为200字左右。 7.参考文献:是论文不可或缺的组成部分。它既可反映毕业论文工作中取材广博程度,又可反映文稿的科学依据和作者尊重他人研究成果的严肃态度,仍能够向读者提供有关

配合前面的ntheorem宏包产生各种定理结构

%=== 配合前面的ntheorem宏包产生各种定理结构,重定义一些正文相关标题===% \theoremstyle{plain} \theoremheaderfont{\normalfont\rmfamily\CJKfamily{hei}} \theorembodyfont{\normalfont\rm\CJKfamily{song}} \theoremindent0em \theoremseparator{\hspace{1em}} \theoremnumbering{arabic} %\theoremsymbol{} %定理结束时自动添加的标志 \newtheorem{definition}{\hspace{2em}定义}[chapter] %\newtheorem{definition}{\hei 定义}[section] %!!!注意当section为中国数字时,[sction]不可用! \newtheorem{proposition}{\hspace{2em}命题}[chapter] \newtheorem{property}{\hspace{2em}性质}[chapter] \newtheorem{lemma}{\hspace{2em}引理}[chapter] %\newtheorem{lemma}[definition]{引理} \newtheorem{theorem}{\hspace{2em}定理}[chapter] \newtheorem{axiom}{\hspace{2em}公理}[chapter] \newtheorem{corollary}{\hspace{2em}推论}[chapter] \newtheorem{exercise}{\hspace{2em}习题}[chapter] \theoremsymbol{$\blacksquare$} \newtheorem{example}{\hspace{2em}例}[chapter] \theoremstyle{nonumberplain} \theoremheaderfont{\CJKfamily{hei}\rmfamily} \theorembodyfont{\normalfont \rm \CJKfamily{song}} \theoremindent0em \theoremseparator{\hspace{1em}} \theoremsymbol{$\blacksquare$} \newtheorem{proof}{\hspace{2em}证明} \usepackage{amsmath}%数学 \usepackage[amsmath,thmmarks,hyperref]{ntheorem} \theoremstyle{break} \newtheorem{example}{Example}[section]

论文写作格式规范与要求(完整资料).doc

【最新整理,下载后即可编辑】 广东工业大学成人高等教育 本科生毕业论文格式规范(摘录整理) 一、毕业论文完成后应提交的资料 最终提交的毕业论文资料应由以下部分构成: (一)毕业论文任务书(一式两份,与论文正稿装订在一起)(二)毕业论文考核评议表(一式三份,学生填写表头后发电子版给老师) (三)毕业论文答辩记录(一份, 学生填写表头后打印出来,答辩时使用) (四)毕业论文正稿(一式两份,与论文任务书装订在一起),包括以下内容: 1、封面 2、论文任务书 3、中、英文摘要(先中文摘要,后英文摘要,分开两页排版) 4、目录 5、正文(包括:绪论、正文主体、结论) 6、参考文献 7、致谢 8、附录(如果有的话) (五)论文任务书和论文正稿的光盘

二、毕业论文资料的填写与装订 毕业论文须用计算机打印,一律使用A4打印纸,单面打印。 毕业论文任务书、毕业论文考核评议表、毕业论文正稿、答辩纪录纸须用计算机打印,一律使用A4打印纸。答辩提问记录一律用黑色或蓝黑色墨水手写,要求字体工整,卷面整洁;任务书由指导教师填写并签字,经主管院领导签字后发出。 毕业论文使用统一的封面,资料装订顺序为:毕业论文封面、论文任务书、考核评议表、答辩记录、中文摘要、英文摘要、目录、正文、参考文献、致谢、附录(如果有的话)。论文封面要求用A3纸包边。 三、毕业论文撰写的内容与要求 一份完整的毕业论文正稿应包括以下几个方面: (一)封面(见封面模版) (二)论文题目(填写在封面上,题目使用2号隶书,写作格式见封面模版) 题目应简短、明确,主标题不宜超过20字;可以设副标题。(三)论文摘要(写作格式要求见《摘要、绪论、结论、参考文献写作式样》P1~P2) 1、中文“摘要”字体居中,独占一页

Groff 应用

使用Groff 生成独立于设备的文档开始之前 了解本教程中包含的内容和如何最好地利用本教程,以及在使用本教程的过程中您需要完成的工作。 关于本教程 本教程提供了使用Groff(GNU Troff)文档准备系统的简介。其中介绍了这个系统的工作原理、如何使用Groff命令语言为其编写输入、以及如何从该输入生成各种格式的独立于设备的排版文档。 本教程所涉及的主题包括: 文档准备过程 输入文件格式 语言语法 基本的格式化操作 生成输出 目标 本教程的主要目标是介绍Groff,一种用于文档准备的开放源码系统。如果您需要在应用程序中构建文档或帮助文件、或为客户和内部使用生成任何类型的打印或屏幕文档(如订单列表、故障单、收据或报表),那么本教程将向您介绍如何开始使用Groff以实现这些任务。 在学习了本教程之后,您应该完全了解Groff的基本知识,包括如何编写和处理基本的Groff输入文件、以及如何从这些文件生成各种输出。

先决条件 本教程的目标读者是入门级到中级水平的UNIX?开发人员和管理员。您应 该对使用UNIX命令行Shell和文本编辑器有基本的了解。 系统要求 要运行本教程中的示例,您需要访问运行UNIX操作系统并安装了下面这些软件的计算机(请参见本教程的参考资料部分以获取相关链接): Groff。Groff分发版中包括groff前端工具、troff后端排版引擎和本教 程中使用的各种附属工具。 自由软件基金会将Groff作为其GNU Project中的一部分进行了发布,所 发布的源代码符合GNU通用公共许可证(GPL)并得到了广泛的移植,几乎对于所有的UNIX操作系统、以及非UNIX操作系统(如Microsoft?Windows?)都有相应 的可用版本。 在撰写本教程时,最新的Groff发布版是Version 1.19.2,对于学习本教 程而言,您至少需要Groff Version 1.17。 gxditview。从Version 1.19.2开始,Groff中包含了这个工具,而在以 前的版本中,对其进行了单独的发布。 PostScript Previewer,如ghostview、gv或showpage。 如果您是从源代码安装Groff,那么请参考Groff源代码分发版中的自述 文件,其中列举了所需的任何额外的软件,而在编译和安装Groff时可能需要 使用这些软件。 介绍Groff 用户通常在字处理软件、桌面发布套件和文本布局应用程序等应用程序环 境中创建文档,而在这些环境中,最终将对文档进行打印或导出为另一种格式。整个文档准备过程,从创建到最后的输出,都发生在单个应用程序中。文档通

TeX 使用指南(常见问题)

TeX 使用指南 常见问题(一) 1.\makeatletter 和\makeatother 的用法? 答:如果需要借助于内部有\@字符的命令,如\@addtoreset,就需要借助于另两个命令 \makeatletter, \makeatother。 下面给出使用范例,用它可以实现公式编号与节号的关联。 \begin{verbatim} \documentclass{article} ... \makeatletter % '@' is now a normal "letter" for TeX \renewcommand\theequation{\thesection.\arabic{equation}} \@addtoreset{equation}{section} \makeatother % '@' is restored as a "non-letter" character for TeX \begin{document} ... \end{verbatim} 2.比较一下CCT与CJK的优缺点? 答:根据王磊的经验,CJK 比CCT 的优越之处有以下几点: 1)字体定义采用LaTeX NFSS 标准,生成的DVI 文件不必像CCT 那样需要用patchdvi 处理后才能预览和打印。而且一般GB 编码的文件也不必进行预处理就可直接用latex 编译。2)可使用多种TrueType 字体和Type1 字体,生成的PDF 文件更清楚、漂亮。 3)能同时在文章中使用多种编码的文字,如中文简体、繁体、日文、韩文等。 当然,CCT 在一些细节上,如字体可用中文字号,字距、段首缩进等。毕竟CJK 是老外作的吗。 谈到MikTeX 和fpTeX, 应该说谈不上谁好谁坏,主要看个人的喜好了。MikTeX 比较小,不如fpTeX 里提供的TeX 工具,宏包全,但一般的情况也足够了。而且Yap 比windvi 要好用。fpTeX 是teTeX 的Windows 实现,可以说各种TeX 的有关软件基本上都包括在内。 3.中文套装中如何加入新的.cls文件? 答:放在tex文件的同一目录下,或者miktex/localtexmf/tex/latex/下的某个子目录下,可以自己建一个。 4.怎样象第几章一样,将参考文献也加到目录? 答:在参考文献部分加入 \addcontentsline{toc}{chapter}{参考文献}

论文的写作格式及规范

论文的写作格式及规范

附件9: 科学技术论文的写作格式及规范 用非公知公用的缩写词、字符、代号,尽量不出现数学式和化学式。 2作者署名和工作单位标引和检索,根据国家有关标准、数据规范为了提高技师、高级技师论文的学术质量,实现论文写的科学化、程序化和规范化,以利于科技信息的传递和科技情报的作评定工作,特制定本技术论文的写作格式及规范。望各位学员在注重科学研究的同时,做好科技论文撰写规范化工作。 1 题名 题名应以简明、确切的词语反映文章中最重要的特定内容,要符合编制题录、索引和检索的有关原则,并有助于选定关键词。 中文题名一般不宜超过20 个字,必要时可加副题名。英文题名应与中文题名含义一致。 题名应避免使作者署名是文责自负和拥有著作权的标志。作者姓名署于题名下方,团体作者的执笔人也可标注于篇首页地脚或文末,简讯等短文的作者可标注于文末。 英文摘要中的中国人名和地名应采用《中国人名汉语拼音字母拼写法》的有关规定;人名姓前名后分写,姓、名的首字母大写,名字中间不加连字符;地名中的专名和通名分写,每分写部分的首字母大写。 作者应标明其工作单位全称、省及城市名、邮编( 如“齐齐哈尔电业局黑龙江省齐齐哈尔市(161000) ”),同时,在篇首页地脚标注第一作者的作者简介,内容包括姓名,姓别,出生年月,学位,职称,研究成果及方向。

3摘要 论文都应有摘要(3000 字以下的文章可以略去)。摘要的:写作应符合GB6447-86的规定。摘要的内容包括研究的目的、方法、结果和结论。一般应写成报道性文摘,也可以写成指示性或报道-指示性文摘。摘要应具有独立性和自明性,应是一篇完整的短文。一般不分段,不用图表和非公知公用的符号或术语,不得引用图、表、公式和参考文献的序号。中文摘要的篇幅:报道性的300字左右,指示性的100 字左右,报道指示性的200字左右。英文摘要一般与中文摘要内容相对应。 4关键词 关键词是为了便于作文献索引和检索而选取的能反映论文主题概念的词或词组,一般每篇文章标注3?8个。关键词应尽量从《汉语主题词表》等词表中选用规范词——叙词。未被词表收录的新学科、新技术中的重要术语和地区、人物、文献、产品及重要数据名称,也可作为关键词标出。中、英文关键词应一一对应。 5引言 引言的内容可包括研究的目的、意义、主要方法、范围和背景等。 应开门见山,言简意赅,不要与摘要雷同或成为摘要的注释,避免公式推导和一般性的方法介绍。引言的序号可以不写,也可以写为“ 0”,不写序号时“引言”二字可以省略。 6论文的正文部分 论文的正文部分系指引言之后,结论之前的部分,是论文的核心, 应按GB7713--87 的规定格式编写。 6.1层次标题

相关文档
相关文档 最新文档