Misuse of large language models: Exploiting weaknesses for target-specific outputs

Klinkhammer, Dennis

Missbrauch von Large Language Models: Die Ausnutzung von Schwachstellen für zielgruppenspezifische Outputs
[journal article]

dc.contributor.author	Klinkhammer, Dennis	de
dc.date.accessioned	2024-07-10T09:29:15Z
dc.date.available	2024-07-10T09:29:15Z
dc.date.issued	2024	de
dc.identifier.issn	2567-8833	de
dc.identifier.uri	https://www.ssoar.info/ssoar/handle/document/95011
dc.description.abstract	Prompt engineering in large language models (LLMs) in combination with external context can be misused for jailbreaks in order to generate malicious outputs. In the process, jailbreak prompts are apparently amplified in such a way that LLMs can generate malicious outputs on a large scale despite their initial training. As social bots, these can contribute to the dissemination of misinformation, hate speech, and discriminatory content. Using GPT4-x-Vicuna-13b-4bit from NousResearch, we demonstrate in this article the effectiveness of jailbreak prompts and external contexts via Jupyter Notebook based on the Python programming language. In addition, we highlight the methodological foundations of prompt engineering and its potential to create malicious content in order to sensitize researchers, practitioners, and policymakers to the importance of responsible development and deployment of LLMs.	de
dc.description.abstract	Prompt Engineering in Large Language Models (LLMs) kann in Kombination mit externen Kontexten für Jailbreaks missbraucht werden, um bösartige Outputs zu erzeugen. Dabei werden 'jailbreak prompts' offenbar so verstärkt, dass LLMs trotz ihres ursprünglichen Trainings in großem Umfang bösartige Ausgaben generieren können. Als ‚social bots‘ können diese zur Verbreitung von Falschmeldungen, hate speech und diskriminierenden Inhalten beitragen. In diesem Artikel demonstrieren wir anhand von GPT4-x-Vicuna-13b-4bit von NousResearch die Effektivität von Jailbreak Prompts und externen Kontexten als Jupyter Notebook in der Programmiersprache Python. Darüber hinaus beleuchten wir die methodischen Grundlagen des Prompt Engineering und sein Potenzial, bösartige Inhalte zu generieren, um Forschung, Praxis und Politik für die Bedeutung einer verantwortungsvollen Entwicklung und Implementierung von LLMs zu sensibilisieren.	de
dc.language	en	de
dc.subject.ddc	Technik, Technologie	de
dc.subject.ddc	Technology (Applied sciences)	en
dc.subject.other	deep learning; jailbreak prompts; large language models; prompt engineering; transformers	de
dc.title	Misuse of large language models: Exploiting weaknesses for target-specific outputs	de
dc.title.alternative	Missbrauch von Large Language Models: Die Ausnutzung von Schwachstellen für zielgruppenspezifische Outputs	de
dc.description.review	begutachtet (peer reviewed)	de
dc.description.review	peer reviewed	en
dc.identifier.url	https://www.tatup.de/index.php/tatup/article/view/7117	de
dc.source.journal	TATuP - Zeitschrift für Technikfolgenabschätzung in Theorie und Praxis / Journal for Technology Assessment in Theory and Practice
dc.source.volume	33	de
dc.publisher.country	DEU	de
dc.source.issue	2	de
dc.subject.classoz	Technikfolgenabschätzung	de
dc.subject.classoz	Technology Assessment	en
dc.rights.licence	Creative Commons - Namensnennung 4.0	de
dc.rights.licence	Creative Commons - Attribution 4.0	en
internal.status	formal und inhaltlich fertig erschlossen	de
dc.type.stock	article	de
dc.type.document	Zeitschriftenartikel	de
dc.type.document	journal article	en
dc.source.pageinfo	29-34	de
internal.identifier.classoz	20800
internal.identifier.journal	1661
internal.identifier.document	32
internal.identifier.ddc	600
dc.source.issuetopic	Malevolent creativity and civil security: The ambivalence of emergent technologies / Malevolente Kreativität und zivile Sicherheit: Die Ambivalenz neu entstehender Technologien	de
dc.identifier.doi	https://doi.org/10.14512/tatup.33.2.29	de
dc.description.pubstatus	Veröffentlichungsversion	de
dc.description.pubstatus	Published Version	en
internal.identifier.licence	16
internal.identifier.pubstatus	1
internal.identifier.review	1
internal.dda.reference	https://www.tatup.de/index.php/tatup/oai@@oai:TATuP:article/7117
ssoar.urn.registration	false	de

Files in this item

Name:: ssoar-tatup-2024-2-klinkhammer ...
Size:: 565.5Kb
Format:: PDF

View/Open

This item appears in the following Collection(s)

Technikfolgenabschätzung
Technology Assessment

Show simple item record

Misuse of large language models: Exploiting weaknesses for target-specific outputs

Missbrauch von Large Language Models: Die Ausnutzung von Schwachstellen für zielgruppenspezifische Outputs [journal article]

Files in this item

This item appears in the following Collection(s)

Missbrauch von Large Language Models: Die Ausnutzung von Schwachstellen für zielgruppenspezifische Outputs
[journal article]